TreeTaggerを使ったときの覚書
とある課題でTreeTaggerを使ってhogehogeしなさい。というのがあったので、やった。
その時の覚書。
使った素材は
http://www.gutenberg.org/cache/epub/41425/pg41425.txt
Under star-spangled banner 邦訳にすると「星条旗の元で」なのかな?
まず、TreeTggerの使い方は
http://taichino.com/engineer-life/linux/365
そして、結果を頻度順に並べる
http://fuktommy.com/linux/tools
そして、上位100件だけを表示する
http://linux.just4fun.biz/逆引きUNIXコマンド/指定した範囲の行を取得する方法.html
さらに、同じ単語なのに、ちがう品詞を持つ単語(つまり、同じ単語で違うPOSの単語をリストアップする)のに、スクリプトを書く。
二重for文構造で「もうちょっといいアイディアないのー?」だけど、Goodなスペックのマシンがゴリゴリ実行してくれるから、問題なし
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
#! /usr/bin/python
import sys
f = open("under_star_spangled_edit","r")
line_list = f.readlines()
raw = len(line_list)
for i in range(raw):
column_list = (line_list[i].split())
freq = column_list[0]
word = column_list[1]
pos = column_list[2]
# print "\t",freq,"\t",word,"\t",pos
for ii in range(i+1,raw):
column_list = (line_list[ii].split())
freq_ii = column_list[0]
word_ii = column_list[1]
pos_ii = column_list[2]
if word == word_ii:
print word,"\t",pos,"\t",pos_ii