読者です 読者をやめる 読者になる 読者になる

TreeTaggerを使ったときの覚書

とある課題でTreeTaggerを使ってhogehogeしなさい。というのがあったので、やった。
その時の覚書。

使った素材は
http://www.gutenberg.org/cache/epub/41425/pg41425.txt
Under star-spangled banner 邦訳にすると「星条旗の元で」なのかな?

まず、TreeTggerの使い方は
http://taichino.com/engineer-life/linux/365

そして、結果を頻度順に並べる
http://fuktommy.com/linux/tools

そして、上位100件だけを表示する
http://linux.just4fun.biz/逆引きUNIXコマンド/指定した範囲の行を取得する方法.html

さらに、同じ単語なのに、ちがう品詞を持つ単語(つまり、同じ単語で違うPOSの単語をリストアップする)のに、スクリプトを書く。
二重for文構造で「もうちょっといいアイディアないのー?」だけど、Goodなスペックのマシンがゴリゴリ実行してくれるから、問題なし

                                                                      • -

#! /usr/bin/python

import sys

f = open("under_star_spangled_edit","r")
line_list = f.readlines()
raw = len(line_list)

for i in range(raw):
column_list = (line_list[i].split())
freq = column_list[0]
word = column_list[1]
pos = column_list[2]

# print "\t",freq,"\t",word,"\t",pos

for ii in range(i+1,raw):
column_list = (line_list[ii].split())
freq_ii = column_list[0]
word_ii = column_list[1]
pos_ii = column_list[2]

if word == word_ii:
print word,"\t",pos,"\t",pos_ii