Stanford NERからStanford CoreNLPへ
Stanford NERのコマンドの謎は解決したが、相変わらずPython interfaceは謎のままだった。
そこで、Stanford NERを含むToolkitのStanford Core NLPを教えてもらった。
このPython interfaceならキチンと動く(らしい)
http://nlp.stanford.edu/software/corenlp.shtml#Usage
まあ、極端な話、外部入出力で呼び出せばいいだけの話なんだけど。
とにかくマニュアルを読んだ結果、全部ふくめた処理は
$ java -cp stanford-corenlp-2012-07-09.jar:stanford-corenlp-2012-07-06-models.jar:xom.jar:joda-time.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt
でやってくれるらしい。
入力テキストが-file 以下。