2012-09-01から1ヶ月間の記事一覧

PYTHONPATHの設定とか

サーバーでTheanoというライブラリを動かしたかったのだが、やっぱり普通にはインストールはうまくいかない(サーバーではrootユーザーではないので) そこで、prefixをつけてインストールを試みたが、うまくいかなかった。原因はPYTHONPATHが通っていないこ…

Automatic analysis of syntactic complexity in second language writing

Automatic analysis of syntactic complexity in second language writing Xiaofei Lu International Journal of Corpus Linguistics, 15(4):474-496. 英語学習者の書いたエッセイを評価するシステムの設計について書かれた論文。 実際にシステムを作成して…

多次元リストの話

Pythonで多次元リストを作るときと言えば、 a = [[0 for i in range(3)] for i in range(3)] とリスト内包表記をすれば、 >>> a [[0, 0, 0], [0, 0, 0], [0, 0, 0]]参考 http://d.hatena.ne.jp/greennoah/20081202/1228233338 http://php6.jp/python/basics/…

ピアソン相関係数のp値

ピアソン相関係数と言えば、その名の通り、相関関係を示す評価尺度ですが、p値という単語を目にしました。p値?それって、ph値と何か関係あったりする?(もちろん関係ないです) なので、調べてみたらこんな感じの説明でした。説明を見つけたのはここ↓ http…

Computing and Evaluating Syntactic Complexity Features for Automated Scoring of Spontaneous Non-Native Speech

Chen, Miao Zechner, Klaus The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies 2011 きょうのは構文の難しさの評価尺度を使って、speech(Non-native)にも応用をかけてみましょうよ。という話。writin…

How to use "Persian Pre-processor: PrePer" ?

This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…

Unixの文字コード変換コマンド

http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…

クローリング始めました

webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…

文字コードを判別するには?

時々、いろんな文章を扱っていると文字コードの扱いに困る。 なので、どうしたらいいものか?と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…

To use Persian segmenter and tokenizer:SeTPer

After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …

A Basic Language Resource Kit for Persian

A Basic Language Resource Kit for Persian Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre Uppsala University, Department of Linguistics and Philologyざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツ…

リスト→文字列、文字列→リストの方法

文字列→リストならsplit()を使えばごく簡単にできるけど、その逆の方法は知らなかった。なので、調べてみると http://taichino.com/programming/968 で見つかった。文字列変数 = "".join(リスト)でおk。ちなみに""のところにはリスト間を何でつなぐか?が入…

Information about Persian NLP Resource

This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…

Amebaを閉めた

Amebaブログを閉めてはてなに移行することにしました。だって、Amebaの自由度って低いし.....それに(かなり主観だけど)なんかバカっぽいんですもの。引っ越しもかなり大変そうだったので、必要そうなエントリだけ、新しく手動で(つまりコピペで)移動なん…

アラビア文字OCR Tesseract

ひとつ前の記事で「アラビア文字のOCRなどない」と断言してしまったが、あった。正確に言うと、「アラビア文字専用はなかった」が「多言語型のOCRがあった」だが。そんなのいい訳です。http://code.google.com/p/tesseract-ocr/さて、このTesseractがいった…

tesseractに新しく学習させるには Persian編

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう?考えられる選択肢は ・どっかの論文からOCRのアルゴリズムを拾ってき…

SafariでPDFを読む時にはAdobeじゃなくてPreviewにしたい。

Adobe Readerも入れて使っているのですが、SafariまでPDFがadobeで表示されるのは嫌。というのも、Papiとかいう謎のプロセスが実行されるみたいで、しかもそれが実行中のアプリに表示されてしまうのだ。せっかくのMacの綺麗な動きが台無し。ということで、そ…

Pythonで一気にループざまぁぁぁぁ!する方法

例えば、すごい深いネストが作られてしまったとしよう。こういうとき、BasicやJavaやCにはウルトラ便利なGo to文でネストからの脱出が簡単にできる。けど・・・PythonにはGo to文が存在しないのだ・・・そこで、Pythonで一気にネストから抜ける方法http://ju…

Unicode文字の正規化

研究室の同期に教えてもらったUnicodeの正規化の話。 http://homepage1.nifty.com/nomenclator/unicode/normalization.htmUnicodeが統一のために制定されたコードだと言っても、その内容は少しずつ違っていて、Cの下にちょろっとつくセディウムは、分解可能…

開発環境をUbuntuに切り替えた

Macを使っているときに、ライブラリのエラーとかパスの設定とかあまりに多すぎてややこしすぎた。 おかげで、ライブラリを動かすのに時間の大半を占められるとか、わけのわからない状態に。 無駄なので、いっそのことでUbuntuに切り替えた。その時のメモ兼覚…

Sign language machine translation overkill

CICPの役に立ちそうな論文探しをしていたら、先生が紹介してくださった論文。どうやって自然入力文を手話の表記に翻訳するか?を機械翻訳の手法を用いてみた。という内容。 対象はドイツ語→ドイツ手話。ドイツ手話にはお天気予報を元にデータを起こしたRWTH-…

Correcting Comma Errors in Learner Essays, and..

Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Textコンマについての熱い情熱が伝わる論文。コンマが抜けてる文にコンマを挿入したり、コンマを使いすぎてる文からコンマを削除する。というのがひとつ。二つ目は、コンマを…

階層ベイズってみた

研究室の先輩から階層ベイズがなかなかGJっていう話を聞いたので、ひとつ勉強してみることにした。しかし、最近のスライドの作り込みはすばらしいですな。 なんか、わかった気になれるwとりあえず、階層ベイズについて理解した概要は 「初期状態と終了状態だ…