2012-09-07から1日間の記事一覧

How to use "Persian Pre-processor: PrePer" ?

This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…

Unixの文字コード変換コマンド

http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…

クローリング始めました

webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…

文字コードを判別するには?

時々、いろんな文章を扱っていると文字コードの扱いに困る。 なので、どうしたらいいものか?と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…

To use Persian segmenter and tokenizer:SeTPer

After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …