2012-09-07から1日間の記事一覧
This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…
http://blog.layer8.sh/ja/2011/12/23/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E5%A4%89%E6%8F%9B%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89nkf%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9%E3%81%BE%E3%81%A8%E3%82%81-linux/のあるように $ nkf -g 対象ファ…
webの文章データを扱いたいなと思って、色々と試してみたけど、うまくいかない。 Pythonコードを自分で書いてみて、たしかにうまくいったし、文章の獲得もできたが、例えばそのページがローカル内にたくさんのサブページを持っていた場合。いちいちルールを…
時々、いろんな文章を扱っていると文字コードの扱いに困る。 なので、どうしたらいいものか?と考えたら判定すればいいと思った。それで、調べてみたら見つかった。 http://speirs.blog17.fc2.com/blog-entry-4.htmlのように、片っ端から文字コードを試して…
After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …