2012-01-01から1年間の記事一覧

Macでのpdfの編集

Macで標準のプレビュー.appはpdf書き込み機能がよく充実しているが、実はそれでけじゃなくて、pdfのページ入れ替えや削除追加が簡単にできるのだ。http://inforati.jp/apple/mac-tips-techniques/multimedia-hints/how-to-add-remove-or-change-order-of-pdf…

文字コードを判定してくれるコマンド nkf

というのがある。 http://d.hatena.ne.jp/elmarverde/20101108/p1ここの通りにすればめちゃ簡単。 ほとんど一分くらいでできしまった。 ありがたいことだ。

文字コードを判定する関数

def guess_encodings(s): encodings = ['ascii','utf-8','shift-jis','euc-jp'] for enc in encodings: try: unicode(word_col_1,enc) break except UnicodeDecodeError,e: enc= '' return encコードがわからなくなって困ったら、これでおk

複数の鍵を持っている環境でgithubにログイン出来ない時

複数のssh鍵を持っているとする。本来なら.ssh/configに記述しておけば問題ない。はずなのだが、うまいこと行かないこともある。 なぜだかわからないけど、一定期間あけるとgithubにログインができなくなってしまう。そういう時のエラーは決まって Permissio…

管理者権限のないサーバーでコンパイルするとき

root権限がないとき、自分の~/libにコンパイル済みのlibrary fileがinstallされるが、新たに別の何かをインストールするときに、~/lib/pkgconfigにあるよー。というのを教えてやらなくちゃならない。なのでexport PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/home/自…

Stanford のNLP wikiページみたいなもの

NLP tool wiki みたいなページをみつけた。http://www-nlp.stanford.edu/links/statnlp.htmlこれは覚えておくとテラ便利

文脈自由文法のおさらい

たぶん、さらっと、わかりやすい言葉で説明することは不可能だろう。それよりかは G = (N,Σ,P,S) N: 非終端文字の有限集合 Σ: 終端文字の有限集合 P: の形の生成規則の有限集合 S: 開始記号と説明した方が(自分のためにも)よっぽどいい。 で、この文法を満…

screenの使い方

tmuxを入れろよ...って話なんだけど、めんどくさいので。http://tm.root-n.com/unix:command:screenに大体あるが、みんな使いやすいようにコマンドを変えていらっしゃる。 何度もいうが、そういうのめんどくさいので。 なので、先ほどのリンク先の説明を書き…

ペルシア語言語資源の覚書

大体の情報はここにある ACL wiki http://aclweb.org/aclwiki/index.php?title=Resources_for_Persian言語的なアノテーションはされてないけど、ドメインやトピックに関する情報なら、Hamshahri corpusが有効 http://ece.ut.ac.ir/dbrg/Hamshahri/あとは、Pa…

javaのコンパイル中に注:〜が出た時には?

MST parserをコンパイルしようとしたら、 注:入力ファイルの操作のうち、未チェックまたは安全ではないものがあります。 注:詳細については、-Xlint:unchecked オプションを指定して再コンパイルしてくださいと表示された。 よくわからないので、このエラー…

tmuxの使い方

パッと見でわかりやすいページをすぐに忘れてしまうので、覚え書きに。http://kaworu.jpn.org/kaworu/2009-10-25-1.phpの解説は十分かつ、わかりやすいので重宝どうせすぐ忘れるので、自分でみてすぐ分かるようにメモ新しいセッションの開始 $ tmux new-sess…

PersianDependencyTreebankをMaltParserで学習させてみた。

見方がよくわからない….orz1 به به PREP PREP attachment=ISO|senID=23472 26 ADV _ _ 2 گزارش گزارش N IANM attachment=ISO|number=SING|senID=23472 1 POSDEP _ _ 3 خبرنگار خبرنگار N ANM attachment=ISO|number=SING|senID=23472 2 MOZ _ _のようになっ…

emacs で行数表示

emacs を使う時に行数が表示されないと不便なので。~/.emacsに (global-linum-mode)を追記するだけでいい。 ついでに行数移動は http://developmemo.seesaa.net/article/158676937.htmlのようにM-g gと説明しるところもあるが、http://www.miuxmiu.com/archi…

Mac Book proでTexの環境を整えた。

ようやく整えた。 やっぱり必要に迫られないと、こういうのはやらないらしい。その時の参考にしたサイトメモ。http://bhby39.blogspot.jp/2012/09/tex.htmlhttp://at-aka.blogspot.jp/2012/02/lion-tex-tex-live.html まだ、フォントに関する設定はしてない…

パスの通し方

2回に1回くらい、パスの通し方を忘れる。 頭、弱いので。そうなると、2回に1回くらい「パスを通すってどういうことだっけ?」となる。 つまり、4回に1回くらいパスを通す意味がわからなくなる。 頭、弱いので。そこで、覚書。 http://www.r-styles.net…

リストの要素の順番を逆にする方法

結論から言うと、 [x for x in reversed(l)] でおk。http://inforno.net/articles/2007/05/13/python-reversed-list に載っていた。

木の高さの計り方

Lijun Feng+ "A Comparison of Features for Automatic Readability Assessment" の実装をしようとしていた時の疑問。このpaperの中では、木の高さ(Tree height)が素性として使われる。 じゃあ、コードにする時には木の高さをどうするのさ?という話。たぶ…

重複した要素を持つリストを解決する方法

結果的に リストがlistという名前の時 list(set(list))とすれば、重複した要素はなくなる このサイトが参考になる http://www44.atwiki.jp/keisks/pages/83.htmlあと、こっちの方が少し詳しいかもしれない http://d.hatena.ne.jp/t-fridge/20080323/12062179…

Gensimでのコーパスの作り方

http://radimrehurek.com/gensim/tut1.htmlこのページを見るのは二回目だけど。 ようやくまともにコーパスの作り方がわかったので、書き記しておく。考え方としてはページでのコーパスの作り方をひとつの関数としてみなす。 すると、入力は >>> documents = …

TreeTaggerを使ったときの覚書

とある課題でTreeTaggerを使ってhogehogeしなさい。というのがあったので、やった。 その時の覚書。使った素材は http://www.gutenberg.org/cache/epub/41425/pg41425.txt Under star-spangled banner 邦訳にすると「星条旗の元で」なのかな?まず、TreeTgge…

Charniak Parserインストールメモ

Charniak Parserをインストールしようとした(だけで)相当に手間取った。 http://www.cs.brown.edu/~ec/#softwareまず、第一の関門。どれかCharniak Parserなのかわからない。これはアドバイスをもらってftp://ftp.cs.brown.edu/pub/nlparser/ のparser*.ta…

gensim 文章をベクトル空間にする方法

http://radimrehurek.com/gensim/tut1.htmlを見れば大体は書いてある。このページで紹介されている方法は二種類あって、1つはテキストを一気にメモリに載せて変換する方法。2つめは順番にベクトル空間に変えていく方法。1つ目のやり方だと、 dictionary =…

KNPをサーバーで動かそうとして失敗した

KNPの動作にはTinyCDBが必要で、これがないとconfigureが通らない。 そこで、TinyCDBのMakefileの中身を prefix=/自分のホームディレクトリに書き換えてmake installした。 何もエラーメッセージがでないので、TinyCDB自体はうまくインストールできているの…

TesseractでOCRをしようとしたら見事に失敗した

どうしてもOCRを使う用事があったのだが、Adobeとか持ってないので、フリーのTesseractでやったれ!と思い、Tesseractでやろうとした。とりあえず、インストールは簡単。macportで入れるだけ。ただ、Tesseractはpdfは読んでくれず、入力はTiffでなければなら…

イテレーターとジェネレーターの解釈

みんなのPython p.214からイテレーターの概念で引っかかってしまったので、(一応)理解するよう努力した。イテレーターは「順序がないデータ構造に、順番を与えてやって、順番に処理していく機能(手法)」と解釈した。具体的な使い方は、「順番がないデー…

主成分分析をきちっと理解する〜Rをうまく使う〜

まず、はじめてわかったことがひとつ。 それは主成分分析といってもやり方がふたつあるということ。ひとつは相関係数行列を用いるやり方。 もうひとつは分散共分散行列を用いるやり方。Rでは主成分分析用の関数にprincompが用意されているが、princompのcor…

Gensimの使い方 ~Modelの作り方編~

主に見るべきところ http://radimrehurek.com/gensim/tut2.htmlTf-idモデルとLSIモデルの構築の仕方が書いてある。ページを見る限りはモデルの構築方法は>> models.Tfidf(対象コーパス)でいいみたい。 ちなみにここでの対象コーパスはbag-of-wordで(素性No,…

思い立っても使えないgensim

ふと、思うことがあってGensimを使ってみようとチュートリアル通りにコマンドを入れてみたが、動かない。corpus = corpora.MmCorpus('/path/to/corpus.mm')というところで>>> corpus = corpora.MmCorpus('/path/to/corpus.mm') Traceback (most recent call …

主成分分析をきちっと理解する

実のところまだ理解はできてないが、資料がたくさんありすぎるので、一度まとめてみることにした。一番、直感的にわかりやすかったのが、 http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htmだけど、実は導出法に関しては何も述べていないので…

RでMecab使えるようにした

R

LSIのコードを走らせてみたかったので、Mecabを入れることにした。 http://d.hatena.ne.jp/a_bicky/20120324/1332591498 (本当に参考になる) RにはRMeCabというインターフェースが用意されているので、これまた助かる。ちょっとだけ手間取ったのが、Rでの…