2013-01-01から1年間の記事一覧

bashコマンドラインで複数のファイルに処理を実行

複数のファイルに同じ処理を実行したい時は,基本的にbashスクリプトを書けばいい. が,「複数ファイルの拡張子を一括変更」程度では,いちいちスクリプトを書くのは手間すぎる.で,コマンドライン上でその程度の変更ができるのを確かめてみた. buttercup…

Pythonスクリプト内でbashコマンドを呼び出す

方法はcommandモジュールを使うか,subprocessモジュールを使うか?という選択肢があるようだ.で,commandモジュールには前に失敗した記憶があるので(自分が悪い),どっちかというとsubprocessを好んでいる.使い方は,importして import subprocesssubpr…

git rmせずにrmコマンドで削除してしまったファイルを一括で削除する方法

例えば,「ディレクトリの中身が散らかっていたので,整理しよう.」と整理した場合.つまり複数のファイルを移動させた場合.整理後にgit add . を行った場合に # Changes not staged for commit:のファイルが大量発生してしまう.こういう時に,一括で元の…

時系列データの解析

R

自然言語処理の世界では「時系列データ」というと,HMMモデルのようなイメージがある(主観).品詞が隠れ状態で,単語が観測状態になっており,文中の単語のインデックスと共に「時間が経過していく」という格好だ.ただ,一般的に「時系列データ」というと…

xmlからデータの抽出を行う xml.dom.minidom

基本的な追加方は19.7. xml.dom.minidom — 軽量な DOM 実装 — Python 2.7ja1 documentationを見ればわかることなのが.ただ,ちょっとわかりにくいので,Python で XML 操作 | TM Lifeを見た方がよい.ところで,「コメントのみを記述したxmlノードを抽出す…

CKYアルゴリズムの流れ

久しぶりにCKYチャートをいじることになって,「あれ,どことどこのマスが親を生成するんだっけ?」と,まあ,こうなってしまう.そこで,ちょっと探してみると,Yahoo知恵袋にこんな良解説がなされていたので,紹介.構文解析:CYKアルゴリズム 情報 数学 …

subcategorizationの概念

"The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French", Benoît Sagot, 2010 を読んでいるときに出て来たのが"sub categorization"あれ,これ何だっけ?と思ったので復習がてらに[この本](http://www.amazon.…

拡張ラテン文字(latin-1)の入力方法(Ubuntu系)

前回はMac OSXでの入力方法について触れたが,ぼくはubuntuマシンも持っている関係上,ubuntuでもlatin-1が入力できるようにしないといけない.そこで,調べてみると.ubuntuではOSXのようにopt+aのような入力方法ではなく,補助インプットメソッドのiBusを…

拡張ラテン文字キーボードの使い方

ペルシア文字の翻字方法の検討 - kensuke-miの日記でも紹介したが,アラビア文字を計算機で効率的に扱うためにはラテン文字に置き換えてしまった方がよい. そこで,今回のぼくのアラビア文字→ラテン文字変換スクリプトの実装には多くのラテン文字を用いた.…

ペルシア文字の翻字方法の検討

計算機でアラビア文字を扱うのは正直いうとしんどい.文字が全体的に見にくいし,母音記号はハムゼは拡大しまくってやっと存在が見つかる.といったそんな印象. 見にくいと何が困るかって,目には見えてないけど,違う文字コードの系列になっていたら計算機…

ペルシア語の文字入力

誰得な内容ですが..ペルシア語を正しくコンピューターで扱う話.これがきちっと守れないと,「検索した単語が出てこない!」とか「レポート書いたけど,間違いだらけじゃないか!」という原因になるので,きちっと守りましょう.というお話です.実はアラ…

problem in handling Farsi ezafe characters

As you know, we concatenate words with Ezafe when two words have a relation of modifier word and modified word.But, You may not know the concatenation rule when the last character of modified word is HEH+HAMZA.In Arabic unicode set, HEH+HA…

威の飼い方2

(前回から) ヤフオクで格安ジャンク品のサブノートパソコンをHDD移植まで完了させたぼく!結果やいかに!スイッチを押してみると...そこに出ているメッセージを要約すると, 「カーネルがこのマシンのCPUに合ってないんだってば.適切なカーネルを使い…

威の飼い方

突然だけど,ぼくの手元には古いマシンがある. Interlinkいうペットネームで知られるそのマシンは,知る人ぞ知る,そんな日本Victor製造のサブノートパソコンで,画面サイズがわずか8.9インチという小ささ,まさにネットブックの先駆けとも言える存在な…

アラビア語系統の言語を扱うのに優れたエディタは?

元々ソフト事情 - Linux / オープンソースとアラビア語 at Scratchpad, the home of temporary mini-wikis!っていうサイトがいくつか情報を提供してくれていたんだけど,最終更新が06年と古い.でいまの時代により適したエディタは?ってことで色々試してみ…

Pythonでスマートなファイルの読み込み方法は?

元は http://blog.lampetty.net/blog_ja/index.php/archives/418あまり考えてなかったんだけど,どでかいファイルを扱う時はメモリの消費を抑える書き方が一番いい(特にNLPはメモリの消費がデカい場合がそれなりにある)結論からいうと,「ぼくの書き方はま…

タイトルの書き方

ちょっとだけタイトルの書き方ではまった. \title{} \author{} \date{} はプレアンプルの箇所に記述しないといけないのだが,\maketitleコマンドは本文,つまり \begin{document} \maketitle \end{document}のように記述しないといけない. http://www.late…

texコンパイル用のシェルスクリプト

レポートもようやくtexで書き始めたのだが,毎回コンパイルが面倒で仕方がない. なので,シェルスクリプトを書いた. texname=$1 platex $texname dviname=${texname/.tex/.dvi} dvipdfmx $dviname pdfname=${dviname/.dvi/.pdf} open $pdfname最後に目でみ…

mac OSのユーザー名を変更する

いろいろ理由はあるんだけど,ユーザー名を変更することになった. その時に引いたマニュアルを残しておく http://support.apple.com/kb/HT1428?viewlocale=ja_JPどうやら,一度,ルートユーザーになってホームディレクトリの名前を手動で変更しないといけな…

mac起動時からdockにあるアプリをdockから消すには

普通のやり方では消しても,次にログインするとすぐ復活する.たぶん,だけど,環境変数的なファイルが設定されているのが原因で,つまり該当箇所を削除してしまえばよい探すと http://d.hatena.ne.jp/tsurunaga/20120804/1344064017 にあった.どうやら,xm…

ギブスサンプリングの実装

長いことわかっていなかったのだが、実装してようやく頭に入って来た気がする。今回は「道具としてのベイズ統計」涌井良幸 日本実業社 の説明にあるギブスサンプリングをPythonで実装してみた。 パラメータは全部、本にある通り。 #! /usr/bin/python # -*- …

発表の際のポスター作成

まず、ガイドラインで大きさを確認。A0だったら、ここを参考にA0サイズをピクセルで指定 http://d.hatena.ne.jp/keybot/20110124/p1Keynoteで箇条書きにするとき、どうするか?で困った テキストの行頭記号と番号をフォーマットする

英語論文を書くときのTips

言い回しの表現を見たいときはここなど http://www.gfd-dennou.org/member/hiroki/homepage/english/english.html直前になって、知っておきたいことは http://www.phontron.com/paper-guide.phpただし、引用符の中にピリオド。っていうのはどっちでも良い(…

latexパッケージを手動でインストールする

いままでMacport任せでやってきていたので、よくわかっていなかった。 汎用的なパッケージは全部Macportで一括インストールしてしまえばこと足りる話なのだが、それではあまりにももったいなさ過ぎる。 使う物を、使うときだけにインストールする。というこ…

Git remote repository AからGit remote repository Bへのコピー

Case Studyチックに。 Q:例えば、Remote repository Aがあったとして、それをforkしたRemote repositoryBがあるとする。で、Aの内容をBにコピーした時。どうするか?A:一度、ローカルに持って来て、pushし直す基本的には上のやり方。なので、 $ git colone A…

Pythonの絶対パスの範囲の拡張をするには?

http://www-al.nii.ac.jp/~kameda/blog/cmlog/1102051601.htm

Emacsでのpython環境

自分のローカル環境ではemacs+jediでpythonの自動補完を行っている(これはこれでインストールが苦労したのだが...) ただ、サーバーの方ではまだ未設定で、長い変数名とか、めんどくさい状態だった。そこで、きちんと補完機能を入れようとした時のまとめまず…

Subdirectoryのfileまでを自動的に獲得

例えば、ファイルが大量にあって、そのすべてに同じ処理を施した時、しかも、階層構造になっている。 こんな時には、 ・ファイルを全部くっつけてまとめて処理してしまう(テキストファイルだと割と使える手) ・連続的にファイルを処理するがあるけど、メン…

Pythonzの後日談

Pythonzをインストールしたはいいものの,それからというもののうまくいってない.えー,どうして?? ということで地道にいろんな可能性をつぶしていったんだけど....それでもうまくいかない.... あー,もうあかんわ! ってなったときに,ふと.bashrcに記述…

Pythonz

研究室のサーバーが更新されたので、それに伴っていくつかのライブラリが消えてしまったらしい。(だいたい、国立大学の研究室のサーバーはリース契約なので、数年にまとめて新しいものに更新される)具体的には、lxmlというpythonのモジュールが使えなくな…