2013-09-01から1ヶ月間の記事一覧

pythonの内部表現からxmlへの出力

主に使うのは,etreeオブジェクト.これは標準で入っているモジュール(のはず)なので,一般的な話ができるはず.基本的な書き方は DrunkBoarder · yuki_B's web site XML ドキュメントを作成する - Python Module of the Week を見りゃいいのだが,細かい…

Perlex屈折辞書への屈折辞の追加方法

Perlexの元となっているalexinaのフレームワークでは,主に root辞書 屈折辞辞書 から構成されている. これをmakeすると,屈折活用済みのファイルが出来上がる仕組みになっている.さて,ここで新しく屈折辞を追加する方法を記しておく.いじるファイルはmo…

ペルシア語動詞の屈折辞一覧を作成した

前回はペルシア語名詞の屈折辞一覧表を作成した - kensuke-miの日記で名詞の屈折辞表を作成したが,今回は動詞の屈折辞表を作成した.作成自体はそんなに大変でもないのだが...あまりにも不明な点が多すぎるよ..例えば,全部でカテゴリーは29個存在し…

ペルシア語名詞の屈折辞一覧表を作成した

ペルシア語の屈折辞は他のインド・ヨーロッパ語に比べれば比較的簡単だと言われている.(だれによって?)(←おれによって)というのも格の数もそんなに多いわけではないし,性も消滅している.したがって,格によって多数の屈折辞を持ち,性によって2ない…

ペルシア語の動詞表現〜過去未完了形〜

ペルシア語の中には未完の接頭辞my(直接法)と動詞過去形で「過去未完了形」という時制が構成される. 感覚的に言うと,「過去のある時間範囲で,ある動作や状態が一定時間持続した」という説明になるだろうか.プログラミング的な感覚だと,「現在の時間を…

perlexのバグ情報

Perlexは何度もこのページで紹介しているが,要は形態素辞書.しかし,よくよく調べてみると,不可解な現象がいくつも発生していた. 例えば,以下 anga¹tn 108 V [pred="anga¹tn_____1",cat=V,@2*3plPreparfFam] anga¹tn_____1 Default 2*3p…

ペルシア語の現在語根3人称複数人称における口語化現象

他の言語でもあるように,ペルシア語にも口語と文語で違う箇所は多く存在する.今回は,動詞の現在分詞における3人称複数人称について注目してみる.3人称複数の現在分詞の動詞接尾辞は,文語では-nd.なので,動詞構成はroot+ndになる.ところが,口語で…

係り受け解析の転移学習

まずはサーベイ資料

acute accentの処理

世の中にはacute accentという文字があるそうだ. Charbase U+00B4: ACUTE ACCENTアポストロフィーに形が似ているが,その実体はラテン系の言語に使用するアクセント記号である.Latin-1 supplemetの文字セットの中に含まれている.ところで,acute accentを…

Pythonのxmlパーザ minidom

以前に,xmlからデータの抽出を行う xml.dom.minidom - kensuke-miの日記で,自分で書いたにもかかわらず,また忘れていたので,今回はもう少し書く.あるコーパスがあって,xmlで保存されているのだが,いろいろと扱いづらい(タグが日本語で記述されている…

xmlの整形

例えば,すべてが一行でつながってしまっているxmlがあったとする. でも,そのままではlessコマンドが使えなかったりと,とんでもなく扱いづらい.そこで,使うのが $ xmllint --format <XML>ここから XML を整形して表示 - kameidの備忘録 - Sharpen the Saw!も</xml>…

perlexを読み解く

Perlexはペルシア語向けに作成された語彙辞書システムのことである. Alexinaという語彙辞書フレームワークの上に構築されており,2013年現在では,間違いなく無料で使用できる最大の言語資源である.しかし,このperlexの最大の欠点は,「説明がないこと」…

ペルシア語の形態素解析器を作る話

タイトルの内容について,1ヶ月近く取り組んでみたので,そろそろ書いてみる.そもそも目的は,「口承文芸コーパス」というペルシア語の口承(口伝えのお話)話を記録するという既存のコーパスがあって,それに言語情報をつけていく.が目標で,どうして形…

Foma ~finite-state compiler and C library~

ちょっと前から自分の研究内容にFomaというFST構築ツールを使っている.何をするのか?というと,要は「FSTネットワークを作ってくれますよ」 以上! 何に使うかと言うと,代表例「形態素形跡」 以上!で,すめば良いのだが,Foma scriptというのを定義しな…

bashコマンドラインで複数のファイルに処理を実行

複数のファイルに同じ処理を実行したい時は,基本的にbashスクリプトを書けばいい. が,「複数ファイルの拡張子を一括変更」程度では,いちいちスクリプトを書くのは手間すぎる.で,コマンドライン上でその程度の変更ができるのを確かめてみた. buttercup…

Pythonスクリプト内でbashコマンドを呼び出す

方法はcommandモジュールを使うか,subprocessモジュールを使うか?という選択肢があるようだ.で,commandモジュールには前に失敗した記憶があるので(自分が悪い),どっちかというとsubprocessを好んでいる.使い方は,importして import subprocesssubpr…

git rmせずにrmコマンドで削除してしまったファイルを一括で削除する方法

例えば,「ディレクトリの中身が散らかっていたので,整理しよう.」と整理した場合.つまり複数のファイルを移動させた場合.整理後にgit add . を行った場合に # Changes not staged for commit:のファイルが大量発生してしまう.こういう時に,一括で元の…