2013-09-01から1ヶ月間の記事一覧
主に使うのは,etreeオブジェクト.これは標準で入っているモジュール(のはず)なので,一般的な話ができるはず.基本的な書き方は DrunkBoarder · yuki_B's web site XML ドキュメントを作成する - Python Module of the Week を見りゃいいのだが,細かい…
Perlexの元となっているalexinaのフレームワークでは,主に root辞書 屈折辞辞書 から構成されている. これをmakeすると,屈折活用済みのファイルが出来上がる仕組みになっている.さて,ここで新しく屈折辞を追加する方法を記しておく.いじるファイルはmo…
前回はペルシア語名詞の屈折辞一覧表を作成した - kensuke-miの日記で名詞の屈折辞表を作成したが,今回は動詞の屈折辞表を作成した.作成自体はそんなに大変でもないのだが...あまりにも不明な点が多すぎるよ..例えば,全部でカテゴリーは29個存在し…
ペルシア語の屈折辞は他のインド・ヨーロッパ語に比べれば比較的簡単だと言われている.(だれによって?)(←おれによって)というのも格の数もそんなに多いわけではないし,性も消滅している.したがって,格によって多数の屈折辞を持ち,性によって2ない…
ペルシア語の中には未完の接頭辞my(直接法)と動詞過去形で「過去未完了形」という時制が構成される. 感覚的に言うと,「過去のある時間範囲で,ある動作や状態が一定時間持続した」という説明になるだろうか.プログラミング的な感覚だと,「現在の時間を…
Perlexは何度もこのページで紹介しているが,要は形態素辞書.しかし,よくよく調べてみると,不可解な現象がいくつも発生していた. 例えば,以下 anga¹tn 108 V [pred="anga¹tn_____1",cat=V,@2*3plPreparfFam] anga¹tn_____1 Default 2*3p…
他の言語でもあるように,ペルシア語にも口語と文語で違う箇所は多く存在する.今回は,動詞の現在分詞における3人称複数人称について注目してみる.3人称複数の現在分詞の動詞接尾辞は,文語では-nd.なので,動詞構成はroot+ndになる.ところが,口語で…
まずはサーベイ資料
世の中にはacute accentという文字があるそうだ. Charbase U+00B4: ACUTE ACCENTアポストロフィーに形が似ているが,その実体はラテン系の言語に使用するアクセント記号である.Latin-1 supplemetの文字セットの中に含まれている.ところで,acute accentを…
以前に,xmlからデータの抽出を行う xml.dom.minidom - kensuke-miの日記で,自分で書いたにもかかわらず,また忘れていたので,今回はもう少し書く.あるコーパスがあって,xmlで保存されているのだが,いろいろと扱いづらい(タグが日本語で記述されている…
例えば,すべてが一行でつながってしまっているxmlがあったとする. でも,そのままではlessコマンドが使えなかったりと,とんでもなく扱いづらい.そこで,使うのが $ xmllint --format <XML>ここから XML を整形して表示 - kameidの備忘録 - Sharpen the Saw!も</xml>…
Perlexはペルシア語向けに作成された語彙辞書システムのことである. Alexinaという語彙辞書フレームワークの上に構築されており,2013年現在では,間違いなく無料で使用できる最大の言語資源である.しかし,このperlexの最大の欠点は,「説明がないこと」…
タイトルの内容について,1ヶ月近く取り組んでみたので,そろそろ書いてみる.そもそも目的は,「口承文芸コーパス」というペルシア語の口承(口伝えのお話)話を記録するという既存のコーパスがあって,それに言語情報をつけていく.が目標で,どうして形…
ちょっと前から自分の研究内容にFomaというFST構築ツールを使っている.何をするのか?というと,要は「FSTネットワークを作ってくれますよ」 以上! 何に使うかと言うと,代表例「形態素形跡」 以上!で,すめば良いのだが,Foma scriptというのを定義しな…
複数のファイルに同じ処理を実行したい時は,基本的にbashスクリプトを書けばいい. が,「複数ファイルの拡張子を一括変更」程度では,いちいちスクリプトを書くのは手間すぎる.で,コマンドライン上でその程度の変更ができるのを確かめてみた. buttercup…
方法はcommandモジュールを使うか,subprocessモジュールを使うか?という選択肢があるようだ.で,commandモジュールには前に失敗した記憶があるので(自分が悪い),どっちかというとsubprocessを好んでいる.使い方は,importして import subprocesssubpr…
例えば,「ディレクトリの中身が散らかっていたので,整理しよう.」と整理した場合.つまり複数のファイルを移動させた場合.整理後にgit add . を行った場合に # Changes not staged for commit:のファイルが大量発生してしまう.こういう時に,一括で元の…