Persian_NLP

Mac Marvericsでキーボード設定

意外と知られていないことだが,ペルシア語にはキーボードが2種類存在している. ひとつはPersian(無印),もうひとつがPersian ISIRI系統. 前者はPersianとは名ばかりでただのアラビア語キーボードの拡張である. したがって,かなり使いづらい(文字コー…

お手軽POS tagging(ペルシア語編)

また例によって,ペルシア語の話である. きょうのお題は「ちょー簡単にペルシア語の品詞タグ付けをしよう!」 そもそも品詞タグ付けってなに? 読んで字の如く,単語に品詞情報をつけること. 「なにそれ?楽しいの?」と思うかもしれないが,自然言語処理…

Introducing PersPred, a syntactic and semantic database for persian complex predicates

ここ数日かけてじっくり読んだ論文.pdfはACL anthologyにあがってる 「次にどんな研究しようかな?」っていう漠然とした気分から,とりあえず最新だし読んでみた. NAACLのMulti Word Expressionのworkshopに投稿された論文.松本先生がペルシア語の複合動…

Perlexの動詞活用に登場する謎の記号について

Perlexの動詞屈折辞には謎の記号が出現する. 例えば3sgPreSubjNegFam n ↙e n £e 2*3plPreSubjNegFam n ↙n n £nのように. はじめはまったく意味がわからなかったのだが,ようやく意味がわかったので,ここに書き記しておく.端的に書くと,「謎の記号は動詞…

Perlexの文字コードが変な件について

前にも何度か紹介したが,lexiconのperlexは屈折辞の展開がされた後は文字化けがおきている.前の記事では,後でpythonスクリプトで修正する方法をとっていたが,特にqとŕで無理があるやり方だった.しかも,その後でまた変な文字化けを見つけたし...(要…

Perlex屈折辞書への屈折辞の追加方法

Perlexの元となっているalexinaのフレームワークでは,主に root辞書 屈折辞辞書 から構成されている. これをmakeすると,屈折活用済みのファイルが出来上がる仕組みになっている.さて,ここで新しく屈折辞を追加する方法を記しておく.いじるファイルはmo…

ペルシア語動詞の屈折辞一覧を作成した

前回はペルシア語名詞の屈折辞一覧表を作成した - kensuke-miの日記で名詞の屈折辞表を作成したが,今回は動詞の屈折辞表を作成した.作成自体はそんなに大変でもないのだが...あまりにも不明な点が多すぎるよ..例えば,全部でカテゴリーは29個存在し…

ペルシア語名詞の屈折辞一覧表を作成した

ペルシア語の屈折辞は他のインド・ヨーロッパ語に比べれば比較的簡単だと言われている.(だれによって?)(←おれによって)というのも格の数もそんなに多いわけではないし,性も消滅している.したがって,格によって多数の屈折辞を持ち,性によって2ない…

ペルシア語の動詞表現〜過去未完了形〜

ペルシア語の中には未完の接頭辞my(直接法)と動詞過去形で「過去未完了形」という時制が構成される. 感覚的に言うと,「過去のある時間範囲で,ある動作や状態が一定時間持続した」という説明になるだろうか.プログラミング的な感覚だと,「現在の時間を…

perlexのバグ情報

Perlexは何度もこのページで紹介しているが,要は形態素辞書.しかし,よくよく調べてみると,不可解な現象がいくつも発生していた. 例えば,以下 anga¹tn 108 V [pred="anga¹tn_____1",cat=V,@2*3plPreparfFam] anga¹tn_____1 Default 2*3p…

ペルシア語の現在語根3人称複数人称における口語化現象

他の言語でもあるように,ペルシア語にも口語と文語で違う箇所は多く存在する.今回は,動詞の現在分詞における3人称複数人称について注目してみる.3人称複数の現在分詞の動詞接尾辞は,文語では-nd.なので,動詞構成はroot+ndになる.ところが,口語で…

perlexを読み解く

Perlexはペルシア語向けに作成された語彙辞書システムのことである. Alexinaという語彙辞書フレームワークの上に構築されており,2013年現在では,間違いなく無料で使用できる最大の言語資源である.しかし,このperlexの最大の欠点は,「説明がないこと」…

拡張ラテン文字(latin-1)の入力方法(Ubuntu系)

前回はMac OSXでの入力方法について触れたが,ぼくはubuntuマシンも持っている関係上,ubuntuでもlatin-1が入力できるようにしないといけない.そこで,調べてみると.ubuntuではOSXのようにopt+aのような入力方法ではなく,補助インプットメソッドのiBusを…

拡張ラテン文字キーボードの使い方

ペルシア文字の翻字方法の検討 - kensuke-miの日記でも紹介したが,アラビア文字を計算機で効率的に扱うためにはラテン文字に置き換えてしまった方がよい. そこで,今回のぼくのアラビア文字→ラテン文字変換スクリプトの実装には多くのラテン文字を用いた.…

ペルシア文字の翻字方法の検討

計算機でアラビア文字を扱うのは正直いうとしんどい.文字が全体的に見にくいし,母音記号はハムゼは拡大しまくってやっと存在が見つかる.といったそんな印象. 見にくいと何が困るかって,目には見えてないけど,違う文字コードの系列になっていたら計算機…

ペルシア語の文字入力

誰得な内容ですが..ペルシア語を正しくコンピューターで扱う話.これがきちっと守れないと,「検索した単語が出てこない!」とか「レポート書いたけど,間違いだらけじゃないか!」という原因になるので,きちっと守りましょう.というお話です.実はアラ…

problem in handling Farsi ezafe characters

As you know, we concatenate words with Ezafe when two words have a relation of modifier word and modified word.But, You may not know the concatenation rule when the last character of modified word is HEH+HAMZA.In Arabic unicode set, HEH+HA…

アラビア語系統の言語を扱うのに優れたエディタは?

元々ソフト事情 - Linux / オープンソースとアラビア語 at Scratchpad, the home of temporary mini-wikis!っていうサイトがいくつか情報を提供してくれていたんだけど,最終更新が06年と古い.でいまの時代により適したエディタは?ってことで色々試してみ…

ペルシア語言語資源の覚書

大体の情報はここにある ACL wiki http://aclweb.org/aclwiki/index.php?title=Resources_for_Persian言語的なアノテーションはされてないけど、ドメインやトピックに関する情報なら、Hamshahri corpusが有効 http://ece.ut.ac.ir/dbrg/Hamshahri/あとは、Pa…

PersianDependencyTreebankをMaltParserで学習させてみた。

見方がよくわからない….orz1 به به PREP PREP attachment=ISO|senID=23472 26 ADV _ _ 2 گزارش گزارش N IANM attachment=ISO|number=SING|senID=23472 1 POSDEP _ _ 3 خبرنگار خبرنگار N ANM attachment=ISO|number=SING|senID=23472 2 MOZ _ _のようになっ…

Unsupervised Identification of Persian Compound Verbs

Unsupervised Identification of Persian Compound Verbs Mohammad Sadegh Rasooli and Heshaam Faili and Behrouz Minaei-Bidgoli MICAI (1)'11○ざっくり概要「ペルシア語の複合動詞を検出しよう」というタスク 使った手法はBootstrapとK-menas法いろいろ試…

How to use "Persian Pre-processor: PrePer" ?

This article is about how to use "Persian Pre-processor: PrePer"PrePer is text normalizer for Persian text. Outline of PrePer is in http://stp.lingfil.uu.se/~mojgan/preper.htmlBefore using PrePer, a little ( or more) preparation is needed.…

To use Persian segmenter and tokenizer:SeTPer

After processing by PrePer, you can now segment and tokenize Persian document by using SeTPer.SeTPer uses Uplug framework. So,for using SeTPer, we have to know usage of Uplug. (I took a few hours to understand usage of Uplug)Uplug is tool …

A Basic Language Resource Kit for Persian

A Basic Language Resource Kit for Persian Mojgan Seraji, Bea ́ta Megyesi, Joakim Nivre Uppsala University, Department of Linguistics and Philologyざっくりまとめると、いままで数も少なく、あったとしても有料なことが多い、そんなペルシア語のツ…

Information about Persian NLP Resource

This is about Persian NLP resource.About Persian corpus, one of the well known corpus is "Bijankhan corpus."I found improved corpus of Bijankhan corpus, UPEC corpus.It's made by Mojgan Seraji, Phd students of Uppasala University, Sweden.ht…

tesseractに新しく学習させるには Persian編

データの提供元から、「フリーウェアで公開する前提でデータを使うなら、ライセンス料金が発生する。ダメだ」とメールが来ました。当たり前と言えば当たり前です。さて、どうしましょう?考えられる選択肢は ・どっかの論文からOCRのアルゴリズムを拾ってき…