読者です 読者をやめる 読者になる 読者になる

xmlからデータの抽出を行う xml.dom.minidom

基本的な追加方は19.7. xml.dom.minidom — 軽量な DOM 実装 — Python 2.7ja1 documentationを見ればわかることなのが.ただ,ちょっとわかりにくいので,Python で XML 操作 | TM Lifeを見た方がよい.

ところで,「コメントのみを記述したxmlノードを抽出するにはどうしたものか?」と調べてみたところ,下のように書けばよいことがわかった.

  <!-- V1 -->
  <fusion source="yd_&#171;" target="_" rev="-"/>


  <!-- II. Verbes irr&#233;guliers -->

  <!-- A. Verbes irr&#233;guliers avec radicaux 2 en -d -->


  <!-- V2 -->
  <fusion source="d_:" target="_" rev="-"/>

  <!-- V3 -->
  <fusion source="rd_¨" target="ar_" rev="-"/>

  <!-- V4 -->
  <fusion source="ad_~" target="_" rev="-"/>

  <!-- V5 -->

のようなxmlからコメント部分のを抽出する.

    import xml.dom.minidom
    dom = xml.dom.minidom.parse("morpho.fa")

    present_stem_list=[];
    for node in dom.documentElement.childNodes:
        if node.nodeType in [node.COMMENT_NODE]:
            nodetext=(node.data).strip(u' ');    
            if nodetext in [u'V1', u'V2', u'V3', u'V4', u'V5', u'V6', u'V7', u'V8', u'V8', u'V9', u'V10',
                            u'V11', u'V12', u'V13', u'V14', u'V15', u'V16', u'V17', u'V18', u'V19', u'V20',
                            u'V21', u'V22', u'V23', u'V24', u'V25', u'V26', u'V27',
                            u'V28:Light Verbs', u'V29:Light Verbs with alternate stems']:

if node.nodeType in [node.COMMENT_NODE]: の記述でノードの種類がコメントノードの時のみを指定している.さらには,node.dataでコメントノードの中身を取得している.

本当はその後,Vが含まれているノードのみを正規表現で獲得したかったのだが,どうしてだが,それができなかった.
なので,みっともない格好ではあるが,リスト表記で記述している.(Vの数があらかじめ決まっているからこそできることではある)