第2回国際ワークショップ“NLPXML-2002”の概要と NLP, Seman
Download
Report
Transcript 第2回国際ワークショップ“NLPXML-2002”の概要と NLP, Seman
第2回国際ワークショップ
“NLPXML-2002”の概要と
NLP, Semantic Web の融合
に向けての展開
中挾知延子(東洋大学)
野村直之(法政大学)
浦本直彦(IBM, 国立情報学研究所)
Key-Sun Choi(KAIST, NHK技研)
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
1
発表の流れ
イントロ:NLPXML-2002
& Corpora
セッション2:Document Generation
セッション3:Discourse,Dialog & Speech
セッション4:Semantic Web
NLPXML-2003に向けて
セッション1:Tools
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
2
“NLPXML-2002”
第1回:”1st NLP &
XML WS” 於:東京
http://hal2001.itakura.toyo.ac.jp
/~chiekon/nlpxml/
第2回:
Coling2002のポ
ストワークショップと
して台北で開催
Chair:Dr. Graham
Wilcock(Helsinki大学)
http://www.ling.helsinki.fi/~gwilcock/NLPXML/
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
3
ワークショップの目的=XMLとNLPの
シナジー効果
XML for NLP(自然言語
処理のためのXML技術)
– 高機能なフリーのXML処理系に
より,NLPシステムの設計から
実装までの高速プロトタイピング
を実現
– 統一的な中間データ形式,コー
パス記述言語としての役割
NLP for XML(XMLのた
めの自然言語処理)
– 多義語の処理,制約の解決,一
貫性の保持,シソーラス開発な
ど
– XMLドキュメントの自動生成,メ
タデータ,オントロジの(半)自動
メンテナンスなど産業界から期
待されている機能の実現にNLP
を適用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
4
セッション1:Tools & Corpora
XML
for NLP
– コーパスにおけるアノテーションの共有と再利用
アノテーションスキーマの提案
NLP
for XML
– XMLドキュメント変換処理に用いる文法ルールな
どのNLPツールの標準化の提案
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
5
1.XML-Based NLP Tools for Analysing and
Annotating Medical Language
C. Grover, et al.(Univ. of Edinburgh)
医学分野の専門知識であ
るOHSUMEDコーパスを
浅いレベル(e.g.形態素
解析)から深いレベル
(e.g.意味解析)まで処理
するためにアノテーション
をしてXML化
A sample from the
XML-marked-up
OHSUMED Corpus
29-Nov-02
<RECORD>
<ID>395</ID>
<MEDLINE-ID>87052477</MEDLINE-ID>
<SOURCE>Clin Pediatr (Phila) 8703; 25(12):617-9 </SOURCE>
<MESH>
Adolescence; Alcoholic Intoxication/BL/*EP; Blood Glucose/AN; Canada;
Child; Child, Preschool;
Electrolytes/BL; Female; Human; Hypoglycemia/ET; Infant; Male;
Retrospective Studies.
</MESH>
<TITLE>Ethyl alcohol ingestion in children. A 15-year review.</TITLE>
<PTYPE>JOURNAL ARTICLE.</PTYPE>
<ABSTRACT>
<SENT><WP=’DT’>A</W><W P=’JJ’>retrospective</W>
<W P=’NN’ LM=’study’>study</W><W P=’VBD’ LM=’be’>was</W>
<W P=’VBN’ LM=’conduct’>conducted</W><WP=’IN’>by</W><WP=’NN’
LM=’chart’>chart</W>
<W P=’NNS’ LM=’review’>reviews</W><W P=’IN’
>of</W><WP=’CD’>27</W>
<W P=’NNS’ LM=’patient’>patients</W><WP=’IN’>with</W><W
P=’JJ’>documented</W>
<W P=’NN’ LM=’ethanol’>ethanol</W><W P=’NN’
LM=’ingestion’>ingestion</W><WP=’.’>.</W>
</SENT><SENT> : : : </SENT><SENT> : : : </SENT>
</ABSTRACT>
<AUTHOR>Leung AK.</AUTHOR>
</RECORD>
情報処理学会デジタルドキュメント研究会
大阪
6
2.A Brief Introduction to the Gem Annotation
Schema for Complex Document Layout
J. Bateman, et al.(Univ. of Bremen)
マルチモーダルな文章
レイアウトをXML化す
るためのGem(Genre
& Multimodality)ア
ノテーションスキーマの
提案
スキーマによるレイア
ウトタグ付きコーパスを
活用した文章生成シス
テム,レイアウト作成支
援システムへの応用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
7
レイアウトをより大きなブロックへ抽象化
<unit id="u-21.5">--------------</unit>
<unit id="u-21.6"
src="gannet.jpg" alt="gannetphoto"/>
<unit id="u-21.7">
Huge (90cm) unmistakable seabird.
</unit>
<unit id="u-21.8">
Watch for white, cigar-shaped body
and
long straight, slender, black-tipped
wings.
</unit>
<unit id="u-21.9">
In summer, yellow head of
adult inconspicuous. </unit>
<unit id="u-21.10">
Plunges spectacularly for
fish.</unit>
<unit id="u-21.11">Sexes
similar.</unit>
29-Nov-02
<layout-unit id="lay-flegg-text"
xref="u-21.7 u-21.8 u-21.9
u-21.10u-21.11">
Huge (90cm) unmistakable seabird.
Watch for white, cigar-shaped body
and long straight, slender,
black-tipped wings. In summer,
yellow
head of adult inconspicuous. Plunges
spectacularly for fish. Sexes similar.
</layout-unit>
情報処理学会デジタルドキュメント研究会
大阪
8
レイアウトの階層化
<layout-root id="page21">
<layout-leaf
xref="header-21"/>
<layout-chunk id="body21">
<layout-leaf xref="lay21.2"/>
<layout-leaf xref="lay21.3"/>
</layout-chunk>
<layout-leaf xref="pageno-21"/>
</layout-root>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
9
3.Cascaded Regular Grammars over
XML Documents
K. Simov, et al.(Linguistic Modelling Lab.)
テキストコーパス処理のた
めのルールに基づいた
XML変換システムCLaRK
Date ->
( (0,(1|2|3|4|5|6|7|8|9)) |
((1|2),(0|1|2|3|4|5|6|7|8|9)) |
(3,(0|1))
)
,.,
((0,(1|2|3|4|5|6|7|8|9))|(1,(0|
1|2)))
,.,
(((1|2|3|4|5|6|7|8|9),
(0|1|2|3|4|5|6|7|8|9)*))
29-Nov-02
カスケード型正規文法に基づ
いて複雑な制約や並べ替え
を伴うXML変換が実現
C→R C:語句のカテゴリ
R:正規表現(エレメントノード
の場合はXPath表記)
The feast is from 12.03.2002
to 15.03.2002.
↓
The feast is from Date to Date.
情報処理学会デジタルドキュメント研究会
大阪
10
正規文法の適用による文章のXML表現
<s>
John loves Mary who is in
love with Peter
</s>
<s>
<w g="N">John</w>
<w g="V">loves</w>
<w g="N">Mary</w>
<w g="Pron">who</w>
<w g="V">is</w>
<PP>
<w g="P">in</w>
<w g="N">love</w>
</PP>
<PP>
<w g="P">with</w>
<w g="N">Peter</w>
</PP>
</s>
<s>
<w g="N">John</w>
Propositional
<w g="V">loves</w>
Attachment
<w g="N">Mary</w>
<w g="Pron">who</w>
<w g="V">is</w>
<w g="P">in</w>
<w g="N">love</w>
<w g="P">with</w>
<PP>\w</PP> -> <"P"><"N#">
<w g="N">Peter</w>
</s>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
11
セッション2:Document Generation
XSLTの文書生成への貢献-効率の良さと保
守性の高さ
– 多言語対応の文書フィルタ
– XMLテンプレートからの文書自動生成
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
12
1.Cascading XSL Filters for Content Selection in
Multilinguial Document Generation
G. Burrutieta, et al.(Mondragon Univ.)
RST(Rhetorical
Structure
Theory)に基づく
ユーザのニーズに
応じた文書フィルタ
CSA(Content
Selection
Algorithm)により
フィルタリング,XSL
で実装
英語,スペイン語,
バスク語に対応
User Aspects
XML-DTD
Course Generator
Inputs
html-xml-dtd
Select content and
xsl-javascript
format in
an “intelligent” way
Generation
Course Material
engine
(Multilingual Parallel
Document Generation
Corpus)
Web Browser
Document View
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
13
Rhetorical Structure Theory
<RST>
<RST-S>
<PREPARATION>
<S> What is knowledge management?
</S>
</PREPARATION>
</RST-S>
<RST-N>
<S>
Knowledge, in a business context, is the
organizational
memory, which people know collectively
and individually
</S>
<S>
Management is the judicious use of
means to accomplish
an end
</S>
<S>
Knowledge management is the
combination of those
concepts, KM = knowledge +
management
</S></RST-N></RST>
29-Nov-02
<RST>
<RST-S>
<PREPARATION>
<S> Zer da ezagutzaren kudeaketa?
</S>
</PREPARATION>
</RST-S>
<RST-N>
<S>
Kudeaketa, negozioetan, erakundearen
memoria
da, jendeak bakarka eta taldeka dakiena
</S>
<S>
Kudeaketak erabideen erabilera zuzena
du helburu
</S>
<S>
Ezagutzaren kudeaketa bi kontzeptu
hauen nahasketa da,
EK = ezagutza + kudeaketa
</S>
</RST-N>
</RST>
情報処理学会デジタルドキュメント研究会
大阪
14
Content Selection Algorithm
Specific User
Aspects
Discrete values
Subject
Language processors
Moment in
time
Before the course / Period
1 / Period 2 / … / After
the course (review)
Languages
EN/ ES/ EU
General User
Aspects
Discrete values
Level of
expertise
Null / Basic / Medium /
High
Reason to read To get an idea / To get
deep into it
Background
29-Nov-02
If level_expertise = “null” or
level_expertise = “basic”
Then
no relation-satellite is
discarded;
If level_expertise =
“medium” or
level_expertise = “high”
Then
discard example, exercise,
background
and preparation relationsatellites;
Not related to the subject
/ Related to the subject
情報処理学会デジタルドキュメント研究会
大阪
15
XtraGen – A Natural Language Generation
System using XML & Java Technologies
H. Stenzhorn (XtraMind Technologies GmbH)
XtraGenの文章生成メカニズム
とそのXMLとJavaによる実装
XMLテンプレートによる文章生成
– 形態素の扱い
– 生成文のレベル分け
<template id="String"
category="String">
<conditions>
Condition*</conditions>
<parameters>
Parameter*</parameters>
<actions>
Action+</actions>
<constraints>
Constraint*</constraints>
</template>
29-Nov-02
<conditions>
<or>
<and>
<condition type="equal">
<get path="/recall"/>
<value>95</value>
</condition>
<condition type="less">
<get path="/accuracy"/>
<value>90</value>
</condition>
</and>
<not>
<condition type="exist">
<get path="/exception"/>
</condition>
</not>
</or></conditions>
情報処理学会デジタルドキュメント研究会
大阪
16
ユーザレベルに応じた
生成のためのXMLテ
ンプレート
<template id="explainExpert"
category="explain">
<parameters>
<parameter
name="level"
value="expert">
<parameter
name="verbosity"
value="low">
</parameters>
...
</template>
generator.addParameter
("level","novice",0.75);
generator.addParameter
("verbosity","low",0.5);
29-Nov-02
形態素の制約のため
のXMLテンプレート
<template ...>
<actions>
<select category="determiner"
label="X0"/>
<select category="noun"
label="X1"/>
</actions>
<constraint>
<place label="X0"
attribute="number"/>
<place label="X1"
attribute="number"/>
<get
path="/categoryNumber"/>
</constraint></template>
情報処理学会デジタルドキュメント研究会
大阪
17
セッション3:Discourse, Dialog & Speech
マルチモーダリティを扱えるXMLでのアノテー
ションの活用
– 音声認識
– 談話生成
SALT
29-Nov-02
– VoiceXMLの次に来るもの?
情報処理学会デジタルドキュメント研究会
大阪
18
1.XML/XSL in the Dictionary: The Case of
Discourse Markers
D. Berger, et al.(Univ. of Potsdam)
XMLによる談話マーカ付き
辞書DiMLexを用いてXSL
によりHTMLへ変換し可読
性を向上
文章生成,文章理解システ
ムへの応用が期待
談話マーカ
接続詞ならびに接続
の働きをする語
29-Nov-02
We were in SoHo;
{nevertheless |
nonetheless | however |
still | yet}, we found a
cheap bar.
We were in SoHo, but we
found a cheap bar anyway.
Despite the fact that we were
in SoHo, we found a cheap
bar.
Notwithstanding the fact that
we were in SoHo, we found
a cheap bar.
Although we were in SoHo,
we found a cheap bar.
情報処理学会デジタルドキュメント研究会
大阪
19
2.XiSTS – XML in Speech Technology
Systems
M. Walsh, et al.(Univ. of College Dublin)
音声認識のための3つのサブシステムにXMLを活
用
– 音韻認識 LIPS
Network Generatorによる音素配列オートマトンの
生成とXML記述
– 音声合成 REFLEX
シラブル辞書の生成
辞書エントリをXML化
– 辞書生成 T-REX
異なる音韻特徴セットの記述をXMLで作成
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
20
LIPS
Network Generator
による音素配列オート
マトンの生成
パージングされ候補の
音素配列が決定
[S]
XML化され(次のスラ
イド参照),REFLEXへ
の入力となる
29-Nov-02
音素配列オートマトン
alveolar ○ approximant
approximant ○ voiceless
voiceless ○ alveolar
[r]
[S]
[vowels]
[n][m]
fricative ○ palato
palato ○ voiceless
voiceless ○ fricative
情報処理学会デジタルドキュメント研究会
大阪
21
音素配列オートマトンのXML表現
<phonotactic_automaton language=“english”>
<arc position=“o1” voweltrans=“false” initial=“true” root_final=“false” suffix_final=“false”
internal=“false”>
<start_node>1</start_node>
<end_node>2</end_node>
<phonemes><phonemeSymbol>S</phonemeSymbol>
<overlapConstraint>
<ranking>3</ranking>
<feature_info1><feature_name>fricative</feature_name></feature_info1>
<feature_info2><feature_name>voiceless</feature_name></feature_info2>
</overlapConstraint>
<overlapConstraint>
<ranking>2</ranking>
<feature_info1><feature_name>palato</feature_name></feature_info1>
<feature_info2><feature_name>voiceless</feature_name></feature_info2>
</overlapConstraint>
<overlapConstraint>
<ranking>2</ranking>
<feature_info1><feature_name>fricative</feature_name></feature_info1>
<feature_info2><feature_name>palato</feature_name></feature_info2>
</overlapConstraint>
<typical_duration>50</typical_duration>
<threshold>6</threshold>
</phonemes></arc>
</phonotactic_automaton>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
22
REFLEX, T-REX
<syllable>
So:n
<onset type=”first”>
<segment phonation=”voiceless”
manner=”fricative” place=”palato”
duration=”null”>S</segment>
</onset>
<nucleus type=”first”>
<segment phonation=”voices”
manner=”vowellike” place=”back”
XML化された特徴ベー
height=”mid” roundness=”round”
スのシラブル辞書を生
length=”tense”duration=”null”>o:
成(REFLEX)
</segment>
</nucleus>
音素の特徴記述は
<coda type=”first”>
ユーザによってカスタマ
<segment phonation=”voiced”
manner=”nasal” place=”apical”
イズされ新たな辞書を
生成(T-REX) </coda> duration=”null”>n</segment>
</syllable>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
23
3.SALT: An XML Application for Web-based
Multimodal Dialog Management
K. Wang(Microsoft Research)
SALT(Speech Application Language Tags)
– Web上での分散環境におけるマルチモーダルな対話処理システムの
ためのXMLベース言語
– プログラミング言語に依存せずHTML,XMLに対話処理のインタ
フェースとして埋め込み可能
マルチモーダル
– GUI環境において多様な方式でユーザが入力
– 音声入力,テキスト入力,マウスでのイベント通知など
Webページ単位での制御フロー
データと表示を切り離すことでのモジュール性の向上
対話の解釈にセマンティックオブジェクトを用いたOOモデルを採用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
24
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
25
プロンプトオブジェクトのXML表現
<input name=”origin” type=”text” />
<input name=”destination” type=”text” />
<input name=”date” type=”text” />
…
<prompt …> Do you want to fly from
<value targetElement=”origin”/> to
<value targetElement=”destination”/> on
<value targetElement=”date”/>?
</prompt>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
26
SALTフォーラム
http://www.saltforum.org/
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
27
セッション4:Semantic Web
NLPに用いるメタデータは汎用性や流通性か
ら考えるとSemanticWebでの標準スキーマ
への準拠が妥当
SemanticWebにおけるオントロジの洗練や
メンテナンスにNLPの手法が適用(例:多義
性解消,オントロジ等の知識獲得)
エージェントのプロファイリングにIRの成果を
適用
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
28
1.Annotating the Semantic Web using
Natural Language
B. Katz(MIT Artificial Intelligence Lab.)
STARTシステム
人間が
SemanticWeb
に自然言語で質
問し満足できる回
答を得るための
アノテーションの
しくみをRDFに実
現
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
29
RDFでのプロパティ設定
nlアノテーションを付けたCIA World Factbook
<rdfs:Class ID=“Country”>
<rdfs:comment>A Country in the CIA
Factbook</rdf:comment>
</rdfs:Class>
<rdf:property ID=“population”>
<rdfs:domain rdf:resource=“#Country”/>
<rdfs:range rdf:resource=“xsd:string”/>
<nl:ann text=“Many People live in ?s”/>
<nl:ann text=“population of ?s”/>
<nl:gen text=“The population of ?s is ?o”/>
</rdf:property>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
30
インフォメーションアクセススキーマ
多様な自然言語の質問に応答するためのメタ記述
<nl:InformationAccessSchema>
<nl:ann>$country-1’s $att is larger than $country-2’s
$att</nl:ann>
<nl:pattern>?x a :Country</nl:pattern>
<nl:pattern>?x map($att) ?var-1</nl:pattern>
<nl:pattern>?y a :Country</nl:pattern>
<nl:pattern>?y map($att) ?var-2</nl:pattern>
<nl:action>display(gt(?var-1,?var-2))</nl:action>
<nl:mapping>
<nl:hash variable=“$attribute”>
<nl:map value=“population”>:population</nl:map>
<nl:map value=“area”>:area</nl:map>
...
</nl:hash></nl:mapping>
</nl:InformationAccessSchema>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
31
プランスキーマ
質問にどのような手順で応答するのかを手続き
的に記述
<nl:InformationPlanningSchema>
<nl:ann>distance between $country1 and $country2</nl:ann>
<nl:plan>?x a :Country</nl:pattern>
<rdf:seq>
<rdf:li>what is the capital of $country1 := ?capital1</rdf:li>
<rdf:li>what is the capital of $country2 := ?capital2</rdf:li>
<rdf:li>what is the distance between ?capital1
and ?capital2 := ?distance</rdf:li>
</rdf:seq>
</nl:plan>
<nl:action>display(?distance)</nl:action>
</nl:InformationPlanningSchema>
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
32
START Webサイト
http://www.ai.mit.edu/projects/infolab/
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
33
3rd Workshop on NLP and XML
(NLPXML-2003)
29-Nov-02
情報処理学会デジタルドキュメント研究会
大阪
34