Transcript PowerPoint
セマンティックWeb・
メタデータ勉強会
国立情報学研究所 実証研究センター 助手
大向 一輝
自己紹介
大向 一輝(おおむかい いっき)
国立情報学研究所 実証研究センター 助手(2005.4〜)
研究テーマ
情報共有
セマンティックWeb・メタデータ
Blog・SNS・Web2.0
Semblog: RDFメタデータを用いたWebコンテンツの再編
集・共有プラットフォーム
情報処理推進機構(IPA)未踏ソフトウェア創造事業・
スーパークリエータ
有限会社グルコース CEO
背景
セマンティックWeb研究の発展
International World Wide Web Conference(WWW)では
1/3以上の発表がセマンティックWeb関連
International Semantic Web Conference(ISWC)
「1st WWWと同じくらいの盛り上がり」(TBL)
セマンティックWeb技術への需要
言葉の通じない他者(?)とのコラボレーションの必要性
電子政府(EU)
Eコマース(欧米)
5年・1億ユーロの研究ファンド [ESWC05]
背景
Web 2.0の世界
CMSやWebサービスがWebの構造を根本的に変える
XML化されたWeb
RSS / FOAF / Microformats(XFN / hCal)
APIを持つWeb
Blog / SNS / Social Tagging / S**
ユーザの行動の変化
コミュニケーションの場としてのWeb
量が質を生み出す
Webの未来
Web2.0+セマンティックWeb=?
コミュニティベースのSemantics
テクノロジーベースのSemantics
真の目的は?
生活をよくする,楽にする
「○○したい」のオーバーヘッドを下げる
「検索」はこの問題の一部でしかない
この勉強会では
セマンティックWeb研究のいまを知る
輪読
文献紹介
Web 2.0のいまを知る
サービス紹介
一緒に使ってみる
セマンティックWeb研究の若手・中核的コミュニティを作
る
共同研究?
Web 2.0の世界に殴り込み?
A Semantic Web Primer
著者
Grigoris Antoniou
University of Crete, Greece
Rule
Frank van Harmelen
Free University, Holland
内容
セマンティックWebの教科書(学部生向け)
基本的なトピックはすべて収録
とにかく用語を押さえる!
A Semantic Web Primer
Chapter 1
The Semantic Web Vision
Today’s Web
p.1
現在のWebコンテンツは人間のためのもの
動的生成のコンテンツでもDBの構造をそのまま表現しているもの
は少ない
Webの使われ方
検索・新たな情報の作成,コミュニケーション,ショッピング…
ほとんどの作業は手でフォームを埋める
検索エンジン
Web上の活動はソフトウェアによって十分に支援されてい
るとは言えない
検索エンジンのおかげで何とかなっているが… (e.g.
Google, AltaVista, Yahoo)
検索結果は多数・役に立つものは少数(High recall, low
precision.)
何も出てこないこともある(Low or no recall)
検索結果のクオリティは入力したキーワードに依存
検索者のセンスが必要
検索結果=1つのWebページでしかない
人間が検索結果を読み解いたりまとめる必要がある
検索結果を他のアプリケーションで再利用しにくい
Webの問題点
コンテンツの意味がソフトウェアに理解できない:
semanticsの欠如
2つの文の違い:
I am a professor of computer science.
I am a professor of computer science,
you may think. Well, . . .
自然言語アプローチの限界
セマンティックWebアプローチ
machine-processableな表現でWebコンテンツを表現し直
す
知的処理を適用し,Webコンテンツを活用する
既存のWebの代替物ではなく,進化
セマンティックWebがもたらすもの(1)
p.3
Knowledge Management
組織内の知識の獲得・アクセス・管理
大規模なビジネスでは最重要な活動: 内部知識=知的資産
グローバルな組織ではとくに重要
ほとんどの情報は形式化・組織化されていない(テキスト・音声・映
像)
問題点
検索
キーワードベースの検索エンジン
情報抽出
閲覧・検索・翻訳・まとめは人間の作業
情報のメンテナンス
用語の統一・古い情報への対処
可視化
見方を自分で定義できない
セマンティックWebがもたらすもの(1)
個々の知識を概念ごとに組織化
知識のメンテナンスと発見を自動化
クエリーの拡張
複数の検索結果をまとめる
個人個人で情報の見方を定義できる
セマンティックWebがもたらすもの(2)
B2CのEコマース
ユーザの行動: オンラインショップにアクセス→商品を閲
覧→選択→注文
たくさんのショップを比較検討すればいいが,非常に時間
がかかる
Shopbots
ラッパーに依存: オンラインショップごとにプログラム
が必要
ショップの構成が変わったら?
テキスト処理による情報抽出
エラーが多い
すべての情報が抽出できるとは限らない
セマンティックWebがもたらすもの(2)
エージェントが商品情報(価格・納期など)や利用規約
(プライバシーポリシー)を自動的に比較
評判情報の取得
交渉までやってくれる
セマンティックWebがもたらすもの(3)
B2BのEコマース
現在はEDI(電子調達システム)が利用されている
クローズドな技術, エキスパートにしか利用できない
開発・保守が難しい
企業の組み合わせごとにプログラミングが必要
Webは電子調達インフラだが,EDIはWeb標準に従っていない
セマンティックWebにおけるB2B
オーバーヘッドの少ない契約プロセス
企業ごとの用語の違いはstandard abstract domain modelsによって
解決可能
データは変換・翻訳サービスを通じてやりとりされる
オークション・交渉・契約の見積はエージェントによって(半)
自動化
セマンティックWeb技術
Explicit Metadata(明示的なメタデータ)
Ontologies(オントロジー)
Logic and Inference(論理と推論)
Agents(エージェント)
p.7
HTML
p.8
Webコンテンツは人間向けに記述されている(ソフトウェア向けでは
ない)
HTMLはWebページ用言語のデファクトスタンダード
見た目を制御するための語彙(HTMLタグ)
<h1>川崎クリニックへようこそ</h1>
川崎クリニックは川崎市の○○にあります.治療は山田,鈴木,渋谷が担当します.
<h2>診察時間</h2>
月〜金 11:00 - 19:00<br>
土
15:00 - 19:00<br>
日・祝は休み<br>
ただし急患は随時受付
人間は問題なく読める
エージェントは...
場所がどこかがわからない
いつ開いているのかがわからない
明示的なメタデータ
エージェントが処理しやすいような表現
Metadata: data about data
データの「意味」を規定するデータ
セマンティックWebではテキスト操作に依存するのではな
く,メタデータの処理を行う
<company>
<location>川崎市</location>
<companyName>川崎クリニック</companyName>
<staff>
<therapist>山田</therapist>
<therapist>鈴木</therapist>
<secretary>渋谷</secretary>
</staff>
</company>
オントロジー
もともとは哲学用語
「存在の本質についての学問」
転じて
「ある概念についての明示的かつ定型的な仕様」
An ontology is an explicit and formal specification of a
conceptualization
p.10
オントロジーの基本
Terms(語) はあるドメインの重要な概念を表現する
e.g. professors, staff, students, courses, departments
Relationships(関係) は語と語の間をつなぐ: 典型的にはクラス階層
a class C to be a subclass of another class C' if every object in C is
also included in C'
e.g. all professors are staff members
Properties(プロパティー・属性)
e.g. X teaches Y
Value restrictions(値の制約)
e.g. only faculty members can teach courses
Disjointness statements(互いに素である状態)
e.g. faculty and general staff are disjoint
Logical relationships between objects(論理関係)
e.g. every department must include at least 10 faculty
クラス階層の例
University
People
Staff
Academic
Staff
Regular
Faculty
Staff
Student
Administration
Staff
Research
Staff
Tech Support
Staff
Visiting
Staff
Undergraduate
Postgraduate
オントロジーの役割
オントロジーは各人の(各エージェントの)ドメインに対
する共通理解を可能にする: semantic interoperability
専門用語間の意味の違いを埋める
複数のオントロジー間の相互マッピング
Web検索への適用
オントロジーは検索エンジンの精度向上に寄与
例:オントロジーを参照しているページだけを探す
一般的な情報・特化した情報を有効利用
検索に失敗した場合は,検索エンジンがユーザに対
してより一般的な検索語を提示
検索結果が多すぎる場合,より専門的な検索語を提
示
Web Ontology Languages (1)
RDF Schema
RDFはオブジェクトとそれらの関係を記述するための
データモデル
RDF Schemaは語彙を記述するための言語
RDFリソースの属性・クラスを記述
属性・クラスの階層関係を定義するための意味論を提供
Web Ontology Languages (2)
OWL
より表現力の高いオントロジー記述言語
クラス間の関係
e.g., disjointness
Cardinality(濃度?)
e.g. “exactly one”(ただ1つ存在する)
属性のタイプを定義
属性の特徴を定義 (e.g. 対称性がある)
論理と推論
知識表現のための形式言語
宣言的知識
エージェントは与えられた知識から自動的に結論を推論する
前提
prof(X)
faculty(X)
faculty(X)
staff(X)
prof(michael)
得られる結論:
faculty(michael)
staff(michael)
prof(X)
staff(X)
p.12
論理・推論とオントロジー
論理・推論は暗黙的なオントロジーを発見するために利用される
想定外の関係や不整合の発見
論理・推論はオントロジーよりも一般的
エージェントの意思決定や行動の選択に用いられる
論理・推論の表現力が高まるほど,結論を得るための計算コストが大
きくなる
計算不可能な状態になった場合,結論を得ることが不可能になる.
Explanations(説明):推論の各ステップをたどれるように
セマンティックWebエージェントの行動に対してユーザの確信度
を高める
p.14
エージェント
エージェントは自動的かつ能動的に動作する
オブジェクト指向・コンポーネント指向の発展形
セマンティックWebにおけるパーソナルエージェントの役
割
ユーザ情報・タスクの受け取り
Web情報の検索・他のエージェントとのコミュニケーション
ユーザの要求との比較,結論の選択
User
ユーザに返答
User
Agent
Browser
Search
Docs
Intelligent
Service
Docs
セマンティックWebエージェント技術
メタデータ
Webからの情報抽出・情報発見
オントロジー
検索・翻訳
他のエージェントとのコミュニケーション
論理・推論
情報の処理→意思決定
関連技術
エージェント通信言語
エージェントにおける確信度・目的などの形式的表現
ユーザモデル
The Semantic Web Layer Cake
セマンティックWeb環境を段階的に発展させる
レイヤー構成
基本原理:
下位互換性を確保
上位についても部分的に理解できるようにするべき
p.17
The Semantic Web Layer Cake
XML layer
基本文法として
RDF layer
事実を表現するデータモデル
シンプルなオントロジー言語としてのRDFS
Ontology layer
より表現力の高いオントロジー記述言語
W3C標準: OWL
Logic layer
オントロジー言語の改良
アプリケーションに特化した宣言的知識
Proof layer
証明の生成, 交換, validation
Trust layer
デジタル署名
推薦,エージェントの信頼性評価
本書の構成
1章 Semantic Webのビジョン
2章 XML
3章 RDF
4章 OWL
5章 ルール・推論
6章 アプリケーション
7章 オントロジー工学
8章 まとめ
付録 OWL Syntax