PowerPoint 簡報

Download Report

Transcript PowerPoint 簡報

Semantic Processing &&
Semantic Web Service
陳文鋕
Agenda

語意理解搜尋引擎(Semantic Search;Q&A)
 緒論
 解決方法
 瓶頸問題

Semantic Web Service
 Semantic
Web + Web Service
 Business Prospect
 Securities
緒論

語意理解搜尋引擎 (Semantic Search
Engine/Question Answering)
 使用者以自然語言問句來發問
 系統自動找尋出問題的答案,並且回應給使用
者
 系統背後有一知識庫做為回答來源。知識來源
也可為網際網路上的網頁內容。
 依據知識領域、問句類型、擷取答案所需理解
程度等而有不同的難易程度
語意理解搜尋引擎-自然語言詢答技術
詢答技術 - 依領域區分
 限定領域

 常見問答集

(FAQ)
網際智慧(花旗資訊, www.cititech.com.tw)
 知識表達標註


(Annotation, Ontology)
START (MIT, www.ai.mit.edu/projects/infolab/)
非限定領域 (Open Domain)

Ask Jeeves (www.ask.com)
國內外相關研究技術

Ontology Annotation
 將文件來源標示成另一種知識表達結構,運用此知識結
構來找到查詢問句之答案
 無領域限制的Ontology:


WordNet(英文),HowNet(中文)
FAQ Corpus
 大量蒐集常見問題,分析常見問題之語法架構、關鍵詞,
標註常見問題集結構
 由問題找答案(Ontology),比較難;由問題比對相似問
題(FAQ),比較容易,因此正確率比較高

Heuristic Algorithm
 將問句與文件內容依詞彙解析,給予不同詞彙不同權重
計算文件內容句子與問句之媒合度
語意理解搜尋引擎:我們的做法
FAQ Corpus Analysis
 Information Extraction / Ontology
Annotation
 Heuristic Passage Retrieval/Matching

語意理解搜尋引擎解法:
FAQ Corpus Analysis

FAQ Corpus分析、建構
 我們蒐集12類ACT實驗室常見問題集
 出差結報
 物品申請
 教育訓練
 ISO稽核
 請假規定
 KM相關技術
 論文
 專利
 實驗室設備
 科技專案
 創新前瞻計劃
 ACT外部問題
 每一類皆有約100種問題與相對應的答案,共1200個FAQ
FAQ Corpus的範本

FAQ Corpus範例
 科技專案的論文那裡可以找到?
 國外出差及預支旅費申請表該如何填寫?
 同仁公務出國之作業流程為何?
 耗材費用的結報需至哪裡申請?
 物品交貨後之驗收程序為何?
 ISO的專案建構管制作業流程?
 客戶服務人員要負責哪些項目?

將FAQ Corpus拆解成主詞、屬性詞 、意圖
詞、疑問詞
FAQ Corpus欲克服的技術問題?
問句的Parse?
 同一個問句有多種問法?
 以空間換取時間?
 查詢語句如何比對問題庫裡的問題?

FAQ Corpus的解法(Cont.)

問句的Parse
 運用CKIP
AutoTag先作第一階段的斷詞
 科技(Na) 專案(Na) 的(DE) 論文(Na) 那裡(Ncd)
可以(D) 找到(VC)

主詞的Heuristics



找到
動詞 | 動詞+名詞
疑問詞的Heuristics

論文
接在主詞後,通常有一DE(的,得,之,地)區隔,名詞 | 名詞+名
詞
意圖詞的Heuristics


名詞 | 名詞+名詞 | 形容詞+名詞
屬性詞的Heuristics

科技專案
那裡
NCD
註. CKIP AutoTag為中研院發展之中文斷詞與詞性標註工具
FAQ Corpus的解法(Cont.)

同一個問句有多種問法
 科技(Na)
專案(Na) 的(DE) 論文(Na) 那
裡(Ncd) 可以(D) 找到(VC)
給我科專發表的論文
 哪裡可以找到科專的論文
 科專的論文何處可以找到


類同義詞的解法
 參考辭典;參考知網(How-Net)
 自己編ACT
Domain類似詞辭典;同義詞對應到
Unique Concept ID
FAQ Corpus的解法(Cont.)

以空間換取時間
 搜尋引擎的最基礎技術
 運用雜湊技術(hash
table)紀錄各個詞與相對
應的Concept
 主詞、屬性詞 、意圖詞、疑問詞經由雜湊函數
得到索引檔的紀錄位置
FAQ Corpus的解法(Cont.)

查詢語句如何比對問題庫裡的問題?
Question
CKIP
Autotag
Heuristic
extraction
主詞
意圖詞
屬性詞
疑問詞
FAQ Corpus Index
ConceptID
Output
Similar
Question
Hash
語意理解搜尋引擎我們的解法:
Information Extraction / Ontology Annotation

Ontology Annotation
 從文件來源中,讓機器萃取出
人(Human)Concept、
 事(Event)Relation 、
 時(Time)Concept 、
 地(Place/Organization) Concept 、
 物(Entity) Concept

 經由人事時地物的擷取來建構更靠近人類知識
的表達方式
 Ontology construction from information
extraction and How Net
Ontology Annotation文件範本

國宴菜單出爐 嘉義市雞肉飯方塊酥入列【中央社嘉義市
十二日電】

為了歡迎非洲查德總統德比來台訪問,總統府明天晚上將在嘉義市衣
蝶百貨﹁嘉園酒樓﹂舉行國宴,國宴的菜單也已經確定,嘉義地方有
名的雞肉飯、方塊酥都列入菜單,也有白河的蓮子芋泥;由於查德屬
於回教國家,因此菜單中沒有豬肉。
嘉義市政府表示,查德總統德比這次是繼一九九七年之後的第二度訪
問我國,在嘉義地區的行程,預訂將參觀嘉義縣大林鎮一心蘭園、嘉
義市交趾陶館、射日塔、史蹟資料館,明天晚上陳水扁總統將在嘉義
市衣蝶百貨﹁嘉園酒樓﹂設宴款待這位遠道而來的貴賓。
嘉園
酒樓協理朱再生表示,力霸飯店、嘉園酒樓為了這場國宴,大廚們已
經全部集中在嘉義市。由於查德屬於回教國家,不吃豬肉,因此菜單
中沒有豬肉;加上當地居民也不吃帶殼的食物,因此螃蟹、蝦等食材,
都不列入菜單。
這場國宴是由嘉園酒樓行政主廚劉邦傳掌廚,除了嘉義雞肉飯之外,
餐前酒也將嘉義方塊酥列入其中,另外還有咖哩雞酥餅、椰子紅豆糕、
糖醋鯛魚片、中式羊小排、白河蓮子芋泥及寶島三色果、梅芳茗茶等
料理。


Ontology Annotation知識存在形式
總統
Document
人
事
時
who
德比
舉行
why
歡迎
where
十三日
查德
地
嘉義市
物
菜單
IDX
非洲
國宴
which
how
問句
語意理解搜尋引擎我們的解法:
Heuristic Passage Retrieval/Matching

以句子(Passage)為單位
 以文章中每一句子做為候選答案
 計算候選答案為正確答案的可能性
找尋文章中出現問句關鍵詞的位置
 計算候選文句和問句的相似度

出現問句關鍵詞時加分
 問句中專有名詞給分加重
 候選文句出現符合問句意圖詞者優先

Passage Semantic XML化


“人”、“事” 、“時” 、“地” 、“物”的
擷取
立法院法制委員會從10月30日開始審查總統府及國安會預算,為期五天,原訂第二天討論的議程,
由於總統府秘書長陳師孟無法配合出席,造成委員不滿。對於立委質疑國策顧問的功能,洪秀柱並
舉出國策顧問金美齡在助選時表示,看到中華民國國旗就倒胃口,來質問總統府秘書長陳師孟,這
樣的國策顧問適任嗎?陳師孟的回答卻當場讓委員發飆。
Statistical Chinese Parser

一個 PCFG 中 G 的符號系統包括以下成分:




0.0008333333 S --> ap_S_1_+ap
0.1504166667 S --> dj_S_1_+dj
0.0045833333 S --> np_S_1_+np
0.0016666667 S --> vp_S_1_+vp
0.8425000000 S --> zj_S_1_+zj
0.1250989707 ap_S_1_+ap --> a
0.0009501188 ap_S_1_+ap --> a a
0.0001583531 ap_S_1_+ap --> a d a
0.0001583531 ap_S_1_+ap --> a u a
0.0001583531 ap_S_1_+ap --> a u d
0.0006334125 ap_S_1_+ap --> a v
S ap_S_1_+apa
= 0.00083 x 0.12509
Parser Algorithm
我/r 是/v 學生/n
0.6 S --> NP1
0.4 S --> VP1
(1) P(S)=P(S->NP1) * P(NP1
--> NP2 VP2) * P(NP2 --> r ) *
--------------------------------P(VP2 --> v n)=0.6*1*1*1=0.6
NP2 --> r {.vn,1,1}
1.0 NP1 --> NP2 VP2 VP2 --> v n {.r,2,3}
1.0 NP2 --> r
VP3 --> r v {.n,1,2}
1.0 VP2 --> v n
NP3 --> n {.rv,3,3}
(2) P(S)=P(S->VP1) * P(VP1
--> VP3 NP3) * P(VP3 --> r v )
* P(NP3 --> n) =0.4*1*1*1=0.4
S
1.0 VP1 --> VP3 NP3 ----------------------------------1.0 VP3 --> r v
NP1 --> NP2 VP2 {.,1,3}
1.0 NP3 --> n
VP1 --> VP3 NP3 {.,1,3}
NP1
NP2
VP2
----------------------------------SNP1 {.,1,3} …. (1)
r
v
n
SVP1 {.,1,3} ….. (2)
我
是
學生
中文問句解析

參考ART table,實做問句的問意與意圖解析
 Question



Type (問句類型) ==>有3大類....
特指問句:誰買東西給你?
選擇問句:小明還是小強翹課?
是非問句:你喜不喜歡我的作品?
 Question
Intention (問句意圖) ==>問數字,人名,時
間…
 Question
 Question
 Question
 Question
 Question
Subject(問句主詞) ==>ACT有什麼??
Subject Modifier(問句主詞修飾詞)
Verb(問句動詞) ==>國外出差如何結報
Object (問句受詞)
Object Modifier (問句受詞修飾詞)
同指涉(Co-Reference)/省略詞(Zero Anaphora)


副執行長羅德和4月14號來實驗室檢視語意
處理技術,他覺得我們技術很紮實,也有 語意
羅德和
語意處理技術
產業價值 Co-Reference
Zero 處理
Co-Reference
Anaphora技術
運用有限狀態機(Finite State Machine)與中文文
法規則來解
Cba
Nh
T
P

If (SC1 + 的(D) + SC2) in front Sentence
Then ZA = SC2
For Example:
 南投縣民政局(Loca)的(DE)三十(Neu)名(Nf)掃墓工(Thin)
 不僅(Cbb)(#ZA#)遲到(VH)早退(VH)
--------------------------------------------------------------------- 高雄市(Loca)的(DE)一百二十(Neu)名(Nf)臨時工(Thin)防治(VC)登革熱(Thin)
 (#ZA#)常常(D)與(P)民眾(Thin)發生(VJ)口角(VA)
系統可以精準的答案回答問題“副執行長對語意
處理技術的評價”
 紮實又有產業價值
ACT thesaurus



參考中文常識字詞詞庫(How Net)建構ACT Thesaurus
依詞的“義元“產生詞意相似度矩陣—同義詞與近義詞
網狀的中英文概念知識庫
以義元定義概念識別概念與詞彙間的多對多關係
 義元的階層關係識別概念之間意義的遠近關係


Thesaurus中詞彙定義的表示法


CT {Synset} DEF  ex:手機 { 大哥大 手機 } [用具 tool];<S>[交流
communicate]
義元分類及其表示法

基本義元


語法義元


[實體 Entity];[事件 Event];[屬性 Attribute];[屬性值 aValue];[數量
Quantity];[數量值 qValue];[次要特徵 SecondaryFeature]
[語法 Syntax]
關係義元
[動態角色 EventRole]
;[動態屬性 EventFeatures]

義元
詞
彙
概
念
HTML Table XML化

辨識Html表格(table)中欄位與內容
<成人>
<單人房>
<經濟艙>
<售價>12,600
表格擷取
表格
基本形態
之表格
表格解讀
Field-Content
判定
表格形態判定
XML
表格
Field-Content
邊界判定
表格間邊界判定
文章“時間”理解與推論

經發會於2001年8月10號開始,為期11天,
第一天討論兩岸貿易,最後五天討論國內
經濟發展,…………
Q:經發會幾號進行國內經濟討論?
A:2001年8月16號到8月20號進行國內經濟討論
Q:經發會何時結束會議?
A:2001年8月20號
Passage/Answer Retrieval Architecture
Question
Parser
Question
AutoTag
YES
Heuristics
Matching
ART Table
Found in
ART Table
Semantic
XML
NO
& Named Entity


Passage2XML
詞義比對
語意Heuristics
AutoTag
Key words
concept matcher
•人名辨識
•組織名辨識
Tokens and Tags
關聯辭庫
•時間理解與推論
•事件辨識
老師
教師 0.95
& Named Entity
ACT
thesaurus
•物品辨識
How Net
Document Source
國外相關應用

Dell




Dell欲減少線上支援的成本,卻仍必須提供高品質的客戶服務。因
此採用動態線上自動服務系統(ask Dudley),提供客戶服務。
不但提供了卓越的線上顧客支援,也降低了服務的成本。現在Ask
Dudley每月收到超過600,000個查詢,幫助Dell識別趨勢與支援一
般顧客的問題。
做法:AskJeeves研發團隊開發,將大量Dell營運常見問題透過
Corpus分析、歸類來檢索答案
Ford



目前線上汽車產業已經蔚為風潮,漸漸成為顧客研究與購買汽車
的主要管道,Ford不得不應時勢所趨,以線上解決方案Ask Ford
建立顧客忠誠與銷售汽車。
Ask Ford幫助Ford公司整理顧客的查詢,了解網站內容重要性程
度,做為改版的依據,並可以知道顧客真正關心的議題。
做法:AskJeeves研發團隊開發,Ford以簡單易用的自然語言問
答系統幫助顧客線上瀏覽並且幫助Ford識別重要的客戶。
研發成果/技術運用之規劃

Effective Enterprise Question Answering System
 ACT


e Service
電子商務技術實驗室24小時的虛擬客服人員暨實驗室貼心的員
工服務代理人,我了解實驗室你的需求,歡迎你發問實驗室相
關問題我會理解問題後自動地回覆答案!
Cross Domain Evidence and Chinese News
powerful and flexible search
 Cross
Domain Question Answering based on
Chinese News

新聞中心的虛擬客服人員,歡迎你發問,我看得懂中文文字
我會依據新聞資料理解問題後自動地回覆精確答案!
ACT e-service

KISS


自然語言問句來發問ACT相關問題。
自動搜尋問題的答案,正確回應給使用者。
KISS可以回答的問題
KISS系統架構
Cross Domain Evidence and Chinese News powerful and
flexible search (Chinese News aNswers)
聯想的IT部門今年產值有多少?
語意理解搜尋引擎系統架構圖
Users
FAQ
Corpus
FAQ
Tools
YES
Semantic
text query
Keyword
Search
Found in
FAQ corpus
NO
Intention Could
be extracted
FAQ
Editor
Keyword
extraction
NO
NO
YES Could be Found
in Ontology
物(Entity)
Document
Clustering
Information
Extraction
時(Time)
Document
Source
事(Event)
YES
人(Human)
地(Place/Organization)
Semantic Web Service
Semantic Web + Web Service

Semantic Web
 全球資訊網上的資料,變成電腦能理解的資料型態
 XML 語言的運用
 資訊描述架構 RDF(Resource Description Framework)
 知識本體(ontology learning)
 推論引擎(Inference Engine)
 片面理解 (Partial Understanding)
 授信引擎(Trust Engine)等觀念或工具。

Web Service



透過URI方式存取的軟體程式,如透過XML定義、描述或搜尋其
介面與結合方式(binding),
同時也藉由以網際網路為基礎的通訊協定,以XML訊息與其它軟
體程式溝通。
應用系統間經由網路取用軟體元件,彼此透過標準相互連結。
The Big picture of Semantic Web
Ontology Learnging

Learning Ontologies using Wordnet


Using clustering for Ontology Learning


利用一conceptual clustering methods自動或是半自動建立
ontology。自動方法主要包含兩個重要的部分—距離計算方法和
分類演算法。
Ontology learning for information extraction & retrieval



從既有的generic ontology如Wordnet來自動的粹取關聯詞彙以建
構ontology。
提出資訊擷取的演算法或經驗法則來萃取文件本文的概念與概念
間的關聯。
在一些新聞文件最常見的處理手法是擷取人、事、時、地、物等
名稱(Named Entity),並在事件擷取上標註關聯。
Ontology learning from ground instances

運用Instance based與Case Based Reasoning的方式擷取概念間
的關聯。
The Question of Semantic Web

Question:
 如果機器無法自動標註語意標籤(運用Ontology
Learning技術),那Web設計開發者為什麼要
“標註語意“?
 全世界30幾億的Web Page如何處理?

May by the answer is……
 找一個小領域,確實用Semantic
Web與Web
Service來開發Web系統,並點出效益
Web Services Basic Stack
Publish, Find, Use Services:
UDDI
Formal Service Descriptions:
WSDL
Service Interactions:
SOAP
Universal Data Format:
XML
Ubiquitous Communications: Internet
UDDI : Universal Description Discovery and Integration
WSDL: Web Service Description Language
SOAP : Simple Object Access Protocol
Simple, Open, Broad Industry Support
網路應用技術發展趨勢
第一代網路應用技術
內容服務
資料展現
瀏覽器
Web Technology為
基礎
第二代網路應用技術
交易服務
交易與服務
軟體元件
軟體元件應用骨架
為基礎
Web
Services
Semantic Web
與協同運作協定為
基礎
下一代網路應用技術
整合服務
自動化與個人化
Why Web Services?
Name
No.
Zip
State
OK
browser
Before
Client AP
Name
No.
Zip
State
OK Cancel
Mobile Device
Na
No.
me
Zip
Stat
OKCancel
e
Legacy
DBMS
Cancel
Presentation
Services
browser
After
DBMS
Business
Logic
Services
Data
Services
DBMS
DBMS
Presentation &
Process
Services
Web
Services
Data
Services
Web Services Integration Scenario
Flexible Device Access
Application Service
Provider
Service Integrator
Web Services
Web Services
Web Services
Web Services
Software Developer
Web Services
Web Services
Web Services
Web Services
Web Services
Does it Matter How the Service is
Implemented?
Services
Business
Objects
Product Availability
Let me check
if we have it in
stock
Reserve Stock
Product
We can
deliver it
on
Monday
Schedule Delivery
ERP
Component
Delivery Status
Delivery
Create Order
Order
Your order
number is
2321344
Amend Order
Interfaces
Implementation
Source: CBDi
Service Based Business
Credit
Design
Call Centre
Manufacturing
Logistics
Finance
Source: CBDi
Consequences of Islands of Automation
Inaccurate
Information
Customer
Data
Synchronisation
Errors
Processing
Delays and
Errors
Manual
Processing
Overheads
Source: CBDi
Enterprise Application Integration (EAI)
Solution
Credit
E-Commerce
System
Customer
Logistics
Manufacturing
Billing
Logistics
Logistics
Source: CBDi
What About The Virtual Supply Chain?
Credit
E-Commerce
System
• Visibility?
• Integrity?
• Efficiency?
Potential
Customer
Satisfied
Customer
email
Logistics
email
Manufacturing
Billing
Logistics
Logistics
Source: CBDi
Supply Chain Visibility
Supplier
ERP
MRP
Manufacturer
Planning
CRM
..
.
Order
ERP
MRP
Manufacture
MRP
Manufacture
Product
Management
Logistics
ERP
ERP
Order
SCM
.
.
.
Customer
Inventory
Shipment
SCM
.
.
.
CRM
Inventory
Shipment
Product
Management
SCM
.
.
.
CRM
Security







Identification: I’m Alice.
Authentication: I can prove I’m Alice.
Authorization: Alice can read but can’t write.
Integrity: No one change this during transmission.
Confidentiality: No one read this during
transmission.
Audit: All transactions are recorded for checking.
non-repudiation: Yeah I can prove that you did do
that to me.
Q&A
國內外相關研究單位

國外
 馬里蘭SHOE研究計劃
http://www.cs.umd.edu/projects/plus/SHOE/search/
 MIT
START研究計劃
http://www.ai.mit.edu/projects/infolab/
 微軟亞洲研究院
http://research.microsoft.com/asia/

台灣
 中研院資訊所智慧型代理人實驗室
http://www.iis.sinica.edu.tw/
 台大自然語言實驗室
http://nlg3.csie.ntu.edu.tw/
Reference
http://www.webservices.org
 http://www.xmethods.com
 http://www.webservicesarchitect.com
 http://java.sun.com/webservices/
 http://www106.ibm.com/developerworks/webservices
 http://msdn.microsoft.com/webservices
 http://www.cbdiforum.com
