講義3

Transcript 講義3

Chapter 6
專利自動摘要方法與範例
了解專利文件詞彙擷取與Text mining之前處理
探討關鍵詞彙辨識與關鍵字詞整併技術
討論專利文件段落分群與專利文件摘要之呈現
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-2
根據世界智慧財產組織(WIPO, 1996)指出，專利資訊
中含有約全世界90%~95%的商品化研發成果。
相對於其他技術報告或期刊報導，專利文件是唯一能
夠完整揭露核心技術的知識文件。
只要公司能善用專利資訊，將可以節省40%的研發成
本以及縮短60%的研發時程。
因此，專利文件在知識經濟的時代扮演著極為重要的
角色。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-3
6.1
文字探勘與文字摘要 1/2
利用文字探勘技術，希望能從專利文件中的描述
(Descriptions) 萃取出最重要的概念段落、獨立項
(Independent claims)以及專利圖檔(Images)等資訊來
產生一文字形式之簡短摘要。
幫助專利工程師或是領域專家等進行快速專利文件的
導讀，以有效掌握大量專利文件的要點。
文字探勘主要是藉由文字集資源中擷取出訊息來發現
潛在的、未知的及有用的資訊。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-4
6.1
文字探勘與文字摘要 2/2
隨著專利分析的蓬勃發展，不同於過往以人力進行專
利分析，取而代之的是運用資訊科技來製作專利地圖
或是專利內容的解析。
就專利文件的分析而言，其運用到了資訊檢索、內容
摘要、主題歸類與分類等，幾乎都跟文字探勘的概念
不謀而合。
將文字探勘應用在專利文件自動摘要的功能，旨在提
供讀者專利文件的簡要大綱，讓使用者能快速瀏覽、
閱讀並理解專利文件中的主旨。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-5
6.2
專利摘要方法 1/10
文件自動摘要主要包含兩大主題，分別是「關鍵字擷
取」以及「摘要呈現」。
在關鍵字擷取部分是使用TF-IDF為基之技術來統計
出現在文件中次數較高之關鍵詞彙。
而摘要呈現乃包含文字形式之摘要和圖形形式之摘要
呈現，文字形式之摘要是透過關鍵字擷取階段中所取
出之關鍵詞彙來衡量文件中每一段落之重要性，再以
摘要模板呈現。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-6
6.2
專利摘要方法 2/10
在關鍵字擷取部分有兩大流程，分別為文件內容前處
理以及關鍵詞彙辨識。
文件內容前處理包含斷詞、去除停字、詞性解析和字
詞還原等步驟，此為關鍵詞彙辨識前之預備動作，可
有效提升系統在辨識過程之效率。
關鍵詞彙辨識則是利用TF-IDF為基之技術來統計文
件中出現頻率較高之單字詞，再利用演算法去擷取出
多字詞關鍵詞彙。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-7
6.2
專利摘要方法 3/10
文件內容前處理的四大步驟。
其一為斷詞，輸入之文件首先會以一些特定的斷詞符
號為基礎來將文件拆解成多個字節。
其二為去除停用字詞(Stop words)，即除去較不具有重
要性和影響文意之單字。
其三為詞性解析，文章中名詞跟動詞相對於其他的詞
性較能夠表達出文章的意涵。
其四為字詞還原，目的是要解決一字多形的問題，詞
彙在文章中可能會出現複數、動名詞、過去式等變化。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-8
專利摘要方法流程
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-9
摘要產出與呈現
主要的工作是先透過段落概念分群，將文件中擁有相
似概念之技術主題及段落分在同一群集中。
之後再用前一階段擷取出的關鍵詞彙來衡量每一群集
中各個段落的重要性，將高於門檻值的段落選為候選
摘要。
搭配事先規範的摘要格式，彙整所有候選摘要成系統
的文字型態專利摘要。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-10
由於一篇專利中可能包含數個概念，且這些概念可能
會散佈在不同的段落裡，因此利用段落分群的演算法
可幫助我們將相同概念的段落聚成一群。
首先，建立段落與重要詞彙的相關性矩陣，接著將完
全沒有關鍵字出現的段落先移除，以提高系統的效率。
並使用Cosine similarity計算兩兩段落間的相似度，此
方法稱為向量空間模式，在此被應用於尋找關聯性高
的段落。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-11
當兩兩段落之間出現相同的關鍵字詞越多，餘弦函數
值越高，則代表兩段落越相似。
以上步驟完成後，即可開始以K-Means演算法[13]進
行分群。首先給予一目標分群數k。
接著採用 RMSSTD （ Root Mean Square Standard
Deviation，組間相似度）和RS（R-Squared，組內相
似度）的概念來評估分群後的結果。
選擇組間差異極大化，但組內差異極小化之最佳分群
數k。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-12
段落分群結果示意圖
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-13
將段落進行分群後，接著是對段落的重要程度進行衡
量。
段落重要程度可以六個層次表示，分別：(1)關鍵詞彙
(Key-phrases) (2)題目詞彙 (Title phrases) (3)一般詞彙
(Phrase)(4) 主題句 (Topic sentences)(5) 領域詞彙
(Domain-specific phrases) 及 (6) 指標詞彙 (Indicator
phrases)。
從各群集中挑出分數最高的段落並納入摘要當中，所
以摘要將由所有群集的最具代表性段落所集合而成。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-14
以
關
落鍵
分字
數為
之基
計之
算群
示集
意中
圖各
段
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-15
6.3
以本體論為基之專利摘要 1/6
通常一篇文章都包含有一至多個主題概念（或稱主
旨），而主題概念將是我們用來選取摘要的重要決定
性因素。
藉由專利所屬領域(Domain)本體論所定義的重要概念
詞彙，來幫助使用者精確地擷取出文章的主題概念進
而獲取摘要所需要的資訊。
本體論可與TF-IDF方法結合，以利找出最具代表性
之領域關鍵詞彙，以利正確摘要之產出。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-16
6.3
以本體論為基之專利摘要 2/6
本體論 (Ontology) 的模型是由領域概念 (Domain
concepts)所組成的樹狀架構，意即每一樹狀分支代表
著一個概念主題。
圖 6.6 原始
文件有對應
到之節點
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-17
6.3
以本體論為基之專利摘要 3/6
文件中的關鍵字詞分別以本體論方法以及TF-IDF方
法中擷取出來後。
接著，針對兩者中有重複到的關鍵字詞部分進行整併，
而取得文件中所有的關鍵字詞之聯集。
隨後，再將此聯集的關鍵字詞利用演算法找出文件中
重要的多字詞組合。
共同之關鍵字詞
本體論所提
供之關鍵字詞
TF-IDF所提
供之關鍵字詞
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
圖 6.7 關鍵字
詞整併示意圖
6-18
6.3
以本體論為基之專利摘要 4/6
重要度的計算必須要分別考量句法結構特性
(Syntactic)和語意特性(Semantic)兩大類。
「結構」因子，使用樹狀結構上的差異(Height)來判
斷節點是否具有子樹，若該節點擁有子樹，則必須再
計算子樹的深度或是階層層數(Height)。
「語意」因子，整個本體論可視為多支子樹所構成的
集合，其中每支子樹都代表著知識領域中的某一概念。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-19
以專利全文比對樹狀節點之結果
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-20
以本體論為基之中各段落分數之計算示意圖
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-21

講義3

Transcript 講義3

Directory