Transcript 講義3

Chapter 6
專利自動摘要方法與範例
了解專利文件詞彙擷取與Text mining之前處理
探討關鍵詞彙辨識與關鍵字詞整併技術
討論專利文件段落分群與專利文件摘要之呈現
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-2
根據世界智慧財產組織(WIPO, 1996)指出,專利資訊
中含有約全世界90%~95%的商品化研發成果。
相對於其他技術報告或期刊報導,專利文件是唯一能
夠完整揭露核心技術的知識文件。
只要公司能善用專利資訊,將可以節省40%的研發成
本以及縮短60%的研發時程。
因此,專利文件在知識經濟的時代扮演著極為重要的
角色。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-3
6.1
文字探勘與文字摘要 1/2
利用文字探勘技術,希望能從專利文件中的描述
(Descriptions) 萃 取 出 最 重 要 的 概 念 段 落 、 獨 立 項
(Independent claims)以及專利圖檔(Images)等資訊來
產生一文字形式之簡短摘要。
幫助專利工程師或是領域專家等進行快速專利文件的
導讀,以有效掌握大量專利文件的要點。
文字探勘主要是藉由文字集資源中擷取出訊息來發現
潛在的、未知的及有用的資訊。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-4
6.1
文字探勘與文字摘要 2/2
隨著專利分析的蓬勃發展,不同於過往以人力進行專
利分析,取而代之的是運用資訊科技來製作專利地圖
或是專利內容的解析。
就專利文件的分析而言,其運用到了資訊檢索、內容
摘要、主題歸類與分類等,幾乎都跟文字探勘的概念
不謀而合。
將文字探勘應用在專利文件自動摘要的功能,旨在提
供讀者專利文件的簡要大綱,讓使用者能快速瀏覽、
閱讀並理解專利文件中的主旨。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-5
6.2
專利摘要方法 1/10
文件自動摘要主要包含兩大主題,分別是「關鍵字擷
取」以及「摘要呈現」。
在關鍵字擷取部分是使用TF-IDF為基之技術來統計
出現在文件中次數較高之關鍵詞彙。
而摘要呈現乃包含文字形式之摘要和圖形形式之摘要
呈現,文字形式之摘要是透過關鍵字擷取階段中所取
出之關鍵詞彙來衡量文件中每一段落之重要性,再以
摘要模板呈現。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-6
6.2
專利摘要方法 2/10
在關鍵字擷取部分有兩大流程,分別為文件內容前處
理以及關鍵詞彙辨識。
文件內容前處理包含斷詞、去除停字、詞性解析和字
詞還原等步驟,此為關鍵詞彙辨識前之預備動作,可
有效提升系統在辨識過程之效率。
關鍵詞彙辨識則是利用TF-IDF為基之技術來統計文
件中出現頻率較高之單字詞,再利用演算法去擷取出
多字詞關鍵詞彙。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-7
6.2
專利摘要方法 3/10
文件內容前處理的四大步驟。
其一為斷詞,輸入之文件首先會以一些特定的斷詞符
號為基礎來將文件拆解成多個字節。
其二為去除停用字詞(Stop words),即除去較不具有重
要性和影響文意之單字。
其三為詞性解析,文章中名詞跟動詞相對於其他的詞
性較能夠表達出文章的意涵。
其四為字詞還原,目的是要解決一字多形的問題,詞
彙在文章中可能會出現複數、動名詞、過去式等變化。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-8
專利摘要方法流程
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-9
摘要產出與呈現
主要的工作是先透過段落概念分群,將文件中擁有相
似概念之技術主題及段落分在同一群集中。
之後再用前一階段擷取出的關鍵詞彙來衡量每一群集
中各個段落的重要性,將高於門檻值的段落選為候選
摘要。
搭配事先規範的摘要格式,彙整所有候選摘要成系統
的文字型態專利摘要。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-10
由於一篇專利中可能包含數個概念,且這些概念可能
會散佈在不同的段落裡,因此利用段落分群的演算法
可幫助我們將相同概念的段落聚成一群。
首先,建立段落與重要詞彙的相關性矩陣,接著將完
全沒有關鍵字出現的段落先移除,以提高系統的效率。
並使用Cosine similarity計算兩兩段落間的相似度,此
方法稱為向量空間模式,在此被應用於尋找關聯性高
的段落。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-11
當兩兩段落之間出現相同的關鍵字詞越多,餘弦函數
值越高,則代表兩段落越相似。
以上步驟完成後,即可開始以K-Means演算法[13]進
行分群。首先給予一目標分群數k。
接 著 採 用 RMSSTD ( Root Mean Square Standard
Deviation,組間相似度)和RS(R-Squared,組內相
似度)的概念來評估分群後的結果。
選擇組間差異極大化,但組內差異極小化之最佳分群
數k。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-12
段落分群結果示意圖
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-13
將段落進行分群後,接著是對段落的重要程度進行衡
量。
段落重要程度可以六個層次表示,分別:(1)關鍵詞彙
(Key-phrases) (2)題目詞彙 (Title phrases) (3)一般詞彙
(Phrase)(4) 主 題 句 (Topic sentences)(5) 領 域 詞 彙
(Domain-specific phrases) 及 (6) 指 標 詞 彙 (Indicator
phrases)。
從各群集中挑出分數最高的段落並納入摘要當中,所
以摘要將由所有群集的最具代表性段落所集合而成。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-14
以
關
落鍵
分字
數為
之基
計之
算群
示集
意中
圖各
段
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-15
6.3
以本體論為基之專利摘要 1/6
通常一篇文章都包含有一至多個主題概念(或稱主
旨),而主題概念將是我們用來選取摘要的重要決定
性因素。
藉由專利所屬領域(Domain)本體論所定義的重要概念
詞彙,來幫助使用者精確地擷取出文章的主題概念進
而獲取摘要所需要的資訊。
本體論可與TF-IDF方法結合,以利找出最具代表性
之領域關鍵詞彙,以利正確摘要之產出。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-16
6.3
以本體論為基之專利摘要 2/6
本 體 論 (Ontology) 的 模 型 是 由 領 域 概 念 (Domain
concepts)所組成的樹狀架構,意即每一樹狀分支代表
著一個概念主題。
圖 6.6 原始
文件有對應
到之節點
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-17
6.3
以本體論為基之專利摘要 3/6
文件中的關鍵字詞分別以本體論方法以及TF-IDF方
法中擷取出來後。
接著,針對兩者中有重複到的關鍵字詞部分進行整併,
而取得文件中所有的關鍵字詞之聯集。
隨後,再將此聯集的關鍵字詞利用演算法找出文件中
重要的多字詞組合。
共同之關鍵字詞
本體論所提
供之關鍵字詞
TF-IDF所提
供之關鍵字詞
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
圖 6.7 關鍵字
詞整併示意圖
6-18
6.3
以本體論為基之專利摘要 4/6
重要度的計算必須要分別考量句法結構特性
(Syntactic)和語意特性(Semantic)兩大類。
「結構」因子,使用樹狀結構上的差異(Height)來判
斷節點是否具有子樹,若該節點擁有子樹,則必須再
計算子樹的深度或是階層層數(Height)。
「語意」因子,整個本體論可視為多支子樹所構成的
集合,其中每支子樹都代表著知識領域中的某一概念。
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-19
以專利全文比對樹狀節點之結果
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-20
以本體論為基之中各段落分數之計算示意圖
專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例
6-21