Transcript 講義3
Chapter 6 專利自動摘要方法與範例 了解專利文件詞彙擷取與Text mining之前處理 探討關鍵詞彙辨識與關鍵字詞整併技術 討論專利文件段落分群與專利文件摘要之呈現 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-2 根據世界智慧財產組織(WIPO, 1996)指出,專利資訊 中含有約全世界90%~95%的商品化研發成果。 相對於其他技術報告或期刊報導,專利文件是唯一能 夠完整揭露核心技術的知識文件。 只要公司能善用專利資訊,將可以節省40%的研發成 本以及縮短60%的研發時程。 因此,專利文件在知識經濟的時代扮演著極為重要的 角色。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-3 6.1 文字探勘與文字摘要 1/2 利用文字探勘技術,希望能從專利文件中的描述 (Descriptions) 萃 取 出 最 重 要 的 概 念 段 落 、 獨 立 項 (Independent claims)以及專利圖檔(Images)等資訊來 產生一文字形式之簡短摘要。 幫助專利工程師或是領域專家等進行快速專利文件的 導讀,以有效掌握大量專利文件的要點。 文字探勘主要是藉由文字集資源中擷取出訊息來發現 潛在的、未知的及有用的資訊。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-4 6.1 文字探勘與文字摘要 2/2 隨著專利分析的蓬勃發展,不同於過往以人力進行專 利分析,取而代之的是運用資訊科技來製作專利地圖 或是專利內容的解析。 就專利文件的分析而言,其運用到了資訊檢索、內容 摘要、主題歸類與分類等,幾乎都跟文字探勘的概念 不謀而合。 將文字探勘應用在專利文件自動摘要的功能,旨在提 供讀者專利文件的簡要大綱,讓使用者能快速瀏覽、 閱讀並理解專利文件中的主旨。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-5 6.2 專利摘要方法 1/10 文件自動摘要主要包含兩大主題,分別是「關鍵字擷 取」以及「摘要呈現」。 在關鍵字擷取部分是使用TF-IDF為基之技術來統計 出現在文件中次數較高之關鍵詞彙。 而摘要呈現乃包含文字形式之摘要和圖形形式之摘要 呈現,文字形式之摘要是透過關鍵字擷取階段中所取 出之關鍵詞彙來衡量文件中每一段落之重要性,再以 摘要模板呈現。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-6 6.2 專利摘要方法 2/10 在關鍵字擷取部分有兩大流程,分別為文件內容前處 理以及關鍵詞彙辨識。 文件內容前處理包含斷詞、去除停字、詞性解析和字 詞還原等步驟,此為關鍵詞彙辨識前之預備動作,可 有效提升系統在辨識過程之效率。 關鍵詞彙辨識則是利用TF-IDF為基之技術來統計文 件中出現頻率較高之單字詞,再利用演算法去擷取出 多字詞關鍵詞彙。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-7 6.2 專利摘要方法 3/10 文件內容前處理的四大步驟。 其一為斷詞,輸入之文件首先會以一些特定的斷詞符 號為基礎來將文件拆解成多個字節。 其二為去除停用字詞(Stop words),即除去較不具有重 要性和影響文意之單字。 其三為詞性解析,文章中名詞跟動詞相對於其他的詞 性較能夠表達出文章的意涵。 其四為字詞還原,目的是要解決一字多形的問題,詞 彙在文章中可能會出現複數、動名詞、過去式等變化。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-8 專利摘要方法流程 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-9 摘要產出與呈現 主要的工作是先透過段落概念分群,將文件中擁有相 似概念之技術主題及段落分在同一群集中。 之後再用前一階段擷取出的關鍵詞彙來衡量每一群集 中各個段落的重要性,將高於門檻值的段落選為候選 摘要。 搭配事先規範的摘要格式,彙整所有候選摘要成系統 的文字型態專利摘要。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-10 由於一篇專利中可能包含數個概念,且這些概念可能 會散佈在不同的段落裡,因此利用段落分群的演算法 可幫助我們將相同概念的段落聚成一群。 首先,建立段落與重要詞彙的相關性矩陣,接著將完 全沒有關鍵字出現的段落先移除,以提高系統的效率。 並使用Cosine similarity計算兩兩段落間的相似度,此 方法稱為向量空間模式,在此被應用於尋找關聯性高 的段落。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-11 當兩兩段落之間出現相同的關鍵字詞越多,餘弦函數 值越高,則代表兩段落越相似。 以上步驟完成後,即可開始以K-Means演算法[13]進 行分群。首先給予一目標分群數k。 接 著 採 用 RMSSTD ( Root Mean Square Standard Deviation,組間相似度)和RS(R-Squared,組內相 似度)的概念來評估分群後的結果。 選擇組間差異極大化,但組內差異極小化之最佳分群 數k。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-12 段落分群結果示意圖 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-13 將段落進行分群後,接著是對段落的重要程度進行衡 量。 段落重要程度可以六個層次表示,分別:(1)關鍵詞彙 (Key-phrases) (2)題目詞彙 (Title phrases) (3)一般詞彙 (Phrase)(4) 主 題 句 (Topic sentences)(5) 領 域 詞 彙 (Domain-specific phrases) 及 (6) 指 標 詞 彙 (Indicator phrases)。 從各群集中挑出分數最高的段落並納入摘要當中,所 以摘要將由所有群集的最具代表性段落所集合而成。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-14 以 關 落鍵 分字 數為 之基 計之 算群 示集 意中 圖各 段 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-15 6.3 以本體論為基之專利摘要 1/6 通常一篇文章都包含有一至多個主題概念(或稱主 旨),而主題概念將是我們用來選取摘要的重要決定 性因素。 藉由專利所屬領域(Domain)本體論所定義的重要概念 詞彙,來幫助使用者精確地擷取出文章的主題概念進 而獲取摘要所需要的資訊。 本體論可與TF-IDF方法結合,以利找出最具代表性 之領域關鍵詞彙,以利正確摘要之產出。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-16 6.3 以本體論為基之專利摘要 2/6 本 體 論 (Ontology) 的 模 型 是 由 領 域 概 念 (Domain concepts)所組成的樹狀架構,意即每一樹狀分支代表 著一個概念主題。 圖 6.6 原始 文件有對應 到之節點 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-17 6.3 以本體論為基之專利摘要 3/6 文件中的關鍵字詞分別以本體論方法以及TF-IDF方 法中擷取出來後。 接著,針對兩者中有重複到的關鍵字詞部分進行整併, 而取得文件中所有的關鍵字詞之聯集。 隨後,再將此聯集的關鍵字詞利用演算法找出文件中 重要的多字詞組合。 共同之關鍵字詞 本體論所提 供之關鍵字詞 TF-IDF所提 供之關鍵字詞 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 圖 6.7 關鍵字 詞整併示意圖 6-18 6.3 以本體論為基之專利摘要 4/6 重要度的計算必須要分別考量句法結構特性 (Syntactic)和語意特性(Semantic)兩大類。 「結構」因子,使用樹狀結構上的差異(Height)來判 斷節點是否具有子樹,若該節點擁有子樹,則必須再 計算子樹的深度或是階層層數(Height)。 「語意」因子,整個本體論可視為多支子樹所構成的 集合,其中每支子樹都代表著知識領域中的某一概念。 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-19 以專利全文比對樹狀節點之結果 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-20 以本體論為基之中各段落分數之計算示意圖 專利分析與智慧財產管理 Chapter 06 專利自動摘要方法與範例 6-21