Transcript Document
KUAS A Parallel Parsing Algorithm for Natural Language using Tree Adjoining Grammar Tom Nurkkala Vipin Kumar [email protected] [email protected] Department of Computer Science, University of Minnesota, Minneapolis, MN 55455 Outline 1 Introduction 2 Tree Adjoining Grammar 3 Sequential Algorithm 4 Parallel Algorithm 5 3 Experimental Results 6 4 Future Work www.themegallery.com 1.Introduction first sequential parsing algorithm for TAGs. 提出者:Vijay-Shankar and Joshi 採取方式:bottom-up方法 時間複雜度: A parallel parsing algorithm for TAGs. 其中L是語法和輸入字串之間一個穫得相依性的參數。 提出者: Palis, Shende, and Wei 變化量: 到 缺點:只適用於標準化的TAG 平均運算時間: A new parsing algorithm for general TAGs. 提出者: Palis and Wei 執行時間: www.themegallery.com 2.Tree Adjoining Grammar 在 TAG 中有兩個種類的基本樹:: (1)初始樹 (2)輔助樹 內部結點被標記成非終結的節點 語法節點 ,而非終端節點為大寫字母或字串表 示 外部(樹葉)節點可被標記成終端 或非終結,而終端節點為小寫字 母或字串表示 www.themegallery.com 基本樹由兩種操作組合: (1) substitution (2) Adjunction www.themegallery.com 3.Sequential Algorithm 我們所用的語意分析演算法是基於Palis and Wei 所提出的Sequential Algorithm。 兩個輸入,一個是TAG “G”另一個是字串”W” 。 演算法的行動原理是維持index tuple,(i,j,k,l)是為 4 tuple,0≦i≦j≦k≦l≦n。 www.themegallery.com Example: 輸入的字串“the boy sailed the blue yacht.” 字串被編號: “the blue yacht”被(3,4,4,6)tuple生成。 Company Logo www.themegallery.com 下圖是基本的順序語意分析演算法。 Company Logo www.themegallery.com 4.Parallel Algorithm 下圖是平行語意分析演算法。 www.themegallery.com 5.Experimental Results 實驗環境:一台Ncube 2電腦。 實驗資料來源: Pennsylvania大學。 實驗資料內容: 資料包含有隨機生成語法 和英文語法。 下面介紹幾個符號所代表的意義: p:處理器的數量; Tp:對p個處理器平行處理時間; S:speedup,S=T1/Tp; E: efficiency ,E=S/p。 www.themegallery.com 5.1.1 Random Grammars 表1表示分析對1024隨機語法基本樹(平均每個樹 有八個節點)且20個的輸入字串的效能。 www.themegallery.com 5.1.2 English Grammars 表2表示分析一個英語語法的效能。 www.themegallery.com 同樣大小的隨機文法和英語文法效能比較 Company Logo www.themegallery.com 5.2.1 Computation 請注意,句子長度跟文法大小比較起來更 會影響工作負荷。 www.themegallery.com 5.2.2 Overhead 平行演算法中主要的overhead來源: (1) tuple set communication (2) processor idling www.themegallery.com 5.2.3 Scalability 平行演算法,意味著可以得到更大的平行性和更 高的效能。 平行演算法是可擴展的,因為它們提供較大數量 的處理器來達到較好的結果。 在這個演算法中,是由於兩個因素來增加工作: (1)語法大小 (2)句子長度 www.themegallery.com 語法大小 www.themegallery.com 句子長度 www.themegallery.com Future Work 未來在平行TAG語意分析上應該考慮兩個方向: Dynamic Load Balancing 使用動態負載平衡來降低效能空閒 Earley- Style Algorithm 探討一個earley-style語意分析演算法,取得比目前分 析方法中還要更好平均複雜度方法 www.themegallery.com 6.1 Dynamic Load Balancing 當一個處理器空閒,它會跟其他處理器要求工作, 其他處理器收到請求時會先去判斷是否有工作, 如果有就把工作傳給空閒的處理器做。 如何達到動態負載平衡呢? 未來預估 使用一個結構化的指標 因此,今後的工作可放在當樹上某節點執行 substitution或 adjunction運作的預測。 www.themegallery.com 6.2 Earley- Style Algorithm Schabes介紹一種earley-style語意分析演算法來 分析TGA 。 因為它使用自上而下的預測以及自下而上的分析, 所以具有較好時間複雜度。 除此之外Schabes and Joshi還提出一種LTGA , 此為TGA的變型 。 www.themegallery.com Conclusions 在本篇論文中我們介紹了一個新的使用平行運算 方法解析TAG 歸納我們的經驗與TAG分析,平行演算法將產生 非結構化問題: (1)overhead的來源不一致,影響整個執行效能 (2)複雜和意外方式相互作用, 影響overhead (3)因為處理器的負載不平衡,有顯著overhead KUAS