創造情報学輪講 - Core Software Group, The

Download Report

Transcript 創造情報学輪講 - Core Software Group, The

○ Wenting Gu*, Koichi Sasada + , Shigeru Chiba* *The University of Tokyo + Heroku, Inc.

 

Written in more than one language

Need to be same

One modified, others need to do the same modification. 2

Ja En Cn Fr edition Relationship between languages 3

A  Ruby Manual B write Japanese English write D E C   Japanese version and English version are not same The order of paragraph may be different  User’s Demand: keep the same F 4

  ◦ ◦

Hard to keep documents in different language the same.

Why?

Difficult to find difference Difficult to locate the specific place where need to be modified 5

English Document Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience. The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button.

Tabs automatically appear to the right of the Address bar, but you can move them so they appear below the Address bar, as they did in previous versions of Internet Explorer. You can always show the Favorites and then selecting them on a menu. 日本語文書 タブはアドレス バーの右に自動的に表示されます が、以前のバージョンの Internet Explorer と同 様に、タブを移動してアドレス バーの下に表示する ことができます。お気に入りバーを右クリックし、メ ニューで選択することにより、常に表示させること ができます。 定期的に訪問する Web サイトを Windows 7 デスクトップ上のタスク バーに固定す ることで、それらの Web サイトにアクセスできます。 Windows Internet Explorer 9 は、整理されたイ ンターフェイスと、 Web 閲覧環境を高速化する多く の新機能を備えています。 [ ツール ] ボタン をク リックしたときに、印刷、ズームなどのほとんどのコ マンド バー機能が表示されます 。 Can’t find differences between the two documents easily. 6

Goal

Make it easy to correspond documents and manage document version Proposal

 Locating and displaying differences by existing sentence alignment algorithm 7

9

10

11

12

13

Modify the second sentence.

Delete the first sentence.

Add a paragraph 14

15

16

   ◦ Getting corresponding relationships between paragraphs and sentences By using ex to calculate the similarity of sentences and paragraphs isting sentence alignment techniques Tracking changes  By comparing with old version Displaying differences 18

 Several sentence alignment algorithms: Word-correspondence-based  Reliable Measures for Aligning Japanese-English News Articles and Sentences [2003, Masao Utiyama, Hitoshi Isahara]  Fast and Accurate Sentence Alignment of Bilingual Corpora[2002, Robert C. Moore]  Longest Sorted Sequence Algorithm for Parallel Text Alignment [2005, T Ildefonso] 19

 

Paragraph alignment in the document

1.

Compare with number of sentences 2.

Calculate similarity between two sentences 3.

Compare with total similarities in paragraph

Sentence alignment in each paragraph

1.

Reuse the result in Paragraph similarity 2.

2.

Allow 1 to 1, 1 to 2, 1 to 3, 2 to 1, 3 to 1 20

21

B C D A write En write Ja

Event

write Cn write Fr

Target

En Ja Time Cn Fr Note: Different color means contents are not same.

22

En Ja Cn Fr

Event Target

Time En be modified Ja be modified Cn Ja Cn Fr Note: Different shape means the modification is not same.

23

 ◦ ◦

Correspondence relationships between sentences and paragraphs are not 100% correct.

Allowing users modify relationships between paragraphs.

Recalculate relationships between sentences when the relationship between paragraphs modified.

24

  ◦

The first time to make two documents the same, displaying differences inaccurately.

Once two documents are aligned, modifications will be showed more correctly.

If sentence alignment technique is more efficient, our system will be more useful.

25

 ◦ Huberdeau et al., WikiSym '08, 2008 Describing a tool called the Cross-Lingual Wiki Engine (CLWE) to support completely open-ended collaborative translation workflows 26

    Wiki-based Support completely open-ended collaborative translation workflows in cross-lingual documents List changes ◦ But do not show corresponding areas where need to be modified.

Do not support documents which already have differing content like the Ruby manual 27

Update “Ja” based on “En” The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button , and your favorites and feeds appear in Favorites Center when you click the Favorites button.

Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience. Note: This edit session will expire in 24 minutes. Preview or Save your work to restart the edit session timer.

Edit: Windows IE 9 は、整理されたインターフェイスと、 Web 閲覧環境を高速 化する多くの新機能を備えています。 28

  

2 languages -> N languages (Major languages) Adding version control function Make an Evaluation

29

 

Problem

◦ ◦ Difficult to correspond documents in different languages in collaborative working

Proposal

Developing a repository with friendly UI to make it easy to manage cross-lingual documents    Giving correspondence relationships between sentences and paragraphs: using existing sentence alignment techniques Tracking changes Showing difference locations 30

                           * グーさん質疑応答 文が対応していないとダメなの? パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか? 一段落がに段落にわかれていたらどうするの? 廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか? [10:51:00] 高橋 : ああちがう [10:51:14] 180 度以外 : 私は質問の意図が間違いました? [10:51:18] 高橋 : 廣津先生: 文が対応していないとダメなの? 柴山先生: パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか? あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの? 一段落がに段落にわかれていたらどうするの? あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの? 今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど 今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか? [10:49:28] SASADA Koichi (ko1): 質問者の名前も書きましょう [10:50:06] 高橋 : 大山先生の隣の方ってだれでしたっけ? [10:50:35] SASADA Koichi (ko1): 柴山先生 [10:50:48] 180 度以外 : 質問をき記録して、ありがとうございます。 [10:50:50] 高橋 : 廣津先生: 文が対応していないとダメなの? 廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか? [10:51:40] SASADA Koichi (ko1): ちょっと途中変だったね>回答 [10:52:14] SASADA Koichi (ko1): 私が書き直すとこうなる: [10:52:16] SASADA Koichi (ko1): 廣津: 質問:パラグラフの内容が対応していないのはどうするのか? 柴山: 質問:パラグラフの順番が入れ替わるのは多いのか? パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか? 柴山先生: 一段落がに段落にわかれていたらどうするの? あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの? 今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど 質問:最終目標は,パラグラフの順番などを揃えたいのか? それとも異なるままで編集したいのか? 廣津; コメント: 類似度の計算で,日本語は未定義野品詞をみていくと結構とれたりします. [10:57:14] SASADA Koichi (ko1): この発表面白いなあ [10:58:12] 180 度以外 : [10:52] SASADA Koichi (ko1): <<< パラグラフの順番が入れ替わるのは多いのか? A: それほど多くないけど、今回は極端な例を挙げました。でも、 段落の数が足りなくて、段落の対応関係をすぐ分からないため、段落対応して、文の差分を表示するのがユーザーに 対して、使いやすいと思います。 こう答えだらいいかな?(そして、多分 段落が足りない文書を例でしたら、もっど説明しやすいかも、そして、最終目標 はパラグラフの順番などを揃えたいことは自然かな) [10:58:34] SASADA Koichi (ko1): そう答えられたらよかったね 33