法令執務支援

Download Report

Transcript 法令執務支援

外山グループ
研究室紹介
本日の研究室紹介


研究室の様子や普段の生活について
研究内容の紹介

知識情報処理・自然言語処理



自然言語処理


法制執務支援
法令翻訳支援
シソーラスの自動構築
質問は随時してください
外山グループのメンバー

今年度のメンバー









外山勝彦 准教授
小川泰弘 助教
D2
1名
M2
3名
M1
1名
B4
1名
法学研究科 研究員 1名
留学生 研究生 1名
関連研究室: 石川・松原研究室
外山グループでの生活

拘束時間(今年度の場合)

ミーティング(毎週火曜 14:00~)


輪講(毎週水曜 9:30~12:00)




研究成果のレジュメを作成し,発表
石川・松原研究室と合同
1冊の英語の本を,担当を決めて順番に説明
B4は3~4ページを2~3週間に1回のペースで担当
その他の時間は講義 OR 研究


特に拘束はなし
部活やバイトとの両立も十分可能
外山グループの良い所

贅沢な環境

計算機とディスプレイは余るほどあります!



1人1台はもちろんのこと,必要ならば
好きなだけ使ってもらって構いません
デュアルディスプレイ率高し
少年サンデーが毎週読める!
研究は少人数でしっかり指導してもらえ,
イベント等は大勢で楽しく!
法制執務支援
法制執務支援


法制執務

法令の起草、改正、公開、運用などに関わる作業

膨大な量の法令
計算機による支援
法制執務の問題点


現行法律 約 1,800 件

新規法律 約
200 件/年
法制執務の専門家の負担大

専門知識と経験の必要性
法律情報処理
法学研究科と共同研究
法法
制情
執報
務学
法律学
法
律
情
報
処
理
ウチだけ!
情報基盤
デ言知
ー語識
タ工工
工学学
学
情報工学
アジア各国・世界各国
法令外国語訳の推進
法情報の国際的共有
各府省
韓国
法制研究院
内閣官房
関係省庁
連絡会議
コーネル大学
法情報研究所
名古屋大学
法務省
機械翻訳,言語処理
データマイニング
ウェブ,データベース
外山
グループ
法学研究科
法政国際教育
協力研究センター
法情報レポジトリ
民間企業
ITによる法制執務支援
法令,判例,注釈,
対訳辞書,シソーラス,…
各国
法情報センター
比較法学
法整備支援
立法技術・法制執務
国際協力
機構
日本法教育センター
モンゴル,ウズベキスタン,
ベトナム
法整備支援
昨年度の卒研
電子化法令文書の構造化

現在の電子化法令文書

PDF,HTML
計算機での処理に不便!
• 法令文書のXML文書化
• 言語情報の付与
検索,自動改正など様々な処理が可能!
法令翻訳支援
法令翻訳の必要性

社会的必要性





社会のグローバル化
日本社会の透明性の確保
国際取引の円滑化
対日投資の促進
などなど
従来の法令翻訳の問題点

関連府省・民間による個別作業



一つの専門用語に対する訳語が異なる
使われている訳語が適切かどうか分からない
必要な法令や関連する法令に対する翻訳がない
法令英訳プロジェクト (内閣官房)


法令用語の標準対訳辞書
統一的な翻訳法令の作成
支
援
対訳辞書作成の支援

支援ツール:Bilingual

特徴





KWICの開発
対訳抽出の誤りの修正
派生した対訳表現の獲得
複数の対訳表現の使い分け方の比較
様々な言語への応用が可能
デモ
一昨年度の卒研
添削システム
辞書項目:ポップアップ
対訳を発見不能 : 青地の背景
標準訳非準拠 : 標準訳に置換
標準訳準拠 : 太字
標準対訳辞書の拡充
• この法律において「本邦」とは、本州、北海道、四国、九州及びその附属の島をいう。
この法律において「本邦」とは、本州、北海道、四国、九州及びその附属の島をいう。
• この法律において「事業者」とは、法人及び事業を行う個人をいう。
この法律において「事業者」とは、法人及び事業を行う個人をいう。
• この法律において「生物の多様性」とは、生物の多様性に関する条約第二条に規定
する生物の多様性をいう。
法令文書では定型的な表現を多用
定型的な表現の
訳が不統一
翻
訳
標準対訳辞書
訳語統一
• The term "Japan" as used in this Act shall mean Honshu, Hokkaido, Shikoku, Kyushu
and annexed islands.
• "Enterprise" under this Act shall mean a juridical person or an individual carrying on
business.
• In this Act, "biological diversity" shall mean biological diversity as provided for in
Article 2 of the Convention on Biological Diversity.
標準対訳辞書の拡充
• この法律において「本邦」とは、本州、北海道、四国、九州及びその附属の島をいう。
• この法律において「事業者」とは、法人及び事業を行う個人をいう。
• この法律において「生物の多様性」とは、生物の多様性に関する条約第二条に規定
する生物の多様性をいう。
抽出
日本語法令
この法律において「・・・」とは、・・・をいう
対訳表現を決定
The term "・・・" as used in this Act shall mean ・・・
標準対訳辞書
追加
定型的な表現の訳を統一
• The term "Japan" as used in this Act shall mean Honshu, Hokkaido, Shikoku, Kyushu
and annexed islands.
• The
"Enterprise"
term "Enterprise"
under thisasAct
used
shall
in mean
this Act
a juridical
shall mean
person
a juridical
or an individual
person orcarrying
an individual
on
business.on business.
carrying
• The
In this
term
Act,"biological
"biologicaldiversity"
diversity"asshall
usedmean
in this
biological
Act shalldiversity
mean biological
as provided
diversity
for inas
Article 2 of
provided
forthe
in Article
Convention
2 of the
on Biological
Convention
Diversity.
on Biological Diversity.
( e-legislation )
電子化法制執務のための統合環境
翻訳支援システム
辞書構築システム
翻訳品質検査システム
翻訳システム
翻訳評価システム
法情報レポジトリ
翻訳メモリ
一部改正法令
翻訳者
データベース
翻訳作業管理
法令
データベース
再翻訳システム
対訳辞書
システム
公開用
データベース
検索エンジン
法令文生成・管理システム
法令品質検査システム
バージョン管理システム
データ転送システム
法令起草・改正支援システム
データ公開・配布システム
公開・データ提供システム
シソーラス(類義語辞典)
自動構築
こんな経験はありませんか?
例:「最もポピュラーな解像度を
知りたい」
(1024×768?1280×1024?)
「ディスプレイ 解像度」というキーワードで
Googleなどの検索エンジンを使って検索
キーワードによる検索
「モニタ 解像度」という
キーワードではどうか? 望む検索結果が
得られていない
キーワードによる検索
発見!
検索エンジンの問題点と解決

意味は非常に類似しているが,表記は異なる
単語が存在する ⇒ 類義語


「ディスプレイ/モニタ」「BSE/狂牛病」
「貨幣/通貨」「東国原英夫/そのまんま東」
キーワードの選び方によって,検索結果が大きく
変わる
類義語辞典を使い,キーワードを自動で補足・提案
類義語辞典(シソーラス)の自動作成
類義語の推定手法
1. 対象語の「文脈」を抽出
~を接続
~の仕様
対象語:
ディスプレイ
データベース
(新聞記事等)
~の解像度
~が壊れる
ナンバー~
〜を買う
プラズマ~
液晶〜
類義語の推定手法
2. 候補語に対しても同様に文脈を抽出
~を接続
~の仕様
対象語:
ディスプレイ
データベース
(新聞記事等)
候補語:
~の解像度
~が壊れる
デュアル〜
モニタ
ナンバー〜
テレビ
~を買う
画面
・
・
・
~を見つめる
プラズマ~
液晶~
類義語の推定手法
3. 文脈の「類似度」を求める
~を接続
~の仕様
対象語:
ディスプレイ
データベース
(新聞記事等)
候補語:
~の解像度
~が壊れる
デュアル〜
モニタ
ナンバー〜
テレビ
~を買う
画面
・
・
・
~を見つめる
プラズマ~
液晶~
類義語の推定手法
3. 文脈の「類似度」を求める
| w1  w2 |
sim(w1,w2 ) 
| w1  w2 |
対象語:
ディスプレイ
データベース
(新聞記事等)
候補語:
~を接続
~の仕様
~の解像度
~が壊れる
デュアル〜
モニタ
ナンバー〜
テレビ
~を買う
画面
・
・
・
~を見つめる
プラズマ~
液晶~
類義語の推定手法
4. 類義語が求まる

video
 computer
 television
 multimedia
 communication
 entertainment
 advertisement

program






project
system
unit
status
schedule
organization
距離をもとにプロット