PowerPoint形式

Download Report

Transcript PowerPoint形式

第1回データWG資料
資料7
データ形式・構造、データカタログ
に関する技術について
2012年12月26日
データWG主査代理 小池博
0
目次
1. オープンデータの技術概要
(1)機械判読とは
(2)関連技術の位置づけ
2. 関連技術の概要
(1)機械判読可能なデータ形式
(2)データの融合を可能にするためのデータ構造
(3)データカタログ
1
1.オープンデータの技術概要 (1)機械判読とは
○「機械判読」とは、「コンピュータ・プログラム(以降、単にコンピュータと呼ぶ)がデー
タを読み取る」ということであるが、オープンデータの文脈においては、
コンピュータが自動的にデータを再利用(加工、編集等)できるということである。
○人手をどれだけ要せずに、コンピュータがデータを再利用できるかにより、「機械判読
の容易さ」には、いくつかの段階がある。
コンピュータが自動的にデータを再利用するためには、コンピュータが、当該データの論
理的な構造を識別(判読)でき、構造中の値(表の中に入っている
数値やテキスト、等)が処理できるようになっている必要がある。
2
1.オープンデータの技術概要 (1)機械判読とは
●機械判読可能なデータとは、
データ形式や構造の仕様が公開され、そのデータを判読処理するプログラムを、第3者が
作成できるデータである。
センサデータの
値を利用したい
プログラム
センサログ形式を
処理できる
プログラム
センサ情報等の
バイナリデータ
テキスト表現の
値を利用したい
プログラム
テキスト構造
(XML,CSV)
処理プログラム
テキスト
データ
●機械判読不可なデータとは、
データを利用したいプログラムが、そのデータの論理的な構造を識別(判読)できない
データ。(データを人に対し表示するプログラムが存在しても、内容が取り出せない)
表の値を
利用したい
プログラム
画像表示
プログラム
(表認識できず)
画像データ
(画像中に表が
存在する)
表の値を
利用したい
プログラム
データ形式や、
中身の構造が
不明確なデータ
※ 機械判読不可なデータも、データビューア・プログラムを利用することで、人は判読可能。
表を理解し
人手で
利用データ
作成
人判読可能
画像表示
プログラム
画像データ
(画像中に表が
存在する)
編集エディタ
プログラム
表データ
(データによっては、人手を介すことで、
一定のプログラム処理できるデータを取り出すことが可能)
利用側で、
再利用可能なデータを
作成するコストが高い
3
1.オープンデータの技術概要 (2)関連技術の位置づけ
人が必要な
データを探せる
人が理解できる
文書(データ)の形式
見やすさ、理解しやすい
文書、データ表現
文書分類、
キーワード検索等
利用者
利用者(人)
文書ビューアや
文書エディタ
を利用して人が読む
ホームページ情報
(人向け)
HP作成
人が理解する
ための
公開文書
加工、
作成
再加工
利用者(機械)
プログラムが
データを読み
二次利用する
データカタログ
(機械向け)
機械が必要な
データを探せる
③データカタログ
(機械がデータを横断検索でき、
機械がデータにアクセスできる)
カタログ
作成
機械判読可能な
公開データ
機械判読可能な
データ仕様に
沿って作成してある
その
まま
ロウデータ
(手を加えてい
ないデータ)
素材データ
・素材文書
・素材画像
公開
処理等
①機械判読可能なデータ形式
②データの融合を可能にする
ためのデータ構造
4
2.関連技術の概要 (1)機械判読可能なデータ形式
① 「オープンデータの5つの段階(出典:★ )」と、データ形式
段階
公開の状態
データ形式
例
参考)Linked Open Data 5star
人が理解
するための
OL – Open License
公開文書
(計算機により参照できる(可読)) (編集不
可)
1段階
オープンライセンスの元、データを公開
PDF、JPG
2段階
1段階に加え、コンピュータで処理可能なデー
タで公開
xls、doc
3段階
2段階に加え、オープンに利用できるフォーマッ
トでデータ公開
XML、CSV
OF – Open Format
(アプリケーションに依存しない形式)
4段階
Web標準(RDF等)のフォーマットでデータ
公開
RDF、XML
URI – Universal Resource
Identifier
(リソースのユニーク化、Webリンク)
5段階
4段階が外部連携可能な状態でデータを
公開
LoD、RDF
スキーマ
LD – Linked Data
(データ間の融合情報が規定。検索可能)
RE – Readable
(Human & Machine)
(コンピュータでデータが編集可能)
公開文書
(編集可)
機械判読
可能な
公開データ
オープンデータの5つの段階
出典:★ Open Dataのサイト(http://5stardata.info/)およびTim Berners-Lee氏のLinked Dataに関する提言ページ
(http://www.w3.org/DesignIssues/LinkedData.html)を参考に作成。
5
2.関連技術の概要 (1)機械判読可能なデータ形式
②「オープンデータの5つの段階」別の利用可能なデータ形式の状況 (1次集計結果
区分
主なデータ形式
特徴 (ライセンス関係は詳細確認が必要)
1段階
(OL)
2段階
(RE)
3段階
(OF)
4段階
(URI)
5段階
(LD)
文字
.TXT (ユニコード)
オープンライセンス
数値
.XLS(エクセル)
オープンライセンス(デファクト),XML形式あり
.CSV
オープンライセンス
○
.jp(e)g
オープンライセンス(デジュール標準)
○
.gif
オープンライセンス(デファクト)
.m4v
オープンライセンス(Web標準)
.flv
オープンライセンス(デファクト)
.mp3
オープンライセンス(Web標準)
.wav
オープンライセンス(デファクト)
.gml
オープンライセンス(デファクト)
○
.shp
オープンライセンス(デファクト)
○
.XHTML
オープンライセンス(Web標準)
○
○
○
.XML
オープンライセンス(Web標準)
○
○
○
.DOC(ワード)
オープンライセンス(デファクト)、XML形式あり
○
△
.ppt
オープンライセンス(デファクト)、XML形式あり
○
△
.JTD(一太郎)
仕様は個別公開
○
.PDF
現在は、仕様が公開
○
.epub(電子書籍)
オープンライセンス(Web標準)
○
.rdf
オープンライセンス(Web標準)
○
○
.zip
オープンライセンス(デファクト): アーカイブや圧縮形式
-
-
画像
映像
音声
地図
複合
文書
圧縮
○
○
△
○
○
○
○
○
-
「機械判読可能な公開データ」のデータ形式となる、3段階以降に該当しているデータ形式
-
-
6
2.関連技術の概要 (1)機械判読可能なデータ形式
③機械判読可能なデータ形式にする際の留意点
◎人判読可能データから、機械判読可能データを作成するイメージ(農林水産省の情報引用)
注釈:元のページには、HTML/PDF/CSVが掲載されているが、あえてHTMLをより機械判読にしようとしたとき、気を付けるべき事項としての
事例としている。
機械判読可能
な
公開データ
CSV
表現例
XML表現例
農産物市況2012_10_26_盛岡_xml
・・・
<品目名>大根</品目名>
<産地名>岩手</産地名>
<数量 単位=‘t’>689.1</数量>
・・・
セーブ
&編集
HTML
人が理解する
ための
公開文書
(編集不可)
手作業で
コピー&
ペースト
または
HTML素材
の利用
⇒EXCEL
・「千 葉」のスペースの削除
・1レコードとして欠損する値の設定
・複数の表の分割 ・不必要な行削除
人が理解する
ための
公開文書
(編集・加工可)
http://www.maff.go.jp/j/tokei/syohi/sikyou/index.html からリンクされている 市況情報〔外部リンク〕 利用。
7
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
①公開データのデータ構造(データ項目、コードの関係)
◎◎予算情報
項目名
組織
行政機関
部局
予算
当年
前年
意味
属性
行政機関
府省庁名
部局名
予算の総額
集合項目
コード
文字列
数値(百万
円単位)
当年度予算 数値(百万
円単位)
前年度予算 数値(百万
円単位)
政府機関コード
値
01
02
コード
政府機関コード
無し
無し
公開データの
データ構造
(形式)例
(人が読める形
式例)
意味
内閣府
内閣官房
★下記のデータ構造であることの定義A
<組織><行政機関></行政機関>
<部局></部局></組織>
<予算><当年></当年>
<前年></前年></予算>
<組織><行政機関>02</行政機関>
<部局>IT担当室</部局></組織>
<予算><当年>200</当年>
<前年>100</前年></予算>
公開データの
データ構造
(形式)例
(機械が読める
形式XML例)
機械判読
可能な
公開データ
の例
◎利用しやすいように、公開
データは、データ構造を規定し、
公開する必要がある。
(人が理解する表現と、
機械が理解する表現
のバリエーションが必要)
◎府省、自治体等で、独自で
決めた文書形式やデータ形式
が存在する場合、その仕様を公
開する必要がある。
◎既に、業界で様々な標準化
されたデータ構造がある。
適宜利用できるものは利用する
ことが望ましい。
8
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
②公開データのデータ形式の、データ構造、データ項目、コードの関係(イメージ)
公開データのデータ構造(形式)
◎◎予算情報
項目名
組織
行政機関
部局
予算
当年
前年
意味
属性
行政機関
府省庁名
部局名
予算の総額
集合項目
コード
文字列
数値(百万
円単位)
当年度予算 数値(百万
円単位)
前年度予算 数値(百万
円単位)
政府機関コード
値
01
02
コード
政府機関コード
無し
無し
意味
内閣府
内閣官房
★データ構造の定義A(機械判読可能な
形式)
◎◎予算情報.xml
★定義Aに従って作成したという情報
<組織><行政機関>02</行政機関>
<部局>IT担当室</部局></組織>
<予算> <当年>200</当年>
<前年>100</前年></予算>
<データ構造>
データが有する属性の集合を整理したもの
<データ項目>
データの個々を表す項目のこと。
「項目名」、項目が表現する対象の「意味」、
項目の値の「属性」や「コード」等で規定
<コード>
機械が処理しやすいように項目値の
取りうる表現を符号化したもの
機械判読可能な公開データ
<機械判読可能なデータ形式のデータ>
例えば、XML形式だと、XML仕様に従い、
データ構造等の規定に従いデータの値が
セットされた状態のもの。
9
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
③公開データのデータ横断利用と融合型利用の考え方
◎公開データの利用では、以下のような利用が想定される。
・利用例1: 異なる組織や年度別に公開されたデータをまとめて処理。(横断利用)
・利用例2: 異なるデータ構造の公開データ間を融合キーで融合しそれぞれのデータ項目
の値を組み合わせて利用(融合利用) 例、地図データの位置情報に農産物出荷量を融合
利用1(横断利用)
<組織><行政機関>02</行政機関>
<部局>IT担当室</部局></組織>
<予算> <当年>200</当年>
<前年>100</前年></予算>
<組織><行政機関>10</行政機関>
<部局>ABC</部局></組織>
<予算> <当年>1500</当年>
<前年>1100</前年></予算>
利用2(融合利用)
★農産物市況情報2012_10_26_盛岡.csv
市場(位置), 日付, 品目名, 産地名, 数量(t)
<X1,Y2> 20121026,大根, 岩手, 689.1
★農産物市況情報2012_10_27_盛岡.csv
市場(位置), 日付, 品目名, 産地名, 数量(t)
<X1,Y2> 20121027,大根, 岩手, 700.5
・・・
<組織><行政機関>15</行政機関>
<部局>XYZ</部局></組織>
<予算> <当年>2000</当年>
<前年>2050</前年></予算>
同じ構造のデータに対し、横断的なデータ処理を実施。
★前年度より予算アップの行政機関と部局を出す。
⇒ <行政機関>10</行政機関>
<部局>ABC</部局></組織>
20121026,大根, 岩手, 689.1
20121027,大根, 岩手, 700.5
地図の<X1,Y2>地点
10
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
④データの融合のために必要な事項
◎データ構造(項目)を共通化することで、データを融合することが可能
◎異なるデータ構造であっても同じデータ項目があることが分かれば、データの融合は可能
◎特にデータ項目の値としてのコードについては、融合処理の機械処理を効率化させるため
に重要な要素である。
◎海外のデータと融合させるためには、国際標準データ項目辞書(例 ISO 15022等)
のデータ項目セットや、国際標準コード体系のデータ項目とコードを利用すると、データ
の融合が、広範囲に実施可能。
◎近年、データ項目の概念(リソース)のユニーク化として、RDFの技術が普及してきている。
次世代の技術として、利用検討すべきである。
URI – Universal Resource Identifier 異なる管理組織間のデータも融合キー化が可能
LOD – Linked Open Data 異なるデータ項目間の関連情報が規定でき、高度な融合が可能
国際標準データ構造の例 国内標準データ構造の例
データ項目辞書
(ISO 15022 等)
業界別データ構造表現
流通業界のデータ項目
(GS1データ辞書:GDD)
日本の業界データ辞書と
データ構造:業務、防災、教育
(自治体APPLIC
地域情報プラットフォーム)
気象庁防災情報XML
(データ構造定義)
コード標準の例
・企業(統一)コード
・商品コード
・ISBN(国際標準と書番号
・標準地域コード
・ものや場所ID (Ucode)
・組織コード(政府機関コード)
11
2.関連技術の概要 (3)データカタログ
①(機械向け)データカタログとは?
その形式やアクセス方法は?
◎データカタログは、機械(コンピュータ・プログラム)が必要な公開データを探すための
情報であり、公開データを取得するための情報である。データカタログ自身、機械判読
可能な形式(XML等)で記述されている。
◎以下のデータカタログの要件を定義し、運用する必要がある。
(a) 「データカタログ形式」として、データカタログを定義する構造(項目)を標準化する。
(b) 「データカタログ形式」で示された形式で、各公開データの「データカタログ(実態)」
を定義して公開する。データカタログの情報として、「公開データ構造」を指定する。
(c) 機械判読可能な形式で「データカタログ」を作成して公開する。
(d) 参照方法(API)を提供する。
公開データ
データカタログ
形式
利用者1(機械)
アプリケーション
利用者2(機械)
アプリケーション
A用データカタログ A公開データ
(機械向け)
構造(形式)
B用データカタログ
(機械向け)
C用データカタログ
(機械向け)
B公開データ
構造(形式)
C公開データ
構造(形式)
参照方法(API)
・カタログ検索
・カタログ取得
・データ取得
Web-API(Web-アプリケーションインタフェース)
A機械判読可能な
公開データ 1
A機械判読可能な
公開データ 2
B機械判読可能な
公開データ 1
B機械判読可能な
公開データ 2
C機械判読可能な
公開データ 1
12
2.関連技術の概要 (3)データカタログ
②(機械向け)データカタログに記載する内容 (想定)
◎データカタログの内容は、利用する側の機械(プログラム)が、公開データとして「何が
あるか」、「どのような内容や形式か」、「どこにあるのか」を知るための情報となる。
◎データカタログの構成は、「データカタログ自体の書誌情報」、「公開データの形式情報」、
「データ特性情報」等、である。
データカタログ形式
公開データ構造(形式)
(XMLで規定)(スタイルシートで表示形式作成)
(XML表現、等)
<公開データの書誌情報>
・ダブリンコア(Dublin Core)基本要素等
<公開データの構造>
・データ形式のURLの指定
・独自のXMLやCSV形式等の指定
<データの取得方法>
・データの取得のURL形式(連続取得用)
<融合キーとなる項目>
・他の情報と融合できるデータ項目
<データ特性>
・「鮮度」「粒度」「精度」「信頼度」等
<データ固有の特性>
・アンケートデータや観測データ特性等
Dublin Core : http://dublincore.org/
<データ構造><データ項目>情報
◎◎予算情報
項目名
組織
行政機関
部局
予算
当年
前年
意味
文字属性
行政機関
府省庁名
部局名
予算の総額
集合項目
コード
文字列
数値(百万
円単位)
当年度予算 数値(百万
円単位)
前年度予算 数値(百万
円単位)
政府機関コード
値
01
02
コード
政府機関コード
無し
無し
意味
内閣府
内閣官房
<コード>情報
13
2.関連技術の概要 (3)データカタログ
③<公開データの書誌情報> データカタログを検索する上で必要となる情報
◎データカタログを検索するための書誌情報として、例えば「ダブリンコア(Dublin Core)」がある。
15の基本要素(下表)と、より精度の高い情報を提供するための拡張語彙が公開されている。
文書や書籍等で実績があり国立国会図書館で採用されている。
◎下線は、ルールWGとデータWGが連携し、データカタログ形式の形式仕様として、規定していく必要があるものである。
No
項目 (日本語表記)
主なもの
1
Title (タイトル)
通常はあるリソースが公式に知られる名前を指す。
2
Creator (制作者)
リソースの内容に責任を持つもの。人や組織などがあげられ、その名前を記すことが常となっている。
3
Subject (テーマ)
リソースの内容が持つトピック。まとめられた語彙の中から使うことが望ましい。
4
Description (詳細)
リソース内容の説明。要約、目次など形式は定められていない。
5
Publisher (提供者)
リソースを発行に責任を持つもの。Creatorに同じく人や組織などがあげられ、名前を記すことが常である。
6
Contributor (協力者)
リソースの内容に協力するもの。人や組織などの名前を示す。
7
Date (日付)
リソースに関する主要な出来事が起こった日付(更新日、作成日など)を記述する(ISO 8601書式推奨)。
8
Type (タイプ)
リソースの内容が持つカテゴリ、ジャンルなど。まとめられた語彙から使うことを推奨。
9
Format
(フォーマット)
リソースが持つ物理的/デジタル化されている性質。メディアタイプなどがあげられ、リソースを処理するソフト
ウェアやハードウェアを知るための手がかりとすることができる(MIME等のメディアフォーマットで指定)。
10
Identifier (識別子)
曖昧さのないものが必要とされる。URIやISBNなどが相当する。
11
Source (ソース)
リソースが参照しているもの。公式な識別システムに従っている文字列や番号が望ましい。
12
Language (言語)
リソースがどの言語で書かれているのかを、RFC 3066の言語コード書式で書くのが望ましい。
13
Relation (関連)
関連リソースを公式な識別システムに従っている文字列や番号で記述するのが望ましい。
14
Coverage (範囲)
地名や緯度経度などで表記されるものや、日付、管理している範囲など。地名や時代の名前が緯度経度や日付
より推奨される。
15
Rights (権利)
著作権や知的所有権などの権利に関する情報を記述する。この要素が記述されていない場合にリソースの権
利情報を推測しても、それは何も意味しないことに注意すること。
引用:http://ja.wikipedia.org/wiki/Dublin_Core
14
2.関連技術の概要 (3)データカタログ
④<データ特性>
◎データ利用側では、データ特性( 「鮮度」「粒度」「精度」「信頼度」等)に応じて、利用方法
やデータ処理方法を変える。公開側は、公開データのデータ特性情報を、データカタログ
で明示する必要がある。公開データのデータ特性に合わせて、データカタログのポリシー
を作成することが必要。
データ特性
データの
「鮮度」
データの
「粒度」
データの
「精度」
データの
「信頼度」
特性の説明
データ特性の軸
データを集めたり処理する
間隔
(新しさ)
1年間隔 ⇒ 1ヵ月間隔 ⇒ 1日間隔 ⇒
1時間間隔 ⇒ 1分間隔 ⇒ 1秒間隔
(特性: 処理数少、量大、バッチ、安価 ⇔
処理数多、量少、リアルタイム、高価)
ロウデータか、集計や分類
をしたデータか
全てのロウデータ ⇒ 必要な個別ロウデータ ⇒
ロウログの集計値や傾向情報
(特性: 細かい、量大、用途多、意味不明
⇔ 荒い、量少、用途限定、意味を持つ)
データ自体の、表現の
曖昧性、抜けや異常値の有
無の有無
精度が低い
(抜けあり、異常値あり、コードされていない、
時間や位置等が不正確)
⇒
精度が高い
(抜けがない、異常値がない、コード利用、
正確な時間や位置)
データの信頼度、信頼した
機関が作成したデータか否
か(お墨付き)
信頼度が低い(インターネット上の曖昧性を含む参考情報、等)
⇒
信頼度が高い (府省の正式な発表情報)
15
2.関連技術の概要 (3)データカタログ
⑤データカタログや公開データを検索・取得できるためのインタフェース(Web-API)
◎機械(プログラム)が、検索・取得できるためのインタフェース(Web-API)の候補としては、
以下のようなものがある。 それぞれ特徴があるため、利用側ユースケースを考慮して
採用仕様を決定する必要がある。
No
主なインタフェース実
現仕様 (記述形式)
概要
1
SOAP
(WSDL)
W3C SOAP仕様に基づく、コンピュータ間のデータ交換。構造化された
XMLデータの交換を、HTTP(S)上で交換
2
JSON
(JSONスクリプト)
JavaScript Object Notation 例えば、復旧・復興支援制度DBのAPIとし
て利用されている。オブジェクトの表記法をベースとした軽量なデータ記
述言語。
3
REST形式
(URL表現+XML)
Representational State Transfer 簡易な XML+HTTP インターフェイスを
採用したデータ交換等に利用されている。
なお、機械が公開データを取得する際、リソースを指し示す識別子として、URI(Uniform Resource
Identifier)が利用されることが多い。
・カタログ検索 ・カタログ取得 ・データ取得
データ・カタログ
(機械向け)
利用者(機械)
アプリケーション
Web-API
機械判読可能な
公開データ
16