我々の階層モデル群において 大量データをどのように取り扱かおうとして

Download Report

Transcript 我々の階層モデル群において 大量データをどのように取り扱かおうとして

我々の階層モデル群において
大量データをどのように取り扱
かおうとしているか?
石渡 正樹 (北大・地球環境)
小高 正嗣 (北大・理)
森川 靖大 (北大・理)
dcmodel プロジェクト
http://www.gfd-dennou.org/library/dcmodel
地球大気との比較
階層的モデル群による
アプローチ
歴史的経緯
•
•
•
•
1985 東大に気象庁モデルが来た
1988 地球流体電脳倶楽部立ち上げ
1990 AGCM5 と GTOOL3
1999 Davis (Data analysis and visualization) プロ
ジェクト
• 2002 SPMODEL, Ruby モジュール達, ISPACK
• 2003 gt4f90io, GMS
ソフトウェアの全体像
models
SPMODEL
tools for analysis and visualization
GAVE
DCPAM
DCL
GPhys
ISPACK
gt4f90io
RubynetCDF
gtool4 netCDF convention
netCDF3.6 / netCDF4
data
我々の日々の営み
• 数値モデルからデータ生成
– Gtool4 netCDF 規約に基づくデータ
• 規則正しい, netCDF, 自己記述的情報
• 付加される情報
– 作成者・表題・履歴
etc...
– 変数・時刻・座標・欠損値・単位 etc...
– データ I/O ライブラリ: gt4f90io
• 解析・可視化
– Dennou Ruby ツール群 (GPhys, gpview, GAVE)
• 公開 (Web 化)
– Ruby スクリプトでちょっと省力化
数値データの管理の現状
• ファイル単体の情報
–
–
–
–
gtool4 netCDF 規約に沿って付加される自己記述的情報
見るときは ncdump というコマンドで直接
ファイル名もそれなりに工夫はする
Namelist ファイルも組みで置いておく
• ディレクトリ構成の情報
– 各ディレクトリに ****.SIGEN というファイルを作成
– SIGEN ファイルに製作者, 製作日時, ディレクトリ内に格納されるデー
タの総合的な情報
– 定期的にスクリプトを起動して各ディレクトリの SIGEN ファイルを解析,
各ディレクトリに SIGEN.htm というファイルを作成 (Web 上からでも確
認できる.)
• データベース専門のかっこいいソフトは使ってない
数値データ管理の問題点は?
• 欲しいデータを抜き出すのが大変
• 他人(身内)とのデータ共有ための工夫がきっと必要
– データファイル名の規則など
• 「データベース化」すると嬉しいのか?
– 事情に応じていろんな種類 (当然データベースの枠組みを
作る際には想定していないもの) のデータを付加することに
なりそう
• 単に「データベース」のちゃんとした使い方を知らないだけなのかも
数値データから画像データ、更にWeb
ページ
• 現状では「手動でガシガシ」方式
– もっと賢い方法を考えた方が良いのかもしれないが完全
な自動化は無理だろう
• 画像データの管理がまた悩ましい
– 「画像データ」の情報管理はやっぱり手動
• 付加情報はファイル名、図の中、SIGEN ふぁいるに埋め込む
– しかし個々の画像データは数値データの自己記述的情報
からはどうしても乖離
– 図が増えてくるとブラウズできない
結論
• 工夫はしてません。根性でやってます
• 根性だけではいずれ破綻するのは明らか
• どうしたら良いんでしょう