講演資料

Download Report

Transcript 講演資料

Smart-GS による手稿解析──
その実際
林 晋
京都大学大学院文学研究科
現代文化学系、情報・史料学教授
SMART-GS というツール

手書き史料の研究支援に特化して作られたツール



開発は京大文、情報・史料学専修



GPL2ライセンスで提供 http://sourceforge.jp/projects/smart-gs/
http://www.shayashi.jp/xoops/html/modules/wordpress/index.php?p=45に実用例
の詳しい紹介がある。ただし、かなり古いバージョンに基づく。
画像ベースの検索ではこだて未来大学寺沢研究室の検索エンジンをもちいておりチュ
ーンもしてもらっている。
構築中でほぼ完成しているネット上協働のプラットフォームは、NII相原研究室との共同
研究。
現在までに、林が把握しているもので、三つの歴史研究の応用され、4つ目の準
備中:




数学史「ヒルベルト数学手帳研究」(林)
政治史「倉富勇三郎日記研究」(京大文現代史永井和教授のグループ)
思想史「田辺元史料研究」(林、田辺元史料研究会)
政治史「内海忠司日記」(近大、近藤他)
2
歴史資料研究の革命 (1/3)


この10年程で、手書き文書、印刷物を問わず、歴史
資料の研究に革命的が起きている。
最大の要因はデジタル文書、特に画像文書=画像
ドキュメント:つまり、画像としての文書。



それを作るためのデジカメやスキャナ、それを保存する
HDD, SSD などの高性能化と廉価化。
その前提としてのPCの高性能・廉価・軽量化。
そして、そういうデータを容易に地球の裏側にまで
届けることができるWEB/インターネットの存在。

ブロードバンド:これがないと大量の画像文書は容易には
3
送れない。容易でないものはないのと同じ。
歴史資料研究の革命(2/3)

6-7年前の林のケース


現代数学の方向を示したといわれる19-20世紀の大数学
者D.ヒルベルトの日記研究のために、A3用紙が入る特別
大きいバッグを買い数百枚のA3マイクロフィルム・ハード
コピーを常に持ち歩く。
ハードコピーを時系列でならべて分析するためツール:





史料を並べる長い折り畳み式テーブル2台(自宅用も買った)
移動しながら史料を見るための車輪付きスツール
拡大してみるための台付ルーペ
ポストイット、4色ボールペン
….
4
歴史資料研究の革命(3/3)

しかし、今は、これのすべてが obsolete に!
 テーブルはミーティングや面接用に転用(自宅のは困って
いる….)
 車輪付きスツールはお客さんが多いときに自分が座る
 老眼が進んだので台付ルーペは重宝 (^^)
 ポストイット、4色ボールペンは、いずれにせよ本や論文を
読むときに使う

これらの替りに使うようになったのが:


PC+マルチデスプレイ:ワイドディスプレイ3台
SMART-GS
5
それはこんな感じ
ヒルベルト研究をやっていた5年ほど前のデスクトップの
キャプチャ画像
•左の4つのウィンドウが SMART-GS
•残りが
• Göttinger Digitalisierungszentrum のアーカイブ
•Wikipedia のヒルベルトの記事
•20世紀初頭の独英辞典の電子化版
6
講義・演習でも



現在は講義や演習も SMART-GSで行うことが増えている。
特に、京都学派の哲学者田辺元の手書き文書を翻刻・分析
する演習では、2組のプロジェクタとスクリーン、SMART-GS
を使いデスクトップ環境を再現。
今年度前期担当した2回生向け英書購読では、教科書を自
炊しSMART-GSでマークアップと解説を書き、学生のレジュ
メをAcrobat で表示(ここがまだまだの部分。PDFもSMARTGSで扱いたいのだが、まだできない)。後で学生が見れるよ
うにSMART-GS資料(gsxファイル)をHTML出力し整形しブ
ログに貼った。便利!!!!
7
どうしてこんなことが起きたか

林のヒルベルト日記研究では、日付がついていない
断片的なメモの10年分ほどに、1,2年の誤差で記
述時期を同定することが求められた。


これにより、それまでのヒルベルト観、数学基礎論史観が
大きく覆った(興味のある方は、岩波文庫「不完全性定理
」の長ーい解説をご覧下さい)。
このために日付と関連するテキストのさまざまな部
分を見つけ出してマークアップし、それに投稿や執
筆の時期がわかる論文や、時期が知られている歴
史的できごとをリンクしていき、不等式の方程式を解
くようにして時期を割り出した。
8
実例
付箋
ポストイット
書き込み
下線
等
9
印刷物の事例で何をしているのか
分析してみる
Underline
Bookmark
by PostIt
Flag
Marginal
note
10
マークアップのリンク
A region
marked up
by the brace
Brace
A line linking
the region
and the note
Marginal
note
11
マイクロフィルムを焼いたハードコピーに行った
実際のアノテーション。これを電子的に行える
1. このようなアノテーショ
ンが、印刷・手書き、の
区別無く、文献画像に
対して行える
2. アノテーションだけを分
離し、保存・コピー ・修
正・公開などができる。
3. 印刷物だけでなく、この
ような手書き文書でも
全文検索ができる。
ポストイ
ットでブ
ックマー
クとメモ
余白のメモと領域
をリンクし関係づ
ける矢印
メ
モ
下線により
領域を指定
12
SMART-GSの基本的機能





HTMLテキストエディタ。当然、マークアップ機能
は使える
画像ドキュメント(ドキュメントの画像)のマークア
ップ
画像ドキュメント、HTMLテキストのマークアップ
間のリンク
画像ドキュメントの画像の類似性による検索
つまり、HTMLテキストエディタの機能を、画像ド
キュメントに拡張したものがSMART-GS
13
SMART-GSのマークアップ方式
マークアップなど
の情報は 文献画
像とは分離されて
おり、
gsx-file という
別のファイルに
格納されている。
=
+
文献画像
14
SMART-GSの画像検索方式


公立はこだて未来大学寺沢憲吾准教授が開発
した画像検索エンジン DscSearch を使用。
DscSearch を基礎に次の様な機能を追加して、
手書き文書検索を実用的にしている:


分割並列検索による高速化と大規模データ対応
DscSearch が出力する結果の候補から、正しいもの
をユーザーが選び、それらのどれかに似ているもの
を再度検索することにより、手書きの「ブレ」の問題を
解決する芋づる式検索
15
開発の動機




先に述べたヒルベルト日記研究は極めて複雑な作業を必要
とし、ハードコピーや情報カード・ノートなどを使っての作業は
極めて困難だった。
林が神戸大工学部のソフトウェア工学者だったころ、林研究
室で SMARTというツールを開発していたが、このヒルベルト
日記研究の作業は、システムが満たすべき大量の条件から
SMARTを使ってシステムのモデルを作りあげていく作業と
酷似していた。
そこでSMART様な歴史研究用ツールがあれば、作業が簡
単になるはず、というのが最初の発想。
そのため、新システムをSMART-GSと命名。
GS = geschichtliche Studie = 歴史研究(独)
16
SMART-GSの実用例 1/2
1.
2.
ヒルベルト日記研究は開発が終了する前に、ほぼ
完成。実際には、あまり使われなかったが、ひとつ
残っていた重要な問題が、SMART-GSの画像検索
を利用して30分ほどで解けた。
京大文、現代史、永井和教授のグループが原敬日
記に相当するほどの重要史料とされる倉富勇三郎
日記の翻刻プロジェクト(科研費基盤A)にSMARTGSを使用。この研究の中で協働翻刻の方法が生ま
れた。
17
SMART-GSの実用例 2/2
3.
4.
5.
林がヒルベルト日記研究の後に始めた、京都学派の哲学者
田辺元の講義準備メモの分析などに応用。協働翻刻のテク
ニックを、さらに洗練させて利用、SMART-GSをそのために
改良するなどして、約半世紀読めなかった、同史料の解読に
成功しつつある(科研費萌芽)。その結果、田辺哲学の理解
が変わりつつある。皆さんがダウンロードされたSMART-GS
に入っているサンプルはその一部。
同研究のスピンオフ、京都学派アーカイブで、京大文図書館
の西田幾多郎の全手書き原稿、二千数百枚余を十数秒で検
索できるSMART-GSを一般公開。
近畿大学現代政治史の近藤正巳教授のグループによる科
研費研究(基盤C)で採用。
18
SMART-GSによる田辺元史料研
究、京都学派アーカイブ


その内、田辺元史料研究の最新の情況
この史料の厄介さ:


弟子にも読めないほどの悪筆(講義のための推敲メモ)
内容が難解:田辺哲学は西田哲学なみに難解で知られる





様々な哲学理論:アリストテレス、ハイデガー、シェーラー、etc.
多言語による哲学などの用語:日本語、独語、仏語、英語、ラテン語、古代ギリシャ
語など。
田辺は哲学以外の知識も豊富:現在は使われていない数学・物理学の記法が田辺
哲学の核心と関係していたりする。
この研究でSMART-GSは共同作業のツールになっている: 上の様な複雑性に一
人の研究者が対処するのは無理。田辺元史料研究会の中に、様々な能力を持
つ人がいるから読めていることが、実際の翻刻作業を観察すると分かる。
 この部分は久木田さんが説明。
この成果は京都学派アーカイブhttp://kyoto-gakuha.info/で公開されつつある
19
SMART-GSの現在の姿 1/2

次の機能を併せ持つツール
1.
2.
3.
画像ビューワ
HTMLエディタ
寺沢氏の画像検索エンジン用のフロントエンド
20
SMART-GSの現在の姿 2/2

実用的な理由
1.
画像検索以外は情報技術として目新しいものはなく、既
存の技術が手書き史料ベースの歴史研究用にチューン
し統合されている。これが大きな差を生む。例えば画像
へのアノテーションでは…


PDF, HTMLはテキストが主で画像は副⇔史料研究の中心は史
料画像
PDF,HTMLは既存情報の発信用⇔史料研究は情報を作り出す
こと
色々な機能強化がされている。
2.



史料画像への行概念の導入
1対多リンクを可能とする、独自のリンク方式
様々なアノテーション方式と、それらのハンドリングのための機能
21
例えばアノテーションとリンクでは


HTMLなどではリンク用のアノテーション、たとえば、アンカ
ーを置くには、タグのID(名称)を決めなくてはいけない。
SMART-GSはユーザー名と作成時間でIDを自動生成する。
史料にマーカーでしるしをつける、ペンで線を引くような感覚でマーク
アップができるので歴史研究の思考が乱されない。
1.

リンクはマークアップの対として、オブジェクトとして保管・管
理される。
1対多のリンクが可能
リンクのグラフは常に保持されているので一括処理がしやすい
1.
2.


たとえば、自分を指しているリンクのリストが簡単に得られる。LocalView
ただし、管理は難しくなる。たとえば、undo が厄介でまだ作ってない。
22
SMART-GSの近未来の姿







HCPサーバをハブとするグループウェア:ほぼ完成。久木田
さんが説明。
バージョン管理システム:ほぼ完成。久木田さんが説明
WEB上の画像に直接アノテーション、リンクをあてることが
できるツール:今年度中に作る予定。
OCRとの連携。
手書き文書OCRとしての利用。(手書き検索の正解の場所
にユーザーが示した正解を一斉に書き込む。)
HTML出力機能の強化。特に教育用に。
リアルタイム協働作業を支援するツール:これからの最大課
題 ⇒ ここから久木田さんが説明。
23