Transcript 2015.04.23

情報技術演習Ⅰ
人文学研究のための情報技術入門
2015/04/23
担当:林晋
TA:橋本雄太
電子ライブラリ・アーカイブ
全文検索とその威力
• 図書館の本を利用するとき,どうしていますか?
• 今では殆どの場合,OPAC(Online Public Access Catalog)を使います.京大
ではKULINEの「簡易検索・詳細検索」などがそれ.
• しかし, 昔は紙のカードを使っていました.多くの図書館などで殆どの書
籍データの遡及入力が済んでいますが,それでも,今でも紙カードでしか
見つからない場合も稀にあります.
– 遡及入力とは: http://www.janul.jp/j/publications/reports/66/8.html
– 京大の遡及入力
• 静脩(Nov. 2007)の記事.古い記事なので, もう全部終っているはずだが,どのような苦労が
あったかが偲ばれる. PDFなのでクリックして開かなかったら,ダウンロードしてから読んでみ
てください.(静脩: 京大の図書館の学内誌)
– 文学部の遡及入力は完了している.
• 数年前まで遡及入力をしていた. 今は1Fの学生用のラウンジになっている場所を文学部の
遡及入力のために使っていた.
• ただし,特殊文庫の資料の一部, 例えば西田幾多郎の手書き原稿などはOPACで検索すること
はできない.京大図書としての番号付けさえされていない…
今の基本はOPAC
• 現代では大学などの図書館,文書館では,資料や書籍には
「番号」がつけられ, その番号で認識されています.
• そして, その番号はメタデータとともにデータベースに登録さ
れ, それを京大のOPAC kuline のようなWEBサービスで検索し
て, それがどこにあるかを調べたり, 予約したり, 他大学から
取り寄せたりができます.
• ドイツ発祥のSubitoというサービスでは, 図書館に頼むとコピ
ーを郵送してくれさえする.
– 日本でSubito に参加している図書館
– 参考資料 http://current.ndl.go.jp/node/8567
– ドイツ語Wikipedia http://de.wikipedia.org/wiki/Subito
• 課題:メタデータとは何か調べよ. 提出必要なし.
ドイツは先進国
• ドイツは図書館, 文書館のIT化, WEB化では,
世界トップの一つ.
• 特に歴史史料のようなものまで, 検索できる
ようになっている:
– Kalliope: http://kalliope.staatsbibliothekberlin.de/
– ゲーテの手稿や, 手紙などがどこに所蔵されて
いるか, たちどころに分かる.
• 手紙の場合は, 送り手, 受け手を指定して検索できる
今はなんでもオンライン!
• 十年くらい前までは, こんなものはなかったので, ドイツ史をやるためには,
その史料を探すために, ドイツに行ったり, メールを書いたりで結構手間
だった.
• 今は特定の大学図書館に, 史料を問い合わせたりすると, 「なぜ, Kalliope
で調べないのか?」と, 怪訝そうな答が返って来る時代になっている.
• 日本では残念ながら, まったくこういうことはできそうにない.
• 問題は, 遡及入力のように, 紙の上だけにある情報を, サイバー空間(サ
イバースペース)にコピーすること. これは情報元が, サイバー空間に属し
ていないので, コピーするには, 非サイバー空間(つまり, 我々が属してい
ると思っている世界)での大変な労力が必要.
• しかし, 京大の中だけとかならば, 情報はすでにサイバー空間内だけで,
殆どの図書情報を検索可能.
• さらに,しかし,文学部が持っている西田幾多郎史料の様に,サイバー空
間で調べられないものもある.学者ならそれを無視してはいけない.
• 課題:サイバー空間, サイバースペースとは何か調べよ. 提出必要なし
では, 昔はどうだったか?
• では, 昔はどうだったか?
• OPAC だけで済むようになったのは最近.
• 2007年11月の静脩(Nov. 2007)に遡及入力の記事があるとい
うことは, 7年前は, 現実物理世界と, サイバー世界にズレが
有ったということ.
• 今は, これは記事にならない. サイバー世界=Kuline では分か
らないものがありますよ, という情報ならば記事になる.
• つまり, サイバーでないものが「例外」ということ.
• このように, 今はサイバー世界(OPAC)が主流, というより, そ
れこそが「現実世界」となった.
• では, 図書館にPCさえなかった時代はどうしていた?
昔の人は大変だった:紙カード
• 昔の紙カードによる書籍探しは?
– 既に存在しないブログ http://toyohiro.at.webry.info/200812/article_7.html よ
り,紙カード(目録カード)とそのボックス.このブログが存在しないことが時代
いの変化を示している.
メタデータとカード
•
•
•
7,8年前まで, 京大でも書籍はカードで検索していました. もちろん, 文学部図書
館以外の書籍は, その図書館に出向いて探すしかありませんでした.
各書籍を表すカードには, 書籍の色々な属性(性質, 特徴)が書かれています. 例
えば, タイトル, 著者, 出版年などが書かれていて, それをキーにして, 次ページの
ような箱に入った大量のカードを一枚一枚めくって探していました.
この様な情報が, 書籍のメタデータです.
Kuline の詳細検索とカード
• 次ページの画像は, Kuline の詳細検索の図です.
• これにも, 著者名, タイトル, 出版年という項目があり
ます.
• そして, これらを指定して探すわけですから, カードを
捲りながら, こういうメタデータで探していたのを,
WEBを通して使っている図書館のコンピュータが肩
代わりしてくれているということが分かります.
• また, Kuline の方が紙カードより遥かに, メタデータ
の項目が多くなっています.
書籍メタデータの標準スキーマ:Dublin Core
• Kuline 詳細検索や紙カードの項目のパターンを, ス
キーマ (schema)といいます.
– これは書籍メタデータだけでなく, データベース一般で使
われる言葉.
• スキーマは各OPAC(のデータベース)ごとに決めま
すが, できるだけ統一した方が, 沢山のOPACを超え
て検索するときなど便利です.
• つまり標準的スキーマがあると便利ですが, 現在,
最も基本的なものと考えられているのが, Dublin
Core と呼ばれるスキーマです.
課題3,4:提出必要
• 課題3
– 提出期限:4月23日(本日)18:00
– 提出方法:[email protected]にメールで.
• 件名(subject)は必ず,“情報技術演習 課題3”にする.
• 自分の名前と学籍番号を本文冒頭とメール本文に書く.
– 問題: Dublin Core とは何か手短に説明せよ.
• 課題4
– 提出期限:4月29日24:00
– 提出方法:[email protected]にメールで.
• 件名(subject)は必ず,“情報技術演習 課題4”にする.
• 自分の名前と学籍番号を本文冒頭とメール本文に書く.
– 問題: 先に示した紙カードのスキーマの項目を, Dublin Core の項目と照らし合わせて
説明せよ. ただし, 紙カードの画像だけでは, 何かよく判らないものもある. それらの説明
は推測でやってよい.
船山信一の論理学史研究
• 船山信一(1907-1994):50-70年代の立命館教授.京大文卒
業.京都学派左派(他に三木清,戸坂潤)の哲学者・労働運
動家.
• 明治期の西洋哲学の導入史で知られる.
• 明治論理学導入史も研究している.日本の論理学史の,ほ
ぼ唯一の研究.大体,明治20年代までの論理学関係の本を
網羅.
• 図書カードを駆使して「論理」「推論」「推理」「演繹」などの
キーワードに関連する題名や項目で探したとしか思えない.
文部省(当時)の研究費をもらってやっている.バイトを使っ
た?
• それが今では・・・
NDL近代デジタルライブラリで検索
• デジタルライブラリの例で出てきた, 国会図書館の近代デジ
タルライブラリ. これの詳細検索で, 船山がやったことと同じこ
とをやってみてください. 詳細検索URL:
– http://kindai.ndl.go.jp/search/detail?
• タイトル欄を「論理, 推論, 推理, 演繹, 帰納」にし, その右側の
AND は OR にする. そして, 出版年は明治1年から45年(月
日は空欄), 結果表示の第1ソートを「出版年:古い順」にして
から, 「詳細検索」のボタンを押す.
• これでタイトルに「論理, 推論, 推理, 演繹, 帰納」のどれかが
ある明治時代の書籍が出版が早い順ですべて出る.
• 次ページの図参照
結果は!
• 一瞬で膨大な数の関連図書が表示される.
• その中には, 日本の民主主義運動の魁の一人であ
る「憲政の神様尾崎行雄(尾崎咢堂)」が書いた「演
繹推理学」(明治15年)などというものも出てくる.
– これは船山も見つけている.
• おそらく船山が見つけた書籍は, これでほとんどす
べて見つかっているはず.
船山が出来なかった目次検索
• 船山は目次までは検索できていない. しかし, 近デジならできる.
• 今度は, 「論理, 推論, 推理, 演繹, 帰納」をタイトル欄でなくて, 目次欄にし
て, 同様に詳細検索する. (次ページ図参照)
• そうすると, タイトルが論理を示唆しない本で目次に論理関係の用語があ
るものが沢山みつかる. その中には, 次のようなものまである:
– 小学教員必携
• 明治18年
• 目次に「論理学ノ部」「論理法ト教育ノ関係」
– 警官処世訓
• 明治38年
• 目次に「論理学」
• あまりに沢山結果がでるので, 明治38年出版の「警官処世訓」はなかな
か見つかりません.
全文検索
• 沢山の文書(ファイルなど)から,一つの言葉を一斉に探し出すことを「全
文検索」(full text search) という.
– 文書の中を全部探すという意味らしい.しかし,すべての文書を,という意味
もある(日本語では,そちらのニュアンスが強いような・・・).
– Windows の「検索」,Google など,この全文検索といえる.
– 船山は「題名」などのメタデータを検索したと思われるが, これは全文検索で
はない.
• 題名でなく全文検索ができたら凄い.
– 日本では,次の二つが目次レベルまでの全文検索が可能
• 国会図書館近代デジタルライブラリ http://kindai.ndl.go.jp/index.html
• NII Webcat Plus http://webcatplus.nii.ac.jp/
– Google Books http://books.google.com/ は本を超えての本当の全文
検索が可能.
• たとえば, Franklin, lightning の二つをキーワードにして検索してみてください.
全文検索の威力
• 人文学研究のためには, 明らかに,
– メタデータ検索<目次検索<全文検索
• 近代デジタルライブラリの目次検索や, Google Books の全文
検索により, それまでの人文学研究では見落とされていた面
白い事実が簡単に見つかることがある.
– 明治論理学のケース:船山は思想史のレベルでしか, 明
治の大論理学ブーム(これは現代のロジカルシンキング,
クリティカルシンキングブームを遥かに凌ぐ規模だった)を
見ていないが, 小学校教員, 警官のための「ハウツー本」
にさえ, 論理学の話が掲載されていることは, これを文化
史の立場でみて, 平成のブーム(MBAブーム)と比較する
と面白そうだ.
注意!
1.
この様な検索技術を用いるとき, 「検索して無かったら, 現実にも無い」と思って
はいけない.
– 遡及入力の例でわかるように, サイバースペースはあくまで現実の世界ではない. それ
は現実の世界にドンドン近似しつつあり, それを凌駕しつつあるが, 必ず「抜け」はある
もの.
– 一旦面白い史料を見つけてしまえば, それはITで見つけても, 図書館の本でみつけても
同じこと. 検索で見つけたということは関係ない!
– ただし, 検索という手段を持つ人は持たない人より, 頭一つ抜け出せる.
2.
検索には知恵が必要だということを常に念頭において検索する.
–
–
近デジで明治の論理本を探す時, 「論理」以外に「推理」というキーワードを使っている
ことに注意. これがないと尾崎咢堂行雄の論理本「演繹推理学」はタイトルサーチで
はヒットしない.
こういうことをやったのは, 林が「論理」という言葉が定着したのが明治のかなり遅い
時期だということを, その訳語の考案者である西周を研究していた院生から聞いて知
っていたから. だから, 林は, 西周の初期のlogic の訳語である「到知学」なども利用し
て, 色々とサーチを試みて色々な書物を見つけ, その上で本演習用に「論理, 推論, 推
理, 演繹, 帰納」という検索用のフレーズ(クエリ query という)を考えた. こういうものが
天から降ってくるのではない.
OCR: Optical Character Recognition
Google Books の全文検索を可能にしているもの
• では, このような強力な全文サーチを可能にしているのは何だろうか?
• 近デジの場合は, 人間が目次を読んで入力していると思われる.
• 一方で, Google Books の全文検索を可能にしているのは,人間でなくて,
OCR ソフトというソフトウェア.
– この差は何か?実は, これにはちゃんとした理由があるが, それは次回.
• 次回,このOCRの実習を, みなさんにやってもらいますで,次の二つを
持ってきてください.持ってない人のためには,一応,こちらでも準備をし
ます.
• デジカメ
– 撮影した画像をUSBディスクやSDカードでPCに移せるデジカメ.電話
を使うと高くなるので,カードやケーブルで転送できるもの.ケーブル
の場合,そのケーブルも.最近のものならばケータイでもOK.
• その文章を PC に入力したい5ページくらいの印刷物