System Life Solution - 日本語全文検索システム Kabayaki

Download Report

Transcript System Life Solution - 日本語全文検索システム Kabayaki

システムを生み、守り、育てる。
システムライフソリューション
System Life Solution
株式会社タイムインターメディア
日本語全文検索環境 Kabayaki
検索エンジンとは?
• 検索エンジンとは
– 大量の情報の中から目的の文書を見つけ出すための技術
→ 検索エンジンの導入により、以下のような問題を解決
• 社内や Web サイトに、資産となりそうな情報(文書)は
蓄積されているが、必要時な時に参照するべき情報がど
れだか
分からない
• 膨大な社内資料・メールから、以前用意したデータを取
り出したい
検索エンジンとは?
• 全文検索エンジンとは?
– 文書内のすべての言葉を検索対象とした検索エンジン
– 本文のすべてが検索対象となるため、探し出したい文書
を
見つけやすい
– 管理に特別な知識が不要
– 文書の追加・更新のたびに事前作業が発生することもな
い
– 現在主流の検索エンジンは全文検索エンジン
• オープンソースでは Namazu が有名
日本語全文検索環境
Namazu をおいしく調理したのが
Kabayaki です。
Namazu とは?
• Namazu
– オープンソースで開発された全文検索エンジン
○メリット
– 無料
– 数多くの実績を持ち、知名度も高い
– 日本語用に特化されている
– 検索が非常に速い
○デメリット
– すべてコマンドによる操作が必要
→ 技術者以外が実際に管理・運用するのは難しい
– 保証がない
→ 問題発生時等に対応をしてもらえない
Kabayaki とは?
• Kabayaki とは
– 「Namazu」をおいしく調理したから「Kabayaki」
– Namazu の優れた部分を生かしつつ、簡単に利用できる
検索エンジンを目指した
– ソリューション開発で得た Namazu の利点と欠点の知
識を元に製品化
– 技術者のためのツールではなく、誰にでも扱えるツール
– 製品テーマ
「誰にでも簡単に扱いやすいように!!」
Kabayaki とは?
• Kabayaki の特徴
–
–
–
–
Web ブラウザを利用した一元的な情報管理が可能
多種多様なコンテンツを高速検索
高精度な文書フィルタ搭載による精度の高い検索
各種スパイダ機能を実装
Kabayaki とは?
• Kabayaki のインデックス
– Kabayaki による検索には、インデックスが必要
– あらかじめ検索用インデックスを作成
• 検索時間が文書の量と直接に比例しない高速な検索が可能
• 検索が実行される度にサーバーにかかる負荷が少ない
– 文章を単語単位に分割してキーワードを抽出
• 検索結果に表示される文書が、ユーザーの望む文書である確率
を上げる
Kabayaki とは?
• インデックスとスパイダ
検索
スパイダと呼ばれるプログラムが
事前に検索対象のデータを収集
Web
Kabayaki の
検索インデックス
結果
検索システムの利用者
検索時に参照されるのはインデックスのみ
検索対象の文書は直接参照されない
データベース
Kabayaki とは?
• 製品版 Kabayaki
Kabayaki とは?
• Kabayaki 製品説明
– 製品版 Kabayaki には Kabayaki Basic と
Kabayaki Enterprise の 2 種類が存在
– Kabayaki Basic は検索に必要な基本機能実装
– Kebayaki Enterprise ではより高度な検索機能を提供
– マルチプラットフォーム対応
• Linux 用と Windows 用を提供
「Kabayaki Basic」
Kabayaki とは?
• Kabayaki Basic の特徴 (1)
– 様々な文書フォーマットに対応
• Word/Excel/PDF 等、様々な文書フォーマットに対応
– プロパティ検索
• Word/Excel/PDF 等のプロパティ部分の検索に対応
– Web スパイダ
• インターネット上の Web サイトや、社内の Web サイトでの
検索(Kabayaki)に必要な情報だけを自動的に収集
• 動的ページにも対応
Kabayaki とは?
• Kabayaki Basic の特徴 (2)
– 容易な導入とメンテナンス
• 管理・設定等は、管理画面上から簡単に実行可能
• インストールも容易
– テクニカルサポート
• Kabayaki に精通したエンジニアによる迅速かつ適切な
テクニカルサポート
• カスタマイズや、コンサルティング業務にも対応可能(※別途)
「Kabayaki Enterprise」
Kabayaki とは?
• Kabayaki Enterprise の特徴
Kabayaki Basic の特徴に加えて…
– シソーラス検索機能 (類語検索機能)
• 初期辞書 (約16万語) を標準実装
• ユーザー辞書・ユーザー語の追加も容易
– 検索ログ分析機能
• 検索キーワードや時間帯・月日別の各種ランキング等、
管理画面上にてグラフ化した集計結果が閲覧可能
– パフォーマンス向上
• 検索対象に設定可能なコンテンツ数や各レスポンス等の
大幅なパフォーマンス向上
Kabayaki とは?
• DB Spider (オプション)
– Kabayaki Enterprise のオプションパッケージ
– 既存のシステムやデータベーススキーマに手を加えるこ
となく、EC サイト等へ簡易導入が可能
Kabayaki とは?
• 導入実績 (Kabayaki Basic)
– 導入本数
• Windows 用
• Linux 用
約90 本
約70 本
– ダウンロード数
• GPL 版
約15,000件
2006年 7月末現在
Kabayaki による文書管理
• 検索を実行可能にするためには、インデックスが
必要
インデックスの設定・管理
検索
Kabayaki による文書管理
• インデックスとは
– 検索対象のコンテンツをグループ毎に分けたもの
– インデックス単位で検索を実行できる
– 1つのインデックスに、複数のコンテンツを指定可能
また、ローカルなファイルと Web コンテンツを混在可
能
インデックス
コンテンツ その1
コンテンツ その2
コンテンツ その3
Kabayaki による文書管理
– インデックスのグループ分けの例
インデックスA
インデックスAを検索
営業1課
見積書
検
請求書
インデックスB
インデックスA,Bを検索
索
製品課
見積書
請求書
インデックBを検索
Kabayaki による文書管理
• インデックスの設定・管理について
インデックスの設定・管理
検索
Kabayaki による文書管理
• 管理画面を使用してインデックスを設定・管理
–
–
–
–
インデックス新規作成
コンテンツ設定
フィルタ設定
チューニング設定
• 自動または手動によるインデクシング実行
– ログ表示
Kabayaki による文書管理
• インデックス一覧
– トップ画面として表示されるのはインデックスの一覧表
示画面
Kabayaki による文書管理
• インデックス新規作成
– インデックスの追加画面を使用してインデックスを新規追加
インデックス一覧 (インデックスなしの状態)
インデックスの追加
インデックス一覧 (インデックスありの状態)
Kabayaki による文書管理
• コンテンツ設定
– そのインデックスに含ませたいデータの場所を指定 (複数可)
• ローカルなファイルが対象のときは最上位ディレクトリを指定
• Web コンテンツが対象のときは基点の URL を指定
コンテンツ設定 (コンテンツなしの状態)
コンテンツ設定 (ローカルなコンテンツを追加)
コンテンツ設定 (Web 上のコンテンツを追加)
Kabayaki による文書管理
• フィルタ設定
– 検索対象となる文書の種類
について設定
• HTML、テキスト、
Microsoft
Word/Excel/PowerPoint、
PDF、tex、dvi、
Mail/News、一太郎、オ
アシス
– 検索対象外のファイル拡張
子や検索対象外パスも指定
可能
フィルタ設定
フィルタ設定
Kabayaki による文書管理
• チューニング設定
– インデクシング設定
• インデクシングの定期実
行についての設定
• インデクシングの手動実
行
– 検索結果設定
• 検索語の周辺表示
• 類語辞書セットの指定
– メモリー設定
• メモリーやファイルサイ
ズ等の上限値を指定
Kabayaki による文書管理
• チューニング設定 (インデクシング設定)
– インデクシング間隔
• 既にインデックスが存在する場合は、追加または更新された
ファイルのみが処理対象
• 定期実行するインデクシングの開始時刻、日単位での実行間隔
指定、
または曜日指定が可能
• 「手動実行」ボタンを押せば、ただちにインデクシング開始
チューニング (インデクシングの手動実行)
Kabayaki による文書管理
• チューニング設定 (インデクシング設定)
– 再構築間隔
• 既に存在するインデックスがあれば全て破棄して、全ファイル
を処理対象とする
• 定期実行する再構築の開始時刻、日単位での実行間隔指定、曜
日指定に加えて、月単位の実行間隔および実行日が指定可能
• 「手動実行」ボタンを押せば、ただちに再構築開始
Kabayaki による文書管理
• ログ一覧
– インデクシングの実行結
果、
詳細情報のログを参照可
能
• インデクシング処理され
たファイルの情報
• 文書数
• キーワード数
• 発生したエラー
ログ一覧 (インデクシング処理中)
ログ一覧 (インデクシング処理完了)
ログ一覧 (ログファイルの詳細表示)
Kabayaki による検索
• Kabayaki による文書管理
インデックスの設定・管理
検索
Kabayaki による検索
• Kabayaki による検索
– 検索実行
• キーワード検索
• 詳細検索
– 検索ログ分析
Kabayaki による検索
• キーワード検索
–
–
–
–
–
Kabayaki のもっとも基本となる検索
キーワードを入力して検索するだけで OK
表示件数を指定可能
ソート機能 (スコア、日付、題名、著者、サイズ、URI) あり
「あいまい検索」で類語検索
Kabayaki による検索
• 検索結果表示
– スコア、要約、題名、著者、
サイズ、URI を表示
– グラフィカルなスコアバー
表示機能
– 検索結果の要約表示
• 文章の先頭
• 指定された検索語の周辺
(Kabayaki Basic は、
常に文章の先頭を表示)。
Kabayaki による検索
• 詳細検索
– タイトル、作者といったプロパティ情報による文書検索が可能
Kabayaki による検索
• 検索結果テンプレート
– 検索結果テンプレートを
カスタマイズすることに
よって、
既存の Web サイトにマッ
チした形で組み込みが可
能
(右は、タイムインター
メディアのサイトに搭載
した Kabayaki の検索結果
画面)
検索結果テンプレートをカスタマイズした画面例
Kabayaki による検索の、その後で…
• 検索ログ分析
– 検索の実績を分析する機能
– 日別月別の回数・よく検索されるキーワード・ヒット数分析など
製品概要
• その他の機能 (機能説明)
– これまでに紹介した機能の他にも便利な機能を搭載
Kabayaki のその他の機能
• シソーラス機能
– 検索キーワードの同義
語・類義語を利用した
検索を実行
– 言葉の意味を活用した
検索であるため、検索
精度が向上する
Kabayaki のその他の機能
• シソーラス検索
ユーザーが、「プリンター」の商品情報を探したい場合
検索ボックスへの入力
省略名称
プリンタ
正式名称
検索
プリンター
入力ミス
検索
プルンタ
同一の検索結果を取得
検索
Kabayaki のその他の機能
• 要約機能
– 検索結果の要約文の表示方
法を切り替え可能
• 先頭 200 文字
• キーワード中心の前後
200 文字
– 検索結果画面で文書の内容
が判別できるため、目的の
文書が見つけやすくなる
チューニング設定 (検索結果の要約表示を設定)
Kabayaki のその他の機能
• 要約機能
Kabayaki のその他の機能
• Web スパイダ
– Web サーバー上の文書
を検索対象とする機能
Web スパイダ
Kabayaki のその他の機能
• DB スパイダ
– データベース上のテキ
スト情報を検索対象と
する
– 検索時は DB にアクセ
スしないため、DB に負
荷がかからない
導入事例・実績
• ポータルサイト
– PC メーカー各社の FAQ コ
ンテンツを検索対象とした
サイト
– FAQ 情報の横断的検索やカ
テゴリ検索に対応
– カスタマイズした Web スパ
イダ機能を用いて実現
導入事例・実績
• 横断検索システム
– 国内に複数の拠点を持つ某社
向けのシステム
– 離れた拠点の文書も検索した
い→ Web スパイダ機能を用い
て拠点間横断検索システムを
実現
– 社内文書の一部は独自形式
→ 文書フィルタを追加して独
自形式文書の検索を実現
導入事例・実績
• EC サイト向け 広告表示つ
き商品検索
– 商品情報 DB サーバーと、
Kabayaki の検索サーバーを
別にすることにより、負荷
を軽減
– 商品検索自体の実現には、
既存の商品 DB の変更は不
要
導入事例・実績
• EC サイト上の広告表示
キーワードに連動し
たバナー広告を表示