Transcript Click
電子書籍の検索機能の改善
木下研究室
201002713 鴫原 善寿
背景
• スマートフォンなどの携帯端末の普及とともに
電子書籍に注目が浴びた。中でもamazonの
kindleなど電子書籍の専用端末も現れた。
• 電子書籍はデータなので本棚もいらず、持ち
運びも容易になるなど様々な恩恵をもたらし
た。
背景
• 電子書籍の便利になった機能として検索機能
がある。電子書籍ならば索引を参照する手間
がなく、複数のページを検索することが可能に
なった。
夏目漱石 「こころ」
「私」というキーワードで検索
検索結果
キーワードを含む文とページ
がリスト表示される。
私が先生と知り合いに
なったのは鎌倉である。
.
.
.
.
「私」と「先生」という二語の
キーワードで検索
検索結果
「一致する検索結果がありま
せん。」と表示。
実際には「私」と「先生」という
二語のキーワードを含む文が
ある。
改善
テキスト
自動要約
要約率
重要文
書籍は基本的に一つの題目,テーマに沿って
二語で検索をするということは、一語目と二語
書かれているものであるため,書籍において出
目は何らかの関係があり、その二語が全く関連
でくるワードは一つの題目,テーマに関係のあ
性のない語とは考えにくい。
る言葉であるものと考えられる.
電子書籍のユーザーにとって便利な検索機能
適当な二語の検索
私
友人
一語から二語目を
抽出
私
先生
関係のある言葉を
選んでから検索。
ユーザーの欲しい情報が得られる
目的
• ユーザーが二語選ぶのではなく、システムが
二語目を選ぶことで、ユーザーが欲しい情報
を効率よく得る検索システムの提案。
インターネット上の情報
索引全体
集合結果
集合結果
(ランキング処理後)
収集
電子書籍は
不変のデータ
(有限)
キーワード
検索
ランキング
上位
キーワードに より正解とな
適合したものを
るものを取り
Web検索では検索元のデータが日々新しくなる
取り出す
出す
ランキング上位が変わる
(検索対象が無限)
ネット上のページ
キーワードを含むページ
ランキング上位は
変わらない
電子書籍のデータ
第2キーワードの決め方
集合結果
索引全体
5
収集
7
7
6
6
第2キーワード
抽出
3
あらかじめいくつの
キーワードを抽出す
るか決めておく。
集合結果
(ランキング処理後)
4
5
第2キーワード
決定
3
4
数値の大きさで決める
単語の共起頻度を数値化し、数値の大小で
第2キーワードを決める。
書籍内の単語
6
6
キーワードを含む書籍内の単語
提案
1. 第1キーワードから最も関係のある単語を第
2キーワードとし抽出を行う。
2. 第2キーワードの抽出方法としてtf-idf法の
応用であるOkapi-BM25を使用する。またtfidf法とOkapi-BM25の2つの検索をし、検索
結果の表を比べることで、どちらが優れてい
るかを示す。
検索方法
1. 第1キーワードで検索をする。
2. 第1キーワードを含む文を抜き出す。
3. 2.で取り出した文から単語をとりだし第2
キーワード候補群の配列に格納する。
4. 第2キーワード候補群の配列から第2キー
ワードを決める。
5. 第2キーワードで検索をする。
「私」というキーワードで検索
私 先生 わたくし
その人 常
…. 出掛ける 事
「先生」を第2キーワード
とし、検索をかける。
tf – idf 法による抽出(方式A)
tf × idf
𝑁
idf = 𝑙𝑜𝑔
+1
𝑑𝑓
ある単語の文書内での出現頻度をtf(term frequency)
ある単語が含まれている文書の頻度をdf(document
frequency)
全文書数N
idf(inverse document frequency)は,dfの逆数であり,dfとの
対数をとったものとする
Okapi-BM25 (方式B)
(𝑘1 + 1)𝑡𝑓
𝑁 − 𝑑𝑓 + 0.5
𝑙𝑜𝑔
𝑑𝑙
𝑑𝑓 − 0.5
𝑘1 ( 1 − 𝑏 + 𝑏
𝑡𝑓
𝑎𝑣𝑑𝑙
文書の長さ(文書数)の平均化をはかり、スコア
リングする文書が大体どれくらいの長さなのか
を比率的に計算することで特徴語のスコアのム
ラを小さくしている。
結果
先生
鎌倉
西洋人
tf-idf
23.84
7.19
9.09
Okapi-BM25
10.67
9.81
8.94
文の文字数を考慮した結果、数値の差が縮まり、
tf-idf法では「先生」「西洋人」「鎌倉」の順に数値が大きい
Okapi-BM25では「先生」「鎌倉」「西洋人」の順となった。
ランキング上位が入れ変わった。
考察
• そのほかの書籍ジャンル(参考書など)で同様
に検索を行う。書籍ジャンルごとの結果を比
較することでtf-idf法とOkapi-BM25はジャンル
ごとでどちらを使う方が良いかを考察する。
おわり