Transcript (学部生用)[ppt] - 情報知識ネットワーク研究室
Slide 1
2005/10/06
情報知識ネットーワーク 研究室紹介(有村・喜田研)
北海道大学工学部 情報エレクトロニクス学科
コンピュータサイエンス・コース
3年ゼミナール紹介
情報知識ネットワーク
有村・喜田研究室
{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
1
Slide 2
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
紹介: 情報知識ネットワーク研究室
(有村・喜田 研)
研究テーマ:
情報検索とデータマイニング
教官: 有村博紀 教授,喜田拓也 助教授
研究協力者:
宇野毅明,佐藤健(国立情報学研究所),
湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科)
坂本比呂志,下薗真一(九工大),
北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流
2
Slide 3
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
有村博紀
専門:
データマイニング
情報検索(とくに全文テキスト索引)
計算学習理論(機械学習)
興味があること
膨大なデータから,人間に役立つ情報と知識を
とりだすこと
高速なアルゴリズム(プログラム)を設計すること
最近面白かったこと
企業の人たちと一緒に,ソフトウェア開発をしたこと.
3
Slide 4
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
データマイニング・エンジンの開発
ウェブやHTML,テキストデータなどのグラフデータから
特徴的なパターンを高速に取り出す.
情報検索や日本語テキスト処理,画像データ処理に役立つ.
AWAP: Fast Text Mining Engine
(1997-2002)
FREQT: Fast XML and
Tree-like Data Miner
(SDM'02)
A collection
of trees
OPTT: Optimized
Pattern Disocvery
Frequent Patterns
with s = 50 %
Mining
(PKDD'02)
StreamT: Online XML
Stream Miner
(IEEE ICDM'02)
UnoT: Unordered Tree Miner
(Discovery Science'03)
(with 浅井達哉君@現・富士通研,安部賢治君@現・シャープ,宇野毅明先生@NII,中野眞一先生@群馬大,)
4
Slide 5
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
AWAP: Fast Text Mining Engine (1997-2002)
HONDA vs. SOFTBANK
HONDA vs. TOYOTA
HONDA vs. SOFTBANK
Rank Other
0
0
1
1
2って 33
3
>350
4
どんな会社だろう?
>350
5
>350
6
5
7
>350
8
2
9
24
10
108
11 じゃなくて,
4
12
6
に出ているもの
13
>350
14
19
はなにかな?
15
3
16
28
17
>350
18
>350
19
>350
ホンダ
ソフトバンク
ホンダ
Pattern
HONDA vs. TOYOTA
Rank Other
Pattern
0
0
1
1
2
8
3
15
4
11
5
6
<99 >
6
12
7
25
8
41
9
20
10
35
11
48
<98 >
12
53
13
60
<99 time >
じゃなくて,
14
37
15
36
に出ているもの
16
40
17
30
はなにかな?
18
67
19
14
<99 >
トヨタ
ホンダ
5
Slide 6
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
喜田拓也
専門:
情報検索(特に文字列照合)
テキスト・アルゴリズム
データ圧縮
興味があること
巧妙なアルゴリズムを知るor設計すること
効率よく情報を検索するためにコンピュータが
できること
最近面白かったこと
国際会議でイタリアへ行ったこと.
6
Slide 7
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
圧縮データに対する文字列照合
テキスト
データ
文字列照合
アルゴリズム
転送
二次記憶装置上
主記憶装置上
圧縮テキスト
復号
転送
二次記憶装置上
文字列照合
アルゴリズム
主記憶装置上
主記憶装置上
圧縮テキスト
転送
二次記憶装置上
主記憶装置上
圧縮文字列照合
アルゴリズム
7
Slide 8
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
実験結果(非圧縮テキスト上のアルゴリズムとの対比)
CPU時間(秒)
0.8
0.7
AlphaStation XP1000
(Alpha21264: 667MHz)
Tru64 UNIX V4.0F
0.6
Medline(英文テキスト)
60.3Mbyte
0.5
非圧縮テキストをKMPで照合
0.4
BPE圧縮テキストに対する照合
0.3
非圧縮テキストをAgrepで照合
0.2
BPE圧縮テキストに対する
Boyer-Moore型のアルゴリズム
を用いた照合(Shibataら[2000])
0.1
0.0
5
10
15
20
25
パタンの長さ
30
* BPEはByte Pair Encoding圧縮法
* KMPはKnuth-Morris-Pratt法
* AgrepはWu&Manberが開発した検索ツール
(with 柴田裕介君@現・NTTコムウェア, 松本徹也君@現・NTTドコモ, 竹田正幸先生@九大,篠原歩先生@九大)
8
Slide 9
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
3年生ゼミナール
ゼミナール
英語または日本語の資料を読む
わかったことを他のひとに説明する
新しい考え/方法を作る
プログラムを作る/実験する
これは今回は見送り
日本語または英語で書く
大学の残りの2年間でしてほしいこと*
興味があること/やりたいことをみつける
何でもいいから,集中して基礎的な勉強をしてみる
(20代前半に)
9
*)大学院の2年間で身につけてほしいことでもあります.
Slide 10
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
H16年の例
3年生ゼミナール: テキスト
英語の教科書
"Managing Gigabytes"
(ギガバイトを征服!)
著者: Ian H. Witten, Alistair Moffat,
Timothy C. Bell,
Morgan Kaufmann Publishers, 1999.
ウェブサーチ・エンジンを作るための
現在唯一の教科書
テキストと画像の圧縮
テキスト索引の実装
問合せの実現
ManagingGygabyte site: http://www.cs.mu.oz.au/mg/
写真略
Ian Witten先生
ワイカト大学, NZ
写真略
Alistair Moffat先生
メルボルン大学, AU 10
Slide 11
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
3年生ゼミナール:
ゼミで直接まなぶこと
情報検索の基礎技術
データ圧縮の技術
ウェブ検索エンジンのしくみ
情報工学として
アルゴリズムとデータ構造の
議論に慣れる
情報理論と統計の実際をしる
工学(engineering)の感覚
読む・話す・聞く・作る
11
Slide 12
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
3年生ゼミナール
オプション(希望者があれば)
プログラム作成
複数パターン照合機械
(情報検索)
ハフマンor LZ圧縮プログラム
(テキスト圧縮)
アイテム集合発見プログラム
(データマイニング)
コンテスト???
12
Slide 13
2005/10/06
情報知識ネットーワーク 研究室紹介(有村・喜田研)
おまちしています
情報知識ネットワーク
有村・喜田研究室
{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
13
2005/10/06
情報知識ネットーワーク 研究室紹介(有村・喜田研)
北海道大学工学部 情報エレクトロニクス学科
コンピュータサイエンス・コース
3年ゼミナール紹介
情報知識ネットワーク
有村・喜田研究室
{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
1
Slide 2
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
紹介: 情報知識ネットワーク研究室
(有村・喜田 研)
研究テーマ:
情報検索とデータマイニング
教官: 有村博紀 教授,喜田拓也 助教授
研究協力者:
宇野毅明,佐藤健(国立情報学研究所),
湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科)
坂本比呂志,下薗真一(九工大),
北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流
2
Slide 3
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
有村博紀
専門:
データマイニング
情報検索(とくに全文テキスト索引)
計算学習理論(機械学習)
興味があること
膨大なデータから,人間に役立つ情報と知識を
とりだすこと
高速なアルゴリズム(プログラム)を設計すること
最近面白かったこと
企業の人たちと一緒に,ソフトウェア開発をしたこと.
3
Slide 4
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
データマイニング・エンジンの開発
ウェブやHTML,テキストデータなどのグラフデータから
特徴的なパターンを高速に取り出す.
情報検索や日本語テキスト処理,画像データ処理に役立つ.
AWAP: Fast Text Mining Engine
(1997-2002)
FREQT: Fast XML and
Tree-like Data Miner
(SDM'02)
A collection
of trees
OPTT: Optimized
Pattern Disocvery
Frequent Patterns
with s = 50 %
Mining
(PKDD'02)
StreamT: Online XML
Stream Miner
(IEEE ICDM'02)
UnoT: Unordered Tree Miner
(Discovery Science'03)
(with 浅井達哉君@現・富士通研,安部賢治君@現・シャープ,宇野毅明先生@NII,中野眞一先生@群馬大,)
4
Slide 5
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
AWAP: Fast Text Mining Engine (1997-2002)
HONDA vs. SOFTBANK
HONDA vs. TOYOTA
HONDA vs. SOFTBANK
Rank Other
0
0
1
1
2って 33
3
>350
4
どんな会社だろう?
>350
5
>350
6
5
7
>350
8
2
9
24
10
108
11 じゃなくて,
4
12
6
に出ているもの
13
>350
14
19
はなにかな?
15
3
16
28
17
>350
18
>350
19
>350
ホンダ
ソフトバンク
ホンダ
Pattern
HONDA vs. TOYOTA
Rank Other
Pattern
0
0
1
1
2
8
3
15
4
11
5
6
<99 >
6
12
7
25
8
41
9
20
10
35
11
48
<98 >
12
53
13
60
<99 time >
じゃなくて,
14
37
15
36
に出ているもの
16
40
17
30
はなにかな?
18
67
19
14
<99 >
トヨタ
ホンダ
5
Slide 6
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
喜田拓也
専門:
情報検索(特に文字列照合)
テキスト・アルゴリズム
データ圧縮
興味があること
巧妙なアルゴリズムを知るor設計すること
効率よく情報を検索するためにコンピュータが
できること
最近面白かったこと
国際会議でイタリアへ行ったこと.
6
Slide 7
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
圧縮データに対する文字列照合
テキスト
データ
文字列照合
アルゴリズム
転送
二次記憶装置上
主記憶装置上
圧縮テキスト
復号
転送
二次記憶装置上
文字列照合
アルゴリズム
主記憶装置上
主記憶装置上
圧縮テキスト
転送
二次記憶装置上
主記憶装置上
圧縮文字列照合
アルゴリズム
7
Slide 8
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
実験結果(非圧縮テキスト上のアルゴリズムとの対比)
CPU時間(秒)
0.8
0.7
AlphaStation XP1000
(Alpha21264: 667MHz)
Tru64 UNIX V4.0F
0.6
Medline(英文テキスト)
60.3Mbyte
0.5
非圧縮テキストをKMPで照合
0.4
BPE圧縮テキストに対する照合
0.3
非圧縮テキストをAgrepで照合
0.2
BPE圧縮テキストに対する
Boyer-Moore型のアルゴリズム
を用いた照合(Shibataら[2000])
0.1
0.0
5
10
15
20
25
パタンの長さ
30
* BPEはByte Pair Encoding圧縮法
* KMPはKnuth-Morris-Pratt法
* AgrepはWu&Manberが開発した検索ツール
(with 柴田裕介君@現・NTTコムウェア, 松本徹也君@現・NTTドコモ, 竹田正幸先生@九大,篠原歩先生@九大)
8
Slide 9
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
3年生ゼミナール
ゼミナール
英語または日本語の資料を読む
わかったことを他のひとに説明する
新しい考え/方法を作る
プログラムを作る/実験する
これは今回は見送り
日本語または英語で書く
大学の残りの2年間でしてほしいこと*
興味があること/やりたいことをみつける
何でもいいから,集中して基礎的な勉強をしてみる
(20代前半に)
9
*)大学院の2年間で身につけてほしいことでもあります.
Slide 10
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
H16年の例
3年生ゼミナール: テキスト
英語の教科書
"Managing Gigabytes"
(ギガバイトを征服!)
著者: Ian H. Witten, Alistair Moffat,
Timothy C. Bell,
Morgan Kaufmann Publishers, 1999.
ウェブサーチ・エンジンを作るための
現在唯一の教科書
テキストと画像の圧縮
テキスト索引の実装
問合せの実現
ManagingGygabyte site: http://www.cs.mu.oz.au/mg/
写真略
Ian Witten先生
ワイカト大学, NZ
写真略
Alistair Moffat先生
メルボルン大学, AU 10
Slide 11
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
3年生ゼミナール:
ゼミで直接まなぶこと
情報検索の基礎技術
データ圧縮の技術
ウェブ検索エンジンのしくみ
情報工学として
アルゴリズムとデータ構造の
議論に慣れる
情報理論と統計の実際をしる
工学(engineering)の感覚
読む・話す・聞く・作る
11
Slide 12
情報知識ネットーワーク 研究室紹介(有村・喜田研)
2005/10/06
3年生ゼミナール
オプション(希望者があれば)
プログラム作成
複数パターン照合機械
(情報検索)
ハフマンor LZ圧縮プログラム
(テキスト圧縮)
アイテム集合発見プログラム
(データマイニング)
コンテスト???
12
Slide 13
2005/10/06
情報知識ネットーワーク 研究室紹介(有村・喜田研)
おまちしています
情報知識ネットワーク
有村・喜田研究室
{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/
13