(学部生用)[ppt] - 情報知識ネットワーク研究室

Download Report

Transcript (学部生用)[ppt] - 情報知識ネットワーク研究室

Slide 1

2005/10/06

情報知識ネットーワーク 研究室紹介(有村・喜田研)

北海道大学工学部 情報エレクトロニクス学科
コンピュータサイエンス・コース

3年ゼミナール紹介
情報知識ネットワーク
有村・喜田研究室
{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679

研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/

1


Slide 2

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

紹介: 情報知識ネットワーク研究室
(有村・喜田 研)


研究テーマ:
情報検索とデータマイニング



教官: 有村博紀 教授,喜田拓也 助教授



研究協力者:
宇野毅明,佐藤健(国立情報学研究所),
湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科)
坂本比呂志,下薗真一(九工大),
北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流
2


Slide 3

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

有村博紀


専門:
 データマイニング
 情報検索(とくに全文テキスト索引)
 計算学習理論(機械学習)



興味があること
 膨大なデータから,人間に役立つ情報と知識を
とりだすこと
 高速なアルゴリズム(プログラム)を設計すること



最近面白かったこと
 企業の人たちと一緒に,ソフトウェア開発をしたこと.

3


Slide 4

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

データマイニング・エンジンの開発
ウェブやHTML,テキストデータなどのグラフデータから
特徴的なパターンを高速に取り出す.
情報検索や日本語テキスト処理,画像データ処理に役立つ.


AWAP: Fast Text Mining Engine
(1997-2002)



FREQT: Fast XML and
Tree-like Data Miner
(SDM'02)



A collection
of trees

OPTT: Optimized
Pattern Disocvery

Frequent Patterns
with s = 50 %
Mining

(PKDD'02)


StreamT: Online XML
Stream Miner
(IEEE ICDM'02)



UnoT: Unordered Tree Miner
(Discovery Science'03)
(with 浅井達哉君@現・富士通研,安部賢治君@現・シャープ,宇野毅明先生@NII,中野眞一先生@群馬大,)

4


Slide 5

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

AWAP: Fast Text Mining Engine (1997-2002)
HONDA vs. SOFTBANK

HONDA vs. TOYOTA

HONDA vs. SOFTBANK
Rank Other
0
0
1
1
2って 33
3
>350
4
どんな会社だろう?
>350
5
>350
6
5
7
>350
8
2
9
24
10
108
11 じゃなくて,
4
12
6
に出ているもの
13
>350
14
19
はなにかな?
15
3
16
28
17
>350
18
>350
19
>350

ホンダ

ソフトバンク
ホンダ

Pattern

HONDA vs. TOYOTA
Rank Other
Pattern
0
0

1
1

2
8

3
15

4
11

5
6
<99 >
6
12

7
25

8
41

9
20

10
35

11
48
<98 >
12
53

13
60
<99 time >
じゃなくて,
14
37

15
36

に出ているもの
16
40

17
30

はなにかな?
18
67

19
14








<99 >







トヨタ


ホンダ





5


Slide 6

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

喜田拓也


専門:
 情報検索(特に文字列照合)
 テキスト・アルゴリズム
 データ圧縮



興味があること
 巧妙なアルゴリズムを知るor設計すること
 効率よく情報を検索するためにコンピュータが
できること



最近面白かったこと
 国際会議でイタリアへ行ったこと.

6


Slide 7

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

圧縮データに対する文字列照合
テキスト
データ

文字列照合
アルゴリズム

転送

二次記憶装置上

主記憶装置上

圧縮テキスト

復号

転送
二次記憶装置上

文字列照合
アルゴリズム

主記憶装置上

主記憶装置上

圧縮テキスト

転送
二次記憶装置上

主記憶装置上

圧縮文字列照合
アルゴリズム
7


Slide 8

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

実験結果(非圧縮テキスト上のアルゴリズムとの対比)
CPU時間(秒)

0.8
0.7

AlphaStation XP1000
(Alpha21264: 667MHz)
Tru64 UNIX V4.0F

0.6

Medline(英文テキスト)
60.3Mbyte

0.5

非圧縮テキストをKMPで照合

0.4

BPE圧縮テキストに対する照合

0.3

非圧縮テキストをAgrepで照合

0.2
BPE圧縮テキストに対する
Boyer-Moore型のアルゴリズム
を用いた照合(Shibataら[2000])

0.1
0.0

5

10

15

20

25

パタンの長さ

30

* BPEはByte Pair Encoding圧縮法
* KMPはKnuth-Morris-Pratt法
* AgrepはWu&Manberが開発した検索ツール

(with 柴田裕介君@現・NTTコムウェア, 松本徹也君@現・NTTドコモ, 竹田正幸先生@九大,篠原歩先生@九大)

8


Slide 9

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

3年生ゼミナール


ゼミナール








英語または日本語の資料を読む
わかったことを他のひとに説明する
新しい考え/方法を作る
プログラムを作る/実験する
これは今回は見送り
日本語または英語で書く

大学の残りの2年間でしてほしいこと*
 興味があること/やりたいことをみつける
 何でもいいから,集中して基礎的な勉強をしてみる
(20代前半に)
9

*)大学院の2年間で身につけてほしいことでもあります.


Slide 10

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

H16年の例

3年生ゼミナール: テキスト



英語の教科書
"Managing Gigabytes"
(ギガバイトを征服!)



著者: Ian H. Witten, Alistair Moffat,
Timothy C. Bell,
Morgan Kaufmann Publishers, 1999.



ウェブサーチ・エンジンを作るための
現在唯一の教科書
 テキストと画像の圧縮
 テキスト索引の実装
 問合せの実現

ManagingGygabyte site: http://www.cs.mu.oz.au/mg/

写真略

Ian Witten先生
ワイカト大学, NZ

写真略

Alistair Moffat先生
メルボルン大学, AU 10


Slide 11

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

3年生ゼミナール:


ゼミで直接まなぶこと
 情報検索の基礎技術
 データ圧縮の技術
 ウェブ検索エンジンのしくみ



情報工学として
 アルゴリズムとデータ構造の
議論に慣れる
 情報理論と統計の実際をしる
 工学(engineering)の感覚
 読む・話す・聞く・作る
11


Slide 12

情報知識ネットーワーク 研究室紹介(有村・喜田研)

2005/10/06

3年生ゼミナール


オプション(希望者があれば)



プログラム作成
 複数パターン照合機械
(情報検索)
 ハフマンor LZ圧縮プログラム
(テキスト圧縮)
 アイテム集合発見プログラム
(データマイニング)



コンテスト???
12


Slide 13

2005/10/06

情報知識ネットーワーク 研究室紹介(有村・喜田研)

おまちしています
情報知識ネットワーク
有村・喜田研究室
{arim,kida}@ist.hokudai.ac.jp
ex. 7678, 7679
研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/

13