ppt - 九州大学

Download Report

Transcript ppt - 九州大学

研究の進捗状況と
今後の課題
九州大学院
システム情報科学府
情報工学専攻
原田 義明
1
研究目的

インターネットフローの変化を把握する


変化の検知を自動的に行うツールの開発
マクロな解析手法では把握できないデータ変化を把
握する手法を提案




AS、国情報、地域情報にカテゴライズ
フロー数、パケット数、オクテット数で細分化
ポート番号を用いて、用途ごとに細分化
インターネット上のフローについて、各種データの相
関関係を把握・解析する

各種データの相関、データの長期的変化を」定式化する
2
研究方針

フローデータの通信傾向を調べるには・・・?
 主成分分析


複数の変数から、合成変数を計算し、できるだけ少ない変数で多くの情報
を把握する(情報の集約)
各種ポート番号とその時間変化を変数とする


ポート番号が多すぎて、計算が難しい
相関分析

二つのデータを比較し、相関関係を導く




正の相関:一方のデータが増加すれば、一方のデータは増加
負の相関:一方のデータが増加すれば、一方のデータは減少
ポートごとの相関を導ける(DNSとHTTPなど)
基本的なデータ傾向を先に計算しておけば、周期性のあるデータにも適
用できる

仮に一日分のデータ変化の平均を取っていれば、ある一日のデータと比較する
ことで、変化の検知が可能

正の相関が見られるはず
3
フローデータの定量化

フローデータは、様々なサービス、ホストが混在
しているため、複雑なデータ変化傾向が見られ
る

データ解析をポート番号ごとに分けて傾向を見ていく


ポート番号25番、53番、80番、その他について解析を行う
各種ポート間の相関関係についても解析を行う


正の相関か、負の相関か、または相関が無いか
国や地域ごとに解析を行う

国とポート番号を解析していくと、組み合わせが多すぎるの
で、当面は地域ごとに見ていく
4
データ傾向の解析周期

フローデータには、どのような周期があり、定量
化を行うことができるか?

一日ごとの解析


早朝は通信データ量が少なく、学生や先生が活発に行動す
る、昼過ぎから夜にかけて通信量が多くなるのではないか?
一週間ごとの解析


九州大学などの機関においては、日曜日や祝日には通信量
が減少する傾向があるのではないか?
金曜の夜など、休みの前日は、平日に比べて夜遅くに通信
が多くなる、等の傾向も見られるかもしれない
5
フロー数の時間変化
2006年5月27日から3日間、
10分毎にデータ収集
(火曜~水曜)
朝0時ほどから通信量は減少し、
10時前後から通信量が増加する
一日周期での通信傾向がある
6
パケット数の時間変化
2006年5月27日から3日間、
10分毎にデータ収集
(火曜~水曜)
パケット数に関しても、
フロー数と同様の傾向が見られる
朝0時ほどから通信量は減少し、
10時前後から通信量が増加する
7
データ傾向の解析結果

一日ごとの解析
 深夜から早朝にかけては通信量が少なく、朝から昼、夕方にかけて通
信量が増える傾向があることがわかった

ポートごとのデータ傾向解析は、現在実行中


PCの容量の関係上、データ解析スパンは短くなる

10分毎→1時間毎
一週間ごとの解析
 現在解析中
 一週間だけデータを収集しても信頼性の面で疑わしいので、2~3週
間分のデータを収集したい

ハードディスクの容量は大丈夫か?


データを集積しながら解析
千代延君の解析によると、休日・祝日の九州大学の通信量は平日よ
りも少ない結果になっていた

祝日における、1日の中でのデータ変化も興味深い
8
ポート番号ごとの相関関係



DNSとHTTPやSMTPには相関関係があるのではないか?
 HTTPやSMTPで通信を行った際、同時にDNSの通信量も増えるの
ではないか(正の相関)
2値の相関関係を求めるためにグラフ作成
 縦軸、横軸に通信フロー数やパケット数
 今回は、port 25 – 53、port 53 – 80、について調査
2007年01月04日から2007年02月22日まで、毎週水曜のデータを収
集
 データ収集間隔は1時間毎


8日×24時間 = 192個の点でプロット
2007年02月15日は、フローデータが保存されていなかったので、
データ無し
9
ポート25とポート53の通信フロー数
2007年1月04日から2ヶ月、
水曜日のデータ収集(1時間毎)
横軸にポート25番のフロー数
縦軸にポート53番のフロー数
ポート25番のフロー数が増加すると
ポート53番のフロー数も増加している
(正の相関があると考えられる)
10
ポート25とポート53の通信パケット数
横軸にポート25番のフロー数
縦軸にポート53番のフロー数
フロー数に対するグラフと同様の変化
をしており、
ポート25番のフロー数が増加すると
ポート53番のフロー数も増加している
(正の相関があると考えられる)
11
ポート53とポート80の通信フロー数
横軸にポート53番のフロー数
縦軸にポート80番のフロー数
ポート25番のフロー数が増加すると
ポート53番のフロー数も減少している
(負の相関があると考えられる)
普通は、HTTPのフローが
増加すれば、
DNSのフローも
増加しそうなものだが・・・
12
ポート53とポート80の通信パケット数
横軸にポート53番のフロー数
縦軸にポート80番のフロー数
パケット数に対する解析でも、
フロー数に対する解析とほぼ同様の
傾向が見られた
ポート53番のフロー数が増加すると
ポート80番のフロー数も減少している
(負の相関があると考えられる)
13
ポート番号ごとの相関関係の考察

ポート25番とポート53番の相関関係について
 ポート25番の通信量が増加すれば、53番の通信量も増加していた



正の相関がある
相関係数(どれだけ2値に相関関係が有るのかを示す数値)はまだ計
算するプログラム作成中ポート
53番とポート80番の相関関係について
 正の相関がある予想していたが、ポート53番の通信量が増加すれば、
80番の通信量も減少していた



DNSによる不正アクセスが大量に起こった場合、フローデータはサン
プリングされているので、相対的に他のポートの通信量が減ったよう
に見えるのでは?


負の相関がある
なぜ負の相関があるのか不明…
ポート25番(SMTP)の通信ではそのような傾向は無かった
今後、調査する必要がある
14
長期的なフローデータの変化傾向

長期的なデータ変化について

1年などのスパンでデータ変化を見た際に通信量が
増えていても、次の年でも同様の変化があるのか確
証はもてない


3年ほどの長い期間のデータか解析が必要になってくるだろ
うため、現実的でない
1年間で通信量が単調増加している、もしくは減少し
ている、等の解析が限界かもしれない

ただ、その1年間のデータ変化が次の年でも同様の変化とし
て現れるのかを検証することは有意義であると考えられる
15
今後の課題

周期的なデータ傾向の解析

1日分のデータを平滑化し、基本となるデータ型の定
義をする



ホルトウィンタース法を用いて作成する
1日分のデータだけでなく、1週間分のデータ解析もし
てみる
ポート番号間の相関関係について


相関係数を計算するプログラムの開発
ポート53番、80番の負の相関関係の原因追及

53番を引いているポート番号の打ち分けを調べてみる
16