Similarity Computation in Novelty Detection

Download Report

Transcript Similarity Computation in Novelty Detection

Web Spam Taxonomy
Zoltan Gyongyi and Hector Garcia-Molina
Stanford University
First International Workshop on Adversarial Information Retrieval on
the Web (AIRWeb 2005)
Accepted papers cover a variety of topics, including web spam, blog spam,
cloaking, redirection, link optimization for PageRank, automated link spam
detection, link bombs, reverse engineering of ranking algorithms, and
propaganda.
1
Outline


Introduction
Observed behavior

Boosting





Term Spamming
Link Spamming
Hiding
Statistics
Conclusions
2
Introduction

Web spam

Mislead search engines



Capture user attention.
The quality of search results decreases.
The first step in combating spam is
understanding it.

Analyzing the techniques the spammers use to
mislead search engines.
3
Introduction (Cont.)

Spamming:



People want their pages to be put very top on a
word search (e.g., “toyota”) by repeating the word
many many times
Though these pages may be unimportant
compared to www.toyota.com, even if the latter
only mentions “toyota” only once (or 0 time).
Search engines can be easily “fooled”
4
Boosting



Used to increase ranking
Term
 Relevance (a specific query)
 Target: TF-IDF variants
 TF(t) is the frequency of a term t in the test field.
 IDF(t) of a term t is related to the number of documents
in the collection that contain t.
Link
 Importance
 Taget: inlink /outlink count, HITS, PageRank
5
PageRank

Intuition:



The importance of each page should be decided
by what other pages “say” about this page
One naïve implementation: count the # of pages
pointing to each page (i.e., # of inlinks)
Problem:

We can easily fool this technique by generating
many dummy pages that point to our class page
6
Details of PageRank






At the beginning, each page has weight 1
In each iteration, each page propagates its current
weight W to all its N forward neighbors. Each of
them gets weight: W/N
Meanwhile, a page accumulates the weights from its
backward neighbors
Iterate until all weights converge. Usually 6-7 times
are good enough.
The final weight of each page is its importance.
NOTICE: currently Google is using many other
techniques/heuristics to do search. Here we just
cover some of the initial ideas.
7
Example: MiniWeb


Our “MiniWeb” has only three web sites:
Netscape, Amazon, and Microsoft.
Their weights are represented as a vector
Ne
MS
Am
n 
1 / 2 0 1 / 2   n 
m    0 0 1 / 2  m 

 
 
a  new 1 / 2 1 0  a  old
For instance, in each iteration, half of the weight of AM
goes to NE, and half goes to MS.
8
Iterative computation
n  1 1  5 / 4 9 / 8  5 / 4 
 6 / 5
m  1 1 / 2  3 / 4  1 / 2  11/ 16  
3 / 5 

   






a  1 3 / 2 1  11/ 8 17 / 16
6 / 5
Ne
MS
Am
Final result:
 Netscape and Amazon have the same
importance, and twice the importance
of Microsoft.
 Does it capture the intuition? Yes.
9
Observations


We cannot get absolute weights:
 We can only know (and we are only interested in) those
relative weights of the pages
The matrix is stochastic (sum of each column is 1). So the
iterations converge, and compute the principal eigenvector of
the following matrix equation:
 n  1 / 2 0 1 / 2   n 
m    0 0 1 / 2  m 
 
  
a  1 / 2 1 0  a 
10
Problem 1 of algorithm: dead ends!
Ne
MS
n 
1 / 2 0 1 / 2   n 
m    0 0 1 / 2  m 

 
 
a  new 1 / 2 0 0  a  old
Am


MS does not point to anybody
Result: weights of the Web “leak out”
n  1 1  3 / 4 5 / 8 1 / 2 
0 
m   1 1 / 2 1 / 4  1 / 4  3 / 16 
0 

    



 
a  1 1 / 2 1 / 2  3 / 8 5 / 16
0
11
Problem 2 of algorithm: spider traps
Ne
MS
n 
1 / 2 0 1 / 2   n 
m    0 1 1 / 2  m 

 
 
a  new 1 / 2 0 0  a  old
Am


MS only points to itself
Result: all weights go to MS!
n  1 1  3 / 4  5 / 8 1 / 2 
0 
m   1 3 / 2 7 / 4 2  35 / 16 
3 

   




 
a  1 1 / 2  1 / 2  3 / 8 5 / 16 
0
12
Google’s solution: “tax each page”


Like people paying taxes, each page pays some weight into a
public pool, which will be distributed to all pages.
Example: assume 20% tax rate in the “spider trap” example.
n 
1 / 2 0 1 / 2  n  0.2
m  0.8 *  0 1 1 / 2  m  0.2

   
 
1 / 2 0 0  a  0.2
a 

   
n  7 / 11 
m  21/ 11
  

a  5 / 11 
13
Boosting / Term
14
Boosting / Term




Repetition
 Spammers achieve an increased relevance for a
document with respect to a small number of query
terms.
Dumping of a large number of unrelated terms,
often even entire dictionaries.
Weaving of spam terms into copied contents.
Phrase stitching
 To glue together sentences or phrase, possibly
from different sources; the spam page might then
show up for queries on any of the topics of the
original sentences.
15
Boosting / Link
Increase size
Increase collusion
Blogs, (unmoderated) forums, Wikis
16
Hiding

Used to conceal boosting
17
Hiding

Content Hiding


Cloaking



<body background=“white”>

<font color =“white”>hidden</font></body>
Identify web crawlers.
Serve a different version of the page.
Redirection

Redirect on load from a heavily spammed page to the true
target.


<meta http-equiv=“refresh” content=“0 url=target.html”>
<script language=“javascript”><!—
location.replace(“target.html”</script>
18
Statistics
19
Statistics
20
Conclusions

To address each of the boosting and
hiding technique.




Identify instances of spam.
Prevent spamming.
Counterbalance the effect of spamming.
To address the problem of spamming as
a whole , despite the differences among
individual spamming techniques.
21
垃圾郵件近期新聞
22
網民周收16.8封垃圾郵件 電郵
管理員將持證上崗

財經觀察 2005/5/30
 國際在線報道:昨天,5萬多名網民參與的“2005
年第一次中國反垃圾郵件狀況調查”結果公佈,四
分之一網民認為由於垃圾郵件的原因,電子郵件將
會被即時通訊取代。

調查顯示,從去年8月到今年4月,網民收到的垃
圾郵件數量由每周27.8封下降到16.8封,但具有
更大破壞性的垃圾郵件發展迅猛,其中病毒郵件和
釣魚欺詐郵件今年已分別達到30.84%和22.87%。
 中國互聯網協會發起首批“全國電子郵件管理員培
訓”,今後,提供電子郵件服務的網站管理員將持
證上崗。
23
首個64位電子郵件問世 減少
系統崩潰幾率

新華網 2005/5/30

在國際巨頭AMD和SUN的支持下,亞洲
最大的域名註冊機構、企業郵局服務商35
互聯,昨天推出國內首個64位智慧反垃圾
郵件系統,將大大降低遇到“堵車”式病毒
攻擊時伺服器系統崩潰的幾率。
24
反垃圾郵件戰爭 開發中國家力
有未逮

CNET 2005/5/30
 在上周發表的一份報告中,經濟合作和發展組織表
示,馬來西亞、尼泊爾、奈及利亞等國家缺乏有效
打擊垃圾郵件所需要的頻寬、技術技能、財務資源。
 經濟合作和發展組織表示,與已開發國家相比,這
些國家的網際網路用戶將承受更多斷線、更不可靠
的服務。報告指出,由於會消耗本來就已經十分缺
乏的各類資源,在發展中國家,垃圾郵件是一個更
為嚴重的問題。
 另外,由於美國、西歐強化了打擊力道,一些垃圾
郵件發送者紛紛轉移陣地至較落後國家和地區。
25
上海網民441萬人普及率居全
國第二

新華網上海頻道 2005/5/30


近日出爐的《2004年上海市互聯網路發展狀
況統計報告》顯示,截至去年底,申城網民
總數達441萬人,平均每4個上海人中就有一
名網民。
《報告》還顯示,網民平均擁有E-mail賬號
為1.5,平均每周收到電子郵件數(不包括垃
圾郵件)為4.5封,收到垃圾郵件數12.8封,
發出電子郵件數4封,接收到的垃圾郵件為
正常郵件的近3倍。
26
微軟推出反垃圾郵件工具與服
務

CNET 2005/5/27
 微軟公司26日發表MSN Postmaster網站,提供
對抗垃圾郵件的工具與服務。
 Postmaster是專門幫助網路服務商、電郵服務商
和合法大宗郵件商對抗垃圾郵件的線上資源網站,
可簡化垃圾郵件的通報程序,並協助傳送合法的大
宗郵件給MSN Hotmail用戶。
 Postmaster也將包含微軟新的Smart Network
Data Services(智慧網路資料服務),針對寄發
到MSN Hotmail帳號的郵件型式提供報告。
27
26國聯手保護用戶 阻“僵屍
電腦”發垃圾郵件

星洲日報 2005/5/26
 美國、馬來西亞與其他24個國家週二展開一場新行動,取締
透過駭客入侵的“僵屍電腦”發送垃圾郵件。
 美國聯邦貿易委員會說,取締行動試著協助網路服務供應商,
遏止以這種方式隱藏來歷的垃圾電郵數量。感染病毒或間諜
軟體的電腦,可能在使用者不知情的情況下遭駭客侵入,並
當作垃圾郵件中繼站。
 其他參與這場取締行動的政府還有台灣、阿爾巴尼亞、阿根
廷、澳州、比利時、英國、保加利亞、加拿大、哥倫比亞、
塞浦路斯、丹麥、德國、希臘、愛爾蘭、日本、韓國、立陶
宛、荷蘭、挪威、巴拿馬、祕魯、波蘭、西班牙及瑞士等。
28
濫發垃圾郵件 一封要賠兩千

科技投資網 2005/5/25


發放電子商業郵件就必須提供發信者的營業
地址,以及在郵件主旨上註明「商業」標示,
且收件者有選擇權利和固定機制拒收同類型
郵件,
濫發商業電子郵件管理條例草案將在本周送
行政院,最快今年底前可望通過實施,屆時
受害民眾可向法院申告,不用舉證, 法院
即可裁定每封賠償受害人五百元至兩千元金
額。
29
台灣固網、網護科技共同推出
「VIP防垃圾郵件服務」

數位之牆 2005/5/20
 根據調查,2004年網路垃圾郵件佔總郵件的65%,
近三年來的比例成長了八倍之多。
 台灣固網與網護科技合作推出「VIP防垃圾郵件服
務」,為台灣固網SuperMail郵件整合代管服務的用
戶提供全方位電子郵件的防護網,杜絕垃圾郵件及
網路釣魚信件之騷擾。
 採用由網護科技所代理的Immunity郵件免疫系統,
在垃圾及詐欺郵件尚未進入信箱前,即時保護用戶
的資訊安全;擁有高達97%阻擋率及0.05%的超低
誤擋率。
30
法務部導入金揚資訊SimpleAct
SpamX反垃圾郵件系統

數位之牆 2005/5/19
 據了解,法務部所屬機關每天平均收到近七萬封的
電子郵件,其中可歸類為商業、色情廣告等垃圾郵
件竟高達75%,針對時間寶貴的檢察官來說,每天
浪費半個多小時辦公時間在過濾、刪除垃圾郵件,
甚至誤中垃圾郵件所夾帶的病毒,嚴重耽誤公務的
執行,深受其害。
 系統開發建置完成後,只要依據初始設定值的判定
原則,即可處理掉九成以上的垃圾郵件,準確率高、
誤判率則相當低。保守估計每天可自動過濾掉近五
萬封的垃圾郵件。
31
德新納粹用電郵發起全球攻勢

大公 2005/5/17
 就在世界各國慶祝反法西斯戰爭勝利60週年並反思
納粹反人類暴行之際,德國的極右翼勢力卻逆歷史
潮流而動,通過電子郵件的方式在全球發起了納粹
宣傳運動。在澳大利亞,就有數百萬人收到了這種
垃圾郵件。
 互聯網安全廠商SurfControl稱,在爆發的最初數小
時內,它已經發現了1000多封由Sober.Q生成的垃
圾郵件,這一數字是通常情況下的約40倍。
 截至16日下午3點,澳大利亞電信公司已經封鎖了
250多萬封這種電子郵件的複製本。
32
日本針對廣告電郵和垃圾郵件
訂定新罰則

多維新聞 2005/5/13
 日本參議院今天通過電子郵件修正法,針對任意傳
送電腦或手機的廣告信、垃圾郵件的業者,將加重
罰則來予以懲處,此法預定於今年秋天實施。
 日本總務省以往對於垃圾郵件所採取的取締法,只
是針對散發垃圾郵件的業者提出改善命令,該業者
若不服從時,才處以五十萬日圓以下的罰款。
 電子郵件修正法成立實行之後,警察便有權直接搜
查違法業者,並處以刑事罰則,一年以下的拘役或
是一百萬日圓以下的罰款。
33
國內首個64位智慧反垃圾郵件
系統近日面世

互聯網 2005/5/12

近日,亞洲第一的域名註冊機構、國內領先
的企業郵局和虛擬主機服務商35互聯(中國
頻道),與全球領先的伺服器專家SUN以及
晶片巨頭AMD公司聯合宣佈,將分別借助各
自最新研發出的64位智慧反垃圾郵件系統軟
體、64位伺服器、64位CPU,攜手在國內率
先推出64位智慧反垃圾郵件系統。
34
濫寄色情信件 當心觸法

中國網路電子報 2005/5/10
 一名電腦工程師李武龍去年五月因受雇替人架設色情視訊聊
天室,為了召攬會員,幫忙寄發色情廣告信,但卻擔心退件
的郵件會擠爆自已的信箱,於是將退件設定到知名的hotmail
網路信箱,由於整個退件量實在太大,造成hotmail網路系統
負荷不了,微軟公司透過監測系統發現整個郵件來自台灣,
才向台灣警方報案,跨海提起告訴。
 美國已有超過二十個州實施反垃圾郵件法,美國參議院也擬
跟進立法,考慮將濫發廣告電子郵件者,處以最高可達五十
萬美元的罰鍰。
35
國內網路安全市場今年將50億
09年將破百億

互聯網 2005/5/10

日前由中國電子資訊產業發展研究院主辦、
中國電腦報社承辦的第六屆中國資訊安全大
會上透露的資訊表明,去年我國網路安全產
品市場的總銷售額已經達到34.92億元,比
2003年增長了11.35億元,增長率為48.2%,
大於以往任何一年實現了高速增長。而根據
業界專家的預測,今年國內的這一市場將接
近50億元,2009年則有望達到115.49億元。
36
電腦被黑客操控危害網絡安全
兩成來自中國

大紀元 2005/5/9

據網絡安全研究機構蘇弗斯公司對今年1月
至3月全球互聯網上的“垃圾”信息流所進
行的統計分析表明,其中有高達35.7%左右
的垃圾信息來自美國一家;緊隨其後的是韓
國,有25%的垃圾信息;其他排名靠前的網
絡垃圾信息輸出國包括中國、西班牙、加拿
大、日本、巴西、英國和德國等。
37
中國八成電腦曾遭病毒入侵

大紀元 2005/5/8


一份報告顯示,全球遭黑客襲擊後發放垃圾
郵件、惡意攻擊網站的電腦,二成在中國。
報告又指出,目前中國上網人數僅佔總人口
8%,但已位居世界第二,估計到2007年中
國的上網人口將超過美國,所以中國的網上
安全所衍生的電腦罪惡令人關注。
38
台灣簽署反垃圾郵件協定備忘錄,
將共同抵制垃圾郵件的氾濫

中國網路電子報 2005/4/28
 台灣電腦網路危機處理暨協調中心(Taiwan
Computer Emergency Response
Team/coordination Center,TWCERT/CC)昨天與
日本等8個國家簽署「漢城─莫爾本反垃圾郵件協定
(Seoul-Melbourne An-ti-Spam Agreement)備忘
錄」,將共同抵制垃圾郵件的氾濫。
 包含關於垃圾郵件解決方案的技術、對企業與消費
者的教育課程、行動電話垃圾郵件的趨勢與解決方
案,以及因遭非法入侵進行網釣、詐騙或傳播有害
內容而遭到關閉的系統等相關資訊與經驗。
39
調查:垃圾郵件內容由“色情暴
力”變成“病毒”

中國經濟網 2005/4/27
 二00五中國第一次反垃圾郵件狀況調查顯示,具有更大破壞
性的垃圾郵件發展迅猛,用戶最討厭的垃圾郵件類別由過去
的“色情、暴力”變成“病毒”垃圾郵件。
 經過中國互聯網協會反垃圾郵件協調小組對垃圾郵件的治理,
從二00四年八月到二00五年四月期間,中國的垃圾郵件比例
由百分之六十六下降到百分之六十一,用戶平均每周收到的
垃圾郵件數量由二十七點八封,下降到十六點八封。
 調查顯示,在網上公佈過的電子郵箱收到的垃圾郵件(21.18封)
是未公佈的電子郵箱(9.7封)的兩倍以上,用戶認為,垃圾郵
件主要來源於國內專業垃圾郵件組織和個人,以及郵件地址
搜索軟體和群發軟體。
 在用戶收到的垃圾郵件中,增長量最大的是病毒郵件和提供
網路倣冒地址的“釣魚郵件”。這二者的比例由去年的零增
加到今年的百分之三十一和二十三。有四分之一的網民認為,
40
由於垃圾郵件的關係,電子郵件將會被即時通訊等工具代替。
TREC Spam Filter
Evaluation Toolkit
41
Corpus

Private Corpus (Mr. X)

共49086封



Ham: 9048封
Spam: 40048封
Public Corpus (Spamassassin)

共6034封


Ham: 4149封
Spam: 1885封
42
Analysis-Contingency Table
a: ham (correctly
classified)
b: spam
misclassification
c: ham misclassification
d: spam (correctly
classified)
c/(a+c): ham misclassification rate
b/(b+d): spam misclassification rate
(b+c)/(a+b+c+d): overall misclassification rate
(a+d)/(a+b+c+d): : accuracy
43
Some SPAM filter Performance
Private Corpus (Mr. X)
Public Corpus (Spamassassin)
Filter
1ROCA
%
ham%
spam
%
misc%
1ROC
A%
ham%
spam
%
misc%
bogo
0.04
0.07
6.48
5.30
0.19
0.19
23.93
7.61
spamassassin
0.06
0.06
5.88
4.81
0.18
0.70
6.10
2.39
spamprobe
0.10
0.41
0.85
0.77
0.28
0.80
3.13
1.52
crm
0.40
2.24
0.68
1.00
1.14
1.81
4.03
2.50
dspam
0.91
1.39
0.94
1.02
3.42
1.01
32.79
10.94
dbacl
2.41
0.65
17.31
14.25
2.95
1.71
11.35
4.71
9038
40048
49086
4149
1885
6034
Corpus Size
ROCA: Receiver Operating Characteristic Area
44
謝謝,請指教
45