Transcript 幻灯片 1

网络信息体系结构
Web-based Information Architecture
http://net.pku.edu.cn/~wbia
彭波
[email protected]
北京大学信息科学技术学院
9/24/2010
本次课大纲



WBIA是什么?
WBIA课程内容
WBIA课程安排
WBIA是?
网络信息体系结构
Web-based Information Architecture
WBIA不是…

Web Information Architecture (Web信息结构)


Network Architecture (网络体系结构)


如何构建大规模复杂的Web站点,有效的进行信息组织
网络体系结构是关于完整的计算机通信网络的一幅设计
蓝图,是设计、构造和管理通信网络的框架和技术基础。
比如OSI,TCP/IP等
Semantic Web (语义网)

"The Semantic Web is an extension of the current Web
in which information is given well-defined meaning,
better enabling computers and people to work in
cooperation." 1
WBIA是
Web
Information
???
Information是?



“信息科学与技术学院” “IT”
“信息时代” “信息化” “信息公开”
“信息太少” “信息不畅” “信息高速公路”
•深圳证券市场9月9日中小企业板交易公开信息
•国土资源政务信息网上公开情况如何 国土部将检查并公布
•多渠道让房产信息更畅通
•…….
History of “Information”





Latin origin: a representation implanted in the mind-> idea
Language and Coding:hide information in messages and
then decode them。 莫尔斯电码
Mathematics: Shannon在channel transmission工作中,定
义了一个message所包含的信息量为它在source中出现概率
的log2 ,单位为’bits’。
Logic and linguistics:communication-oriented sense of
information涉及到semantic meaning语义, knowledge知识
Society:information as something that is contained in the
message used to inform. “information is the tennis ball of
communication”
Information Age & World Wide Web
Web的支撑技术




用超文本技术(HTML)实现信息与信
息的连接
用统一资源定位技术(URI)实现全球
信息的精确定位
用新的应用层协议(HTTP)实现分布
式的信息共享。
这三个特点无一不与信息的分发、获
取和利用有关。Tim Berners-Lee说:
"Web是一个抽象的(假想的)信息空
间。"也就是说,作为Internet上的一
种应用架构,Web的首要任务就是向
人们提供信息和信息服务。
Web增长

网站数目↑ ↑ ↑


1993-1996, from 130 to 600.000 sites
Netcraft said that In the August 2008 survey we
received responses from 176,748,506 sites.
(135,166,473 sites one year before)
Tide of the age
Web2.0
Web搜索大战
DotCom泡沫
浏览器大战
AfterMath – Flourish of the Web








15年里改变世界的15个网站
www.eBay.com(电子港湾):在线拍卖和购物
www.wikipedia.com(维基百科) :免费百科全书
www.napster.com(纳帕斯特) :音乐共享
www.youtube.com :视频共享
www.blogger.com(博客网)
www.friendsreunited.com(友聚网) :校友录
www.drudgereport.com(德拉吉报道) :个人媒
体
丰富的web应用








www.myspace.com(我的空间):社交网络
www.amazon.com(亚马逊书店) :网上书店
www.slashdot.org :科技论坛
www.salon.com(沙龙网) :在线杂志
www.craigslist.org(克雷格列表) :分类广告
www.google.com(谷歌) :搜索引擎
www.yahoo.com(雅虎) :门户网站
www.easyjet.com(易航网) :廉价航空
Web2.0 Buzzwords

Web作为平台




利用集体智慧




DoubleClick .vs. AdSense
Facebook
Mash-up
Wikipedia
Yahoo,ebay,amazon
del.icio.us , Flickr
软件发布周期的终结

the perpetual beta
WEB2.0
Web 1.0
Web 2.0
DoubleClick Google AdSense
Ofoto Flickr
Akamai BitTorrent
mp3.com Napster
大英百科全书在线(Britannica Online) 维基百科全书(Wikipedia)
个人网站personal websites 博客(blogging)
evite upcoming.org和EVDB
域名投机 搜索引擎优化SEO
页面浏览数page views 每次点击成本cost per click
屏幕抓取(screen scraping) 网络服务(web services)
发布publishing 参与participation
内容管理系统content management 维基wikis
目录(分类) directories 标签(tagging, folksonomy)
粘性stickiness 聚合syndication
WBIA关心…
我们面临的问题




“We are currently preparing our students for
jobs that don’t yet exist …”
“It is estimated that a week’s worth of the New
York Times contains more information than a
person was likely to come across in a lifetime in
the 18th century”
“The amount of new technical information is
doubling every 2 years”
“So what does IT ALL MEAN?”
“We are living in exponential times “
信息过载


"As long as the centuries continue to unfold, the
number of books will grow continually, and one
can predict that a time will come when it will be
almost as difficult to learn anything from books
as from the direct study of the whole universe. It
will be almost as convenient to search for some
bit of truth concealed in nature as it will be to
find it hidden away in an immense multitude of
bound volumes."
狄德罗(1713-1784, 法国哲学家, 批评家, 百科全书
编者)
信息过载可能导致的后果


“I’m defining information overload as a state of
having more information available that one can
readily assimilate, that is, people have difficulty
absorbing the information into their base of
knowledge. This hinders decision-making and
judgment by causing stress and cognitive
impediments such as confusion, uncertainty and
distraction”
Steve Beller,
造成信息过载的原因







A rapidly increasing rate of new information being
produced
The ease of duplication and transmission of data
across the Internet
An increase in the available channels of incoming
information (e.g. telephone, e-mail, instant messaging,
rss)
Large amounts of historical information to dig through
Contradictions and inaccuracies in available
information
A low signal-to-noise ratio
A lack of a method for comparing and processing
different kinds of information

Political theorist Neil Postman spoke to the
German Informatics Society in 1990, claiming
that we are informing ourselves to death. He
argued that the development of computer
technology is not as positive as it has been
heralded to be. With our focus on technology,
we are forfeiting our humanity. We are drowning
in information that contains empty promises of
improving our lives. (Postman 1990).
怎样应对信息过载?
两种不同的“观念”

a “thrower-awayer”
Jennifer Widom
“丢弃,必要时再找回来的代价
要比维护它们要小得多”
“trying to live an efficient life
so that one has time to work
and be with one’s family. “

MyLifeBits
Gordon Bell
The Rise of Search Engine


Web Search Engine成为目前最“热”的topic
Web信息搜索和挖掘技术 fight -> information
overloading
WBIA




核心问题是:Web时代的信息过载问题
Web搜索和挖掘成为了人们共同关注的热点领域
这个活跃领域里的重要问题、思想、方法和技术的
介绍和讨论
“我”怎样应对这个问题,从这些知识学习中
“我”能学到怎样的能力,“我”可以怎样去
Fight!
WBIA课程内容
WBIA有点像…

信息检索


数据挖掘



机器学习
模式识别
自然语言处理


数据挖掘
机器学习


智能信息检索与Web搜索
计算语言学
其它

Web仓储技术
课程基本内容
How to collect data from Web?
How to clean the data?
How to fullfill user information need on this data?
How to do it efficiently?
Can we catergorize the data?
Can the data be grouped automatically?
Web信息过载
How to extract information from the data?
What can be found when treat the data as network?
How to do recommendation?
Any other ways to do retrieval and to rank automatically?
Can we leverage more knowledge into these system?
How to collect data from Web?

Web的性质




Web的支撑技术是什么?
Web有多大?怎么测量?
这个“图”连通性如何?…
收集技术Crawling





收集策略:深度?广度?
如何保持时新fresh?
如何实现高效率?
如何实现分布式收集?
如何对DeepWeb进行收集?
How to clean the data?
clean网页内部的不重要内容
一个页面内的导航条、广告条、版权信
息等内容;对用户浏览有益处,但对于
正文内容的分析处理不利
clean网页之间的不重要内容
如何发现重复网页,
包括内容转载、镜像
How to find out the information needed?

用户的信息需求(Information Need)




“找北京大学到天安门广场,怎么走”
“找书《Search Engines: Information Retrieval in
Practice》,哪里可以买到,多少钱”
“找清华大学计算机系的网站”
“信息是什么意思?”。。。。。。
文本信息检索
(Text Retrieval)
 
d j  dk
sim( d j , d k )    
d j dk

M
i 1
i1 w
M
wi , j wi ,k
2
i, j
2
w
i1 i ,k
M
Core Concepts

Relevance(相关性)




Evaluation(性能评估)



Topical relevance
User relevance
Ranking
Precision and recall
Clickthrough data
Information Need(信息需求)



Query suggestion
Query expansion
Relevance feedback
Can we categorize the data?

分类是什么,有什么用?
Can we categorize the data?

分类是信息组织的一个基本方法


超市、文件系统、图书馆
访问信息的方式


通过分类目录浏览
通过分类类别检索
Can we categorize the data?


怎样自动文本分类?
分类算法/模型





网页文档如何表示?
如何计算相似性?
类是网页集合,如何表示?
如何计算网页与类别的相似性?
分类效果如何评估?cMAP  argmaxP(c j | x1 , x2 ,, xn )
c j C
 argmax
P( x1 , x2 ,, xn | c j ) P(c j )
P( x1 , x2 ,, xn )
 argmaxP( x1 , x2 ,, xn | c j ) P(c j )
c j C
c j C
Can we analysis the data by clustering?


“物以类聚,人以群分”
数据集内部的自然聚集(natural groupings)
For visualizing bookmarked pages

Robertson, “Data Mountain”
(Microsoft)
Vivisimo SE
Can we analysis the data by clustering?

如何让数据自动聚集到一起呢?(clustering)
层次聚类算法
Can we analysis the data by clustering?
K-Means聚类算法
Pick seeds
Reassign clusters
x
x
x
x
Compute centroids
Reassign clusters
Compute centroids
Reassign clusters
Converged!
How to extract information ?
?
检索
内容推荐
分类目录
书名
价格
作者
出版日期
内容简介
How to extract information ?



“模版“提取技术
可以自动发现“模版”吗?
非结构化信息,信息在文字当中又如何提取呢?
书名
作者
内容简介
How to do recommendation?





畅销书目
音乐排行榜
好友推荐
购买了此商品的人,也买了以下商品
……
Common insight: personal tastes are correlated:
•If Alice and Bob both like X and Alice likes Y then Bob
is more likely to like Y
•especially (perhaps) if Bob knows Alice
What can be found when treat the data
as network?
What can be found when treat the data
as network?


如何度量数据的重要性?
如果图链接关系意味着“推荐”,那么…
对每一篇网页,得到一个独
立于查询词的相对“重要性”
指标,将这个指标和查询匹
配情况结合起来(以及其他
因素),形成网页的排序。
pi 1  (1   ) LT pi 

N
1N  pi   (1   ) LT   (1N )  pi

N

Advanced topics




事件追踪
Anti-Spamming
社会网络
……
WBIA课程安排
课程的组织与安排

16次课堂时间



教学环节




讲课老师:彭波
助教:曹霖
(Meditation)作业:课后练习题,编程习题,论文阅读
(10次作业,取最高的8次得分)——各人提交结果
(Practice)课程项目:(11,12月)—— 小组合作
(Collaboration)以小组为学习单位(3人)
课程网站

主页 http://net.pku.edu.cn/~wbia
课程的要求

背景知识要求



成绩构成




线性代数,概率论和数理统计
程序设计( Java 或C/C++ )
作业(homework project,exercises ),30%
课程项目(course project),30%
期末考试,40%
其它要求


每节课课堂3小时
课后愿意拿出5个小时(阅读,思考题和编程练习)
课程项目
选课登记



以小组为学习单位(3人)
发邮件给助教进行登记
选课报名title: [选课报名]
组队title: [小组报名]
内容包括:组名,姓名,学号,Email
Refer to:

http://net.pku.edu.cn/~wbia/2006/public_html/list.html
教材和参考材料

主要参考书



W.Bruce Croft, Donald Metzler, Trevor Strohman.
2009. Search Engines: Information Retrieval in
Practice, Pearson Education [SE]
Christopher D. Manning, Prabhakar Raghavan and
Hinrich Schütze, 2008.Introduction to Information
Retrieval, Cambridge University Press. [IIR]
Pierre Baldi, Paolo Frasconi and Padhraic Smyth.
2003. Modeling the Internet and the
Web:Probabilistic Methods and Algorithms. Wiley.
[MIW]
本次课小结



核心问题是:Web时代
的信息过载问题
“我”怎样应对这个问
题,从这些知识学习中
“我”能学到怎样的能
力,“我”可以怎样去
Fight!
通过Web搜索和挖掘领
域里的重要问题、思想、
方法和技术的介绍和讨
论,我们来一起探索
Thank You!
Q&A
Homework

一个网站的网页数量有多少?怎么能知道?

比如 北京大学中国经济研究中心