面向话题的新闻综述报告自动生成研究

Download Report

Transcript 面向话题的新闻综述报告自动生成研究

新闻综述报告自动生成研究
路璐
2013年11月19日
提纲
新闻服务现状
 NewsMiner
 自动新闻综述报告
 总结与展望

2
新闻服务现状
• 新闻分析粒度
– 词、文档
• 新闻的组织形式
– 文档、文档列表
• 导航形式
– 分类导航、关联导航、检索
• 新闻的可视化
– 文本、图形
– 新闻专题分析
3
问题与挑战

如何更好的描述新闻?

如何帮助用户快速浏览新闻主
旨?

新闻通过怎样的组织形式,才
更符合用户的阅读和思维过程?

什么样的可视化才能更精确的
展示新闻潜在的信息?
4
NewsMiner
www.newsminer.net
5
NewsMiner对新闻的描述

事件 E
话题 T
命名实体 N
关系 R
文档集 D

S = {E, T, N, D, R}




6
多层次新闻分析框架

数据采集
–

数据处理
–
–
–

话题建模
新闻评论对齐
知识库连接
数据读写
–
–
–

新闻文档、UGC、百科
数据库
索引文件
知识库
新闻服务
–
–
–
–
–
新闻检索
富交互可视化
新闻综述报告
热评对齐
热门发现
7
新闻的关联分析

话题间的关联

实体间的关联

话题与实体间的关联
8
新闻的趋势分析
9
新闻主题句
𝑆𝑐𝑜𝑟𝑒ℎ𝑤 𝑆𝑖 =
𝑆𝑐𝑜𝑟𝑒𝑙𝑒𝑛 𝑆𝑖 =
𝑤∈𝐻∩𝑆𝑖
𝑤∈𝐻 𝑤𝑒𝑖𝑔ℎ𝑡(𝑊)
1 𝑖𝑓 length 𝑆𝑖 > c
0 others
𝑆𝑐𝑜𝑟𝑒𝑒𝑛𝑡𝑖𝑡𝑦 𝑆𝑖 =
𝑆𝑐𝑜𝑟𝑒 𝑆𝑖 =
𝑤𝑒𝑖𝑔ℎ𝑡(𝑊)
𝑁𝑒𝑛𝑡𝑖𝑡𝑦 (𝑆𝑖 )
𝑙𝑒𝑛𝑔𝑡ℎ(𝑆𝑖 )
𝑗 𝑤𝑗 𝑆𝑐𝑜𝑟𝑒𝑗 (𝑆𝑖 )
10
新闻话题的自动标注

新闻话题标注的形式:
–
–
–
构成文法
关键词
短语
句子摘要
二元文法:
名词短语
动词短语
建立候选
短语集合
最优选择
11
建立候选短语集合

话题热词法
–
–
LDA模型中P(W|Z)确定词元
集合
按照文法用词元生成候选短语
构成文法

标题首句法
建立候选
短语集合

新闻主题句法
最优选择
12
选择最优话题标签

利用LDA模型中词在话题上
的分布,计算每个候选标签
的分数,并排序。
构成文法
建立候选
短语集合
𝑆𝑐𝑜𝑟𝑒 𝑤 = 𝑃 𝑤1 𝑧𝑖 ∗ 𝑃 𝑤2 𝑧𝑖
∗ 𝑡𝑓𝑖 ∗ 𝑖𝑑𝑓−𝑖
最优选择
13
新闻综述报告

新闻综述报告
一种类似于新闻调查和新闻评论的
新闻报告形式。通过新闻调查的资料采
集、综合量化分析的方法,结合新闻评论
的行文方法,构成关于新闻事件、新闻实
体、一段时间的新闻总结性报告。

传统的写作方法




过程复杂
效率低下
易受作者主观认识影响
计算机辅助生成



效率高
各种图表统计分析
较为客观
14
新闻综述报告
文字描述
图表描述
15
NewsMiner提供的报告素材

文本内容
–
–
–
–
–
事件、实体的知识关联
关键词
主题句
话题标签
代表新闻
事件
话题
实体
评论
关联
描述
描述
分析
分析
关系
话题间的关
联图
话题描述
命名实体描
述
When Where
Who
观点聚类
命名实体间
的关联图
话题权重

统计图表
–
–
–
–
关联关系图
话题、实体等的分布图
事件、话题等的趋势图
评论分布图、趋势图
How Why
What
话题趋势图、
趋势对比图
实体发展趋
势、趋势对
比图
观点分布
(基于位置、
事件信息上
的分布)
话题与实体
间的关系图
16
辅助新闻综述报告生成框架

单事件
–
–

多事件
–
–

事件
命名实体
一系列相关事件
一段时间的事件
(年报、月报)
人物分析
17
行文规则
文章
结构
标题
报告内容细节
关于“XXX”事件的综述报告
素材来源
XXX代表事件名称
事件简介
“XXX”事件是XX时间,XX地点,XX人,发生 基于百科知识的关联和
的XX事情。
新闻信息统计。
相关实体简
介
事件相关的实体有:
X人,是… …
X机构组织,是… …
“XXX”事件,影响方面很多,产生了很多话题, 基 于 NewsMiner 话 题 分
如话题A、话题B、话题C等等
析和话题标签提取。话题
A、B、C按其权重排序。
话题列举
这些话题存在着相互联系,它们的关系图(分布图、 基 于 NewsMiner 的 层 次
演化趋势图)如下;
关联分析。在此展示话题
该话题的关键词有:… …
的关系图、分布图、趋势
主题句有:… …
图。
综述
关于“XXX”事件,广大网民有如下观点:G1、 关 于 新 闻 评 论 , 利 用
G2、G3
NewsMiner 进行聚 类发 现
这些观点的分布情况如分布图。
观点G1、G2、G3。并研
这些观点按地域的分布如分布图。
究观点的分布情况,或基
于地点的分布情况。
18
示例 关于新闻人物的新闻综述报告
 数据来源:
关于“四川雅安地震”
的3114篇相关新闻,通过
聚类获得40个相关话题,
如:“房子倒塌”、“发
生地震”、“参与救援”、
“受到污染”、“恢复通
信”等
19
示例 关于新闻人物的新闻综述报告
 数据来源:
关于“潘基文”的新闻
事件共1242篇相关新闻文
档,有以色列全面进攻哈
马斯、 叙利亚化武疑云、
海地发生7.3级地震、 叙利
亚局势持续紧张、 科索沃
宣布独立、 巴以地区爆发
新一轮冲突等新闻事件
与类似工作对比
话题提炼
热度趋势
统计图表
主题提取
语言流畅
NewsMiner
自动 全面
自动
自动
自动
一般
微博研究
人工分析
自动
人工统计
人工
好
21
总结与展望

NewsMiner系统生成详细客观的新闻语义分析、图
形图表。

自动生成的新闻综述报告,具备一篇新闻综述报
告的基本特征,对新闻话题、统计数据、主题句
分析提取等高效、全面和准确。
22
总结与展望

辅助综述报告的语义化完善

基于话题的新闻事件预测

跨语言新闻对比
23
谢谢!
24