BeidaYuyanshuo

Download Report

Transcript BeidaYuyanshuo

日本人文社会科学中的
文本计算
同志社大学 文化情报学部
金 明哲
([email protected])
同志社大学
Doshisha University
Jin Mingzhe
内容
•
•
•
•
•
•
•
•
文本挖掘与计算
文本挖掘与计算的商用软件
日本企业的文本挖掘与计算的现状
文本计算的免费软件
文本计算统计分析软件MLTP+R
文本计算应用的相关领域
文体计算(Stylometry)分析(两个实例)
文体计算与法语言学(两个实例)
同志社大学
Doshisha University
Jin Mingzhe
现实世界的信息
• 图像,语音,文字,数字
• 可获得的大部信息是以文本形式
• 如新闻文档、研究论文、书籍、数字图书
馆、电子邮件和Web页面等
• 由于电子形式的文本信息飞速增长
• 需要从文本数据中挖掘信息和知识
同志社大学
Doshisha University
Jin Mingzhe
文本挖掘与计算
•
•
•
•
•
•
•
•
•
•
text mining
textual data mining
statisitcal analysis of text/textual data
statisitcal analysis of corpus/corpora
computation of text /textual
text /textual computation
text/textual computing
computing text /textual
computation of corpus/corpora
quantitative text/textual analysis
Googl检索结果
2010年12月18日
5,760,000
1,010,000
85,300
20,520
10,560
2,674
35,241
91,788
4,002
189,400
文本计算科学
同志社大学
Doshisha University
Jin Mingzhe
文本挖掘/计算
• 文本挖掘(Text Mining)是一个从文本数据
中获取用户感兴趣的模式,转换为有价值
的信息和知识的过程。
• 文本挖掘是由数据挖掘的词汇派生
• 数据挖掘所用的是表格形式的数据(也称
结构化的数据)
• 而文本挖掘所用的是非结构化的数据
• 核心:NLP技术,数据挖掘/统计分析
同志社大学
Doshisha University
Jin Mingzhe
文本挖掘的主要内容与计算
文本挖掘
文本摘要
文本元素的抽取
文本元素的建模
文本特征与结构分析
文本聚类
文本分类
文本元素的趋势预测
文本元素的关联分析
•
•
•
•
•
•
•
•
• 同志社大学
Doshisha University
统计计算
???
检验统计量,信息熵等
统计指数与建模
主成份/对应分析/SOM等
层次/k平均聚类法
判别分析/模式识别
回归分析/生存分析
关联/相关分析
Jin Mingzhe
词/句法分词工具
• 形态素分析
JUMAN(1992年,京都大学 长尾真)
ChaSen(茶筅,1997年,奈良科大,松本裕治)
MeCab(2002年,京都大学&NTT,工藤拓)
Breakfast(富士通),SuMoM0(NTT),KAKASI(佐藤雅彦)
• 句法分析
JUMAN/KNP(1993年,京都大学 长尾真)
CaBoCha(南瓜,2001年,奈良科大学,工藤拓)
注:奈良科大=奈良先端科学技术大学院大学
同志社大学
Doshisha University
Jin Mingzhe
形态素解析结果
同志社大学
Doshisha University
Jin Mingzhe
句法分析(构文解析)
• 不用语树,因为语树不适合于日语
• 以文节为单位切分、每个文节在其右方至少有
一个文节和它对应。
• 这种对应关系叫“係受関係”。第几个文节与
第几个文节缔结关系( Dependency Analysis )


切分文节的精度达95%左右
係受関係的精度达90%左右
同志社大学
Doshisha University
Jin Mingzhe
9
句法分析的输出结果
同志社大学
10
Doshisha University
Jin Mingzhe
日本的商业文本挖掘的软件(1)
厂 商 名
QUALICA(小松)
野村综合研究所
日本电子计算
电力计算中心
三菱电子信息系统
数理系统
UNISYS
NTT
同志社大学
Doshisha University
软 件 名 称
VextMiner 1997年开始出售
中文版 ( 2003/12/10)
Ver.1.0
TRUE TELLER 2001年9月
现在也有中文版
WordMiner
Trend Scooper
DIAMining®EX
Text Minig Studio
MiningPro
Knowledgeocean
Jin Mingzhe
日本的商业软件(2)
厂 商 名
SPSS
SAS&小松
NEC
JUST YSTEMS
日科技連
富士通
:
同志社大学
软 件 名 称
Text Minig for Climentine
CRM(VextMiner )
CSVIEW/TopicScope
CB Market Intelligence
SimpleWord
Saas
QRMining
:
Doshisha University
Jin Mingzhe
野村证卷的 TRUE TELLER
450多个企事业单位利用,现在可处理中文
同志社大学
Doshisha University
Jin Mingzhe
松下电工公司的voc21系统
用野村证卷的TRUE TELLER
同志社大学
Doshisha University
Jin Mingzhe
佳能的CATS(Call Analysis Tracking System)
• 2004年09月
• “提高产品质量10倍”的运动
• 挖掘用户的“声音”信息
文本挖掘改善集团内各公司的业务
(欧姆龙市场营销)
同志社大学
Doshisha University
Jin Mingzhe
三菱电机信息系统(株)的DIAMings
http://www.mdis.co.jp/products/diamining/
同志社大学
Doshisha University
Jin Mingzhe
三菱公司内的文本挖掘系统发展过程
• 2006年客户服务管理系统ARS(BMC Remedy
Action Request System®)
• 之后ARS连接CTI(Computer Telephony
Integration)
• 每月对于约4万件的咨询
• 2010年12月开始新的文本挖掘系统
同志社大学
Doshisha University
Jin Mingzhe
并用DIAMining EX和VextMiner
使用两个文本挖掘引擎
把握整个趋势
检索概念
http://www.mitsubishielectric.co.jp/meltopia/backnumber/2011/06/case04.html
同志社大学
Doshisha University
Jin Mingzhe
日本东邦大学与IBM合作
• 2011年6月6日
• 开发研究医疗文本信息以及时间序列数据
的整合应用系统
• 大学医院:利用积累的大量的电子文本以
及时间序列信息的视觉化信息,力求改善
医疗质量和安全
• IBM:通过现场数据进行文本挖掘技术的开
发以及推广研究成果,特别是语义处理技
术的研究和开发
同志社大学
Doshisha University
Jin Mingzhe
富士通的文本挖掘软件2011/12/16日开始出售
文档和互联网上的产品投诉(Claim)信息抽取及分析
同志社大学
Doshisha University
Jin Mingzhe
Text Mining Studio
词/句为单位
配有词典/用户词典
基本信息
频率分析
特色语分析
特征分析
情感分析
话题分析
时间序列分析
目前大学里用户较多
同志社大学
Doshisha University
Jin Mingzhe
人文社会学领域中文本计算的问题
• 利用计算的手法进行文本分析的人不少
,但不知无从下手
• 编程难度大,计算手法知识贫乏
• 商用软件价格昂贵
• 渴望使用方便的免费软件
• 理工科:有能力不想做
• 文科:想做没有能力
同志社大学
Doshisha University
Jin Mingzhe
免费文本计算软件
ChaKi(茶器,奈良科大,松本裕治),分词后的结果装
入数据库SQL里,管理切分好的语料
TTM(TinyTextMiner), 松村真宏(大阪大学), 三浦
麻子(关西学院大学)输入的是CSV文档,输出6种统
计数据表,分析要用统计软件
KH-coder, 樋口耕一(立命館大学),输入的是一个
文档
RMecab, 石田基広(徳島大学),在免费统计软件R
运行分词软件,可直接进行挖掘与统计分析
HTML+R(MLTP(MultiLingual Text Processor+ R),
金明哲(同士社大学)
同志社大学
Doshisha University
Jin Mingzhe
MLTP+R(文本统计分析工具)
 MLTP(MultiLingual Text Processor)多语种文本处理器
(日文, 中文, 韩文, 英文,蒙文等)
 利用Java开发
 MLTP+R: 文本处理器MLTP上附加了统计分析软件R
 字符为单位
文本的大小,文长,n-gram频率,KWIC等
 词为单位
词/文的长, n-gram, 同现,KWIC等
 基于文节为单位(日语)
文节长,文节的n-gram,文节同现,文节模式等
 以文本为单位进行统计
同志社大学
Doshisha University
Jin Mingzhe
MLTP+R的框架
结构化
词法分析
长度
ngram,
同现
模式
句法分析
词典
同志社大学
语义分析
Doshisha University
利
用
进
行
各
种
分
析
R
文本库
文本处理
Jin Mingzhe
MLTP画面
1.指定语种
2.指定文本种类
3.指定文本
4.指定统计的文本
同志社大学
Doshisha University
Jin Mingzhe
指定词性统计词频
1.指定WordPOS
2.指定n-gram
3.指定Cutoff值
4.指定数据形式
5.行/列为文本
7.确认
6.选择词性
8.统计
9.保存
同志社大学
Doshisha University
Jin Mingzhe
登录滤掉词句
• 菜单Setting里的Stop Words
1.指定WordPOS
2.登入语素
3.保存
同志社大学
4.关闭
Doshisha University
5.从新统计
Jin Mingzhe
最终的统计
• 通过观察没有再除外的元素后进行统计
统计分析用的数据
最好是行是文本
指定保存的文
件夹和文件名
保存
同志社大学
Doshisha University
Jin Mingzhe
统计分析
• MLTP的现在版本,如果R是2.13.0版本,可在MLTP上
直接用R进行分析
同志社大学
Doshisha University
Jin Mingzhe
统计分析画面
执行R指令区域
统计操作菜单
数据变换操作按钮
指令的结果输出区域
同志社大学
Doshisha University
Jin Mingzhe
利用菜单的基本统计功能
•
•
•
•
•
•
•
•
文本的基本信息
检索(KWIC,可用正则表达式)
Zipf定律,词汇丰富度计算(12种方法)
TF-IDF计算,特征词的选取与图示
词/短语的网络拓扑分析
文本特征分析(主成分分析,对应分析等)
分本聚类(层次聚类,k-means,多维标度法等)
分本分类(k-NN法,决策树,RF法,SVM法等)
同志社大学
Doshisha University
Jin Mingzhe
统计分析的例子
同志社大学
Doshisha University
Jin Mingzhe
日本的文本挖掘方面的书籍
1. 実践 ブログ・リサーチ,同文館出版,2011-12
2. 特許情報のテキストマイニング―技術経営のパラダイム転換,ミネルヴァ書房,
2011-03
3. テキストマイニングで広がる看護の世界,ナカニシヤ出版 (2010-12)
4. テキストマイニングハンドブック,東京電機大学出版局, 2010-07
5. 数量化理論とテキストマイニング,日科技連出版社, 2010-05
6. テキストデータの統計科学入門,岩波書店, 2009-04-28
7. 人文・社会科学のためのテキストマイニング,誠信書房, 2009-04
8. Rによるテキストマイニング入門,森北出版, 2008-12
9. テキストマイニング入門―経営研究での活用法,白桃書房,2008-02
10. 事例で学ぶテキストマイニング,共立出版, 2008-01
11. 顧客の声マネジメント―テキストマイニングで本音を「見る」,オーム社, 2007-05
12. テキストマイニングを使う技術/作る技術,東京電機大学出版局,2006-11
13. 福祉・心理・看護のテキストマイニング入門,中央法規出版, 2005-07
同志社大学
Doshisha University
Jin Mingzhe
文本挖掘与统计分析的主要应用
•
•
•
•
•
•
•
•
Web信息搜索,博客管理,对于产品的评价信息
网络风险管理
企业与产品信息管理和分析
医疗,护理
经济/金融信息
语料库分析,文体分析,法语言学
只要与文本有关领域都有应用空间
:
同志社大学
Doshisha University
Jin Mingzhe
文本的统计
•
•
•
•
•
•
字符,单词,音节,短语,文……
频率
长度(单词/文的长度分布)
n-gram
共现
:
同志社大学
Doshisha University
Jin Mingzhe
数据的格式(变量xi是词……)
text
x
x2
1
x3
xi
xm
label
ID1
ID2
37
46
41
52
25
65
・・・
・・・
12
12
・・・
・・・
4
5
A
A
IDj
IDi-1
:
13
10
:
44
25
:
43
32
:
・・・
・・・
:
4
6
:
・・・
・・・
:
10
9
:
A
B
IDn
:
30
:
20
:
15
:
:
:
8
:
:
:
2
:
Z
Pn  m
同志社大学

  p ij 



m
 , p ij  1

m
j 1
 j 1 x ij 
x ij
Doshisha University
Jin Mingzhe
问卷/市场调查
同志社大学
Doshisha University
Jin Mingzhe
词与学科的对应关系
5
やすい
ない専門科目
他
掲示板
教師
後期
履修登録
設置
レベル
OTHERS
A学科
後期履修
奨学金
楽しく
うるさい
やる気
高く
カリキュラム交流
ロッカー
機会
学校
講義
先生
前期
車 図書館
興味ひどい
モラル
意味
授業
多く
無い
D学科
就職
車通学
易い
学生
情報
単位認定
勉強
必修履修内容
英語
タバコ
大学
にくい
頭
緩やか
喫煙場所
向上
おかしい
やすく
成績つまらない
自己満足
利用 希望
生徒
学部
値下げ
バカ多い
理解
全館禁煙
喫煙者
交通
場
学生課
金
移転
マナー
不満
質問
迷惑
許可
人
教務課
サポート
資格取得充実
場所
喫煙マナー
開講
軽減
食堂非常
悪い
クーラー 良い
ほしい
教授
E学科
数 社情
自分禁煙
づらい 生活
PC 学費
F学科
体育施設
意見
自動車通学
質
臨床心理学科
内容
試験
声
なし
椅子
考慮
態度
なく
ノート
学内
良く
設備 教員楽
科目
多
教室
卒業 高
生協
悪人間科学科
対応
C学科
高い
職員
経済学部
全天候型
教科書
資格
札幌
通学
黒板
字
B学科
お金 安く
テスト
アルバイト
簡単
単位
いい
授業内容
学食
学費負担
制限
増設
喫煙所
広く
駐車場 キャンパス
拡大
ゼミ
全面禁煙
人間 改善
欲しい 次
援助
早い
無駄
体育館
10
10
0
5
-5
0
-10
0.00
-5
-0.15
-0.10
-0.05
第2主成分22%
0.05
0.10
0.15
-10
易く
-0.15
-0.10
-0.05
0.00
0.05
0.10
0.15
第1主成分27%
同志社大学
Doshisha University
Jin Mingzhe
学科/系之间明显差异的词(前50个)
关于学费是F学科
A学科
B学科
C学科
D学科
E学科
F学科
0.08
关于学习环境是B学科
0.06
关于课程设置是D学科
0.04
0.02
単位
学費
カリキュラム
後期履修
充実
対応
全館禁煙
交流
声
設置
生徒
駐車場
学生課
ゼミ
PC
場所
安く
ない
利用
高
学内
教科書
資格
札幌
全天候型
通学
黒板
職員
履修内容
悪
生協
バカ
必修
英語
専門科目
拡大
ノート
希望
他
易く
ひどい
図書館
意味
全面禁煙
うるさい
0.00
同志社大学
Doshisha University
Jin Mingzhe
个别文节共现拓扑网络
同志社大学
Doshisha University
Jin Mingzhe
词的共现关系(关联分析)
• 在校学生的问卷调查
同志社大学
Doshisha University
Jin Mingzhe
词共现与学科的对应散图
-5
0
5
喫煙場所_欲しい
欲しい_資格取得
講義_充実
時計_設置
0.00
陸上競技場_全天候型
グラウンド_陸上競技場
キャンパス_グラウンド
全天候型_欲しい
自動車_通学
欲しい_単位
資格_欲しい
欲しい_札幌
なく_欲しい
授業_意味
易い_授業
単位_易く
なし_単位
易く_学費
黒板_字
B学科
欲しい_自動車通学
高い_安く
充実_欲しい
カリキュラム_欲しい
欲しい_履修登録
履修登録_前期
後期_欲しい
前期_後期
-0.05
改善_欲しい
講義_欲しい
C学科
教員_欲しい
対応_欲しい
尊重_欲しい
多く_欲しい
教員_充実
欲しい_学費
-5
A学科
学費_値下げ
欲しい_希望
先生_学費
非常_迷惑
ない_学費
欲しい_参加
易い_先生 欲しい_先生
欲しい_授業
欲しい_専門的
欲しい_学食
設置_欲しい
D学科
欲しい_カリキュラム
必修_授業
教務課_人
欲しい_適当
欲しい_生徒
欲しい_勉強
多い_学費
-0.15
0
自動車通学_許可
学費_高い
学費_高
欲しい_ノート
安く_駐車場
社情_学費
学部_学費
お金_授業
ノート_PC
安く_講義
頭_悪い
数_多い
安く_欲しい学生課_教務課
F学科
単位_簡単
欲しい_学校
教員_数
駐車場_拡大
高い_学費
欲しい_駐車場
5
学費_安く
全館禁煙_欲しい
資格取得_講義
先生_講義
安く_学内
よく_欲しい
E学科
欲しい_臨床心理学科
欲しい_授業内容
学生_意見
安く_学生
次_ゼミ
教員_自己満足
金_学費
欲しい_喫煙者
欲しい_他
交流_場
-0.10
第3主成分21%
0.05
0.10
0.15
欲しい_タバコ
欲しい_学部
バランス_良く
欲しい_学生
カリキュラム_ほしい
掲示板_設置
奨学金_充実
ロッカー_設置
OK_欲しい
レベル_低い
-0.15
-0.10
-0.05
0.00
0.05
0.10
0.15
第1主成分30%
同志社大学
Doshisha University
Jin Mingzhe
文体统计研究
• 1851年,英国数学家A.De Morgen提出词长是文章风
格的特征
• 1867年,英国的Cambell利用特定的单词的使用频率
对于希腊哲学家Platon的作品的执笔顺序问题进行
了推定
• 1887年,美国Ohio州立大学地球物理学教授
Mendenhall指出单词的长度具有作者的特征,发表
在≪科学 Science,IX≫
• 1938年统计学者G. U. Yule利用文的长度进行了作
者归属的统计分析,1944年发表了《文学词汇的统
计分析》一书
同志社大学
Doshisha University
Jin Mingzhe
文本分类及作者的识别
特征信息
 字符的信息
模式识别或分類
 线性模型
 单词的长度,文的长度  贝叶斯模型
 词的频率
 决策模型
 n-gram
 神经网络模型
 共现关系
 支持向量
 集成学习法
同志社大学
Doshisha University
Jin Mingzhe
问题
• 文本当中提取什么?
重点在于文本的内容--名词
重点在于评价
--形容词
著者的特征
--????
• 如何处理?
统计分析,数据挖掘
同志社大学
Doshisha University
Jin Mingzhe
提出的著者特征的抽取方法(日语)
• 单词的长度,文的长度,
• 段落的长度,文头/尾的模式
•
•
•
•
•
逗号点法
字符信息
助词的n-gram
文的骨架/文型
词性的n-gram
词法
文节的模式特征 句法
:
同志社大学
Doshisha University
过去
我
Jin Mingzhe
基于逗号用法数据的树形图
逗号点在什么字的后面
三島 由紀夫
同志社大学
中島 敦 谷崎 潤一郎 井上 靖
Doshisha University
Jin Mingzhe
长谷川海太郎的三个笔名的文章
長谷川
同志社大学
中島
Doshisha University
三島
井上
Jin Mingzhe
M_ヤ ト ラ カ ン .サ ミ 博士の 椅子
T_白い 謝肉祭
M_女肉を 料理す る 男
T_長靴の 春
H_口笛を 吹く 武士
M_チ ャ ア リ イ は 何処に い る
H_元禄十三年
H_巷説享保図絵
M_沈黙の 水平線
H_あ の 顔
M_ロ ウ モ ン 街の 自殺ホ テ ル
M_浴槽の 花嫁
M_ア リ ゾ ナ の 女虎
M_土か ら 手が
M_戦雲を 駆る 女怪
M_双面獣
M_運命の S O S
M_夜汽車
M_舞馬
H_の の 字の 刀痕
M_上海さ れ た 男
H_寛永相合傘
T_字で 書い た 漫画
H_安重根
M_助五郎余罪
H_平馬と 鶯
M_生き て い る 戦死者
H_う し 紅珊瑚
H_霙橋辻斬夜話
H_稲生播磨守
H_若き 日の 成吉思汗
H_煩悩秘文書
H_魔像
H_丹下左膳_こ
H_丹下左膳_日
H_つ づ れ 烏羽玉
H_丹下左膳_乾
H_釘抜藤吉捕物覚書
T_黄と 白の 群像
T_テ ム ズ に 聴く
T_血と 砂の 接吻
T_Mrs7andMr23
T_し っ ぷ _あ ほ う い
T_海の モ ザ イ ク
H_仇討た れ 戯作
T_ノ ウ ト ル ダ ム の 妖怪
T_虹を 渡る 日
T_白夜幻想曲
T_踊る 地平線
0.00
Height
0.10
0.20
三个笔名的更多作品
• 基于逗号前面的助词的数据(45个变量)
Cluster Dendrogram
as.dist(ldist(temp1.p))
hclust (*, "ward")
同志社大学
Doshisha University
Jin Mingzhe
基于论文中逗号数据的聚类树
佐藤
安本
同志社大学
Doshisha University
今井
Jin Mingzhe
逗点的点法
(1) 提取信息比较简单
(2) 判别作者效果较好
(3) 但短的文章,逗号很少的文章无法应用
助词的用法
日本文章中必须用助词
大约占全体词汇的30%--40%
同志社大学
Doshisha University
Jin Mingzhe
助词的数据
文章 か が て
I1
19 125 218
I2
24 121 217
・
・
・
・
M1
12 150 186
・
・
・
同志社大学
で と に の ・・・・・・ その他
82 135 168 321 ・・・・・・ 57
73 124 148 288 ・・・・・・ 50
48 74 191 391 ・・・ ・・・ 39
Doshisha University
Jin Mingzhe
基于文章中的助词的主成分散图
井上 靖
中島 敦
同志社大学
Doshisha University
三島 由紀夫
Jin Mingzhe
助词的n-gram分布
文:・・・は・・・で・・・を・・・ながら・・・の・・・
wa
de
o
nagara
no
項目1
項目2
項目3
・・・
Unigram
は
で
を
・・・
Bigram
は:で
で:を
を:ながら
・・・
を:ながら:の
・・・
Trigram
は:で:を で:を:ながら
作者识别的精度
非有名作者,短文,助词的n-gram
11名学生写的作文
Size
Unigram
Bigram
Trigram
全文(1124字)
94.82
98.00
99.09
约1/2(562)
90.09
92.55
97.32
约1/3(375)
84.46
88.05
94.91
同志社大学
Doshisha University
Jin Mingzhe
词性的n-gram
・・・<名詞>・・・<助詞>、<読点
>・・・<副詞>・・・<形容>・・・<
動詞>・・・<名詞>・・・<助動
>・・・<助動>・・・・・・
Unigram
Bigram
<名詞>,
<助詞>, <読点>, <助動>・・・・・・
<名詞><助詞>,
<助詞><読点>,
<読点> <助動>
・・・・・・
trigram
<名詞><助詞><読点>,
<助詞> <読点> <助動>
・・・・・・
同志社大学
Doshisha University
Jin Mingzhe
文节的模式
文
節
* 0 1D 0_1 1.480193
書き手 名詞,一般,
の 助詞,連体化
* 1 2D 0_1 1.363637
同定 名詞,サ変接続,
に関する 助詞,格助詞,連語
* 2 3D 0_1 0.000000
研究 名詞,サ変接続
は 助詞,係助詞
* 3 4D 0_1 0.000000
古く 副詞,助詞類接続
から 助詞,格助詞,一般
* 4 -1D 0_4 0.000000
行わ 動詞,自立
れ 動詞,接尾
た 助動詞
。 記号,句点
同志社大学
Doshisha University
文節のパターン1
文節のパターン2
名詞_助詞
一般_の
名詞_助詞
サ変_に関する
名詞_助詞
サ変_は
副詞_助詞
古く_から
動詞_動詞_助 自立_接尾__助
動詞_記号
動詞_句点
Jin Mingzhe
实证所用的作品
著者
芥川龍之介
太宰治
泉鏡花
宮沢賢治
森鴎外
夏目漱石
岡本綺堂
佐々木味津三
島崎藤村
与謝野晶子
同志社大学
作品数
30
30
30
20
20
30
30
20
30
20
ID-作品名
Akuda01: 或阿呆の一生・・・
Dazai01: おさん, ・・・
Izumi01:いろ扱ひ, ・・・
Miya01:かしはばやしの夜, ・・・
Mori01:かのように, ・・・
Natsu01それから1, ・・・
Okada01:ゆず湯, ・・・
Sasa01:なぞの八卦見, ・・・
Sima01:ある女の生涯, ・・・
Yosa01:-三面一体の生活へ,・・・
Doshisha University
Jin Mingzhe
結果(1)
Random Forest (leave-one-out cross-validation), 99.23%
実測値
Ak
Akuta
30
Dazai
0
Izumi
0
Miyazawa 0
Mori
0
Natsume
0
Okamoto
0
Sasaki
0
Simazaki 0
Yosano
0
同志社大学
推
測
値
Da Iz Mi Mo Na Ok Sa Si Yo
0 0 0 0 0 0 0 0 0
30 0 0 0 0 0 0 0 0
0 30 0 0 0 0 0 0 0
0 0 20 0 0 0 0 0 0
0 0 0 20 0 0 0 0 0
0 0 0 0 29 0 0 0 1
0 0 0 0 0 30 0 0 0
0 0 0 0 0 0 20 0 0
0 0 0 0 0 0 0 30 0
0 0 1 0 0 0 0 0 19
Doshisha University
Jin Mingzhe
例1.川端康成作品的嫌疑
• 川端康成1968年获得若贝尔文学奖
• 他的代表作品『山の音』,『みずうみ』,『古都』
,『雪国』,『千羽鶴』,『眠れる美女』,『古都』等
川端从1960年到1961年之间服用大量的
睡眠药,不用药无法睡觉
可这个期间同时写出了『眠れる美女』,
『古都』, 『美しさと哀しみと』
(1) 眠れる美女, みずうみ,可能是三島由紀夫(弟子)代笔
(2) 晚年的作品有些是弟子北條誠和沢野久雄代筆
同志社大学
62
Doshisha University
Jin Mingzhe
発表年
~1950年
1950年
~1955
年
1956年
~
1960年
1960年
~1965
年
1965年
~1970
年
1970年
~
川端康成
北条誠
伊豆の踊子など
11作品,山の音
49、千羽鶴49
沢野久雄
盗賊48,仮面の告白49
舞姫50, 波千鳥
53,みづうみ54
雨の夜57、
女であること56 三分咲き57、
緑なる人57
つゆの道60,朝
眠れる美女60、
母の呼ぶ声61,
古都61、
アカシヤの唄
美しさと哀しみ
63,山のむらさ
と61,片腕63
きに64,
秋の野に68,ほ 赤い夕焼け65,
ろびぬ美69、夕 五百マイル66,
日野69
バラが咲いた
67,月の砂漠68
髪は長く70,三
花はなんの
島由紀夫72、友 花73
人の妻72
同志社大学
三島由紀夫
炎上57
果樹園の道60、
粉雪60,親しい心
61、落葉61
愛の渇き50、青の時代50、
日曜日50、遠乗会50,密薬52,
卵53
潮騒54、詩を書く少年54,
沈める滝55、海と夕焼け55,
金閣寺56、女方57
百万円煎餅60,憂国61、月62、
帽子の花62,可哀そうなババ
63
孤客66、晩年の
月澹荘奇譚65,荒野より66,
石66,雨しきり69、
時計67,蘭陵王69
遠い音69,古調69
63
Doshisha University
Jin Mingzhe
川端康成53_卵
三島由紀夫66_荒野より
三島由紀夫50_遠乗会
三島由紀夫61_憂国
三島由紀夫65_月澹荘奇譚
三島由紀夫54_詩を書く少年
三島由紀夫62_月
三島由紀夫55_海と夕焼
三島由紀夫62_帽子の花
三島由紀夫69_蘭陵王
三島由紀夫50_日曜日
三島由紀夫60_百万円煎餅
三島由紀夫63_可哀そうなババ
三島由紀夫67_時計
三島由紀夫57_女方
三島由紀夫53_潮騒
三島由紀夫50_愛の渇き
三島由紀夫52_密薬
三島由紀夫55_沈める滝
三島由紀夫49_仮面の告白
三島由紀夫56_金閣寺
三島由紀夫47_盗賊
三島由紀夫50_青の時代
北条誠57_三分咲き「緑なる人」
北条誠57_緑なる人「緑なる人」
北条誠57_雨の夜「緑なる人」
北条誠67_バラが咲いた
北条誠73_花はなんの花
北条誠63_アカシヤの唄
北条誠66_五百マイル
北条誠68_月の砂漠
北条誠64_山のむらさきに
北条誠65_赤い夕焼け
北条誠60_朝つゆの道
北条誠61_母の呼ぶ声
沢野久雄69_古調
沢野久雄69_雨しきり
沢野久雄61_落葉樹-落葉
沢野久雄61_落葉樹-親しい心
沢野久雄57_炎上
沢野久雄69_遠い音
沢野久雄59_粉雪
沢野久雄67_孤客
沢野久雄60_果樹園の道
沢野久雄67_晩年の石
川端康成70_髪は長く
川端康成54_みずうみ
川端康成60_眠れる美女
川端康成61_美しさと哀しみと
川端康成26_伊豆の踊子
川端康成63_片腕
川端康成72_友人の妻
川端康成61_古都
川端康成50_舞姫
川端康成56_女であること
川端康成53_波千鳥
川端康成49_千羽鶴
川端康成49_山の音
川端康成72_三島由紀夫
川端康成68_秋の野に
川端康成69_夕日野
川端康成37_雪国
川端康成46_再会
川端康成40_夜のさいころ
川端康成40_母の初恋
川端康成46_生命の樹
川端康成32_抒情歌
川端康成29_温泉宿
川端康成33_禽獣
川端康成33_散りぬるを
川端康成42_名人
0.0
0.2
Height
0.4
0.6
0.8
基于文节的模式聚类分析图
Cluster Dendrogram
as.dist(ldist(KpatternCp))
hclust (*, "ward")
同志社大学
Doshisha University
Jin Mingzhe
高频率60文节的对应分析
-1.0
-0.5
0.0
0.5
1.0
m54_詩を書く少年
ほうが
1.0
1.5
1.5
-1.5
彼が
1.0
できた.
何か
川端康成
新しい
33_散りぬるを
26_伊豆の踊子
家に
ところが.
29_温泉宿
しかし.
なにか
42_名人
聞えた.
53_波千鳥
言うと.
ことも
49_山の音
やはり
56_女であること
なんの
61_古都
49_千羽鶴
50_舞姫
40_母の初恋
46_再会
なぜ
大きい
方に
46_生命の樹
ゆっくり
37_雪国
40_夜のさいころ
少し
61_美しさと哀しみと
胸に
幼い
色が
ほんとうに
32_抒情歌
なにを
つい
60_眠れる美女
54_みずうみ
63_片腕
同志社大学
Doshisha University
-1.0
m50_遠乗会すでに
-1.0
0.0
中へ
先に
たしかに
m53_卵何の
ほうへ
決して
m62_月
すると
すぐ
形を
いつも
きいた.
とき.
何も
そこで
ときの ようやく
m56_金閣寺
m54_潮騒
m55_海と夕焼
とき 忽ち
見える.
m60_百万円煎餅 こうして 身を
小さな
又 こう
m61_憂国
0.5
33_禽獣
-0.5
-0.5
0.0
0.5
三島由紀夫
-0.5
0.0
0.5
1.0
Jin Mingzhe
三島由紀夫62_帽子の花
三島由紀夫61_憂国
三島由紀夫65_月澹荘奇譚
三島由紀夫53_潮騒
三島由紀夫56_金閣寺
三島由紀夫55_海と夕焼
三島由紀夫66_荒野より
三島由紀夫63_可哀そうなババ
三島由紀夫50_日曜日
三島由紀夫60_百万円煎餅
三島由紀夫54_詩を書く少年
三島由紀夫69_蘭陵王
三島由紀夫53_卵
三島由紀夫62_月
三島由紀夫50_遠乗会
三島由紀夫47_盗賊
三島由紀夫49_仮面の告白
三島由紀夫50_青の時代
三島由紀夫50_愛の渇き
三島由紀夫52_密薬
三島由紀夫55_沈める滝
三島由紀夫57_女方
三島由紀夫67_時計
北条誠57_緑なる人「緑なる人」
北条誠57_雨の夜「緑なる人」
北条誠57_三分咲き「緑なる人」
北条誠60_朝つゆの道
北条誠61_母の呼ぶ声
川端康成46_生命の樹
川端康成46_再会
川端康成37_雪国
川端康成40_母の初恋
川端康成26_伊豆の踊子
川端康成29_温泉宿
川端康成40_夜のさいころ
川端康成32_抒情歌
川端康成42_名人
川端康成53_波千鳥
川端康成33_散りぬるを
川端康成33_禽獣
北条誠73_花はなんの花
川端康成72_友人の妻
川端康成68_秋の野に
北条誠66_五百マイル
北条誠63_アカシヤの唄
北条誠64_山のむらさきに
北条誠65_赤い夕焼け
北条誠67_バラが咲いた
沢野久雄57_炎上
沢野久雄69_遠い音
沢野久雄69_古調
沢野久雄69_雨しきり
沢野久雄67_孤客
沢野久雄67_晩年の石
沢野久雄61_落葉樹-落葉
北条誠68_月の砂漠
沢野久雄61_落葉樹-親しい心
沢野久雄59_粉雪
沢野久雄60_果樹園の道
川端康成63_片腕
川端康成70_髪は長く
川端康成54_みずうみ
川端康成60_眠れる美女
川端康成61_美しさと哀しみと
川端康成61_古都
川端康成49_山の音
川端康成56_女であること
川端康成49_千羽鶴
川端康成50_舞姫
川端康成69_夕日野
川端康成72_三島由紀夫
0.0
0.1
Height
0.2
0.3
0.4
助词的聚类树图(效果较差)
hclust (*, "ward")
同志社大学
Doshisha University
Jin Mingzhe
例2.文本的写作时间能否推测?
0.08
0.10
0.12
0.14
0.16
0.18
0.20
• 芥川龙之介的助词「は(wa)」使用率
T14-01 T15-11b S2-08b
S2-11
T11-07b T12-07
S2-07
T15-11
T10-12d T11-09 T12-09
T12-11
T13-03
S2-00c
T12-12b
S2-00b
T12-04
T12-12
T13-01
T13-04 T14-08
T15-01
T11-07
T11-08b
T11-03
T13-12
T14-01b
T11-06T12-02
T13-06
T11-02
T11-03b
T13-04b
T10-12c
T12-07b
S2-02
S2-06
S2-08
T14-04S02-00
S2-03
T08-08
T13-06b
S2-05
T10-12b
T11-08
T10-12
T12-02b
T15-10
T09-12c
T12-03
T10-01
T09-03
T10-09
T10-9
T05-11
T14-04b
T09-12
T11-12
T09-04b
T09-10
T06-02
T06-11
T05-01
T09-00
T09-04T09-07T10-08
T09-05
T09-06b
T05-10
T05-02T05-09
T06-04
T05-10b
T09-12b
T05-12b
T09-04c
T07-08b T08-06
T05-07 T06-05
T06-08
T08-07
T05-08
T08-12bT09-06
T05-03b
M43-1T04-08
T06-12
T06-12b
T05-04
T04-09
T07-04
T07-09
T06-09
T07-12
T08-11
T08-04
T03-12 T05-08b
T07-12c T08-12
T05-12
T07-06
T07-12b
T08-01
T05-03
T07-04b
T07-08 T08-04b
M44-1
T08-09
T03-04
M44-2
M43-2
0
同志社大学
20
40
Doshisha University
60
80
100
120
Jin Mingzhe
0.15
格助词「が(Ga)」的频率
M44-2
T05-12
M44-1
0.05
0.10
M43-2
0.00
格
助
詞
「
が
」
の
使
用
率
T05-08
T09-12b
T06-09
T03-12
T03-04
T05-08b T06-08
T06-12b T08-06
T05-07
T08-08
T05-01
T05-03b
T05-02
T05-12b
T07-06T08-04b
T05-04
T09-12
T05-03
T11-12
T06-02
T06-05
T04-09
T05-11
T07-12 T08-09 T09-07
T06-11
T09-10
T09-12c
T05-09
T05-10b
T05-10
T10-09
T10-9
T08-12
T08-12b
T07-04b
T09-06
T07-04
T09-04b
T10-01
T10-12c
T09-03
T06-04
T10-08
T08-01
T06-12T07-12b
T08-07
T10-12b
T07-12c
T09-00
T08-04
T09-04c T10-12
T11-02
T10-12d
T04-08
T09-05
T07-08b T08-11
T09-06b
T09-04
T11-06
T07-09
M43-1
T12-07b
T12-07
T07-08
T11-03
T11-03b T12-04
T11-07b
T12-02b
T14-04b
T11-08
T15-11b
T12-03 T13-06b
T11-09
T11-08b
T11-07
S2-00c
S2-02
T15-10
T12-02
T12-11
T12-09
S2-08
T14-04
T15-11
T12-12b
T13-03
S2-07
T15-01
S02-00
T13-01
T14-08
T13-04
T14-01b
T12-12
S2-00b
S2-05
T13-04b
S2-06
T13-06
T13-12
S2-03
S2-11
T14-01
S2-08b
0
20
40
60
80
100
作品の番号
同志社大学
Doshisha University
Jin Mingzhe
120
芥川龙之介作品的系统图
大正
同志社大学
明治
Doshisha University
Jin Mingzhe
芥川龙之介的写作时期的预测
助词的词频为自变量,写作时间为因变量的
多元回归,机器学习法
同志社大学
Doshisha University
Jin Mingzhe
例3. 匿名信是杀人犯写的吗?
•
•
•
•
•
2003年5月日本警示厅搜查一科找我
三年没有破案
有人死亡,车祸,可能是他杀
哥哥给他上了生命保险
警示厅收到两封信,一封为目击者的信,
另一封为自供信兼遗书。
• 有哥哥写的少量文章
• 鉴定:两封信是否是哥哥写的
同志社大学
Doshisha University
Jin Mingzhe
相关文档(为领取保险金的杀人案)
•
•
•
•
关于另一案件的文档(M1)
关于上生命保险的文档
(M2)
目击者的检举信(M3)
自白兼遗书(M4)
1677
1723
1636
3554
把文本M4分成2个文本。奇数文和偶数文
(M4-1R,M4-2R)
同志社大学
Doshisha University
Jin Mingzhe
能否鉴定写信的犯人?
录像
同志社大学
Doshisha University
Jin Mingzhe
例4.失踪后的手机邮件是谁写
的?
•
•
•
•
•
一女性失踪
失踪后她的手机发出了一些电子邮件
邮件是谁写的?
她本人呢?,还是她的男朋友(嫌疑人)呢?
把两人的电子邮件进行分析
同志社大学
Doshisha University
Jin Mingzhe
失踪者-容疑者07
失踪者-容疑者01
失踪者-容疑者04
失踪者-容疑者05
失踪者-容疑者02
失踪者-容疑者03
失踪者-新藤02
失踪者-新藤03
失踪者-新藤04
失踪者-新藤01
失踪者-容疑者06
資料1
容疑者-山廣06
容疑者-山廣01
容疑者-山廣02
容疑者-山廣04
容疑者-山廣05
容疑者-失踪者04
容疑者-失踪者05
容疑者-失踪者03
容疑者-失踪者06
容疑者-失踪者08
容疑者-失踪者01
容疑者-失踪者02
容疑者-失踪者07
容疑者-失踪者11
容疑者-失踪者09
容疑者-失踪者10
失踪者-日記01
失踪者-日記02
失踪者-日記04
失踪者-日記06
失踪者-日記07
失踪者-日記03
失踪者-日記10
失踪者-日記09
失踪者-日記05
失踪者-日記08
容疑者-澄子01
容疑者-澄子11
容疑者-澄子08
容疑者-澄子10
容疑者-山廣03
容疑者-澄子09
容疑者-澄子14
容疑者-澄子16
容疑者-澄子06
容疑者-澄子12
容疑者-澄子02
容疑者-澄子03
容疑者-澄子13
容疑者-澄子04
容疑者-澄子05
容疑者-澄子07
容疑者-澄子15
0.0
0.5
Height
1.0
1.5
失踪人和嫌疑人的电子邮件
Cluster Dendrogram
手机邮件
失踪人
同志社大学
嫌疑人
Doshisha University
PC上的电子邮件
失踪人
嫌疑人
as.dist(ldist(bigram))
hclust (*, "ward")
Jin Mingzhe
0.10
非计量多次元尺度法の散布图
資料1
容疑者-失踪者05
0.00
-0.05
失踪者-日記09
-0.10
bigram.md[,2]
0.05
容疑者-澄子16
容疑者-澄子15
容疑者-山廣01 容疑者-山廣06
容疑者-失踪者04
容疑者-澄子06
容疑者-失踪者09
容疑者-澄子14
容疑者-山廣02
容疑者-失踪者02
容疑者-失踪者10
容疑者-澄子13
容疑者-山廣05
容疑者-澄子07
失踪者-新藤04
容疑者-澄子04
容疑者-失踪者06
容疑者-澄子12
容疑者-澄子11
容疑者-山廣04
容疑者-失踪者03
容疑者-失踪者11
容疑者-澄子05
失踪者-新藤03
容疑者-失踪者01
失踪者-容疑者04
容疑者-失踪者07
容疑者-失踪者08
失踪者-新藤02
失踪者-容疑者06
容疑者-澄子10
容疑者-山廣03 容疑者-澄子03
失踪者-新藤01
容疑者-澄子01
失踪者-容疑者07
失踪者-容疑者05
失踪者-容疑者01
容疑者-澄子08
失踪者-容疑者03
容疑者-澄子02
失踪者-容疑者02
容疑者-澄子09
失踪者-日記02
失踪者-日記10
失踪者-日記08
-0.15
失踪者-日記05
失踪者-日記06
失踪者-日記01
失踪者-日記04
失踪者-日記03
失踪者-日記07
-0.2
-0.1
0.0
0.1
0.2
bigram.md[,1]
同志社大学
Doshisha University
Jin Mingzhe
手机邮件的识别
• 20人,共5724件邮件
性别
长度
同志社大学
Doshisha University
Jin Mingzhe
テキスト情報による金融市場の逐次外挿予測
Out-of-Sample Test of Text Mining in Financial Markets
http://www.kishii.ss.is.nagoya-u.ac.jp/~tori/society/sigfin/pukiwiki/index.php?plugin=attach&refer=SIG-FIN-003-02&openfile=SIG-FIN-00302.pdf
Jin Mingzhe
同志社大学 Doshisha University
NLP和文本挖掘/计算的现状和将来
• 1990~2005,分词与句法研究和应用
• 2000~2010,文本挖掘与计算和应用
表层信息的统计分析
• 2010~
,文本的语义处理和应用
从文本表层信息走向深层的内容
具有可靠性高的QA系统,如IBM的DeepQA
知识库的开发与应用
期待计算语言研究的成果
同志社大学
Doshisha University
Jin Mingzhe
结语
• 文本数据统计科学的前景无限宽广!(我)
• 适合于文本分析的方法有待于开发!
• 文本挖掘/计算统计分析不是万能
• 通过频率信息的量的差异和特征,要挖掘
背后的深层原因
同志社大学
Doshisha University
Jin Mingzhe