Transcript 文獻內容分析
CATAR-文獻內容探勘工具
簡介
安裝
使用
解讀
案例
曾元顯
國立臺灣師範大學 資訊中心
2011/04/16
文獻內容分析-簡介
• 相關學科:
– Bibliometrics、Scientometrics、Infometrics
– Content analysis in social science
• 相關期刊
– JASIST, Scientometrics, Journal of Infometrics
• 相關會議
– ISSI: International Society for Scientometrics and
Infometrics
– STI: Science and Technology Indicators
2
文獻內容分析-動機
• 專利的前案分析,希望能在半天內完成
– 引自類比IC設計製造公司副總經理說法
• 鑑往知來、避開重複、促進創新
• 擷取重點、評估形勢、規劃策略
• 找出特定作者、機構
– 邀請投稿、演講、審查、合作、求助
• 科技政策分析與決策輔助
– 作者、機構、國家生產力分析
– 績效評鑑、經費分配3
文獻內容自動分析
• 長期目標:
– 自動掃描相關文獻,分析、組織、呈現
– 提供探索、線索,以供後續驗證、決策
• 相關研究
– Structured Abstract in library science (1987)
– Automated structured abstract in biology (2007)
– 專利文獻自動分析 (2004, NTCIR)
– 科教領域
– 研究文獻中的情緒語意分析(2010, STI)
4
文獻內容自動分析-工具現況
• CiteSpace
– 陳超美, Drexel University (2003)
– http://cluster.cis.drexel.edu/~cchen/citespace/
– 擷取科學論文中自然呈現的聚類
– 顯示典範移轉中的轉折點-類別間的橋樑
• VOSviewer
– Nees Jan van Eck and Ludo Waltman (2007)
– CWTS of Leiden University
– http://www.vosviewer.com/
• CATAR
5
CATAR簡介
• Content Analysis Toolkit for Academic Research
• 曾元顯, 2004-2011
– http://web.ntnu.edu.tw/~samtseng/CATAR/
• CATAR技術細節:
– 曾元顯、林瑜一(2011)。 內容探勘技術在教育評鑑研究發展趨勢
分析之應用。教育科學研究期刊,56(1),129-166。
– Yuen-Hsien Tseng, Chi-Jen Lin, and Yu-I Lin, "Text Mining Techniques
for Patent Analysis", Information Processing and Management, Vol. 43,
No. 5, 2007, pp. 1216-1247. (cited 23 times in WoK, 38 times in Scopus,
58 times in Google Scholar)
6
CATAR分析功能
• 概觀分析(overview)
• 主題歸類分析(clustering)
– 書目對分析(bibliographic coupling)
– 共現字分析(co-word analysis)
7
CATAR安裝
• 安裝Perl
– http://strawberryperl.com/, at least Version 5.12.0
• 下載CATAR
– http://web.ntnu.edu.tw/~samtseng/CATAR/
• 解壓縮到C:\,以便產生C:\CATAR目錄
– C:\CATAR\bin\:程式放置處,命令由此目錄下達
– C:\CATAR\doc\:執行過程資料放置處
– C:\CATAR\Result\:執行結果資料放置處
– C:\CATAR\Source\Data\:待分析資料放置處
8
待分析資料的準備
• 待分析資料的界定(最重要的步驟、第二有價值的部分)
– 關鍵詞搜尋的結果
– 核心期刊的論文
– 綜合查詢的結果(期刊+關鍵詞+年代限制)
– 一篇篇專家確認過的文獻
• WoK資料的搜尋
– 搜尋技巧
– 以etch為例
9
ISI WoK Publication Record
Only the fields in red color are used.
FN ISI Export Format
VR 1.0
PT J
AU Tseng, SC
Tsai, CC
AF Tseng, Sheng-Chau
Tsai, Chin-Chung
TI On-line peer assessment and the role of the peer feedback: A study of high
school computer course
SO COMPUTERS & EDUCATION
LA English
DT Article
DE interactive learning environments; secondary education; learning
communities; improving classroom teaching; peer assessment
ID WORLD-WIDE-WEB; ASSESSMENT SYSTEM; HIGHER-EDUCATION;
STUDENTS; THINKING; SCIENCE; SELF
AB The purposes of this study were to explore the effects and the validity of online peer assessment in high schools and …
C1 Natl Chiao Tung Univ, Inst Educ, Hsinchu 300, Taiwan.
Natl Chiao Tung Univ, Ctr Teacher Educ, Hsinchu 300, Taiwan.
RP Tsai, CC, Natl Chiao Tung Univ, Inst Educ, 1001 Ta Hsueh Rd, Hsinchu
300, Taiwan.
EM [email protected]
Cited References are used in the
bibliographic coupling for topic
clustering and citation tracking
CR
ROTH WM, 1997, SCI EDUC, V6, P373
DOCHY F, 1999, STUD HIGH EDUC, V24, P331
…
NR 23
TC 2
PU PERGAMON-ELSEVIER SCIENCE LTD
PI OXFORD
PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB,
ENGLAND
SN 0360-1315
J9 COMPUT EDUC
JI Comput. Educ.
PD DEC
PY 2007
VL 49
IS 4
BP 1161
EP 1174
DI 10.1016/j.compedu.2006.01.007
PG 14
SC Computer Science, Interdisciplinary Applications; Education &
Educational Research
GA 218OF
UT ISI:000250024100013
ER
WoK的13個欄位
AU:作者欄,例:Kainz, H; Hofstetter, H
TI:論文標題,例:Adaption of the main waste water treatment plant …
SO:期刊全名,例:WATER SCIENCE AND TECHNOLOGY。
DE:作者給定的關鍵詞,例:large wastewater treatment plant;。
ID:論文描述詞,例:WATER; CONTAMINATION; PLANT;。
AB:論文摘要,約100-300個英文字。
C1:作者所屬機構之國家。
CR:參考文獻, 例:BALDI F, 1988, WATER AIR SOIL POLL, V38, P111
NR:參考文獻篇數,例:3。
TC:被引用的次數,例:1。
PY:論文出版年,例:1996。
SC:論文所屬領域別,例:Environmental Sciences; Water Resources
UT:Web of Science 之論文主鍵欄,例:ISI:A1996VF74600009
概觀分析
• 將資料解剖,置於資料庫內,以便於管理
• 從資料庫中,讀取各欄位,進行交叉統計
• 趨勢分析
– 年代篇數序列的線性回歸線斜率作為趨勢指標
– Yuen-Hsien Tseng, Yu-I Lin, Yi-Yang Lee, Wen-Chi Hung, and ChunHsiang Lee, " A Comparison of Methods for Detecting Hot Topics",
Scientometrics, Vol. 81, No. 1, Oct. 2009, pp. 73-90.
• 執行命令(範例):
– C:\CATAR\bin>parl CATAR.par automc.pl
-OOA SE ..\Source_Data\SE\data
命令選項
分析結果之目錄名稱
待分析資料之路徑名稱
12
命令提示字元(DOS)命令
• 開啟命令提示字元
– 開始->所有程式->附屬應用程式->命令提示字元
•
•
•
•
變換到磁碟機C:C:
變換目錄到CATAR:cd \CATAR
變換到上一層目錄:cd ..
絕對路徑:
C:\CATAR\Source_Data\SE\data
• 相對路徑:若已經在目錄\CATAR\bin下,
則為 ..\Source_Data\SE\data
13
概觀分析範例
• 結果參考:C:\CATAR\Result\SE\SE_by_field.xls
篇數
#1
#2
#3
#4
#5
#6
#7
#8
#9
#10
#11
#12
54
640
238
187
249
365
326
144
422
144
143
2,912
查詢條件
SO=(Journal of the Learning Sciences)
SO=(Computers & Education)
SO=(Science Education)
SO=(Journal of Computer Assisted Learning)
SO=(Journal of Research in Science Teaching)
SO=(British Journal of Educational Technology)
SO=(Educational Technology & Society)
SO=(ETR&D-Educational Technology Research And Development)
SO=(International Journal of Science Education)
SO=(Research in Science Education)
SO=(Innovations in Education and Teaching International)
#1 or #2 or #3 or #4 or #5 or #6 or #7 or #8 or #9 or #10 or #11
Document Type=(Article) Databases=SCI-EXPANDED, SSCI, A&HCI Timespan=2005-2009
14
Year Production: Top 8 Countries
AUSTRALIA CANADA
TURKEY
NETHER
SPAIN
LANDS
USA
UK
TAIWAN
2004
12
3
1
6
1
0
4
0
2005
138
69
36
38
16
14
29
15
2006
139
63
31
25
18
19
18
13
2007
173
70
61
43
28
18
20
21
2008
204
72
108
44
34
31
19
18
2009
198
71
84
42
44
34
24
29
2010
6
4
7
0
0
0
0
2
total
870
352
328
198
141
116
114
98
Most Productive Authors: Top 10
AU
AU Tseng, SC
Tsai, CC
Tseng, SC : 1
Tsai, CC : 1
NC TC
IF
FC
FTC
17.6 104.9
FIF
Tsai, CC
37 227
6.14
Roth, WM
18
61
3.39
7.7
25.7
Koper, R
15
60
4.00
3.8
21.4
Hwang, GJ
14
94
6.71
3.7
Valcke, M
13 165 12.69
4.3
Lee, O
12
93
7.75
3.2
5.63 AU Tseng, SC
Tsai, CC
27.3 7.38
Tseng, SC : 0.5
53.4 12.42 Tsai, CC : 0.5
23.0 7.19
Chang, CY
11
49
4.45
5.2
25.6
4.92
Huang, YM
11
42
3.82
3.6
12.8
3.56
Sadler, TD
11 110 10.00
4.7
48.6 10.34
Chang, KE
11
3.3
16.6
56
5.09
5.96
3.34
5.03
NC=Normal Count: each co-author is counted as a single author
FC=Fractional Count: all the co-authors are counted as a single author
IF =TC/NC, FIF=FTC/FC
Most Productive Institutes: Top 15
IN
NC
TC
IF
FC
FTC
FIF
Natl Taiwan Normal Univ
61
220
3.61
45.6 157.4
3.45
Nanyang Technol Univ
52
217
4.17
37 149.2
4.03
Open Univ
50
265
5.30
41.3 234.4
5.68
Natl Cent Univ
46
276
6.00
29.2 164.1
5.62
Indiana Univ
39
315
8.08
22.8 171.0
7.50
Natl Taiwan Univ Sci & Technol
35
212
6.06
22 117.8
5.35
Natl Cheng Kung Univ
34
108
3.18
27.4
90.3
3.30
Middle E Tech Univ
33
87
2.64
24.3
70.3
2.89
Florida State Univ
32
145
4.53
21.2
75.0
3.54
Curtin Univ Technol
31
85
2.74
18.9
51.2
2.71
Univ Georgia
31
138
4.45
19.3
81.7
4.23
Natl Chiao Tung Univ
29
150
5.17
18.6
93.8
5.04
Univ London
29
168
5.79
20.9
83.6
4.00
Arizona State Univ
28
104
3.71
18.4
62.8
3.41
Weizmann Inst Sci
27
153
5.67
20.7 121.3
5.86
Data are from the C1 field of each record:
C1 Natl Chiao Tung Univ, Inst Educ, Hsinchu 300, Taiwan
Most Cited References
*NAT RES COUNC, 1996, NAT SCI ED STAND
245
LEDERMAN NG, 1992, J RES SCI TEACH, V29, P331
63
LAVE J, 1991, SITUATED LEARNING LE
157
*NRC, 1996, NAT SCI ED STAND
63
VYGOTSKY LS, 1978, MIND SOC DEV HIGHER
131
DRIVER R, 2000, SCI EDUC, V84, P287
61
BROWN JS, 1989, EDUC RES, V18, P32
113
DRIVER R, 1996, YOUNG PEOPLES IMAGES
59
WENGER E, 1998, COMMUNITIES PRACTICE
109
MILLAR R, 1998, 2000 SCI ED FUTURE
59
*AM ASS ADV SCI, 1993, BENCHM SCI LIT
93
LEMKE JL, 1990, TALKING SCI LANGUAGE
59
POSNER GJ, 1982, SCI EDUC, V66, P211
78
*NAT RES COUNC, 2000, INQ NAT SCI ED STAND
57
SHULMAN LS, 1986, EDUC RES, V15, P4
76
LINCOLN YS, 1985, NATURALISTIC INQUIRY
52
COHEN J, 1988, STAT POWER ANAL BEHA
70
BROWN AL, 1992, J LEARN SCI, V2, P141
52
SHULMAN LS, 1987, HARVARD EDUC REV, V57, P1
67
COLLINS A, 1989, KNOWING LEARNING INS, P453
52
Data are from the CR field of each record:
CR ROTH WM, 1997, SCI EDUC, V6, P373
Most Cited Authors
AU
NC
Rank
1
ROTH WM
411
11
LEDERMAN NG 230
2
*NAT RES COUNC
397
12
BANDURA A
226
3
DRIVER R
395
13
VOSNIADOU S
214
4
JONASSEN DH
336
14
KUHN D
213
5
MAYER RE
323
15
TABER KS
196
6
VYGOTSKY LS
259
16
OSBORNE J
195
7
TSAI CC
250
17
BROWN AL
184
8
CHI MTH
249
18
SHULMAN LS
180
9
*AM ASS ADV SCI
246
19
AIKENHEAD GS 178
10
LAVE J
242
20
TOBIN K
Rank
AU
Data are from the CR field of each record:
CR ROTH WM, 1997, SCI EDUC, V6, P373
NC
176
Most Cited Journals
rank
J9
DF
rank
J9
DF
1
J RES SCI TEACH
4707
11
COMPUT HUM BEHAV
622
2
SCI EDUC
3368
12
LEARN INSTR
622
3
INT J SCI EDUC
2927
13
EDUC RES
618
4
COMPUT EDUC
1668
14
COGNITION INSTRUCT
581
5
J LEARN SCI
899
15
J EDUC COMPUT RES
562
6
J EDUC PSYCHOL
877
16
EDUC PSYCHOL
523
7
ETR&D-EDUC TECH RES
829
17
STUDIES SCI ED
468
8
REV EDUC RES
825
18
RES SCI EDUC
446
9
J COMPUT ASSIST LEAR
737
19
J CHEM EDUC
443
10
BRIT J EDUC TECHNOL
717
20
INSTR SCI
433
Data are from the CR field of each record:
CR ROTH WM, 1997, SCI EDUC, V6, P373
主題歸類分析
•
•
•
•
•
•
•
索引建立
相似度計算
文件歸類 - 建立主題樹
類別標題詞擷取
多階段歸類 - 建立高階主題樹
多維縮放(MDS) - 建立主題地圖
主題與各項資料的交叉分析
21
索引建立
• 書目對分析:
– 建立書目對強度矩陣
– 計數並正規化引用次數
• 共現字(與任何文字)分析:
– 刪除停用詞(the、of、for、on、and, at, …)
– 正規化詞彙(消除單複數、被動、進行式的差異)
– 擷取關鍵片語(已專利之技術[Tseng, 2002, JASIST])
– 建立詞彙到文件的反向索引資訊檔案
相似度之計算
T=2529
for 318
EEPA
papers
詞彙 T
文獻 M
Sim(A, B) =
詞彙 2
文獻 2
2x|S(A)∩S(B)|
-------------------|S(A)|+|S(B)|
詞彙 1
文
件
A
文
件
B
文獻 1
文
件
A
共現字
相似性
D1
D1
D2
Dn
s11
s
21
s n1
D2
s12
s22
sn 2
M=9957
for 318
EEPA
papers
文
件
B
書目對
相似性
Dn
s1n
s2 n
snn
D1
D1
D2
Dn
s11
s
21
s n1
D2
s12
s22
sn 2
Dn
s1n
s2 n
snn
主題樹
• 根據相似度(距離)矩陣,進行凝聚階層歸類
agglomerative hierarchical clustering (AHC)
– Complete link criterion
0.0
門檻:0.075
結果:6類 0.1
– Dendrogram
主題樹
0.2
0.3
D1
D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17
24
主題樹範例 (電影新聞資料)
• 1(7): 161 : 7 Docs. : 0.3478 (美國: 9.4)
– 2 : 4 Docs. : 1.0000 (美國: 4.1)
類別序號
與篇數
•
•
•
•
13 : 101765 : 2006-01-01:納尼亞傳奇 美國片
55 : 113371 : 2006-03-19:V怪客 美國片
48 : 109839 : 2006-03-12:北國性騷擾 美國片
1 : 98663 : 2006-01-08:惡狼ID 美國片
相似度
類別標題詞
– 32 : 3 Docs. : 0.7245 (影迷: 7.0, 美國: 2.4)
• 14 : 2 Docs. : 0.9340 (影迷: 4.0, 絕命終結站: 3.5, 絕命: 3.5, 飛車: 2.8, 雲霄飛車: 2.8)
類別編號
– 11 : 101543 : 2006-01-15:奪魂鋸2美國片
(下一階使用)
– 27 : 104778 : 2006-02-26:絕命終結站3雲霄飛車驚魂
與篇數
• 16 : 102575 : 2006-01-08:偷穿高跟鞋 美國片
• 9(3): 28 : 3 Docs. : 0.7614 (傑克: 10.0, 李安: 8.9, 傑克基倫霍: 7.0, 基倫霍: 7.0, 希斯萊傑: 3.2)
– 17 : 2 Docs. : 0.9141 (李安: 11.0, 傑克: 5.7, 斷背山: 4.9, 希斯萊傑: 4.0, 傑克基倫霍: 3.2)
• 3 : 98770 : 2006-01-22:李安靠 斷背山重拾熱情
• 7 : 100886 : 2006-01-22:斷背山 美國片
– 21 : 104156 : 2006-02-26:鍋蓋頭 美國片
• 12(3): 74 : 3 Docs. : 0.5263 (奶油: 7.3, 絕配: 6.0, 料理: 5.1, 凱特: 4.9, 尼克: 3.2)
– 58 : 2 Docs. : 0.6041 (番紅花: 6.3, 凱特: 6.0, 番紅花醬汁: 4.9, 尼克: 4.0, 鮮奶: 4.0)
• 68 : 397612 : 2007-08-25:料理絕配 跟著男主角做義國菜
• 71 : 403973 : 2007-08-25:料理絕配 跟著女主角做法國菜
– 69 : 398615 : 2007-08-25:料理絕配 看電影學用餐禮儀
25
類別標題詞自動擷取
• 歸類後,自動擷取類別特徵詞,作為類別標題
– 結合「相關係數」及「詞頻」排序詞彙,可獲顯著成效
Yuen-Hsien Tseng, " Generic Title Labeling for Clustered Documents",
Expert Systems With Applications, Vol. 37, No. 3, 15 March 2010, pp.
2247-2254 .
Term T
Yes No
Category Yes TP FN
C
No FP TN
(TP TN - FN FP)
Co(T , C )
(TP + FN)(FP + TN)(TP + FP)(FN + TN)
多階段歸類示意圖
每一階段 均為 獨立的 凝聚階層歸類(AHC)
Topics
第二階段
Concepts
第一階段
Docs.
Outliers:低於門檻,無法歸入類別者
主題地圖
• MDS (Multi-Dimensional Scaling,多維縮放)
– 將n個物件,總共n(n-1)/2個相似度關係,投影
到2或3維空間上,以便於視覺化其關係
5. Material
2. Electronics and
Semi-conductors
1.Chemistry
4. Communication
and computers
3. Generality
6. Biomedicine
NSC美國專利文獻主題地圖
主題樹與主題地圖
Carbon Nanotube專利文獻分析
25 docs. : 0.228054 (emission:180.1, field:177.2, emitter:157.1, cathode:108.4, field emission: 88.0)
+ 23 docs. : 0.424787 (emitter:187.0, emission:141.9, field:141.4, cathode:129.0, field emission:104.7)
+ 19 docs. : 0.693770 (emitter:139.7, field emission:132.0, cathode: 96.0, electron: 67.1, display: 61.9)
+ ID=2 : 7 docs.,0.09(cathode:0.58, source:0.56, display:0.50, field emission:0.45, vacuum:0.43)
+ ID=1 : 12 docs.,0.07(emitter:0.67, emission:0.60, field:0.57, display:0.40, cathode:0.38)
+ ID=11 : 4 docs.,0.13(chemic vapor deposition:0.86, sic:0.56, grow:0.44, plate:0.42, thicknes:0.42)
+ ID=19 : 2 docs.,0.21(electron-emissive:1.00, carbon film:0.70, compromise:0.70, emissive material ...
13 docs. : 0.240830 (energy: 46.8, circuit: 34.0, junction: 33.3, device: 26.0, element: 24.9)
+ 9 docs. : 0.329811 (antenna: 31.0, energy: 29.5, system: 29.4, electromagnetic: 25.0, granular: 20.6)
+ ID=4 : 5 docs.,0.07(wave:0.77, induc:0.58, pattern:0.45, nanoscale:0.44, molecule:0.35)
+ ID=15 : 4 docs.,0.12(linear:0.86, antenna:0.86, frequency:0.74, optic antenna:0.70, …)
+ ID=10 : 4 docs.,0.06(cool:0.70, sub-ambient:0.70, thermoelectric cool apparatuse:0.70, nucleate:0.70, ...
書目對分析
• 執行命令(範例):
– C:\CATAR\bin>parl CATAR.par automc.pl
-OBC SE ..\Source_Data\SE\SE.mdb
• 結果:
– C:\CATAR\Result\SE_BC
•
•
•
•
*.html:主題樹
*all*.html:主題樹以及各項資料之交叉分析
*.xls:各主題與各項資料之交叉分析
*titles*.html:每個主題包含之篇名
30
共現字分析
• 執行命令(範例):
– C:\CATAR\bin>parl CATAR.par automc.pl
-OCW SE ..\Source_Data\SE\SE.mdb
• 結果:
– C:\CATAR\Result\SE_CW
•
•
•
•
*.html:主題樹
*all*.html:主題樹以及各項資料之交叉分析
*.xls:各主題與各項資料之交叉分析
*titles*.html:每個主題包含之篇名
31
分析範例-曾元顯著作-書目對
•
1(6): 34 : 6 Docs. : 0.020000 (cluster: 5.1, map: 3.0, min: 3.0, text: 2.1)
–
12 : 4 Docs. : 0.142857 (cluster: 7.0, patent: 5.2, text: 3.7, generic: 2.6, title: 2.6)
•
–
–
–
13 : ISI:A1995QT09700011 : 1995:ON A CONSTANT-TIME, LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK
9 : ISI:A1992HU15600007 : 1992:SOLVING SORTING AND RELATED PROBLEMS BY QUADRATIC PERCEPTRONS
10 : ISI:A1992HY58100028 : 1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER
NEURAL NETWORKS
3(2): 14 : 2 Docs. : 0.113208 (automatic: 3.1, chinese: 1.4, text: 1.4, thesauru: 1.4)
–
–
0 : ISI:000167255500002 : 2001:Automatic cataloguing and searching for retrospective data by use of OCR text
1 : ISI:000178776600007 : 2002:Automatic thesaurus generation for Chinese documents
4(2): 3 : 2 Docs. : 0.285714 (code: 4.0, decoder: 1.4, fast: 1.4, reed-muller: 1.4)
–
–
•
•
7 : ISI:000277110400017 : 2010:Mining concept maps from news stories for measuring civic scientific literacy in media
8 : ISI:000279714800001 : 2010:Trends of Science Education Research: An Automatic Content Analysis
2 : 2 Docs. : 0.333333 (quadratic: 3.0, sort: 3.0, perceptron: 2.3, winner-take-all: 1.4, constant-time: 1.4)
•
•
•
4 : ISI:000251991600006 : 2007:Patent surrogate extraction and evaluation in the context of patent mapping
2(3): 15 : 3 Docs. : 0.095238 (neural network: 3.1, quadratic: 2.3, sort: 2.3, perceptron: 1.7)
–
•
1 : 2 Docs. : 0.692308 (generic: 4.0, title: 4.0, cluster: 3.2, document: 3.1, correlation coefficient: 2.0)
» 2 : ISI:000241690200012 : 2006:Toward generic title generation for clustered documents
6 : ISI:000272846500049 : 2010:Generic title labeling for clustered documents
3 : ISI:000246869800006 : 2007:Text mining techniques for patent analysis
18 : 2 Docs. : 0.052632 (education: 4.0, content analysi: 2.0, content: 2.0, media: 2.0)
•
•
•
合理度:100%
5 : 3 Docs. : 0.224490 (cluster: 5.0, generic: 3.1, title: 3.1, text: 2.4, document: 2.3)
–
•
門檻=0.0
11 : ISI:A1993MA58300001 : 1993:DECODING REED-MULLER CODES BY MULTILAYER
PERCEPTRONS
12 : ISI:A1993MA58300002 : 1993:FAST NEURAL DECODERS FOR SOME CYCLIC CODES
5(1): 36 : 1 Docs. : 0 (hot: 2.0, detect: 2.0, comparison: 2.0, topic: 1.1, scientometric: 0.7)
5 : ISI:000270841800006 : 2009:A comparison of
32 methods for detecting hot topics
門檻=0.0
分析範例-曾元顯著作-書目對(第二階)
合理度:100%
• 1(2): 1 : 5 Docs. : 0.100000 (neural: 4.0, perceptron: 3.0,
code: 2.4, decoder: 1.8, network: 1.8)
第一階的
類別編號
與篇數
– 1 : 15 : 3 Docs. : 0.095238(neural network: 3.1, quadratic: 2.3, sort: 2.3,
perceptron: 1.7)
– 3 : 3 : 2 Docs. : 0.285714(code: 4.0, decoder: 1.4, fast: 1.4, reed-muller:
1.4)
• 2(2): 2 : 8 Docs. : 0.022556 (automatic: 5.0, document: 4.0,
text: 4.0, generation: 3.0, cluster: 1.8)
– 0 : 34 : 6 Docs. : 0.020000(cluster: 5.1, map: 3.0, min: 3.0, text: 2.1)
– 2 : 14 : 2 Docs. : 0.113208(automatic: 3.1, chinese: 1.4, text: 1.4,
thesauru: 1.4)
• 3(1): 4 : 1 Docs. : 0 (hot: 2.0, detect: 2.0, comparison: 2.0,
topic: 2.0, scientometric: 1.0)
– 4 : 36 : 1 Docs. : 0(hot: 2.0, detect: 2.0, comparison: 2.0, topic: 1.1,
scientometric: 0.7)
33
分析範例-曾元顯著作-書目對(第二階)
34
分析範例-曾元顯著作-共現字
•
1(5): 29 : 5 Docs. : 0.0940 (term: 19.0, document: 6.7, algorithm: 4.0)
–
–
7 : 3 Docs. : 0.5403 (document: 12.2, generic: 7.7, cluster: 7.6, term: 7.4, algorithm: 6.0)
有共同的Map或
• 2 : 2 Docs. : 0.9610 (cluster: 10.8, generic: 10.0, label: 7.0, title: 7.0, document: 5.6)
Mapping之詞彙
– 2 : ISI:000272846500049 : 2010:Generic title labeling for clustered documents
– 6 : ISI:000241690200012 : 2006:Toward generic title generation for clustered documents
與概念,但其他
• 7 : ISI:000178776600007 : 2002:Automatic thesaurus generation for Chinese documents
概念則不相同
3 : 2 Docs. : 0.7090 (map: 7.7, patent: 5.4, term: 4.1, scientific: 4.0, new: 4.0)
•
•
•
4 : 2 Docs. : 0.6881 (science: 7.4, analysi: 6.9, education: 5.4, science education: 5.4, research: 5.4)
•
•
–
0 : ISI:000279714800001 : 2010:Trends of Science Education Research: An Automatic Content Analysis
5 : ISI:000246869800006 : 2007:Text mining techniques for patent analysis
8 : ISI:000167255500002 : 2001:Automatic cataloguing and searching for retrospective data by use of OCR
text
3(2): 1 : 2 Docs. : 1.00 (network: 7.7, memory: 4.0, associative memory: 2.7, winner-take-all: 2.0)
–
–
•
1 : ISI:000277110400017 : 2010:Mining concept maps from news stories for measuring civic scientific literacy in media
4 : ISI:000251991600006 : 2007:Patent surrogate extraction and evaluation in the context of patent mapping
2(3): 19 : 3 Docs. : 0.2776 (automatic: 7.3, text: 6.9, analysi: 4.9, approach: 4.6, topic: 1.9)
–
•
合理度:60%-80%
12 : ISI:A1992HY58100028 : 1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER
NEURAL NETWORKS
9 : ISI:A1995QT09700011 : 1995:ON A CONSTANT-TIME, LOW-COMPLEXITY WINNER-TAKE-ALL
NEURAL-NETWORK
4(1): 30 : 1 Docs. : 0 (trend: 6.7, different: 5.0, better: 3.0, trend observation: 3.0, choice: 3.0)
–
3 : ISI:000270841800006 : 2009:A comparison of methods for detecting hot topics
35
主題趨勢分析
• 列出主題之年代篇數序列
• 計算其線性回歸線的斜率
• 按此斜率排序主題,可分析
– 趨勢漸增之主題
– 趨勢漸減之主題
Breakdown Trends of ICT in Edu.
Cluster 3
Cluster 4
Cluster 5
Cluster 6
68 : 993筆
104 : 464筆
22 : 237筆
85 : 139筆
97 : 55筆
51 : 83筆
1990
38
1
9
1
7
1
1991
53
1
8
2
6
0
1992
55
4
4
1
11
0
1993
50
3
9
1
7
1
1994
42
2
18
5
5
1
1995
50
17
23
0
6
0
1996
47
12
19
2
5
0
1997
57
27
17
10
3
0
1998
66
29
11
5
2
0
1999
52
28
14
7
0
1
2000
69
33
15
8
0
0
2001
43
43
13
11
0
1
2002
44
44
9
10
0
2
2003
53
34
8
14
1
11
2004
56
59
7
12
0
11
2005
71
43
21
15
1
14
2006
69
37
10
10
1
27
2007
78
47
22
25
0
13
Promising topics (not yet mature)
Topic with periodic attraction
Hot topics during that period
Cluster 2
Dying out topics
Main stream topic
Cluster 1
解讀
• 最有價值的部分
• Access 檔案
– 可人工修改,再進行書目對與共現字之分析
• Excel 檔案:各種交叉分析結果,可作圖
• HTML 檔案:主題樹、篇名與交叉分析結果
• 主題地圖檔案
– 第n階的文件,其主題地圖在第n階的結果裡,
而其中的顏色,代表各個文件所屬的類別
– 第n階的類別,其主題地圖在第n+1階的結果裡
38
解讀
•
•
•
•
•
•
多用不同參數、方式探索
解讀出有意義的資訊為準
有意義的資訊,可能散落在不同參數所產生的結果中
每一種參數、方式,都有可解讀之處,越多者,越佳
配合領域專家、有經驗者(科學計量專家)一起解讀
參考:
– 陳超美(2010)。如何選取CiteSpace的參數。
http://www.sciencenet.cn/m/user_content.aspx?id=378974
39
分析案例
• 曾元顯、林瑜一(2011)。 內容探勘技術
在教育評鑑研究發展趨勢分析之應用。教
育科學研究期刊,56(1),1-38。
• Yueh-Hsia Chang, Chun-Yen Chang, and
Yuen-Hsien Tseng, "Trends of Science
Education Research: An Automatic Content
Analysis", Journal of Science Education and
Technology, Vol. 19, No. 4, 2010, pp. 315-331.
40
注意事項
• 先從概觀分析開始
– 才能將WoK資料剖析到資料庫中
– 其後才能進行書目對與共現字分析
• 非WoK資料之分析
– 參考:
• C:\CATAR\Source_Data\movie\movie.mdb
• C:\CATAR\Source_Data\eport\eport.mdb (感謝本校資訊中心汪耀華組長整理資料)
– 將自己的資料,依照上述檔案範例放入資料庫中,若無CR欄位則直
接進行共現字分析
– 若某欄位要置放多個項目,則每個項目之間以「; 」隔開,
如「Chang, YH; Chang, CY; Tseng, YH」
• 將WoK的SC對應到自己定義的類別
– 編輯:C:\CATAR\bin\ISI_SC2C.txt
– 如果沒有此項需求,可以不用理會這一點
41