نظر کاوی مبتنی بر سطح سند
Download
Report
Transcript نظر کاوی مبتنی بر سطح سند
به نام خدا
نظر کاوی مبتنی بر سطح سند
استاد راهنما :دکتر محسن کاهانی
(استاد دانشگاه فردوسی مشهد)
ارائه دهنده :سید محمد اصغری
)دانشجوی کارشناسی ارشد دانشگاه فردوسی مشهد(
18اسفند 1392
فهرست مطالب
•
•
•
•
•
•
•
•
•
مقدمه
هدف
فرایند
انواع نظرکاوی
کاربردها
سطوح نظرکاوی
مشکالت
مرور کارها
مقایسه و نتیجه گیری
2
مقدمه
• هدف نظرکاوی]:[11
– استخراج خودکار احساسات و نظرات جمعی انسانها از
نوشتارها
4
فرایند
نظرکاوی][19
5
انواع نظرکاوی
• از منظر دسته بندی
– اعتبار مطلق (مثبت -منفی)
– اعتبار عددی
• از منظر الگوریتمها
– مبتنی بر قاعده
– مبتنی بر یادگیری
6
کاربرد نظرکاوی][16
• درباره بازار و محصوالت تجاری
از دیدگاه مشتتریا :بررستی کیفیتت محصتومع معایتب و مزایتا کتاالع
استفاده از تجربیات دیگرا ع مقایسه محصوالت و ...
از دیدگاه تولیدکنندگا :کشف نقاط ضتعف محصتوم ختود از دیتدگاه
مشتتتریا ع نقطتته نظتترات و انتظتتارات مشتتتریا ع درن بهتتتر از نی تاز
مشتریا خودع مقایسه و رقابت با ستایر شترکتهای رقیتب در بتازار
و ...
از دیدگاه فروشندگا :بازاریابیع تبلیغات مناسب با سلیقه مشتتریا ع
پیشنهاد محصوم مناسب به خریدارا و ...
7
کاربرد نظرکاوی (ادامه)
• علوم اجتماعی و روا شناسی (تحلیم مسائم اجتماعی و فرهنگیع تاثیر
اتفاقات مختلف در رفتار مردم و )...
• سیاست (انتخاباتع پیشبینی تحوالت و انقالبهاع میزا اتحاد مردم و نظر مردم
درباره )...
• مدیریت (کمک در تصمیمگیریع آگاهی از میزا رضایت و طرز تفکر افرادع
جمع آوری اطالعات نرم درو یا فرا سازمانی و )...
• بازار بورس و پیشبینی سهام (اخبار خوب و بد اقتصادی و سیاسیع و )...
• پزشکی
• ؟
8
سطوح نظرکاوی][11,19,13
• نظرکاوی سطح سند:
– طبقه بندی اسناد
– نقد فیلمع نقد نشریات
++
++
9
سطوح نظرکاوی
)ادامه(
• نظرکاوی سطح سند:
– طبقه بندی اسناد
– نقد فیلمع نقد نشریات
• نظرکاوی سطح جمله:
– طبقه بندی جمالت
– Twitهاع نظرات کوتاه
• نظرکاوی سطح ویژگی:
– امتیاز داد به خصوصیات مختلف
10
فرایند نظرکاوی مبتنی بر سند][13
• مبتنی بر دیکشنری
– ایجاد بانک لغات حسی
– پیدا کرد لغات حسی و امتیاز دهی
– محاسبه مجموع امتیازات سند
نه
نا
غیر
بی
.
.
+
+
+
+
خوب
شاد
خوشحام
لذتبخش
.
.
.
_
_
_
خسته کننده
کند
طوالنی
.
.
.
+
+
+
+
+
+
+
+
+
+
+
+
11
فرایند نظرکاوی مبتنی بر سند
• مبتنی بر یادگیری
– ایجاد بانک نظرات برچسب خورده (مدم باناظر)
– ایجاد بانک لغات حسی
– انتخاب ویژگیهای مناسب
– استفاده از الگوریتم های دسته بندی
– محاسبه مجموع امتیاز سند
12
مشکالت نظرکاوی][17
• وابستگی گرایش کلمات به موجودیت
– مثام «غیرقابم پیشبینی» در فیلم و نرم افزار
•
•
•
•
•
•
•
•
نظرات و جمالت هرز
وابستگی به دامنه
کنایه هاع ضرب المثلها ع جمالت عامیانه و ...
اطالعات وابسته به قرای
کمبود ابزارهای پردازش زبا فارسی
ربط موضوعی مجموعه داده
شدت گرایش
کشف ضمیر
13
دیکشنری عبارات حسی][22,20
• لغات حسی مثبت و منفی
– خوبع عجیبع شگفت انگیز ع کارامد و ...
• عبارات و جمالت حسی
– «مثم سنگ ماند »
• سه گانه های عبارت حسی:منفی کنندهع شدت دهندهع کلمه حسی
– «نه +خیلی +بد»
• الگوهای حسی
– N + JJ + V
( Nاسم ع JJصفت ساده ع Vفعم)
14
الگوریتمهای نظرکاوی][11
• یادگیری با نظارت
• یادگیری بدو نظارت
• شبه ناظر
16
طبقه بندی نظرات به روش با ناظر][34
• الگوریتمها
– ماشی پشتیبا بردار ()SVM
– بیزی ساده ( )Naïve Bayes
– Maximum Entropy
– Decision Tree
17
طبقه بندی نظرات به روش با ناظر(ادامه)
• انتخاب ویژگی ( )featureمناسب:
– نرخ رخداد عبارت
– برچسب گذار اجزای کالم
• صفت
– عبارات حسی
– تغییر دهنده معنا
– وابستگی نحوی
18
[13]طبقه بندی به روش بدو ناظر
semantic orientation applied to unsupervised classification of reviews
(turney 2002)
پیدا کرد الگوی محتمم نظر:• گام اوم
“This piano produces beautiful sounds” •
19
طبقه بندی نظرات به روش بدو ناظر
• گام دوم:
• گام سوم :محاسبه میانگی SOتمام عبارات
20
روش شبه ناظر برای رتبه دهی][33
… graph-based semi-supervised learning
Goldberg2012
• تشکیم گراف شباهت
• اسناد با برچسب و بدو برچسب
• رتبه دهی با (2005) Pang and Lee , SVM
• اصالح رتبه
سند
8
سند
9
سند
3
سند
سند
9
سند
7
سند
7
سند
سند
2
سند
5
سند
سند
1
21
روش شبه ناظر برای رتبه دهی
… graph-based semi-supervised learning
Goldberg2012
• تشکیم گراف شباهت
• اسناد با برچسب و بدو برچسب
• رتبه دهی با (2005) Pang and Lee , SVM
• اصالح رتبه
سند
8
سند
9
سند
3
سند
2
سند
9
سند
7
سند
7
سند
7
سند
2
سند
5
سند
3
سند
1
22
روش شبه ناظر برای رتبه دهی
… graph-based semi-supervised learning
Goldberg2012
• تشکیم گراف شباهت
• اسناد با برچسب و بدو برچسب
• رتبه دهی با (2005) Pang and Lee , SVM
• اصالح رتبه
سند
8
سند
9
سند
3
سند
5
سند
9
سند
7
سند
7
سند
7
سند
2
سند
5
سند
3
سند
1
23
مقایسه کارها
رویکرد
نام
الگوریتمها
سال ارائه
دامنه
زبان
مثبت :توجه دقیق به ویژگیهای محاسباتی
reviews
ECS&A
SVM
خالصه روش
Movie
NB
2013
EN
Product
][19
ANN
ویژگی
منفی :عدم شرح ویژگیها
مقایسه و ارزیابی کارایی الگوریتمهای شبکه
عصبی و ماشی بردار در نظر کاوی سطح سند
reviews
(محصوالت)68<Accuracy<90
(فیلم)
80<Accuracy<86
مثبت :نشا داد تاثیر انتخاب ویژگی مناسب
Microblogging
TSA
یادگیری با ناظر
SVMs
EN
2011
Twitter
][1
تاثیر پیکرهها و انتخاب ویژگیهای متناسب با
حوزه میکرو بالگها در افزایش کارایی
منفی :عدم بحث از الگوریتم طبقه بند
Accuracy=75%
F-measure=0.68
minimum
SAUS
cut
][30
SVMs
2004
Movie
reviews
En
استفاده از الگوریتم برش کمینه و حذف جمالت مثبت :تاثیر زیاد آنالیز ذهنیت بر کارایی طبقه
بند سطح سند
عینی از سند قبم از پردازش توسط
الگوریتمهای طبقه بند
Accuracy= 86%
Naive Bayes
SACVS
SVM
][31
2006
Movie
reviews
کاربرد تغییردهندههای معنای وابسته به مت
En
مثبت :سادگی روش به کار گرفته شده
نظیر منفیکننده و شدت دهنده برای طبقهبندی منفی :ویژگیهای کم برای الگوریتمهای یادگیر
بهتر نظرات
Accuracy= 85%
24
مقایسه کارها (ادامه)
رویکرد
نام
یادگیری با ناظر
SAML
الگوریتمها
EWGA
with SVM
سال ارائه
دامنه
2011
Web forum
زبان
En
خالصه روش
شناخت ویژگیهای مشترن نحوی
و ادبی از دو زبا و استخراج آنها
Ar
LWVSA
LDA
][32
LSA
SOU
Lexicon-
][13
base
2011
Consumer reviews for
movies
بر ارتباط نحوی و معنایی به
یادگیری بدون ناظر
Automobile
استفاده از الگوههای نحوی برای
Banks
En
Movies
استخراج عبارات حسی و تعیی
گرایش سند
ناظر
یادگیری شبه
][33
neighbor
Accuracy= 88.5%
منفی :دقت پایی و عدم تمرکز بر روی حوزه
موضوعی خاص
65<Accuracy<84
مثبت :نوآوری کار و استفاده از چهار دسته
SVM
k-nearest
بصورت BlackBox
مثبت :سادگی روش
Travel Destinations
GBSS
مثبت :دقت باالی گزارش شده
فضای روابط چند بعدی برای غلبه منفی :عدم تشریح ساده بردار در ابتدا یا انتهای مقاله
صورت همزما
2002
Accuracy= 86%
توسط الگوریتم ژنتیک
استفاده از برداری از لغات در
En
ویژگی
2012
Movie reviews
En
روشی مبتنی بر گراف برای بهبود
عملکرد برچسب گذار اسناد
منفی :دقت پایی
Accuracy=59.8%
25
زبان مقاله
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
مجموع
نظرکاوی در زبانهای مختلف
چینی
19
23
9
10
5
6
1
2
1
_
_
76
عربی
9
6
5
_
_
_
_
_
_
_
_
20
اسپانیایی
6
7
_
1
1
_
_
_
_
_
_
15
آلمانی
1
3
_
2
_
1
_
_
_
_
_
7
ایتالیایی
1
3
_
2
_
1
_
_
_
_
_
7
فارسی
2
_
_
_
_
_
_
_
_
_
_
2
مستقل از زبان
542
467
303
228
163
87
49
36
10
11
2
1900
تعداد مقاالت یافت شده از پایگاه Google Scholarبر اساس کلید واژه Opinion miningو Sentiment analysis
26
نتیجه گیری
•
•
•
•
•
•
کارهتتای انجتتام شتتده در زبانهتتای مختلتتف بتته غیتتر از انگلیستتی اکثتترا در ستتالهای
اخیر صورت گرفته است.
تعداد ای کارها در زبانهای غیر از انگلیسی (بخصوص فارسی) نسبت به زبا
انگلیسی بسیار ناچیز است.
دقت کارهای انجام شده تا کنو در حد نسبتا قابم قبتولی استت امتا بتا افتزایش آ
میتوا به مطلوبیت بیشتری دست پیدا کرد.
نیاز به ایجاد ابزارهای مناسب پتردازش زبتا فارستی بترای حصتوم بته کتارایی
مناسب میباشد.
دقت ارائه شده در مقاالت ای حوزه وابستگی تنگاتنگی به دامنه دارند.
لزوم ایجاد مجموع داده استاندارد برای نظرکاوی زبا فارسی احساس میشود.
27
مراجع
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
28
]1[
E. Kouloumpis, T. Wilson, and J. Moore, "Twitter sentiment analysis: The Good the Bad and the OMG!," in ICWSM, 2011.
]2[
A. Lentz, P. Zaitsev, V. Tkachenko, J. Zawodny, D. Balling, and B. Schwartz, High Performance MySQL: Optimization, Backups,
Replication, and More: O'Reilly Media, Incorporated, 2008.
]3[
H. David, M. Heikki, and S. Padhraic, "Principles of data mining," MIT Press, MA, vol. 189, 2001.
]4[
Z. Hanki, Introduction Data Mining and Data Warehouse: Wiley Press.
]5[
B. Max, "Principles of Data Mining," ed: Springer London Ltd, Published, 2007.
]6[
J. Han, M. Kamber, and J. Pei, Data mining: concepts and techniques: Morgan kaufmann, 2006.
]7[
B. Pang and L. Lee, "Opinion mining and sentiment analysis," Foundations and trends in information retrieval, vol. 2, pp. 1135, 2008.
]8[
A. K. Sehgal, "Text mining: The search for novelty in text," A report submitted in partial fulfillment of the requirements of the
Ph. D Comprehensive Examination in the Department of Computer Science, pp. 1-26, 2004.
]9[
U. Y. Nahm, Text mining with information extraction: The University of Texas at Austin, 2004.
]10[
R. Sharma, S. Nigam, and R. Jain, "Supervised Opinion Mining Techniques: A Survey," 2013.
]11[
B. Liu, "Sentiment analysis and opinion mining," Synthesis Lectures on Human Language Technologies, vol. 5, pp. 1-167, 2012.
]12[
B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up?: sentiment classification using machine learning techniques," in
Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10, 2002, pp. 79-86.
]13[
P. D. Turney, "Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews," in
Proceedings of the 40th annual meeting on association for computational linguistics, 2002, pp. 417-424.
]14[
S. Bethard, H. Yu, A. Thornton, V. Hatzivassiloglou, and D. Jurafsky, "Automatic extraction of opinion propositions and their
holders," 2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text, p. 2224, 2004.
]15[
S .Padmaja and S. S. Fatima, "Opinion Mining and Sentiment Analysis–An Assessment of Peoples’ Belief: A Survey,"
International Journal, 2013.
]16[
V. Y. Karkare and S. R. Gupta, "A Survey on Product Evaluation using Opinion Mining," International Journal Of Computer
Science And Applications, vol. 6, 2013.
.
)مراجع (ادامه
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
29
]17[
P. Sharma and K. Srivastava, "OPINIONS ON OPINION MINING: A SURVEY," International Journal of Advanced Research in
Computer Science and Electronics Engineering (IJARCSEE), vol. 2, pp. pp: 684-689, 20.13
]18[
A. Buche, D. Chandak, and A. Zadgaonkar, "Opinion Mining and Analysis: A survey," arXiv preprint arXiv:1307.3336, 2013.
]19[
R. Moraes, J. F. Valiati, and W. P. GaviãO Neto, "Document-level sentiment classification: An empirical comparison between
SVM and ANN," Expert Systems with Applications, vol. 40, pp. 621-633, 2013.
]20[
B. Liu, "Sentiment analysis and subjectivity," Handbook of natural language processing, vol. 2, p. 568, 2010.
]21[
A. Rashid, N. Anwer, M. Iqbal, and M. Sher, "A Survey Paper: Areas, Techniques and Challenges of Opinion Mining," 2013.
]22[
S. Gerani, M. J. Carman, and F. Crestani, "Investigating learning approaches for blog post opinion retrieval," in Advances in
Information Retrieval, ed: Springer, 2009, pp. 313-324.
]23[
B. He, C. Macdonald, J. He, and I. Ounis, "An effective statistical approach to blog post opinion retrieval," in Proceedings of
the 17th ACM conference on Information and knowledge management, 2008, pp. 1063-1072.
]24[
H. Yang, J. Callan, and L. Si, "Knowledge Transfer and Opinion Detection in the TREC 2006 Blog Track," in TREC, 2006.
]25[
K. Seki, Y. Kino, S. Sato, and K. Uehara, "TREC 2007 Blog Track Experiments at Kobe University," in TREC, 2007, p. 21.
]26[
M. M. S. Missen and M. Boughanem, "Sentence-level opinion-topic association for opinion detection in blogs," in Advanced
Information Networking and Applications Workshops, 2009. WAINA'09. International Conference on, 2009, pp. 733-737.
]27[
E. Zhang and Y. Zhang, "UCSC on TREC 2006 blog opinion mining," in Text Retrieval Conference, 2006.
]28[
H. Zhao, Z. Luo, and W. Lu, "WHU at Blog Track 2007," in TREC, 2007.
]29[
R. Feldman, "Techniques and applications for sentiment analysis," Communications of the ACM, vol. 56, pp. 82-89, 2013.
]30[
B. Pang and L. Lee, "A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts,"
in Proceedings of the 42nd annual meeting on Association for Computational Linguistics, 2004, p. 271.
]31[
A. Kennedy and D. Inkpen, "Sentiment classification of movie reviews using contextual valence shifters," Computational
Intelligence, vol. 22, pp. 110-125, 2006.
]32[
A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, and C. Potts, "Learning word vectors for sentiment analysis," in
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1,
2011, pp. 142-150.
]33[
A. B. Goldberg and X. Zhu, "Seeing stars when there aren't many stars: graph-based semi-supervised learning for sentiment
categorization," in Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing, 2006, pp. 45-52
همکالسی
خیلی عالی بود .آفرین
میشد خیلی بهتر ازین ارائه بدی
30
مقایسه کارها
رویکرد
نام
الگوریتمها
سال ارائه
دامنه
زبان
ویژگی
خالصه روش
مثبت :توجه دقیق به ویژگیهای محاسباتی
NB
مقایسه و ارزیابی کارایی
Movie reviews
ECS&A
SVM
EN
2013
Product reviews
الگوریتمهای شبکه عصبی و ماشی
بردار در نظر کاوی سطح سند
ANN
منفی :عدم شرح ویژگیها
(محصوالت)68<Accuracy<90
(فیلم)
13
80<Accuracy<86
مثبت :نشا داد تاثیر انتخاب ویژگی مناسب
تاثیر پیکرهها و انتخاب ویژگیهای
Microblogging
2011
یادگیری با ناظر
TSA
SVMs
EN
Twitter
منفی :عدم بحث از الگوریتم طبقه بند
متناسب با حوزه میکرو بالگها در
افزایش کارایی
114
Accuracy=75%
F-measure=0.68
استفاده از الگوریتم برش کمینه و
minimum cut
SAUS
SVMs
2004
Movie reviews
En
Naive Bayes
SACVS
SVM
2006
Movie reviews
En
حذف جمالت عینی از سند قبم از
مثبت :تاثیر زیاد آنالیز ذهنیت بر کارایی طبقه بند
سطح سند
پردازش توسط الگوریتمهای طبقه
بند
Accuracy= 86%
کاربرد تغییردهندههای معنای
مثبت :سادگی روش به کار گرفته شده
وابسته به مت نظیر منفیکننده و
شدت دهنده برای طبقهبندی بهتر
نظرات
منفی :ویژگیهای کم برای الگوریتمهای یادگیر
1255
319
Accuracy= 85%
33
مقایسه کارها (ادامه)
رویکرد
نام
یادگیری با ناظر
SAML
الگوریتمها
EWGA
with SVM
سال ارائه
دامنه
2011
Web forum
زبان
En
خالصه روش
شناخت ویژگیهای مشترن نحوی
و ادبی از دو زبا و استخراج آنها
Ar
LDA
2011
LWVSA
LSA
Consumer reviews for
movies
بر ارتباط نحوی و معنایی به
یادگیری بدون ناظر
Automobile
SOU
Lexiconbase
استفاده از الگوههای نحوی برای
Banks
En
Movies
استخراج عبارات حسی و تعیی
گرایش سند
ناظر
یادگیری شبه
neighbor
Accuracy= 88.5%
منفی :دقت پایی و عدم تمرکز بر روی حوزه
موضوعی خاص
2409
65<Accuracy<84
مثبت :نوآوری کار و استفاده از چهار دسته
SVM
GBSS
بصورت BlackBox
85
مثبت :سادگی روش
Travel Destinations
k-nearest
54
مثبت :دقت باالی گزارش شده
فضای روابط چند بعدی برای غلبه منفی :عدم تشریح ساده بردار در ابتدا یا انتهای مقاله
صورت همزما
2002
Accuracy= 86%
توسط الگوریتم ژنتیک
استفاده از برداری از لغات در
En
ویژگی
2012
Movie reviews
En
روشی مبتنی بر گراف برای بهبود
عملکرد برچسب گذار اسناد
منفی :دقت پایی
171
Accuracy=59.8%
34