150715 상품평 분석

Download Report

Transcript 150715 상품평 분석

0 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
실제 사례 분석 2
: 커뮤니티의 게시글을 이용한 제품 평판 분석
DataScience Lab
박사과정 김희찬
2015-07-15 (수)
1 /18
목 차
• 대중의 제품에 대한 의견의 필요성
• 평판 분석이란?
• 연구실에서 진행 중인 프로젝트 소개
• 실습!
2 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
대중의 제품에 대한 의견의 필요성
• 개인이 어떤 제품을 구입할 예정이라면
– 사려고 하는 제품들의 스펙뿐만 아니라
– 수많은 리뷰를 탐독
– 유명한 커뮤니티에 질문 글을 업로드 후 댓글을 통해 반응을 살펴봄
3 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
대중의 제품에 대한 의견의 필요성
• 제품을 생산하는 입장이라면
–
–
–
–
커뮤니티 내에서 주로 화자되는 불만사항을 확인
또는 주로 화자되는 장점을 확인
향후 제품 개량 방향을 수정
마케팅 시 언급할 강점을 사용자들이 실제로 느끼는 장점을 이용하여
선택
4 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
평판 분석이란?
• 평판
– 제품이나 인물에게 대중이 내린 어떠한 평가
• 평판을 어떻게 알아내는가?
– 동시 출현한 연관 키워드로 평가를 가늠할 수 있음
– 특정 주제 키워드가 포함된 문장은 키워드에 대한 이야기를 하는 것이
므로 해당 문장을 감성 분석하여 주제에 대한 평판이라고 가늠
5 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
평판 분석이란?
• 사람 손이 많이 가는 기존의 작업
–
–
–
–
너무 많은 리뷰, 커뮤니티마다 다른 편향
알바 고용을 통한 글 수집 후 분석
제품의 마케팅을 디렉터의 노하우로 진행
주기적인 분석을 진행할 경우 주기적인 비용 지출 발생
• 자동으로 수집하여 분석하면 비용을 좀 더 줄일 수 있지 않을까?
– 평판 분석에 대한 관심 증대
6 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
평판 분석이란?
• 자동화의 문제점
– 리뷰의 신뢰도에 대한 문제
• 리뷰 작성자가 특정 브랜드를 싫어하거나 기준이 편향되어 있는 경우
• 바이럴 마케팅으로 작성된 리뷰인 경우
– 제품을 약어로 표현하는 경우
• 아이폰6, 아식스
– 제품에 대한 평가에 대한 수치화
– 같은 수식어에 대한 상이한 평가
• 가격이 저렴하다 / 디자인이 저렴하다
– 상황에 따라 의미가 변하는 명사의 구분
7 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 프로젝트의 개괄
– 회사와 공동 개발하는 프로젝트로 상용화를 목표로함
8 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 프로젝트의 특징
– 같은 수식어가 속성에 따라 다르게 쓰이는 경우를 구별할 수 있음
– 또한 새로운 속성에 대해 감성을 구별할 수 있음
– 속성에 따른 감성어의 극성 분류 문제를 푸는 것
9 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 감성어 극성 분류를 위한 단계
– 수집한 상품평 데이터에서 많이 사용되는 속성(명사)을 먼저 걸러냄
– 상위 50개의 명사를 추출 후 적절히 골라냄
10 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 감성어 극성 분류를 위한 단계
– 상품평의 경우 단문으로 사용하기 때문에 품사 패턴으로 속성과 감정어
를 추출할 수 있음
– 추출한 속성 중 사전에 선택한 속성에 대해서만 이후 단계를 진행함
번호
1
품사 패턴
속성
매칭 결과
감성어 부분 패턴
(명사)
(명사) + (지정사) +
(동사)
색상이 마음에 들어요
2
VA(형용사) +
EC(연결어미)
NNG (명사)
화질이 좋고
3
NNG (명사)
VA(형용사) +
EF(종결어미)
성능이 괜찮다
4
NNG (명사)
VV(동사) +
EC(연결어미)
성능이 빠르다
5
NNG (명사)
VV(동사) +
EF(종결어미)
속도가 느리다
6
NNG (명사)
XR (어근) +
XSA(접미사)
디자인이 깔끔하네요
7
NNG (명사)
VA(형용사) +
ETM(전성어미)
빠른 배송 감사합니다
속성
(명사)
감성어
(명사) + (지정사) +
(동사)
색상
마음에 들
NNG (명사)
VA (형용사)
화질
좋
NNG (명사)
VA (형용사)
성능
괜찮
NNG (명사)
VV (동사)
성능
빠르
NNG (명사)
VV (동사)
속도
느리
NNG (명사)
XR (어근)
디자인
깔끔
NNG (명사)
VA (형용사)
배송
빠르
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
11 /18
연구실에서 진행 중인 프로젝트 소개
• 감성어 극성 분류를 위한 단계
– 극성 분류를 위해 비교할 수 있는 기준 감정어를 선정함
– 기준 감정어는 속성에 따라 각각 긍/부정 감정을 가지는 것으로 선정함
– 현재는 ‘분류’에 초점이 맞추어져 있기 때문에 감정의 정도는 포함되지
않음
12 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 감성어 극성 분류를 위한 단계
– 새로운 감정의 극성 분류를 기준 감정어와의 유사성을 이용하여 계산함
– 본 문제에서는 Pointwise mutual information이라는 척도를 사용함
• x 사건은 속성어와 신규 감정어가 동시-문장 내-에 출현할 확률
• y 사건은 속성어와 기존 감정어가 동시에 출현할 확률
– 기존 감정어가 긍정/부정 두 종류가 존재하므로 각각 계산함
– 두 경우 중 PMI값이 큰 경우로 신규 감정어를 분류함
13 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 감성어 극성 분류를 위한 단계
– 패턴에 따른 추출된 속성어의 정확도
– 속성에 따른 감정어 분류 정확도
• Unkown은 동시 출현한 경우가 없어 PMI를 계산할 수 없었던 경우
14 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 감성어 극성 분류의 문제점
– 단문을
힘듦
– 감성을
– 기존에
– 감성을
위한 품사 패턴을 사용하므로 리뷰와 같은 장문에서는 고려하기
분류만 하므로, 감성의 크기에 대해 알 수 없음
사용하던 감성 수치와 함께 고려하는 것이 어려움
가지지 않은 것 또한 극성을 분류하여 오작동할 가능성이 있음
• 앞으로의 연구 방향
– 기존 감성 수치는 특정한 주제에 대해 성립된 것이 아니므로 해당 주제
에 대한 감성 사전을 생성할 필요가 있음
– 분류 또는 예측할 단어가 감성어인지 아닌지 판단하는 연구가 필요함
15 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
연구실에서 진행 중인 프로젝트 소개
• 결과물의 예상 화면
–
–
–
–
–
–
하기스 기저귀를 대상으로 분석
큰 흐름을 알 수 있는 Wordcloud
날짜별 긍부정의 변화 추이
사용자의 특성에 따른 감정
제품 속성에 따른 감정
분류한 감정어의 극성에 따라 기존 감정어 수치의 변형
16 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
실 습!
• 실습할 내용
– 아이폰 포럼에서 카메라에 대한 평판은 어떤지 알아보기
– PpomppuCrawler를 이용하여 뽐뿌의 아이폰 포럼에서 데이터 수집
• 학교 아이피 대역의 차단 우려 때문에 데이터는 txt파일로 제공
– 문제의 단순함을 위한 전제
• ‘카메라’이라는 단어가 들어간 게시글은 해당 카메라에 대한 평판을 나타냄
• 해당 게시글의 댓글 역시 같은 ‘카메라’에 대한 평판이라고 고려함
– 카메라과의 연관 키워드를 구함
– 연관 키워드를 기준으로 감성 수치를 합함
– 위 절차는 ProductCaseRunner.java에 구현되어 있음
• 파일을 읽어오는 부분은 PpomppuFileReader와 같음
17 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
실 습!
• 실습할 내용
– 강의 페이지에서 day2.tar.gz 다운로드
– 해당 파일 압축 해제 후
• iphone2.txt는 내폴더 -> workspace -> BigDataCourse 에 복사
• ProductCaseRunner.java는 내폴더 -> workspace -> src -> kr -> ac -> ssu
-> dslab -> shortcourse 에 복사
– eclipse 실행 후 BigDataCourse 프로젝트 열기
– 프로젝트 이름을 클릭 후 F5를 통해 추가된 파일을 새로 불러옴
• ProductCaseRunner가 새로 추가되지 않는다면
• shortcourse 패키지를 클릭 후 F5를 눌러 새로고침 진행
– ProductCaseRunner 파일을 연 후 실행
18 /18
Big Data 처리를 위한 기초 in Big Data Analytics Short Courses
THANKS
19 /18