Transcript Document

Research Meeting
2011-04-12
Jaeseok Myung
Summary

금주 진행 상황

2-Phase Semi-Join in MapReduce
–
Testset generation

User(u_others, u_id) ⨝ Listen(l_id, u_id, m_id) ⨝ Music(m_id, m_others)
1k


–


20
20
20
20
20
1k
Bugs’ Log: |U|=17M, |M|=1M, for a day : |L|=7M (|Ud|=0.1M, |Um|=0.2M)
Local machine test ( 1/1000, 19MB )

One-shot : Map Input 19,197,000, Map Output 187,601,000, 12355 ms

Semi-join : Map Input 19,197,000*2, Map Output (5,979,000+885,400),
4157+3054 ms
Amazon EC2 실험 준비 중 (19 GB -> ?)
–
one-shot vs. semi-join 비교
–
semi-join 에 대해 노드 개수 변경하면서 속도 변화 확인
추가 최적화 : 부하 분산 / 캐싱
Center for E-Business Technology
Copyright  2010 by CEBT
예정사항

KCC 2011 : Iterative MR-Join과 One-shot Join 비용 비교
 금주 세미나

PEGASUS: A Peta-Scale Graph Mining System – Implementation and
Observations, ICDM 2009
 연구 관련 추가 내용

A Single-Pass MR Algorithm for the Transitive Closure and the
Connected Component Problem

그래프 분석을 위한 quadruple 기반 matrix storage 구현

–
행렬 연산 구현 : 합, 차, 곱, 역행렬, 전이행렬 등
–
행렬 * 벡터 곱 계산
Quadruple store의 MapReduce 버전 구현
Center for E-Business Technology
Copyright  2010 by CEBT