한국프로야구 분석

Download Report

Transcript 한국프로야구 분석

재미난 야구 통계
- 상식 vs 통계 -
인터넷 연습 문제 – 야구 통계가설 설정
홈런이 많은 타자에 대한 일반적인
생각들을 토대로 ‘가설’을 수립
자료 수집
한국야구협회와 미국 메이저리그 홈
페이지를 통해 자료를 수집
모형 설계
삼진수, 도루수, 사사구수를 피설명변수
로 하여 홈런수에 대해 (중)회귀분석
가설 검정
회귀분석으로 도출된 계수의 유의성
을 검정
2/19
1. 가설을 세운다.
 홈런타자가 삼진, 도루, 사사구에 있어서 일
반타자와 다른지 알고 싶다. 이에 대하여 다
음의 세 가지 가설을 세웠다.
(1)홈런이 많은 타자는 큰 것 ‘한방’을 노리기 때문에
삼진도 많다.
(2)홈런이 많은 타자는 커다란 덩치 때문에 도루를 잘
하지 못한다.
(3)투수들이 홈런타자에게 소극적인 피칭을 하기 때문
에 홈런이 많은 타자는 사사구도 많이 얻는다.
3/19
2. 자료를 수집한다.
자료는 다음의 홈페이지로부터 다운로드 받
아 활용한다.
한국 야구 위원회
http://www.koreabaseball.or.kr
메이저 리그 홈페이지
http://www.majorleaguebaseball.com
4/19
3. 모형을 설계한다.
(1) 홈런이 많은 타자는 큰 것 ‘한방’을 노리
기 때문에 삼진도 많다.
(삼진수) = 1 + 1(홈런수) + 
1 이 significantly 0 보다 큰가?
5/19
3. 모형을 설계한다.
(2) 홈런이 많은 타자는 커다란 덩치 때문에
도루를 잘 하지 못한다.
(도루수) = 2 + 2(홈런수) + 
(도루시도 회수) = 3 + 3(홈런수) + 
2, 3 가 각각 significantly 0 보다 작은
가?
6/19
3. 모형을 설계한다.
(3) 투수들이 홈런 타자에게는 소극적인 피칭
을 하기 때문에 홈런이 많은 타자는 사사
구도 많다.
(사사구수) = 4 + 4(홈런수) + 
4 가 significantly 0보다 큰가?
7/19
4. 가설검정을 시행한다.
  에 대한 유의성 검정을 실시한다.
4= ??
1= ??
Significant
1 = 0.84
t-value = 2.89
4 = 0.51
t-value = 2.50
2, 3 = ??
Insignificant
2 = -0.12
t-value = -0.94
3 =
-0.18
t-value =-1.14
8/19
4. 가설검정을 시행한다.
 가설검정 결과
(1) 홈런이 많은 타자는 큰 것 ‘한방’을 노리기 때문에 삼
진도 많다.
(2)홈런이 많은 타자는 커다란 덩치 때문에 도루를 잘
하지 못한다.
Insignificant
(3) 투수들이 홈런타자에게 소극적인 피칭을 하기 때문
에 홈런이 많은 타자는 사사구도 많이 얻는다.
9/19
심화 학습
-타석수를 통제할 필요가 있다타석수가 어떤 영향을 주지는 않을까?
타석수가 늘면 홈런수도 늘고 삼진수나
사사구 수도 증가하지 않는가…
중회귀 분석 –타석수의 고려문제제기
선수들마다 타석수가 다르다.
따라서 타석수에 대한 고려가 필요하지 않은가?
타석수가 늘면 홈런도 늘고, 삼진과 사사구 수도 증가한다.
규정타석 미달 선수는 제외한 것으로 충분하지 않은가?
전체타자로 이루어진 표본 및 규정타석을 채운 타자로 이루
어진 부분표본 각각에서 타석수를 설명변수로 고려해보자.
11/19
삼진 vs 홈런과 타석수
(1) 타석수의 효과를 고려한 이후에도 여전히
‘홈런이 많은 타자는 큰 것을 노리기 때문
에 삼진도 많다.’는 가설을 확인할 수 있는
가?
(삼진수) = 1 + 1(홈런수) + 2(타석수) + 
1 이 significantly 0 보다 큰가?
( 2 는 어떠한가? )
12/19
삼진 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.84 (2.89)
1 = 0.89 (2.88)
2 = -0.03 (-0.49)
1 = 2.40 (11.64)
1 = 0.63 (3.11)
2 = 0.14 (12.53)
타자들 전체 집단
13/19
삼진 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.84 (2.89)
1 = 0.89 (2.88)
2 = -0.03 (-0.49)
일단 규정타석 미달 선수가 제외된 표본에서는 타석수를 통제
하든 안하든 홈런수가 삼진수에 미치는 효과가 0.8~0.9 정도
로 비슷하다. 다만 전체타자를 이용한 표본에서는 타석수를
통제하느냐 마느냐에 따라 결과가 아주 다르다. 두 결과 중에
서는 타석수를 통제했을 때의 결과가 좀더 설득력이 있다. 전
체표본을 사용하면서 타석수도 통제하지 않는 경우 홈런수가
삼진수에 미치는 효과는 홈런 1개 증가에 삼진 2.4개 증가로
그 효과가 과장된다.
삼진 vs 홈런과 타석수
필터링을 하지 않은 타자 전체 집단을 대상으로 분석을 할 경
우, 홈런수와 더불어 타석수를 모형에 포함시킨다. 그럼으로
써 과대 평가된 홈런변수의 영향력을 바로잡을 수 있다.
1 = 2.40 (11.64)
1 = 0.63 (3.11)
2 = 0.14 (12.53)
타자들 전체 집단
15/19
삼진 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.84 (2.89)
1 = 0.89 (2.88)
2 = -0.03 (-0.49)
결론적으로 필터링을 한 표본에서는 ‘타석수’가 별 의미
를 갖지 못하나, 필터링을 하지 않은 표본에서는 ‘타석수’
가 통제되어야 한다.
1 = 2.40 (11.64)
1 = 0.63 (3.11)
2 = 0.14 (12.53)
타자들 전체 집단
16/19
사사구 vs 홈런과 타석수
(2) 타석수의 효과를 통제한 이후에도 여전히
‘홈런이 많은 타자에게는 투수가 도망가는
피칭을 하기 때문에 사사구가 많다’는 가설
을 확인할 수 있는가?
(사사구수) = 1 + 1(홈런수) + 2(타석수) + 
1 이 significantly 0보다 큰가?
17/19
사사구 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.51 (2.50)
1 = 0.34 (1.71)
2 = 0.12 (2.77)
1 = 1.32 (11.01)
1 = 0.33 (2.73)
2 = 0.07 (11.51)
타자들 전체 집단
18/19
The End
See you next…