Transcript 한국프로야구 분석
재미난 야구 통계
- 상식 vs 통계 -
인터넷 연습 문제 – 야구 통계가설 설정
홈런이 많은 타자에 대한 일반적인
생각들을 토대로 ‘가설’을 수립
자료 수집
한국야구협회와 미국 메이저리그 홈
페이지를 통해 자료를 수집
모형 설계
삼진수, 도루수, 사사구수를 피설명변수
로 하여 홈런수에 대해 (중)회귀분석
가설 검정
회귀분석으로 도출된 계수의 유의성
을 검정
2/19
1. 가설을 세운다.
홈런타자가 삼진, 도루, 사사구에 있어서 일
반타자와 다른지 알고 싶다. 이에 대하여 다
음의 세 가지 가설을 세웠다.
(1)홈런이 많은 타자는 큰 것 ‘한방’을 노리기 때문에
삼진도 많다.
(2)홈런이 많은 타자는 커다란 덩치 때문에 도루를 잘
하지 못한다.
(3)투수들이 홈런타자에게 소극적인 피칭을 하기 때문
에 홈런이 많은 타자는 사사구도 많이 얻는다.
3/19
2. 자료를 수집한다.
자료는 다음의 홈페이지로부터 다운로드 받
아 활용한다.
한국 야구 위원회
http://www.koreabaseball.or.kr
메이저 리그 홈페이지
http://www.majorleaguebaseball.com
4/19
3. 모형을 설계한다.
(1) 홈런이 많은 타자는 큰 것 ‘한방’을 노리
기 때문에 삼진도 많다.
(삼진수) = 1 + 1(홈런수) +
1 이 significantly 0 보다 큰가?
5/19
3. 모형을 설계한다.
(2) 홈런이 많은 타자는 커다란 덩치 때문에
도루를 잘 하지 못한다.
(도루수) = 2 + 2(홈런수) +
(도루시도 회수) = 3 + 3(홈런수) +
2, 3 가 각각 significantly 0 보다 작은
가?
6/19
3. 모형을 설계한다.
(3) 투수들이 홈런 타자에게는 소극적인 피칭
을 하기 때문에 홈런이 많은 타자는 사사
구도 많다.
(사사구수) = 4 + 4(홈런수) +
4 가 significantly 0보다 큰가?
7/19
4. 가설검정을 시행한다.
에 대한 유의성 검정을 실시한다.
4= ??
1= ??
Significant
1 = 0.84
t-value = 2.89
4 = 0.51
t-value = 2.50
2, 3 = ??
Insignificant
2 = -0.12
t-value = -0.94
3 =
-0.18
t-value =-1.14
8/19
4. 가설검정을 시행한다.
가설검정 결과
(1) 홈런이 많은 타자는 큰 것 ‘한방’을 노리기 때문에 삼
진도 많다.
(2)홈런이 많은 타자는 커다란 덩치 때문에 도루를 잘
하지 못한다.
Insignificant
(3) 투수들이 홈런타자에게 소극적인 피칭을 하기 때문
에 홈런이 많은 타자는 사사구도 많이 얻는다.
9/19
심화 학습
-타석수를 통제할 필요가 있다타석수가 어떤 영향을 주지는 않을까?
타석수가 늘면 홈런수도 늘고 삼진수나
사사구 수도 증가하지 않는가…
중회귀 분석 –타석수의 고려문제제기
선수들마다 타석수가 다르다.
따라서 타석수에 대한 고려가 필요하지 않은가?
타석수가 늘면 홈런도 늘고, 삼진과 사사구 수도 증가한다.
규정타석 미달 선수는 제외한 것으로 충분하지 않은가?
전체타자로 이루어진 표본 및 규정타석을 채운 타자로 이루
어진 부분표본 각각에서 타석수를 설명변수로 고려해보자.
11/19
삼진 vs 홈런과 타석수
(1) 타석수의 효과를 고려한 이후에도 여전히
‘홈런이 많은 타자는 큰 것을 노리기 때문
에 삼진도 많다.’는 가설을 확인할 수 있는
가?
(삼진수) = 1 + 1(홈런수) + 2(타석수) +
1 이 significantly 0 보다 큰가?
( 2 는 어떠한가? )
12/19
삼진 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.84 (2.89)
1 = 0.89 (2.88)
2 = -0.03 (-0.49)
1 = 2.40 (11.64)
1 = 0.63 (3.11)
2 = 0.14 (12.53)
타자들 전체 집단
13/19
삼진 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.84 (2.89)
1 = 0.89 (2.88)
2 = -0.03 (-0.49)
일단 규정타석 미달 선수가 제외된 표본에서는 타석수를 통제
하든 안하든 홈런수가 삼진수에 미치는 효과가 0.8~0.9 정도
로 비슷하다. 다만 전체타자를 이용한 표본에서는 타석수를
통제하느냐 마느냐에 따라 결과가 아주 다르다. 두 결과 중에
서는 타석수를 통제했을 때의 결과가 좀더 설득력이 있다. 전
체표본을 사용하면서 타석수도 통제하지 않는 경우 홈런수가
삼진수에 미치는 효과는 홈런 1개 증가에 삼진 2.4개 증가로
그 효과가 과장된다.
삼진 vs 홈런과 타석수
필터링을 하지 않은 타자 전체 집단을 대상으로 분석을 할 경
우, 홈런수와 더불어 타석수를 모형에 포함시킨다. 그럼으로
써 과대 평가된 홈런변수의 영향력을 바로잡을 수 있다.
1 = 2.40 (11.64)
1 = 0.63 (3.11)
2 = 0.14 (12.53)
타자들 전체 집단
15/19
삼진 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.84 (2.89)
1 = 0.89 (2.88)
2 = -0.03 (-0.49)
결론적으로 필터링을 한 표본에서는 ‘타석수’가 별 의미
를 갖지 못하나, 필터링을 하지 않은 표본에서는 ‘타석수’
가 통제되어야 한다.
1 = 2.40 (11.64)
1 = 0.63 (3.11)
2 = 0.14 (12.53)
타자들 전체 집단
16/19
사사구 vs 홈런과 타석수
(2) 타석수의 효과를 통제한 이후에도 여전히
‘홈런이 많은 타자에게는 투수가 도망가는
피칭을 하기 때문에 사사구가 많다’는 가설
을 확인할 수 있는가?
(사사구수) = 1 + 1(홈런수) + 2(타석수) +
1 이 significantly 0보다 큰가?
17/19
사사구 vs 홈런과 타석수
규정타석을 채운 타자들 집단
1 = 0.51 (2.50)
1 = 0.34 (1.71)
2 = 0.12 (2.77)
1 = 1.32 (11.01)
1 = 0.33 (2.73)
2 = 0.07 (11.51)
타자들 전체 집단
18/19
The End
See you next…