KAIST 단일서비스 로그인
Language

생활정보(이전)


> 정보 > 생활정보(이전)

042-350-2071

통화 가능 시간

평일 13:00-17:00

메일 | 건의게시판

1238 2 / 0 2
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부 스크랩
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부 스크랩

* 득점이란 무엇인가: 타율, OPS, RC와 XR


오늘 얘기는 좀 재미가 없을 것이다. 오늘 나올 것이라고는 숫자와 그래프밖에 없다. 하지만 득점의 본질을 이해하는 것은 세이버메트릭스의 발전 과정을 이해하는 데에 필수적인 요소다. 최초에 득점을 증가시키기 위해 중점적으로 봤던 지표는 타율이었다. 그렇기 때문에 타율이 높은 선수들은 당연히 비쌌으며, 스몰 마켓 팀은 좋은 선수를 구하기 힘들었다. 하지만 세이버메트리션들은 타율이 실제 기록하는 득점과 연관성이 생각보다 크지 않다는 사실을 발견한다. 그들은 이후 득점과 관련이 큰 지표를 찾기 위해 노력해왔고, 이후 출루율, 장타율 등의 개념이 등장한다. 우리는 이를 KBO의 데이터로 알아보고자 한다.



1. 3할 못 쳐도 괜찮아


KBO가 시작한 1982년부터 작년까지, 모든 팀의 팀 득점과 각종 타격 지표들을 분석했다. 물론 그래봐야 R^2 하나 썼으니 별로 긴장은 안 하셔도 된다. 다음은 팀 타율과 팀 득점 간의 그래프이다. 타율은 물론, 안타를 타수로 나눈 값이다.


run1.png


보시다시피, 별로 리니어하지 않은 것처럼 보인다. 실제로 타율 – 득점의 R^2는 .550으로, 타율은 득점의 55.0%밖에 설명하지 못하는 것으로 나타났다. 타율이 낮은 타자나 높은 타율을 가진 타자를 사 올 수 없는 타자나 충분히 먹고 살 다른 길이 있을 것이라는 추측이 가능하다. 실제 .280이 넘는 타율로 400득점만 간신히 넘은 팀이 있는 반면, 이 타율도 되지 않으면서 거의 두 배인 800점 근처의 팀도 있는 것을 확인할 수 있다.


2014년 타율 순위

1. 서건창 .370

2. 김태균 .365

3. 손아섭 .362

4. 강정호 .356

5. 최형우 .356


역대 타율 순위 (1,000타석 이상, 진한 글씨는 현역)

1. 장효조 .331

2. 손아섭 .324

3. 김태균 .320

4. 김현수 .317

5. 양준혁 .316



2. 더 멀리, 더 크게, 더 높게


타율과 득점의 관계에서는 쉽게 약점을 파악할 수 있다. 10원, 50원, 100원, 500원짜리 동전을 모아놓고 ‘동전이 많으니까 어익후 좋구나’라고 생각하는 것이 합리적일까? 장타자들의 가치는 꽤 예전부터 높은 가치를 인정받아왔다. 장타율 식은 다음과 같다.


장타율 = (1 * 1루타 + 2 * 2루타 + 3 * 3루타 + 4 * 홈런) / 타수


가중치는 베이스 개수가 되겠다. 장타율의 득점 인과관계는 어떨까?


run2.png


이제 좀 그림이 이뻐 보인다. 장타율의 R^2는 .719로 타율보다 17% 정도 개선된 지표임을 확인할 수 있다.


2014년 장타율 순위 (진한 글씨는 타율 5위 밖)

1. 강정호 .739

2. 테임즈 .688

3. 박병호 .686

4. 최형우 .649

5. 박석민 .601


역대 장타율 순위 (1,000타석 이상, 진한 글씨는 현역)

1. 호세 .586

2. 이승엽 .582

3. 우즈 .574

4. 로마이어 .573

5. 최형우 .535



3. 중요한 것은 아웃을 당하지 않는 것


허나 타율이나 장타율에서는 안타 외의 다른 출루 방법을 간과하고 만다. 순수 타자의 입장에서 볼넷이나 몸에 맞는 볼은 아웃카운트를 소비하지 않으면서 1루까지 진루한다는 점에서 1루타와 다르지 않다. 아웃이 세 개면 끝나는 게임에서, 이 중 하나를 소모하지 않는다는 것은 상당히 중요한 일이다. 출루율 공식은 다음과 같다.


출루율 = (H+BB+HBP) / (AB+BB+HBP+SF)

H = 안타 (Hit), BB = 볼넷 (Bases on Balls), HBP = 몸에 맞는 볼 (Hit By Pitch), AB = 타수 (At Bat), SF = 희생플라이 (Sacrifice Flies)


분모가 독특하게 계산되기 때문에, 출루율이 타율보다 항상 높지는 않다. 예를 들면 어떤 타자가 6타수 2안타에 희생플라이 하나가 있다면, 타율은 .333(2/6)이지만 출루율은 .286(2/7)이 된다. 풀타임 선수 중에서도 실제로 이런 예시가 나온 적이 있는데, 1963년에 어니 보우먼은 .184의 타율과 .181의 출루율을 기록한 적이 있다. 각설하고, 출루율 그래프는 다음과 같다.


run3.png


뭔가 좀 괜찮아 보이지 않는가? 출루율의 R^2는 .656으로, 장타율만큼은 아니지만 타율보다 10%가 넘는 부분을 더 설명할 수 있게 되었다.


2014년 출루율 순위 (진한 글씨는 타율 5위 밖)

1. 김태균 .463

2. 강정호 .459

3. 손아섭 .456

4. 서건창 .438

5. 박병호 .433


역대 출루율 순위 (1,000타석 이상, 진한 글씨는 현역)

1. 호세 .437

2. 장효조 .427

3. 김태균 .423

4. 양준혁 .421

5. 브룸바 .414



4. Two heads are better than one


가끔은 단순한 아이디어가 세상을 바꾼다. 단순히 출루율과 장타율을 합친 OPS는 세이버 진영이 만들어 낸 것 중 가장 유명한 지표가 되었다. 비교적 간단해 보이는 OPS가 등장한 것은 생각보다 오래 되지 않았다. 1984년 존 쏜과 피트 팔머가 ‘The hidden game of baseball’이라는 책에서 가장 처음 소개한 이 지표는 뉴욕 타임즈에 실리기 시작하며 유명해졌고, 야구 아는 사람이면 누구나 아는 지표가 되었다. 득점과의 관계도 기대만큼 좋아졌을까?


run4.png


그렇게 보인다. OPS의 R^2는 .765. 단순히 이 둘을 더한 지표는 76.5%까지 정확도를 끌어올렸다. 그래도 뭔가 아쉽지 않은가? 냉정하게 생각해보면 이상한 데가 한두 군데가 아니다. 출루와 장타를 더할 때 안타가 중복되는 것도 그렇고, 2루타에 2, 3루타에 3을 곱하는 것도 좀 이상하다. 정말 2루타가 1루타의 딱 2배의 가치를 가질까? 4의 웨이트를 가진 홈런이 2루타의 2배일까?


그래서 등장한 것이 바로 가중 평균 출루율 (weighted on-base average), wOBA라는 지표이다. 유명한 세이버메트리션인 톰 탱고가 개발했으며, 팬그래프가 2008년부터 본격적으로 wOBA를 기록하기 시작했다. 여기에서는 타자에게 발생할 수 있는 모든 상황의 득점 가치(run value)를 계산하여 평균을 낸다. 예시로 홈런을 들어보자. 2사 1,2루에 모 선수가 홈런을 기록하면 3점을 득점한다. 이것이 정말 정확히 ‘3점짜리’ 홈런일까? 작년 메이저리그에서 2사 1,2루의 기대 득점(run expectancy)은 0.399점이었다(2사 1,2루에 일어났던 모든 상황에 대해 평균 점수를 낸 것이다). 타자가 홈런을 기록하며 2사에 주자가 없어지는데, 이 때 기대 득점은 0.086점. 여기에 3점을 냈으니, 2사 1,2루에서의 홈런의 가치는 3.086 – 0.399 = 2.687점이 되는 것이다. 이런 식으로 모든 상황의 홈런 득점 가치를 계산한 후, 그 상황에 대한 타석 수로 가중 평균을 내면 2014년의 홈런 가치는 2.135점이 된다. 작년의 가치는 볼넷 0.689점, 몸에 맞는 볼 0.722점, 1루타 0.892점, 2루타 1.283점, 3루타 1.635점이었다. 이를 식으로 나타내면,


2014 wOBA = (0.689*BB + 0.722*HBP + 0.892*1B + 1.283*2B + 1.635*3B + 2.135*HR) / PA


라는 식이 나온다 (PA는 타석; Plate Appearance). KBO의 매 해 득점 가치를 알고 싶다면 http://baseball-lab.com/woba-fip-constants를 참고하도록 하자. 꽤 정교해 보이는 식이지만, 안타깝게도 설명력이 OPS나 장타율보다는 낮고 출루율보다 조금 높은 수준이었다 (R^2=.661). 선수 개인으로는 상당히 잘 들어맞는 지표임에 틀림 없으나, 팀 스탯을 계산할 때는 잘 맞지 않는 것으로 보인다.


2014년 OPS 순위 (진한 글씨는 타율 5위 밖)

1. 강정호 1.198

2. 박병호 1.119

3. 테임즈 1.110

4. 최형우 1.075

5. 김태균 1.027


역대 OPS 순위 (1,000타석 이상, 진한 글씨는 현역)

1. 호세 1.023

2. 이승엽 .975

3. 우즈 .967

4. 김태균 .951

5. 양준혁 .950



5. 세이버메트릭스계의 뉴턴, 빌 제임스


사실 진짜 소개하고 싶었던 지표는 바로 지금부터다. 위의 측정 방법은 비율 스탯으로 어디까지나 한계가 뚜렷했다. 진짜 개인의 누적 득점 생산력을 측정할 수는 없을까? 1985년, 세이버메트릭스의 대부 빌 제임스는 득점의 근본 식을 제안한다. 이를 득점 생산(RC; runs created)으로 정의했다.


RC = A * B / C

A = 출루 팩터, B = 진루 팩터, C = 기회 팩터


아주 간단하다. 출루 무언가에서 진루 무언가를 곱해서 기회를 받은 만큼 나누는 식이다 (사실 빌 제임스가 개발한 식들은 사칙연산을 거의 벗어나지 않는다). 출루와 진루를 곱한다는 생각은 당시로서는 이 쪽 계열에서 뉴턴의 그것에 가까운 발견이었다. 이에 따라, 초창기 그가 제안했던 식은 다음과 같다.


RC = (H+BB) * TB / (AB+BB) = OBP * SLG * AB = OBP * TB

TB = 총루타수 (Total Bases), OBP = 출루율, SLG = 장타율


아주 아름다운 식이다. 사실 이렇게만 해도 R^2가 .846이라는, 아주 놀라운 수치가 나온다 (아마도 통계적으로 단위 자체가 보정되었기 때문이라고 생각된다). 이것으로는 모자랐는지, 진화를 거듭한 이 식은 2002년 안드로메다까지 확장되었다.


A = H+BB-CS+HBP-GIDP

B = 1.125*1B + 1.69*2B + 3.02*3B + 3.73*HR +0.29*(BB-IBB+HBP) + 0.492*(SH+SF+SB) – 0.04*K

C = AB+BB+HBP+SH+SF

RC = (2.4C+A)(3C+B) / (9C) – 0.9C

GIDP = 병살타 (Grounded Into Double Play), IBB = 고의사구 (Intentional Base on Balls), SH = 희생타 (Sacrifice Hit), SB = 희생번트 (Sacrifice Bunt), K = 삼진


타이핑하면서 괜히 했다 싶을 정도였다 (그냥 캡쳐할껄). 그래도 정확성만큼은 보장한다. 놀라지 마시라.


run5.png


R^2 = .964라는 놀라운 정확도를 자랑한다. 실제로 메이저 데이터에서도 오차율이 5%를 벗어나지 않는다고. 하지만 이런 놀라운 지표에도 약점이 있었는데, 곱하기로 인한 인플레이션이 그것이다. 잘 치는 선수들은 다른 선수들보다 지나치게 높은 득점 생산력을 기록한 것이다. 또한 RC는 통계학적 기반이 거의 없었는데, 사실 슬쩍 봐도 식 자체가 정확도를 위해 여기저기 짜맞춰진 느낌이 확 온다. 이를 극복하기 위해서는 역시 리니어리티를 이용하는 것이 가장 좋았다. 아까 설명했던 가중 평균을 이용하여, 짐 퍼타도라는 초보 세이버메트리션은 추정 득점 정도로 해석할 수 있는 XR(Extrapolated Runs)을 개발했다.


XR = .50*1B + .72*2B + 1.04*3B + 1.44*HR + .34*(BB-IBB+HBP) + .25*IBB + .18*SB - .32*CS - .09*(AB-H-K) - .098*K - .37*GIDP + .37*SF + .04*SH

SB = 도루 (Stolen Bases), CS = 도루실패 (Caught Stealing)


앞서 소개했던 톰 탱고의 wOBA, 빌 제임스의 RC와 더불어 퍼타도의 XR은 현재 세이버메트릭스 상에서 가장 많이 쓰이는 득점 식 중 하나가 되었다. 그리고 그 정확성 또한 상당히 뛰어나다.


run6.png


예상대로 아주 높은 정확성을 보인다. R^2 = .967로 RC와 큰 차이는 없지만, 우리가 지금까지 확인했던 지표 중 가장 높은 설명력을 자랑했다. 그 원인은 아마도 RC가 간과했던 인플레이션 때문인 것으로 보인다.


2014년 RC 순위 (진한 글씨는 OPS 5위 밖)

1. 강정호 145

2. 박병호 140

3. 서건창 140

4. 테임즈 134

5. 손아섭 126



6. 기타 흥미로운 사실들


몇 가지 득점과의 상관관계를 정리해보았다.


(R^2 기준)

도루 .044

홈런 .676

병살 .241 (r=.491)

삼진 .395 (r=.628)


여기에서 볼 때 도루는 그다지 필요치 않은 작전인 것으로 보인다. 도루는 여전히 논란이 많은 부분이므로 따로 지면을 할애해야 할 것 같다. 여기선 패스. 홈런과 득점이 상관관계가 높은 것은 어쩌면 당연해 보인다. 역시 패스.


놀라운 사실은 병살과 삼진이다. 당연히 득점을 저해해야 할 것처럼 보이는 이 둘은, 무시할 수 없는 수준으로 양의 상관관계가 나왔다. 병살과 삼진이 득점을 만들었을 리는 없고, 우리가 생각할 수 있는 가설은 장타자들의 득점 생산력이 높다는 제 3의 팩터가 개입되었다는 것이다. 필연적으로 주자를 앞에 많이 두는 장타자들은 병살이 많을 수 밖에 없고, 큰 스윙을 하는 타자는 삼진이 많을 것이다. 결론적으로, 장타자들은 병살과 삼진을 두려워할 필요가 없다는 잠정적인 결론을 내릴 수 있다.


  • ?
    minimimi 2015.06.03 09:57 0/0
    3번 챕터의 첫번째 문장에서 장타율을 출루율로 잘못 쓰신 것 같아요ㅋㅋ세이버 스탯들이 만들어진 과정들을 볼 때 조금 아쉬운 점은 과거 데이터들을 활용해서 득점과의 상관관계에 끼워맞추려다 보니 통계적이나 물리적인 의미가 떨어지는 경우가 많다는 생각이 들어요. 그럼에도 불구하고 선수의 능력이나 팀 득점력에 대한 정보를 계속해서 상당히 잘 보여주고 있다는 점이 놀랍기도 하지만요.
  • ?
    쿨럭 2015.06.03 10:29 0/0
    헐 지적 감사합니다 ㅋㅋㅋ 바로 수정했습니다
    실제로 연구의 영역과 주먹구구의 영역간에 괴리가 많은 것 같습니다. 사실 논문으로 나온건 아무도 안 읽으니까요 ㅠㅠ 대중적으론 바빕 이후에 혁신적인 모델이 나오지 않는 것도 그렇구요. 좋은 지적 감사합니다 :)

  1. [야구] 25세 미만 최고 투수 가치 Top 10 [2]

    Date2015.06.30 Category음악/스포츠 By쿨럭 Views1433
    Read More
  2. [야구] 추신수, 텍사스와 함께 갈 수 있을까 [1]

    Date2015.06.24 Category음악/스포츠 By쿨럭 Views737
    Read More
  3. [야구] 이승엽의 400홈런, 얼마나 대단한 기록인가 [3]

    Date2015.06.09 Category음악/스포츠 By쿨럭 Views895
    Read More
  4. [야구] 득점이란 무엇인가: 타율, OPS, RC와 XR [2]

    Date2015.06.03 Category음악/스포츠 By쿨럭 Views1238
    Read More
  5. [야구] 류현진의 어깨 관절와순 파열, 복귀 가능성은 [2]

    Date2015.05.22 Category음악/스포츠 By쿨럭 Views1209
    Read More
  6. [야구] 맞춤형 외국인 선수를 추천해드립니다 [2]

    Date2015.05.17 Category음악/스포츠 By쿨럭 Views936
    Read More
  7. [야구] 세 파워피처의 엇갈린 운명 [2]

    Date2015.05.09 Category음악/스포츠 By쿨럭 Views865
    Read More
  8. [야구] kt - 롯데의 빅딜, 서로의 입장에서 이해하려 노력해보기 [0]

    Date2015.05.03 Category음악/스포츠 By쿨럭 Views986
    Read More
  9. [야구] 4월, 우리는 어떤 야구를 보았나 [2]

    Date2015.04.30 Category음악/스포츠 By쿨럭 Views899
    Read More
  10. [음악] 노래 잘하는 법 3강_코드 4개로 부르는 AOA - 짧은치마 [0]

    Date2015.04.28 Category음악/스포츠 By리틀본야스키 Views970
    Read More
  11. [야구] JAWS로 본 KBO 명예의 전당 (투수편) [4]

    Date2015.04.28 Category음악/스포츠 By쿨럭 Views1112
    Read More
  12. [음악] 노래 잘하는 법 2강 [0]

    Date2015.04.27 Category음악/스포츠 By리틀본야스키 Views724
    Read More
  13. [음악] 노래 잘하는 법 1강 [0]

    Date2015.04.26 Category음악/스포츠 By리틀본야스키 Views842
    Read More
  14. [야구] JAWS로 본 KBO 명예의 전당 (타자편) [2]

    Date2015.04.21 Category음악/스포츠 By쿨럭 Views1276
    Read More
  15. [음악] 노래 잘하는 법!?!? [4]

    Date2015.04.15 Category음악/스포츠 By리틀본야스키 Views1018
    Read More
  16. [야구] 성공은 정해져 있는가: 05-10 신인 드래프트 분석 [2]

    Date2015.04.15 Category음악/스포츠 By쿨럭 Views1018
    Read More
  17. 1.   ... [0]

    Date2015.04.14 Category음악/스포츠 Byminjaelee Views148
    Read More
  18. [능력자K] 2015 프리뷰: 우리 팀은 몇 등으로 골인할까 [4]

    Date2015.03.01 Category음악/스포츠 By쿨럭 Views1146
    Read More
  19. [능력자K/음악] 궁금했지만 찾아보지 않았던 "음악"+과학이야기(음과 음색) [0]

    Date2015.02.27 Category음악/스포츠 By크아홍 Views1044
    Read More
  20. [능력자K] ‘세이버메트리션’ 감독이 경기를 운영하는 방법 [8]

    Date2015.02.23 Category음악/스포츠 By쿨럭 Views966
    Read More
Board Pagination 1 ... 2
/ 2

포인트랭킹

순위
닉네임
포인트
1
카이**
5716
2
서**
5016
3
봐*
4810
4
동**
3897
5
대학원****
2417