위키독:베이스볼 서번트(Baseball Savant)

파일:/api/File/Real/5a364ad86a28299604c7e93c

베이스볼 서번트(Baseball Savant)는 메이저리그 관련 각종 기록을 제공하는 사이트다. 당연히 영어 사이트다

메이저리그 선수들의 스탯캐스트 데이터를 제공하는 것이 특징이다.

사이트 주소: https://baseballsavant.mlb.com/

운영 주체[원본 편집]

대런 윌먼(Daren Willman)이라는 사람이 사이트를 만들고 운영했다. 그런데 언제부턴가 이 사이트를 메이저리그 사무국이 운영하는 어드밴스드 미디어(MLBAM, MLB Advanced Media)에서 인수했고, 윌먼은 현재 MLB 사무국 내 Director of Baseball Research & Development라는 직함을 달고 있다.

대런 윌먼 트위터(링크)

즉 이 사이트는 메이저리그에서 공식적으로 운영하는 것이며, 데이터 역시 모두 메이저리그에서 공식적으로 제공하는 것이다.

제공하는 데이터[원본 편집]

베이스볼 서번트는 메이저리그가 2015년부터 도입한 스탯캐스트 시스템에서 측정한 데이터를 공개하고 있다. 대중에 공개된 데이터는 제한적이지만 가장 최신의(state-of-the-art) 기술을 사용한 것이라 할 수 있다. 대표적인 것이 투구 회전 수(spin rate), 타구 속도(exit velocity), 타구 발사 각도(launch angle), 주루 속도(sprint speed), 외야수의 포구 확률(catch probability) 등이다.

사이트 구성[원본 편집]

스탯캐스트 순위표(Statcast Leaderboard)[원본 편집]

스탯캐스트 시스템의 최고 자랑거리인 타구 속도, 주루 속도, 포구 확률 순위표를 제공한다. 여기에 외야수들의 포구 확률을 사용해 메이저리그의 평균적인 외야수 수비 수준에 비해 얼마나 많은 아웃을 잡아냈는지를 계산한 '평균 이상 아웃(Outs Above Average)' 순위표도 제공하고 있다.

스탯캐스트 검색(Statcast Search)[원본 편집]

파일:/api/File/Real/5a364e526a28299604c7e95e

베이스볼 서번트의 존재 가치, 존재 이유

검색 페이지에서 사용자가 마음껏 질의(쿼리)를 구성해 원하는대로 데이터를 검색할 수 있다. 각종 칼럼 등에서 사용하는 스탯캐스트 데이터는 90% 이상 이 사이트에서 찾아본 것이라고 보면 된다.

스탯캐스트 시스템이 가공한 데이터 원본(Raw data)을 받아서 분석할 수 있다는 것이 서번트 사이트의 최고 장점이다. 그것도 전부 공짜로! 베이스볼 서번트는 메이저리그가 데이터 분석을 향유하는 팬들에게 제공한 엘도라도 같은 존재다.

'

  • KBO리그 팬이라면 그림의 떡 마냥 부러워할 수 밖에 없는 부분이다. 리그 차원에서 팬에게 얼마나 많은 데이터가 제공되고있는지 생각해보자. 대부분의 팬들이 스탯티즈라는 비공식 기록 사이트를 사용하는 것이 현실이다. 그나마 개편된 KBO 공식 홈페이지 기록실에서 보여주는 건 기껏해야 단순히 홈런 몇개, 타율 얼마 정도가 대부분이고 2017년에야 포탈 사이트에서 WAR 같은 데이터가 제공되고 있다. 그러나 이런 가공된 숫자가 아닌 Pitch F/X 시스템 같은 투구 추적 데이터는 팬들이 들여다볼 수 없다. 기록을 파고들 수록씹고뜯고맛보고 즐길 거리가 많아지는, 기록의 스포츠라는 야구인데 즐길 기록을 찾기조차 어렵다는 건 참 슬픈 현실이다.
    • 물론 투구 추적 시스템을 운용하는 회사는 데이터를 팔아서 밥먹고 살기 때문에, 돈줄이나 다름없는 데이터를 함부로 공짜로 풀기는 어려운 게 현실이다. MLB에서 이런 일이 가능했던 것은 사무국이 주체적으로 리그 전체에 데이터 측정 시스템을 설치, 운용했기 때문이다. 대기업들의 펫 스포츠로 시작한 KBO리그의 사무국에겐 MLB를 흉내낼 수 있을 만한 힘도, 재정도 없다.
    • 구단 입장에서도 생각해보면 쉬운 일이 아니다. 선수 관련 데이터는 '회사기밀'과 같다. 간단한 예로 투수가 어떤 구종을 많이 쓰는지 노출이 된다면 상대에게 분석당해 공략당할 가능성이 높아질 수 밖에 없다. 때문에 구단이 선수 데이터를 숨기는 건 당연한 일이며, '왜 데이터를 공개하지 않느냐'라고 구단을 무조건적으로 비판할 수는 없는 일이다. 그럼에도 불구하고 메이저리그 구단들이 선수 데이터 공개에 합의한 것은, 다른 팀의 데이터가 오픈되면 자신들이 분석해서 활용하고 더 이득을 보는데 자신이 있기 때문이라고 해석할 수 있다. 일종의 태도의 차이.
  • 스탯캐스트 검색 검색 조건을 매우 다채롭게 설정할 수 있다. 입문자라면 천천히 시간을 들여서 어떤 조건을 선택할 수 있는지 살펴보는 것이 좋다. 물론 어지간한 데이터는 몇 개의 조건만 설정하면 금방 구할 수 있다. 예시 - 마이크 트라웃의 2017시즌 평균 타구 속도를 검색한 결과(링크)

파일:/api/File/Real/5a364f5e6a28299604c7e965

  • 검색한 결과를 시각화한 각종 차트도 제공하고 있다. 위 사진에서 'Graphs'를 눌러보면 여러가지 차트가 나온다. 아래는 위에서 검색한 클레이튼 커쇼의 검색 결과 나오는 여러 차트들이다.

파일:/api/File/Real/5a3650096a28299604c7e974

파일:/api/File/Real/5a36500f6a28299604c7e977

파일:/api/File/Real/5a364c086a28299604c7e94b

  • 좀더 깊게 파고들기를 원하는 팬을 위해 검색한 결과 원본을 제공하기도 한다. 검색 후 위 그림 빨간 네모 안에 있는 그림을 클릭해 다운로드 가능하며, CSV 포맷의 파일로 제공된다. 엑셀 등의 스프레드시트 프로그램을 통해 깔끔한 열람이 가능하다. 물론 원본이라고 해도 메이저리그 구단에 제공되는 것만큼 자세하지는 않다. 예를 들어 수비 관련 데이터(수비수의 출발 위치, 속도, 포구 위치 등)는 일절 제공되지 않는다. 그러나 평범한 팬이라면 '이런걸 어디다 쓰나' 싶을 정도로 충분히더럽게 많은 데이터가 들어있다.

검색 결과 데이터가 너무 많으면 시간 초과(query timeout)로 검색에 실패하는 경우도 있고, 다운로드가 되지 않는 경우도 있다. 이럴 때는 조건을 여러개로 나눠서 다시 검색해보자(예시: 2017시즌 전체 데이터를 한번에 검색하는 대신, 월별로 나눠서 검색하여 다운로드).

경기 데이터는 미국 시간으로 다음날 새벽 중에 업데이트가 된다. 한국 시간으로 저녁 6시~밤 10시 사이 정도에 자동으로 진행되는 것으로 보인다.

기타 페이지[원본 편집]

이 밖에도 사이트 우측 상단의 Applications 탭을 보면 자잘한 페이지들이 있다.

MLB 비디오 리플레이 데이터베이스(MLB Instant Replay Database)[원본 편집]

비디오 판독(챌린지) 결과를 정리, 시각화한 페이지. 팀별로 결과를 모아 볼 수도 있고, 챌린지 이유에 따른 분석도 가능하다.

포구 확률 분석 페이지(Catch Probability Breakdown)[원본 편집]

스탯캐스트에서 외야수 포구 확률을 어떻게 계산하는지 시각화한 페이지. 포구 확률은 타구의 체공 시간(Hang Time)과 외야수의 달리기 거리(Distance) 두가지 변수에 따라 계산된다. 그리고 실제로 이뤄진 플레이 결과에 따라서 확률이 계산되기 때문에, 리그 평균적인 수비 수준이 높을 수록 포구 확률이 높아진다. 기본적으로 체공시간이 짧고 공을 잡기 위해 멀리 가야 할 수록 포구 확률이 낮다.

홈런 더비 분석 페이지(HR Derby)[원본 편집]

2017시즌 홈런 더비의 모든 타구를 시각화한 결과를 구경할 수 있다. 얼마나 심심했으면 이런걸 만들지

파일:/api/File/Real/5a364b676a28299604c7e944