Home>경영원 소식>공지사항
공지사항
* 이 게시물을 공유하기
제목 [칼럼]빅데이터 시대의 프로스포츠. 작성자 관리자 작성일 2016.07.11
           빅데이터 시대의 프로스포츠


이지수 사우디아라비아 KAUST 교수


 프로 스포츠에서 상대 팀과 선수의 데이터를 분석해 작전수립 등에 활용하는 일은 어제 오늘의 이야기가 아니다. 특히 야구에서는 미국 야구연구학회(SABR: Society for American Baseball Research)를 중심으로 Sabermetrics라는 방법론을 20여년전에 개발하여 현재까지 활발히 이용하고 있다. (주: Sabermetrics는 SABR과 측정을 의미하는 metric을 합성한 신조어이다)

 Sabermetrics의 대표적 사례는 2011년에 개봉한 Brad Pitt 주연의 영화 “Moneyball”이다. 미국 메이저리그 Oakland Athletics 팀의 실화를 바탕으로 한 이 영화에서는 경제적으로 어려운 조건에서도 데이터를 바탕으로 팀을 효율적으로 운영하여 성공한 사례를 보여주고 있다.

 당시 Athletics 구단 선수들의 연봉 총액은 4천4백만 달러(약 5백2십억 원)였는데 이는 메이저리그 최저 수준으로 뉴욕 양키스의 1/3에 불과하였다. 이러한 환경에도 Athletics는 2002년 아메리칸 리그 서부지구의 우승을 차지하였고 이후 한동안 상위권을 유지하였다.

 그 비결은 선수평가의 방법이다. 예를 들어 타자를 평가할 때 타율, 타점, 도루수 등 기존에 이용된 지표들보다 당시에는 생소한 개념인 출루율, 장타율 등이 실제 공격 기여도에 더 중요하다는 것을 데이터를 분석해 파악하고, 이를 이용하여 상대적으로 낮은 예산으로 우수한 선수들을 모을 수 있었다.

 이 사례가 소개되면서 다른 팀들도 유사한 전략을 채택하였다. 뉴욕 양키스, 뉴욕 메츠, 보스턴 레드삭스, 애리조나 다이아몬드백스, 클리블랜드 인디언스 등의 구단이 Sabermetrics 전문가를 고용하게 되면서 Athletics은 상대적인 장점을 잃어버리게 되었다.

 그렇다면 현재의 Sabermetrics 수준은 어느 정도일까? 최근 데이터 수집, 분석 기술, 컴퓨팅 성능의 급속한 발전으로 Moneyball의 사례는 마이너리그 수준에 불과하게 되었다.

 우선 데이터부터 살펴보자. 140년 역사를 자랑하는 미국 프로야구에서는 매년 2000여 경기가 열리고, 현재까지 개최된 총 경기수는 18만 번이 넘는다. 처음 135년 동안에 생성된 데이터의 총량이 2GB 정도인 것에 비하여, 도플러 레이더와 고속 비디오 촬영 등으로 현재 한 경기에 생성되는 데이터는 무려 1TB에 이른다.

 데이터가 폭발적으로 증가하게 된 계기는 투수가 던지는 공에 대해 공의 속도, 공의 움직임, 투수 팔의 각도 등 20여 개의 데이터를 기록하는 Pitchf/x 시스템에서 시작한다. 곧이어 타자의 움직임에 대해 다섯 가지 요소를 기록하는 Hitf/x 시스템이, 올해에는 야수 및 주자의 움직임을 기록하는 Fieldf/x 시스템이 도입되었다.

 이러한 시스템의 도입으로 방대한 자료가 축적되어 스타팅 라인업, 선발 및 구원투수, 대타 등 경기 준비에 핵심적인 결정들을 지원하고 있다.

 예를 들어 투수와 타자의 대결을 살펴보자. 기존에는 투수에 대한 타자의 과거 기록을 바탕으로 여러 결정을 내렸지만 여기에는 결정적인 문제가 있다. 즉, 특정투수와 특정타자의 대결은 6타수 2안타 등으로 그 횟수가 통계적으로 유의미할 정도로 많지 않다는 것이다.

 이의 대안으로 온라인 비디오 사이트 “넷플릭스”의 방법이 제안되었다. 즉 고객이 관람한 영화의 패턴을 분석하여 자주 보는 액션 영화를 추천하는 것처럼 투수와 타자의 특성을 연결시키자는 것이다. 예를 들어 투수의 경우 공의 속도, 볼 배합, 릴리스 포인트 등의 14개 요소를 고려한다.

 현재 개발된 소프트웨어는 투구 폼, 투수 수준, 타격 폼, 타자 수준, 경기장의 5개 요소를 이용하여 지난 1년 반 기간에 축적된 약 백만 개의 투구를 분석 투수와 타자 사이의 관계를 계산한다. 이를 통하여 특정 투수에 대한 타자의 예상타율 등을 추정할 수 있다.

 이를 위한 컴퓨터는 어떤 모습일까? 이러한 분석에서는 두 데이터 사이의 연관성을 계산해야 하는데 스타팅 라인업을 결정하기 위해서는 무려 100~200억 회의 계산이 필요하다.

 이러한 작업을 주어진 시간에 수행하려면 보통의 컴퓨터로는 불가능하고 슈퍼컴퓨터 급의 처리용량이 필요하다. 특히, 많은 양의 데이터를 한번에 저장할 수 있는 데이터분석용 슈퍼컴이 적합하다.

 이러한 컴퓨터는 백만 달러가 넘는 고가의 장비이다. 하지만 메이저리그에서 한 경기를 이겼을 때 발생하는 추가 수입은 작은 팀의 경우 약 2백만 달러, 대도시의 팀은 6백만 달러에 달한다고 하니 이러한 장비의 도입은 충분히 고려 가능하다.

 그렇다면 실제로 이를 도입한 구단이 있을까? 이에 대해 여러 소문이 있지만 최소한 한 개 이상의 구단이 이를 도입하여 운용하고 있는 것이 확인 되었다. 다만 구단의 이름과 도입한 장비 및 소프트웨어 등의 내용은 전력노출을 우려하여 비밀로 유지되고 있다.

 기술이 발전되면서 경기 계획을 수립하는 수준을 넘어, 경기 중에 결정을 지원할 수 있는 상황이 가능해지고 있다. 하지만 이를 구현하기 위해서는 경기 중 결정에 관련된 전자제품의 사용을 금지하는 현재 메이저리그 규칙의 변화가 필요하다.

 또한 이러한 기술은 경기결과 예측에 활용될 가능성도 있다. 스포츠 경기 결과를 예측하는 스포츠배팅 게임은 이미 거대한 시장을 형성하고 있으며 예측의 정확도를 조금 높여 얻어지는 추가 수익도 막대한 규모이다.

 프로 스포츠에 빅데이터를 활용하는 사례는 야구에 그치지 않는다. 미국에서 인기인 미식축구에서는 데이터를 바탕으로 경기 결과를 예측하려는 시도가 진행되고 있다. 즉, 지난 10년간 있었던 약 3천 번 경기에서의 약 50만 건의 경기이력(play by play) 자료를 분석하여 통계적으로 유의미한 경향을 파악하려 한다.

 야구와 달리 미식축구에서는 필요한 데이터가 정리되어 있지 않다. 현장중계의 형태로 정리된 경기이력을 컴퓨터가 처리할 수 있도록 변환하는 데에는 실로 막대한 노력이 필요하다.

 기상 관련 데이터를 확보하는 것도 문제이다. 경기 당시의 습도, 풍속, 최저 및 최고 온도 등의 정보는 인터넷에서 개별적으로 찾아서 정리해야 한다. 또한 잔디종류, 지붕형태, 수용인원, 고도 등 경기장에 관한 정보와 부상, 체포 등 선수에 관련된 데이터도 필요하다.

 모든 데이터가 정리되면 여려 요소들이 승부에 미치는 영향을 분석하게 된다. 이를 통하여 통념으로 여겨지던 생각들이 실제 사실과 일치하는 지 확인할 수 있다.

 명문구단 덴버 브롱코스 팀의 홈 구장은 해수면으로부터 1마일(1.6킬로미터)정도 높은 곳에 위치하기 때문에 “Mile High 경기장”이라 불려졌다. 상대팀은 높은 고도에 적응해야 하기 때문에 상대적으로 경기에 불리하다고 여겨졌다

 하지만 빅데이터 분석에서는 통계적으로 유의미한 연관성을 찾을 수 없었다. 즉, 경기장의 고도는 승부에 영향을 미치지 않았다. 고도에 관련되어 의미 있는 결과는 낮은 공기저항으로 패스공격이 1% 증가한다는 정도였다.

 이는 “홈구장 이점”이 없다는 이야기가 아니다. 실제로 홈팀의 평균승률은 57%로 통계적으로 유의미한 숫자이다. 또한, 선수의 결장도 승패에 영향을 미친다. 재미있는 것은 선수의 소속과 관계없이 결장은 홈팀이 이길 확률을 높인다는 것이다.

 현재 미식축구의 빅데이터 분석수준은 Moneyball에도 미치지 못하지만 이러한 상황은 빠르게 변화하고 있다.

 올해부터 미식축구 선수들은 엄지손가락 크기의 무선송신기가 장착된 선수복을 입고 경기를 하게 된다. 이 무선 송신기는 1초에 12번의 신호를 내보내며 경기장에 설치된 22개의 수신기를 이용하여 개별 선수의 움직임을 정확하게 파악할 수 있다.

 이렇게 얻어진 정보를 활용하는 방법도 논의되고 있다. 현재는 실시간 중계 보다는 하프타임 때 설명을 위한 자료를 제공할 예정이며 장기적으로는 경기 준비에 이용하는 방안도 연구되고 있다.

 빅데이터는 또한 농구에서도 활용된다. 미국 프로농구에서는 현재 카메라를 이용하여 선수들의 개별적인 움직임을 기록하고 있다. 즉, 선수의 2차원 좌표와 농구공의 3차원 좌표가 1초에 25회 간격으로 기록된다.

 이를 분석하여 선수평가에 활용하고 있다. 예를 들어 선수가 공을 얼마나 효율적으로 분배하는 지에 대해 통상적으로 사용하는 어시스트 보다는 패스를 받은 선수의 골 성공률이 더 나은 지표임을 밝혀내었다.

 또한, 경기 전략의 수립에도 활용될 수 있다. 예를 들어 데이터 분석을 통하여 코너에서의 3점 슛이 가장 효율이 높다는 것을 보였다. 하지만 야구의 경우처럼 이를 통하여 매치업을 분석하고 승패를 예측하는 일은 아직 많은 노력이 필요하다.

 스포츠 경기에서 빅데이터의 활용은 아직은 초기단계이다. 하지만, 선수 평가, 경기 준비 및 운영, 경기 해설, 구단 홍보 등의 다양한 분야에서 이미 그 효용성이 입증되었으며, 정보통신 기술의 폭발적 발전을 고려하면 10년 후 스포츠 경기의 모습은 지금과는 크게 달라지리라 예상된다.