Using Hex Maps to Classify & Cluster Dribble Hand-off Variants in the NBA
NBA 데이터 활용 드리블 핸드오프 추출 및 군집화
MIT Sloan Sports Analytics Conference (SSAC)는 산업계 프로페셔널과 학생들이 스포츠 산업에서 증가하고 있는 데이터 분석의 중요성을 이야기하는 컨퍼런스이다. NBA, NHL, MLB 등의 선수, 코칭 스텝, 학계 연구자, 산업 종사자, 기자 등 미 스포츠 업계를 이끌고 있는 다양한 인사들이 참가한다. Dallas Maveriks 구단주인 마크 큐번, Boston Celtics의 제일런 브라운, Chris Bosh 심지어 Barack Obama 대통령까지도 연사로 참가하였다.
언젠간 이 곳에서 발표할 날을 꿈꾸며 농구 데이터 분석과 연구의 최일선의 자료가 있다고 생각하여 SSAC 리서치 논문을 간단히 정리한다.
NBA 팀들의 공격에서 dribble hand-off(DHO)는 매우 효율적인 전술 중에 하나이다. 이 논문에서는 DHO를 분류하고 패턴을 추출하기 위한 파이프라인 아키텍쳐를 제안한다. hexbin cell 선수 위치 추적 데이터, DHO 행위를 추출하기 위한 자동화 등을 다룬다. 기계학습 분류 방법들로 모델링하여 각 모델들의 정확도를 비교하고 DHO 군집들을 분석하여 선수들의 행동과 능력에 대한 맥락을 분석한다.
이 연구에서는 SportVU player tracking data를 이용한다. hexmap 인코딩이 되어있는 데이터로 경기 상황에서 선수들의 움직임이 정규화되어 데이터로 남는다. 실제 경기 데이터를 자유롭게 분석할 수 있는 체계가 부럽다. DHO는 스크린 공격상황에서 공격자와 수비자가 스크린 근처로 모이는 상황과 fake DHO을 자동화하여 구분한다. fake DHO는 벤 시몬스나 D. 그린이 공격할때 DHO를 하는 척하다 림어택을 하는 상황으로 생각하면 될 듯하다.
3장 Data and Event Labels를 보면 NBA에서 초당 25장으로 구성된 선수들 심판, 공의 위치 추적을 2012년도부터 시작했고, 2015-2016 시즌부터 공개되어 스포츠 분석 커뮤니티나 데이터 분석가들의 유입시켰다고 한다. 스포츠가 데이터와 함께 고도화되고 디지털화가 심화되면서 관련 생태계가 확장되는 모습을 알 수 있다. (부럽다..)
저자는 SportVU 데이터를 DHO 분석에 사용하기 위해 세 가지 단계를 거쳤다. 우선 전처리를 하고 DHO 후보군을 선정한다. 전처리의 정확도를 검증하기 위해 경기 녹화본을 직접 확인한다. 다음으로 hexbin 전환, 피쳐 생성, 라벨링을 통해 분류모델 학습을 위한 학습과 테스트 셋으로 구분하였다. 특정 NBA 경기에서 확보한 위치 데이터와 이벤트 레이블로 on-court 행위를 DHO를 학습할 수 있는 형태로 처리한 것이다. 마지막으로 DHO로 구별된 데이터를 군집화 알고리즘을 거쳐 DHO들로 구분하였다. DHO 후보군 중에는 DHO처럼 보이는 상황들이 있다. 리바운드 경합처럼 경기중 서로 가까이 붙어있는 상황이다. 저자는 이를 해결하고자 rule based 보다는 기계학습 모델을 이용했다. 그리고 공과의 거리를 계산해 공을 소유하는 볼핸들러를 찾아내고 패스 상황을 규정지었다.
결과적으로 43경기에서 3,398개의 후보군을 선정하였고 이 중 1,098개가 DHO 상황으로 확인되었다. DHO의 5.2%는 fake DHO 정도이다. 데이터의 메타정보는 table 2에서 확인 가능하다.
선수의 위치에 대한 설명력을 높이고 더 자세한 플레이를 포착할 수 있도록 원본 데이터의 정확도를 높이기 위해 hexbin positional conversion 하였다. coutinous한 float 데이터를 육각형의 cell로 매핑하고 특정 cell에 오래 머무를수록 cell의 색을 진하게 표시하였다.
생성된 이미지를 학습하기위해 SVM, DT, GNB, ANN 모델을 사용하였다.
군집의 개수를 결정하기 위해 군집의 밀집도를 측정하는 distortion과 군집끼리의 거리를 계산하는 silhouette score를 측정하였다. 두 지표를 결과로 최적의 군집 수를 9개로 선정하였다.
추가로 딥러닝 모델링도 하였다. Keras, Tensorflow의 MLP 모델이 SVM보다 정확도, 정밀도, 재현율이 높았다.
저자는 스크리너의 타입에 따라 군집을 나눴다. DHO는 크고 느린 선수가 빠르고 작은 선수를 위해 공간을 창출하는 방법이지만 항상 그런 것은 아니다. 대부분의 군집에서는 포워드나 센터(frontcourt player)들이 스크린을 서지만 군집 8의 경우 대부분 가드 포지션의 선수들이다. 군집 7은 3점 라인 근처에서 DHO를 시작하여 스크리너가 슛을 쏘기 위해 flare out한다.
군집별 포지션 비율은 그림 12에 있다.
이 연구에서 알 수 있는 재미있는 점은 선수들마다 선호하는 스크린 유형이 구분이 되는 것이다. 전통적인 센터 포지션의 선수인 타이슨 챈들러와 슈팅에 강점이 있는 앤서니 데이비스, 크리스 보쉬의 군집 비율이 차이가 난다. 스크린 상황에서 커팅 플레이어도 포워드에 가까운 가드인 코비 브라이언트와 전형적인 리딩가드 크리스폴, 득점 위주의 포인트가드 데미안 릴라드가 다른 유형으로 나타나 군집화를 통한 선수 분류가 잘 되었음을 알 수 있다.
결론적으로 이 연구는 end-to-end로 DHO 판별을 자동화 하였다. 기계학습과 패턴인식을 통해 선수들의 움직임을 추출하고 DHO를 군집화하는 학습 파이프라인을 구축하였다. 최적의 군집 개수를 선정하고 각 군집이 DHO 상황에서 농구 공격 상황에서 특징을 잘 나타내고있다. 여러가지 데이터로 피쳐 엔지니어링하고 비지도학습 방법과 딥러닝 모델을 이용해 성공적으로 action 분류하였다. Hex map으로 원데이터를 변환해 수치 데이터를 추상화 한 것도 재미있는 접근이었다.
농구라는 domain에 data science 방법을 잘 적용한 것 같다. 일종의 노가다 성공적인 결과물!
Reference
MIT SLOAN SPORTS ANALYTICS CONFERENCE 2022
Using Hex Maps to Classify & Cluster Dribble Hand-off Variants in the NBA
by Koi Stephanos etc