제목 : 시공간 정보 토큰을 활용한 3D Human Pose Estimation
요약 : 3차원 인체 자세 추정 (3D Human Pose Estimation)은 깊이 모호성과 가려짐(occlusion), 비디오 시퀀스 내 시간적 불일치로 인해 여전히 난제로 남아있다. 기존의 방식은 관절 간 종속성을 간과하거나 노이즈에 민감하여, 복잡한 상황에서 비현실적인 자세를 예측하는 한계가 있다. 기존 연구는 자세를 토큰으로 표현함으로써 관절 간 종속성을 명시적으로 모델링하여 이런 문제점을 해결하였다. 하지만 관절 간 시간적 연관성을 모델링하지 못한다는 문제점이 여전히 남아있다. 이로 인해, 프레임 간 관절의 위치가 미세하게 떨리는 현상(jittering)이 발생하여 추론 결과의 품질을 떨어뜨린다. 본 논문은 토큰 기반 자세 표현법을 시공간 영역으로 확장하여, 자세 정보를 이산적인 공간 및 시간 토큰으로 압축하는 새로운 프레임워크를 제안한다. 제안하는 모델은 두 단계로 구성된다. 첫 번째 단계는 3차원 시퀀스를 입력받아 공간적 부분 구조와 시간적 흐름을 각각의 코드북을 통해 이산화하는 토크나이저를 학습한다. 두 번째 단계는 2차원 관절 입력으로부터 앞서 학습된 토큰 인덱스를 예측하는 분류 문제를 수행하며, 이를 위해 ST-GCN 기반의 분류기를 설계하였다. Human3.6M 데이터셋에 대한 실험 결과, 제안 모델은 기존 SOTA 방법론과 대등한 성능을 보였으며, 특히 가려짐이 심한 환경에서도 강건한 복원 능력을 입증하였다. 또한, 절제 연구를 통해 긴 시퀀스와 적절한 토큰 클래스 개수가 미세한 움직임 포착에 기여함을 확인하였다. 또한 관절 정보를 인코딩한 후, 시간 정보 처리 과정을 거치는 것이 더 우수한 성능을 보였다. 본 연구는 자세 추정을 연속적인 회귀가 아닌 시공간 토큰 분류 문제로 재해석함으로써, 추정의 안정성과 시간적 일관성을 확보하는 새로운 방향을 제시한다.