Video PreTraining (VPT)

OpenAI의 “Learning to Play Minecraft with Video PreTraining (VPT)” 글을 읽고 내용을 공유합니다.

OpenAI에서 Minecraft를 플레이할 수 있는 computer-using agent를 학습시켰음
최종적으로는 다이아 곡괭이를 만드는 것을 학습하였는데, 이 과정에서 20분(24000 action) 정도의 사람의 게임 플레이 내용을 unlabeled video dataset 형태로 사용하였고, 플레이어를 고용해서 만든 labeled contractor data가 일부 사용되었음

Taken from https://openai.com/blog/vpt/

인터넷 상에서 70K hour 가량의 unlabeled video 데이터 수집
사람 전문가를 통해 마우스/키보드 액션이 label된 2K hour 가량의 데이터 수집. 이를 통해 비디오 프레임과 마우스/키보드 액션 사이의 관계를 뉴럴넷 모델(Inverse Dynamics Model, IDM) 사용하여 학습.
IDM 사용하여 70K unlabeled video 데이터를 라벨링한 뒤에, 해당 데이터를 사용하여 past frame이 주어지면 future action을 예측하는 VPT Foundation 모델 학습 (Behavior Cloning, causal)
- Input이 past video frames이고, output이 action인 auto-regressive 모델!
Foundation 모델을 획득하면 이 모델을 가지고 zero-shot으로 task를 수행할 수도 있고, fine-tuning하여 모델을 더 task-specific 해지도록 개선할 수도 있음
- RL 기반 fine-tuning을 할 때는 아래의 sub-tasks를 순차적으로 잘 수행할 때 마다 reward를 제공했다고 함

Taken from https://openai.com/blog/vpt/