리서치 하이라이트

학습 모델을 이용한 계획 방법으로 아타리(Atari), 바둑, 체스 및 장기 마스터

Nature 588, 7839

체커, 체스, 바둑 및 포커와 같은 고전 게임에서 인간 세계 챔피언을 물리친 인공 지능 알고리즘은 트리 기반 계획 방법(Tree-based planning methods)을 이용하였다. 특정 영역에서 좋은 성과를 내면서, 계획 알고리즘은 게임 규칙과 같은 환경 역학(Environment’s dynamics)에 대한 지식에 의존하여 일반적으로 역학이 알려지지 않은 로봇 공학 또는 인공 지능형 비서와 같은 실제 영역에 직접 적용되는 것을 방지하고 있다. David Silver와 연구진들은 이제 트리 기반 검색과 학습된 모델을 결합한 모델 기반 강화 학습(Reinforcement-learning) 알고리즘인 MuZero를 발표하였다.이 알고리즘은 근본적인 역학에 대한 지식 없이도 까다롭고 시각적으로 복잡한 다양한 영역에서 사람을 뛰어넘는 성능을 발휘한다.