리서치 하이라이트

표지 기사: 도파민 기반 강화 학습의 결과 분포 코드

Nature 577, 7792

보상 예측 오류는 뇌의 학습 과정 중 하나이다. 이러한 과정을 통해 사건의 예상 결과와 실제 결과의 차이를 설명할 수 있다. 신경전달물질인 도파민은 이러한 형태의 학습과 밀접하게 관련되어 있다. 도파민 뉴런은 결과가 예상보다 좋을 경우 활성이 증가하는 경향이 있으나, 결과가 예상보다 나쁠 경우 활성이 감소한다. 따라서, 뇌가 평균 결과를 평가하여 이를 기반으로 미래 사건의 결과를 예측한다고 여겨져 왔다. 이번 호에서 Will Dabney와 그의 동료들은 실제 이러한 학습 과정은 이보다 더 복잡할 것이라고 주장하였다. 인공지능의 분포 강화 학습으로부터 영감을 얻은 연구진들은 마우스 중뇌의 신경 기록을 분석한 결과, 뇌는 미래를 단일 평균이 아닌 확률 분포를 이용하여 여러 가능한 미래 보상을 동시에 고려한다는 사실을 발견하였다. 표지 이미지: DeepMind Technologies Ltd.