[4/12-세 번째 하교길 프로젝트] 알파고 맛보기

4월 12일 소셜네트워크과학과의 세 번째 세미나가 진행됩니다.

강사: 김진호 (소셜네트워크과학과 박사수료)

장소: B111(이과대학)

시간: 19:00 ~21:00

강의 개요: Introduction to Reinforcement Learning, From MCPE to AlphaZero

2016년 3월 알파고의 등장 이후, 2년의 시간이 흘렀다. 그 사이 강화학습은 다양한 방향으로 발전해왔으며, 다양한 사례에 적용되고 있다.
본 세미나에서는 알파고의 핵심 모델 중 하나인 강화학습을 중점적으로 다루고자 한다. MCPE, Q-Learing, Deep Q-Network, Double Deep Q-Network, Dueling Deep Q-Network, A3C등 다양한 강화학습의 모형을 개발된 시간의 순서대로 다룬다. 자세한 증명 및 내용보다는, Objective Function, Q-Value 등 필수적인 내용들을 위주로 핵심적인 내용들을 간추려 얘기를 전달하고자 한다. 이를 기반으로 AlphaGo는 어떤 원리로 동작하는지를 살펴보고, AlphaGo 이후 훨씬 더 개선된 버전인 AlphaGo Zero를 소개하고자 한다. 이후 체스, 장기, 바둑을 풀 수 있는 AlphaZero를 소개하며, 강화학습의 발전방향에 대해 다루고자 한다. 또한 각 모델에 대한 Python 코드를 함께 살펴본다.