머니투데이

속보
통합검색

알파고 첫승 비결…'5개월' 동안 대체 뭘 했길래

머니투데이
  • 김지민 기자
  • 카카오톡 공유하기
  • 카카오톡 나에게 전송하기
  • 페이스북
  • 트위터
  • 네이버
  • 카카오스토리
  • 텔레그램
  • 문자
  • 2016.03.10 09:05
  • 글자크기조절
  • 댓글···

[이세돌 vs 알파고]이세돌 9단 누른 알파고, 판후이 2단 꺾고 '강화학습' 강화…"학습의 양과 질에서 압도적"

/사진=9일 서울 포시즌스호텔에 마련된 특별 대국장에서 진행된 이 9단(흑)과 구글 알파고(백)의 제1국에서 알파고가 3시간30여분만에 불계승했다. 이날 오후 2국을 시작으로 이 9단과 알파고는 15일까지 총 5차례의 결전을 펼친다. /사진제공=구글
/사진=9일 서울 포시즌스호텔에 마련된 특별 대국장에서 진행된 이 9단(흑)과 구글 알파고(백)의 제1국에서 알파고가 3시간30여분만에 불계승했다. 이날 오후 2국을 시작으로 이 9단과 알파고는 15일까지 총 5차례의 결전을 펼친다. /사진제공=구글
인간을 누른 구글 인공지능(AI) 바둑 프로그램 알파고의 기량에 관심이 집중되고 있다. 프로 바둑기사 2~5단 정도의 실력을 갖춘 것으로 알려졌던 알파고가 천재 바둑기사를 기세등등하게 이겼기 때문이다. 지난해 10월 유럽 바둑 챔피언 판후이 2단을 꺾은 뒤 5개월이란 시간 동안 알파고가 어떤 학습에 주력했을지 궁금해지는 이유다.

알파고의 실력을 강력하게 키워준 데에는 '강화학습'의 영향이 지배적이었을 것으로 보인다. 강화학습은 알파고 스스로 대국을 하면서 장단점을 학습하는 이른바 '셀프대국'을 말한다. 셀프대국은 알파고 알고리즘의 핵심 네트워크 중 하나인 '정책망'에서 행해지는 학습의 방식 중 하나다. 인간이 평생 가도 배우지 못할 양인 16만개에 달하는 프로기사들의 기보를 통해 착수 전략을 배운 '지도학습량'을 밑거름으로 삼는다.

알파고 개발을 총괄한 데이비드 실버 박사는 "알파고가 수천만 번의 셀프대국을 통해 시행착오을 거치는 과정 모두를 데이터로 구축했다"며 "우리의 목표는 인간의 행동을 모방하는 것이 아니라 인간을 이기는 것이었기 때문에 승수와 패수를 구분할 수 있는 강화학습을 실시했다"고 설명했다.

전날 대국에서 입증된 알파고의 '판세 읽기' 실력도 눈여겨볼 대목이다. 전문가들은 이날 알파고 기보에 대해 "전체적인 판세를 읽는 능력이 훌륭했다", "인간에 못지 않았다"고 평했다. 알파고가 판세를 정확하게 읽을 수 있었던 배경에는 '정책망'이 자리한다.

알파고는 이미지나 비디오를 통해 보여 지는 객체를 분류하기 위해 '컨볼루션신경망'이라는 기술을 활용한다. 일종의 필터 역할을 하는 컨볼루션을 통해 원본 이미지를 처리한 후 특징을 추출해 내는 장치다. 바둑판의 전체적인 형세를 파악하는데 유용하다.

추형석 소프트웨어정책연구소 선임 연구원은 "알파고가 셀프대국과 컨볼루션신경망을 통해 학습의 양과 질을 높인 것 같다"며 "하지만 이는 추론하는 부분이고 실제 구글이 어떤 부분을 강화했을지 궁금하다"고 말했다.

일각에서는 알파고가 이미 프로급의 실력을 갖춘 상태였을 것이란 분석도 나온다. 알파고가 상대 기사의 기량에 맞춰 바둑을 둔다는 것. 판후이와의 대국 이후 알파고 수준을 프로 2단에서 5단 수준으로 평가한 이유도 이 때문이다.

한국전자통신연구원 손영성 박사는 "이번 대국을 보면서 알파고의 실력은 프로 2~3단 정도가 아니라 인간을 월등히 앞서는 정도까지 도달했다는 생각이 들었다"며 "알파고의 기력은 예상을 크게 뛰어넘은 것은 확실하다"고 말했다.

지난 9일 서울 포시즌스호텔에 마련된 특별 대국장에서 진행된 이 9단(흑)과 구글 알파고(백)의 제1국에서 알파고가 3시간30여분만에 불계승했다. 10일 오후 2국을 시작으로 이 9단과 알파고는 15일까지 총 5차례의 결전을 펼친다.



오늘의 꿀팁

  • 날씨
  • 내일 뭐입지

많이 본 뉴스

MT QUIZ

포토 / 영상

머니투데이 SERVICE