KAIST 바이오및뇌공학과 이상완 교수팀이 뇌 기반 인공지능 기술을 이용해 인공지능의 난제 중 하나인 과적합-과소적합 상충 문제를 해결하는 원리를 풀어내는 데 성공했다.
연구팀은 뇌 데이터, 확률과정 추론 모형, 강화학습 알고리즘을 이용해 인간의 뇌가 이 문제를 어떻게 해결하는지에 대한 이론적 틀을 마련하고 이로부터 유동적인 메타 강화학습 모델을 도출해냈다.
인간의 뇌는 중뇌 도파민 회로와 전두엽에서 처리되는 `예측 오차'의 하한선 이라는 단 한 가지 정보를 이용해 이 문제를 해결한다.
전두엽, 특히 복외측전전두피질은 현재 내가 사용하고 있는 문제 해결 방식으로 주어진 문제를 얼마나 잘 풀 수 있을지에 대한 기대치의 한계를 추정하고(예: `이렇게 풀면 90점까지는 받을 수 있어'), 변화하는 상황에 맞춰 최적인 문제 해결전략을 유동적으로 선택하는 과정 (예: `이렇게 풀면 기껏해야 70점이니 다르게 풀어보자')을 통해 과소적합-과적합의 위험을 최소화하게 된다.
이상완 교수 연구팀은 2014년 해당 전두엽 영역이 환경의 불확실성을 바탕으로 강화학습전략을 유동적으로 조절하는 데 관여한다는 사실을 처음 발견했고(`뉴런(Neuron)' 학술지에 발표), 2015년에는 인과관계 추론 과정에도 관여한다는 사실을 발견했다(`PLOS Biology' 학술지에 발표). 이어 2019년에는 해당 뇌 영역이 문제의 복잡도까지 고려할 수 있다는 사실을 발견했다(`네이처 커뮤니케이션즈(Nature Communications)' 학술지에 발표).
이러한 일련의 연구 결과들은 자신의 학습 및 추론 능력을 스스로 평가하는 인간의 메타 인지 능력을 보여주는 증거로, 이 능력을 바탕으로 인공지능이 풀기 어려워하는 현실 세계의 다양한 상충적 상황들을 풀어낼 수 있다는 `전두엽 메타 학습 이론'을 정립한 바 있다(`사이언스 로보틱스(Science Robotics)' 학술지에 발표).
이번 연구는 이 이론에 기반해 인공지능의 오랜 난제 중 하나인 과소적합-과적합 상충 문제를 실제로 풀어낸 최초의 사례로 평가된다.
연구를 통해 개발된 메타 강화학습 모델을 이용하면 간단한 게임을 통해 인간의 유동적 문제 해결 능력을 간접적으로 측정할 수 있다.
더 나아가 스마트 교육이나 중독과 관련된 인지 행동치료에 적용할 경우 상황 변화에 유동적으로 대처하는 인간의 문제 해결 능력 자체를 향상할 수 있을 것으로 기대된다.
차세대 인공지능, 스마트 교육, 인지 행동치료 등 다양한 분야에 파급력이 큰 원천 기술로 최근 국내 및 해외 특허 출원이 완료된 상태다.
KAIST 김동재 박사는 "인간 지능의 특장점에 대한 이해가 얼마나 중요한지 보여주는 연구 중 하나ˮ라고 말했다.
이상완 교수는 "인공지능이 우리보다 잘 푸는 문제가 많지만, 반대로 인공지능으로 풀기 어려운 문제들이 우리에게는 정말 쉽게 느껴지는 경우들이 많다. 인간의 다양한 고위 수준 능력을 인공지능 이론 관점에서 형식화하는 연구를 통해 인간 지능의 비밀을 하나씩 풀어나갈 수 있을 것으로 기대된다ˮ며 "이러한 뇌 기반 인공지능 연구는 인간의 지능을 공학적으로 탐구하는 과정으로 볼 수 있으며, 인간과 인공지능이 서로 도우며 함께 성장해 나갈 수 있는 명확한 기준점을 마련할 수 있을 것ˮ이라고 말했다.
이상완 교수는 뇌 기반 인공지능 연구의 독창성과 도전성을 인정받아 구글 교수 연구상과 IBM 학술상을 받은 바 있다.
연구팀은 과학기술정보통신부의 재원으로 정보통신기획평가원의 지원을 받아 설립한 KAIST 신경과학-인공지능 융합연구센터에서 기반 기술을 활용해 인간 지능을 모사한 차세대 인공지능 모델을 개발하고, 아울러 딥마인드, IBM 인공지능 연구소, MIT, 옥스퍼드 대학 등 국제 공동연구 협약 기관과 공동연구를 통해 기술의 파급력을 높여나갈 계획이라고 말했다.
KAIST 이상완 교수와 김동재 박사(現 뉴욕대학교 박사후 연구원)가 주도하고 KAIST 정재승 교수가 참여한 이번 연구는 `강화학습 중 편향-분산 상충 문제에 대한 전두엽의 해법'이라는 제목으로 국제 학술지 셀(Cell)의 오픈 액세스 저널인 `셀 리포트(Cell Reports)'에 지난해 12월 28일 字 온라인판에 게재됐다. (논문명: Prefrontal solution to the bias-variance tradeoff during reinforcement learning)