"AI 전문가 키우려면…슈퍼컴·충분한 데이터 먼저 갖춰야"

머니투데이

박건희 기자

이경하 KISTI 초거대AI연구단 단장. /사진=KISTI

"AI(인공지능) 전문인력을 양성하려면 AI 개발에 필요한 전산자원 확보가 필수입니다."

최근 대전 한국과학기술정보연구원(KISTI) 본원에서 만난 이경하 KISTI 초거대AI연구단장(사진)은 "디지털 대전환 시기에 부족한 AI인력을 확보하려면 이들이 실제 연구·개발을 할 수 있는 인프라를 갖춰야 한다"면서 "충분한 학습데이터와 정보처리가 빠른 슈퍼컴퓨터 등 전산자원을 확보하고 AI반도체 개발·생산자립 등 AI생태계를 재편하기 위한 노력이 필요하다"고 말했다.

지난해 9월 고용노동부는 앞으로 5년(2023~2027년) 동안 AI분야에서 고급인력 1만2800명이 부족할 것이라는 예측결과를 발표했다. 확대되는 글로벌 AI시장에서 필요한 AI전문가 수는 약 6만6000명인데 2027년까지 공급될 전문가는 5만3000명 정도에 그친다. 클라우드와 빅데이터분야 전문가도 각각 1만8800명, 1만9600명 부족할 것으로 예상됐다.

'한국어 과학기술정보 전문 LLM(거대언어모델)'의 성능을 2027년까지 공학박사 수준으로 높이는 게 목표인 KISTI의 초거대AI연구단도 AI인력 수급에 대한 고민에서 자유로울 순 없다. 이 단장은 "AI학습을 위한 기본적인 자원을 확보해 AI생태계가 제대로 돌아갈 수 있도록 관심을 기울여야 한다"고 강조했다.

다음은 이 단장과의 일문일답.

-초거대AI연구단의 구성원을 소개한다면.
▶올 3월에 문을 연 초거대AI연구단에는 현재 AI플랫폼연구팀과 LLM개발팀 2개팀에서 총 11명이 일하고 있으며 연내 16명까지 확충할 계획이다. 연구원들은 일본 교토대와 KAIST(카이스트) GIST(광주과학기술원) UST(과학기술연합대학원대학교)에서 AI, 데이터마이닝, 자연어처리 등의 분야를 전공한 우수인재다. 또 LLM이 만든 결과물의 품질을 높이고 슈퍼컴퓨터 등 다양한 전산자원을 활용하기 위해 원내 여러 부서와 협력하고 있다. KAIST, 서울과학기술대학교 등 여러 학교와도 협력연구를 진행 중이다.

-다양한 정부출연연구기관(출연연) 중 KISTI가 초거대 AI를 개발하는 이유는.
▶KISTI는 국가 연구성과물 전담기관이다. 국가 연구·개발예산을 투자해 성과가 나온 논문, 연구보고서 등 연구결과물을 수집하고 국민에게 제공하는 임무를 맡고 있다. 현재 1억3000여건의 과학기술정보와 데이터를 구축하고 빠른 정보처리에 필요한 국가 슈퍼컴퓨터를 운영한다. 데이터, 전산자원, 기술력 3가지를 모두 보유해 초거대 AI 개발을 위한 최적의 조건을 갖췄다.

-한국어 학술정보를 LLM의 학습데이터로 삼을 때 어려운 점이 있다면.
▶국내에서 자유롭게 접근 가능한 학술정보는 그리 많지 않다. 영어로 작성된 학술정보 수가 훨씬 많은 데다 대부분 구독을 기반으로 한 유료 서비스다. 논문 사전게재 사이트 '아카이브' 등을 제외하곤 출판사를 통해 공식 출판된 논문의 경우 이용료와 저작권료를 부담해야 한다. 논문의 저작권은 LLM과 같은 생성형 AI의 개발에 있어 일종의 장애물이 될 수 있다. 과학연구에 대한 광범위한 공유와 투명한 접근 가능성을 지향하는 '오픈 사이언스'가 LLM 개발에도 필요한 이유다. 또 소위 '쓸 만한' 한국어 데이터는 대부분 네이버, 다음 등 포털사이트에 있는 것도 문제다. 많은 이용자가 별도 웹사이트를 통해 글을 쓰기보다 포털이 제공하는 블로그나 카페에 글을 쓰고 또 그 글을 소비하기 때문이다. 이 데이터는 각 포털이 보유해 함부로 가져와 LLM 학습에 활용할 수 없다. 여러 정보를 얻더라도 이를 LLM의 학습데이터로 정제하는 과정에서 불용어, 금칙어, 개인 민감정보, 중복된 내용을 제거하며 다량의 정보가 사라지기도 한다. 결과적으로 학습에 활용되는 한국어 학습데이터는 원데이터 크기보다 많이 줄어든다.

-AI분야의 수요에 비해 인력이 부족한 점도 문제인데.
▶AI전문대학원을 비롯해 대학 교육과정에 AI과목이 생기는 추세여서 시간이 지나면 AI 전문인력은 늘어날 것이다. 다만 수도권과 지방간 수급 가능한 인력에는 차이가 있을 수 있다. 또 연봉이 정해져 있는 출연연의 특성상 고급인력에게 맞는 몸값을 제시할 수 있을지도 미지수다. AI 전문인력 양성에 무엇보다 필요한 것은 AI학습과 개발에 필요한 전산자원과 학습데이터다. 빠르게 정보를 처리할 수 있는 슈퍼컴퓨터 등 전산자원이 정말 중요하다. 성능이 높은 슈퍼컴퓨터를 가동하려면 안정적으로 GPU(그래픽처리장치)를 수급해야 하는데 엔비디아 등의 기업에 AI반도체를 의존해 GPU 단가상승에 따른 고비용을 감당하기 어렵다. 따라서 AI반도체 개발·생산자립 등 AI생태계를 재편하기 위한 노력이 필요하다.

-'KONI 13b' 이후 'KONI'(고니)는 어떻게 발전할까.
▶지난해 12월 선보인 '고니'는 현재 두 번째 버전까지 나온 상태로 세 번째 버전을 학습 중이다. 그동안 '고니'의 학습데이터는 6배 이상 늘었다. 또 새로 나온 LLM 학습기법을 통해 보다 좋은 출력물을 내도록 품질을 높이고 있다. 여러 수요를 반영해 모델의 크기를 다양화한 새로운 '고니'를 지속적으로 선보일 것이다.