속보
VIP
통합검색

똑똑한 AI 만드는 신기술에 뭉칫돈…'디지털 노가다' 사라질까

머니투데이
  • 김유경 기자
  • 카카오톡 공유하기
  • 카카오톡 나에게 전송하기
  • 페이스북
  • 트위터
  • 네이버
  • 텔레그램
  • 문자
  • VIEW 7,252
  • 2022.10.31 10:09
  • 글자크기조절

[테크업팩토리]AI 학습 위한 데이터라벨링 '합성데이터'로 대체

[편집자주] '테크업팩토리'는 스타트업과 투자업계에서 가장 '핫'한 미래유망기술을 알아보는 코너입니다. 우리의 일상과 산업의 지형을 바꿀 미래유망기술의 연구개발 동향과 상용화 시점, 성장 가능성 등을 짚어봅니다.

디자인과 공학성능을 함께 고려한 최적설계 선택을 돕는 AI 개발/자료제공= 나니아랩스
자동주행차 학습에 필요한 데이터 라벨링/사진제공=드림투리얼
똑똑한 AI 만드는 신기술에 뭉칫돈…'디지털 노가다' 사라질까
인공지능(AI)이 전산업에 적용되며 혁신을 일으키는 가운데 '합성데이터(Synthetic Data)' 생성기술이 AI 확산을 위한 핵심기술로 주목받고 있다. 합성데이터가 AI 서비스를 개발하는데 드는 시간과 비용을 혁신적으로 절감할 수 있어서다. MIT 테크놀로지리뷰는 합성데이터를 '2022년 10대 혁신기술' 중 하나로 선정했다.

한국신용정보원에 따르면 글로벌 AI 시장은 매년 빠르게 성장해 2025년 1840억달러(약 262조5700억원)에 이르고, 글로벌 AI 학습데이터 시장은 연평균 38.4% 성장하며 2025년 39조4000억원에 달할 것으로 전망했다.


AI 학습데이터는 대규모 수작업 필요...단순 부업 시장 형성


AI를 학습시키는데 필요한 실제 데이터(Real world Data) 수집·가공은 그동안 수작업으로 이뤄졌다. AI는 개발 과정에서 데이터를 학습하는 딥러닝을 거쳐야 정확도가 높아지는데 AI가 사진이나 문서, 음성, 영상 등의 데이터를 학습할 수 있도록 가공하는 작업이 데이터라벨링이다.


자율주행과 관련된 데이터를 학습시키기 위해서는 거리 사진에서 자동차를 일일이 구분해 표시 한 후 'car'라는 이름표를 붙여(라벨링) AI에게 반복적으로 알려준다. 이 작업을 계속하다 보면 AI는 'car'를 인식할 수 있게 된다. 이 같이 인형 오리기를 하듯 필요한 특정 데이터를 마우스로 일일이 찍어 오려내야 하나의 데이터를 얻을 수 있다보니 데이터라벨링 관련 단순 아르바이트 시장이 형성됐을 정도다.

실제 고용노동부 국민내일배움카드 교육 과정에는 입문, 중급, 품질전문가 등 데이터라벨링 과정이 다양하게 개설돼 있다. AI 학습데이터 플랫폼 기업 크라우드웍스가 개설한 과정에서만 2021년 8월부터 2022년 2월까지 5만여명의 이수자를 배출한 것으로 알려졌다. 올해는 입문 1만4000명, 중급 7000명의 수강생을 모집 중이다. 단순하지만 인내심과 교육이 필요할 정도로 까다로운 작업이라는 평가다.

AI 개발을 위해서는 학습데이터가 반드시 필요하다보니 투자자들은 실제 데이터를 수집·가공하는 스타트업에 꾸준히 투자해왔다. 크라우드웍스가 지난해 200억원 규모의 프리IPO 투자를 유치했고 셀렉트스타, 슈퍼브에이아이, 에이모 등도 모두 100억원대 규모의 시리즈A 투자유치에 성공했다.


가상데이터가 실제데이터 대체·보완…시간·비용 큰 폭 절감


자동차 3D휠 합성데이터 생성/사진제공=나니아랩스
자동차 3D휠 합성데이터 생성/사진제공=나니아랩스

문제는 데이터라벨링이 수작업으로 이뤄지다보니 AI 개발에 필요한 시간과 비용 부담이 너무 크다는 것이다. 실제 국내 한 연구실에서 10만장의 멀티 카메라 트랙킹 데이터를 라벨링하기 위해 관련업체에 의뢰한 결과 70억원 가량의 비용이 든다는 견적서를 받았다. 결국 이 연구실은 데이터라벨링 작업을 포기했다. 미국 AI 스타트업의 경우 평균 테이터 라벨링 비용이 230만달러(약 30억원)에 달하는 것으로 알려졌다.


3차원(3D) 데이터 같이 어려운 작업은 외주를 맡기는 것도 어렵다. 실제 한 스마트팩토리 솔루션 엔지니어는 물체의 방향까지 알려주는 '6자유도 자세 추정(6D pose estimation)' 작업을 외주업체에 요청했으나 거절당했다. 복잡하고 까다로운 작업은 시간과 비용이 드는데다 할 수 있는 사람도 많지 않아서다. 데이터라벨링 외주업체도 누구나 할 수 있는 손쉬운 2D작업 위주로만 맡고있는 게 현실이다.

목마른 사람이 우물을 판다고 AI 전문가들이 해결책으로 내놓고 있는게 바로 합성데이터다. 합성데이터는 컴퓨터 시뮬레이션이나 알고리즘을 활용해 인공적으로 생성한 '가상데이터'를 말한다. 소량의 실제데이터보다 대량의 합성데이터가 AI 모델 훈련에는 더 적합해 실제데이터를 대체할 수 있고, 무엇보다 비용과 시간 절감은 물론, '휴먼 에러(인적 오류)'를 줄여주고 개인정보보호 문제까지 해결할 수 있어 이 시장은 전세계적으로 급격히 성장하고 있다.

2015년 설립된 스노켈 AI(Snokel AI)가 1억3530만달러 규모의 투자를 유치하면서 기업가치 10억달러의 유니콘 기업으로 성장했고, 2016년과 2017년에 설립된 케이퍼(Caper)와 에이아이리베리(AI.Reverie)는 지난해 각각 미국 최대 식료품 배달업체인 인스타카트와 페이스북을 운영하는 메타에 인수됐다. 토닉에이아이(Tonic.ai, 2018년 설립)와 그레텔랩스(Gretel Labs, 2019년)도 각각 4500만 달러, 6770만 달러의 시리즈B 투자를 유치했다.

글로벌 시장조사기관 가트너는 합성데이터가 AI에 사용되는 데이터의 주요 형태가 될 것이며, 앞으로 합성데이터를 사용하지 않고 고품질의 고부가가치 AI 모델을 만들 수는 없을 것으로 내다봤다.


국내 합성데이터 생성 대표 기업…씨앤에이아이 선도, 나니아랩스·드림투리얼 두각


강남우 나니아랩스 대표가 14일 서울 강남구 코엑스에서 열린 국회수소경제포럼이 주최하고 머니투데이와 코엑스(COEX)가 공동 주관하는 '그린비즈니스위크 2022(GBW 2022)' K-테크 스타트업 왕중왕전에서 IR 발표를 하고 있다. /사진=김휘선 기자 hwijpg@
강남우 나니아랩스 대표가 14일 서울 강남구 코엑스에서 열린 국회수소경제포럼이 주최하고 머니투데이와 코엑스(COEX)가 공동 주관하는 '그린비즈니스위크 2022(GBW 2022)' K-테크 스타트업 왕중왕전에서 IR 발표를 하고 있다. /사진=김휘선 기자 hwijpg@

국내에는 2019년 10월 설립된 씨앤에이아이(CN AI)가 합성데이터 생성 특허를 24개 출원하는 등 해당 시장을 선도적으로 이끌고 있다. NH농협은행이 정규직원으로 채용한 가상의 AI행원에 씨앤에이아이의 기술이 적용됐다. 메디컬 분야에도 진출해 위암 학습데이터를 생성, 진단모델 성능 향상에 사용중이다.

올해는 카이스트에서 교수와 박사과정 학생이 각각 합성데이터 기술로 창업에 나서 주목된다. 글로벌 기업들이 단순히 합성데이터 생성에 집중하는 반면 국내 스타트업은 데이터 케어와 복합 솔루션을 제시하며 한발 더 진화한 기술력을 선보이고 있다는 평가다.

지난 4월에 설립된 나니아랩스는 제조업체를 위한 AI 학습용 3D(3차원) 합성데이터를 자동으로 생성·평가·추천하는 솔루션 '아슬란 GD'를 개발했다. AI가 스스로 설계를 해내는 '노코드(No-code) AI SaaS(서비스형 소프트웨어) 플랫폼도 함께 제공해 인건비와 개발시간을 단축시킬 수 있다. 현대차그룹에서 2억원의 시드투자를 유치한 나니아랩스는 지난 7월부터 현대차, 현대모비스와 R&D 계약을 쳬결하고 프로젝트를 진행 중이다.

강남우 나니아랩스 대표는 "현대모비스의 경우 나니아랩스를 통해 1개월여 걸리던 브레이크 부품의 최적설계 기간을 1분으로 줄이는 성과를 냈다. 또한 AI가 만든 3만여개의 자동차 3D휠 합성데이터를 제공받았다"며 "외산 기업들이 장악하고 있는 랜더링 시장에서 국내 스타트업의 기술력이 얼마나 강력한지 보여주겠다"고 말했다.

회사 설립 한 달도 안된 드림투리얼은 AI 개발 과정에 필요한 합성데이터 생성은 물론 데이터 케어까지 해주는 솔루션 '오토데이터 스위트'를 개발했다. 현실과 유사한 시뮬레이션을 통해 리얼데이터 대신 합성데이터를 추출해 1개 데이터당 120분이 걸리던 라벨링 작업을 1분 내로 끝낼 수 있다. 합성데이터는 별도의 라벨링이 필요치 않아 인건비도 줄일 수 있다.

김명철 드림투리얼 대표는 "AI 기업들이 저희 합성데이터를 사용하면 기존에 가진 실제데이터를 10%만 사용해도 AI의 학습 정확도가 25% 상승한다"면서 "글로벌 기업들은 단지 합성데이터를 빠르게 생산하는데 집중하는 반면 우리는 데이터의 문제점을 분석하고 업데이트하는 등 데이터 케어 부문에 집중해 AI 모델 성능을 향상시킨다"고 설명했다.

디자인과 공학성능을 함께 고려한 최적설계 선택을 돕는 AI 개발/자료제공= 나니아랩스
디자인과 공학성능을 함께 고려한 최적설계 선택을 돕는 AI 개발/자료제공= 나니아랩스

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']



머니투데이 주요뉴스

"강남만 오른 게 아냐" 강북도 집값 들썩…상승세 탄 서울
네이버 메인에서 머니투데이 구독 카카오톡에서 머니투데이 채널 추가

베스트클릭

오늘의 꿀팁

  • 뉴스 속 오늘
  • 더영상
  • 날씨는?
  • 헬스투데이

많이 본 뉴스

부동산 유튜브 정보채널 부릿지
2023 대한민국 사회안전지수

포토 / 영상