머니투데이

속보
VIP
통합검색

"몇살이냐" 입력하니 "춘추는 어떻게"..17개 말투로 AI가 바꿔준다

머니투데이
  • 배한님 기자
  • 카카오톡 공유하기
  • 카카오톡 나에게 전송하기
  • 페이스북
  • 트위터
  • 네이버
  • 카카오스토리
  • 텔레그램
  • 문자
  • 2022.06.27 16:48
  • 글자크기조절
  • 의견 남기기

스마일게이트, 문체 스타일 변환 데이터셋 공개
17개 스타일 멀티턴 대화 학습시킬 수 있어
국내 최초로 공개된 말투 변환 데이터셋

깃허브에 올라온 스마일게이트 AI의 한국어 문체 스타일 변환 데이터셋. /사진=깃허브 갈무리
깃허브에 올라온 스마일게이트 AI의 한국어 문체 스타일 변환 데이터셋. /사진=깃허브 갈무리
다양한 말투의 챗봇을 쉽고 빠르게 개발할 수 있는 AI(인공지능)용 데이터셋이 공개됐다.

27일 업계에 따르면 스마일게이트 AI 센터는 지난 24일 깃허브에 한국어 문체 스타일 변환 'SmileStyle' 데이터셋을 공개했다. 해당 데이터셋은 70~240여 개의 멀티턴 대화를 17개의 서로 다른 스타일로 문체를 변환시킨 데이터다. 총 3만 7000여 개 문장으로 구성됐다. 한 AI 개발 전문가는 "국내 최초로 한국어 문체 스타일 변환 데이터셋이 공개된 것"이라고 설명했다.

해당 데이터셋을 이용하면 하나의 문장을 총 17가지 스타일로 자동 변환할 수 있다. 예를 들어 "몇 살입니까?"라는 문장에 존댓말 스타일을 적용하면 "나이가 어떻게 되시는데요", 연장자 스타일은 "거 나이가 어떻게 되나?", 사극체(왕)는 "춘추가 어떻게 되는가?"가 된다.

17개 스타일에는 △존댓말 △반말 △로봇 △연장자 △챗봇 △어린아이 △이모티콘이 붙은 반말 △외향적 △극존칭 △할아버지 △욕쟁이 할머니 △중2병 △사극체(왕) △특정 어미 부착 △사극체(선비) △소심 △번역기 등이 있다.

스마일게이트 한국어 문체 변환 데이터셋 일부. /사진=깃허브 갈무리
스마일게이트 한국어 문체 변환 데이터셋 일부. /사진=깃허브 갈무리

문체 스타일 변환 데이터셋을 이용하면 다양한 말투를 구사하는 AI(인공지능) 챗봇을 단기간에 개발할 수 있게 된다. 기존에는 반말이나 어린아이, 욕쟁이 할머니 등 챗봇이 서로 다른 말투를 구사하게 하려면 각 문장을 일일이 집어넣거나 녹음해야 해 시간이 오래 걸렸다. 하지만, 이 같은 데이터셋으로 AI 챗봇을 학습시키면 챗봇 스스로 설정에 맞는 말투의 다양한 대답을 자동으로 내놓을 수 있다. 스마일게이트 AI센터는 해당 데이터셋이 연습용 데이터셋인 '토이 데이터셋'으로 오탈자와 스타일 변환 오류를 내포하고 있다고 설명하지만, 제보 등으로 정확도가 높아지면 챗봇의 말투 구사력도 높아질 전망이다.

한편, 스마일게이트는 건강한 챗봇 개발 문화를 만들기 위해 다양한 데이터셋을 구축·공유하고 있다. 지난해 혐오 발언으로 논란이 된 AI 챗봇 '이루다' 사태를 보며, 자연어 처리 연구자들이 AI를 안전하게 활용할 밑거름이 되고 싶다고 생각한 것이다. 스마일게이트 AI는 지난 1월에는 사회과학자들과 악플 및 혐오 발언을 감지하는 데이터셋을 깃허브에 공개하기도 했다.



머니투데이 주요뉴스

만0세 月70만원·만1세 月35만원 '부모급여' 생긴다…소급 적용은?

네이버 메인에서 머니투데이 구독 카카오톡에서 머니투데이 채널 추가

베스트클릭

오늘의 꿀팁

  • 날씨
  • 건강쏙쏙

많이 본 뉴스

부동산 유튜브 정보채널 부릿지
제 1회 MT골프리더 최고위 과정 모집_220530_220613
사회안전지수

포토 / 영상

머니투데이 SERVICE