속보
VIP
통합검색

AI와 대화하며 그림, 영상까지 만든다?..GPT-4.0 어디까지 보여줄까

머니투데이
  • 배한님 기자
  • 카카오톡 공유하기
  • 카카오톡 나에게 전송하기
  • 페이스북
  • 트위터
  • 네이버
  • 텔레그램
  • 문자
  • VIEW 20,072
  • 2023.03.14 05:05
  • 글자크기조절
비주얼 챗GPT 사용 예시 /사진=Microsoft Research Asia 깃허브 게시물
비주얼 챗GPT 사용 예시 /사진=Microsoft Research Asia 깃허브 게시물

오픈AI(인공지능)의 초거대 언어 모델(LLM) GPT-4의 출시가 임박했다는 소식에 IT 업계가 촉각을 곤두세우고 있다. GPT-4부터는 하나의 모델이 자연어부터 이미지·음성 등 다양한 형태의 콘텐츠를 입력·생산할 수 있는 멀티모달(Multimodal) 형태로 관측된다. 멀티모달 초거대 AI모델(MLLM)는 AI 산업의 또 다른 터닝포인트가 될 전망이다.

13일 업계에 따르면 오픈AI는 상반기 내로 자사 초거대 AI 모델 GPT의 다음 시리즈인 GPT-4.0을 공개한다. 오픈AI는 2020년 만든 AI 모델 GPT-3.0을 수정·보완해 2년 만에 GPT-3.5를 선보였다. GPT-3.5는 챗봇 서비스 '챗GPT'로 공개됐다. 지난 10일 MS 독일 법인 최고기술책임자(CTO) 안드레아스 브라운이 GPT-4 출시가 임박했다고 밝히기도 했다. MS는 아직 공식 입장을 내놓지 않았지만, 브라운 CTO의 발언을 정정하지도 않은 상태다.


/사진=AFP
/사진=AFP
GPT-4.0은 멀티모달 형태로 관측된다. 지금까지 언어모델은 GPT, 이미지 모델은 달리(Dall-e2) 등 원하는 결과물에 따라 AI 모델이 달랐는데 이제 한 곳에서 일괄 처리할 수 있다. 브라운 CTO는 GPT-4.0 공개를 금주중 이뤄줄 것이라 예고했는데, 공교롭게도 오픈AI에 투자한 마이크로소프트(MS)가 16일 'AI와 함께하는 일의 미래(Future of Work with AI)' 컨퍼런스를 연다. 행사에는 사티아 나델라 MS 최고경영자(CEO)가 직접 나와 새로운 AI 모델 또는 서비스를 공개할 전망이다.

GPT-4.0전에도 멀티모달 모델은 존재했다. 검색 스타트업 유닷컴의 멀티모달 챗봇 유챗(YouChat)이다. 유챗은 CAL이라는 유닷컴의 초거대 언어 모델을 기반으로 만들어진 검색 챗봇이다. 챗GPT처럼 대화형으로 답변을 전달해준다. 간단한 이미지 생성을 원하면 CAL이 제공하는 서비스인 '유이미지(YouImagine)'를 챗봇에 바로 끌어다 준다. 여기서 달리나 미드저니 등과 유사한 방식으로 프롬프트를 입력해 이미지를 만들 수 있다.

김예은 퓨처플래닝연구소 소장은 유닷컴 사례를 들며 "GPT-4.0은 이렇게 하나의 모델에서 텍스트뿐만 아니라 이미지 등 모든 서비스를 할 수 있다"고 설명했다.

깃허브에 공개된 비주얼 챗GPT 구동 원리. /사진=Microsoft Research Asia의 논문 'Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models'
깃허브에 공개된 비주얼 챗GPT 구동 원리. /사진=Microsoft Research Asia의 논문 'Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models'

업계는 멀티모달 AI 모델이 최근 공개된 '비주얼 챗GPT(Visual chatGPT)'와 유사한 방식이라 본다. 비주얼 챗GPT는 지난 11일 'MS 리서치 아시아'가 깃허브에 공개한 이미지 생성 AI 서비스다. 챗GPT처럼 AI와 대화하며 이미지를 생성·변경할 수 있다. 이미지를 설명하는 텍스트를 추출할 수도 있다.

가령 사용자가 갈색 소파가 있는 거실 이미지를 입력하면 AI는 이를 인식함과 동시에 "수령했다"고 답한다. 사용자가 "이미지 속 소파를 책상으로 바꾸고 그림톤은 수채화처럼 바꿔줘"라고 요구하면 비주얼 챗GPT는 사용자가 원하는 대로 수정해준다. 이때 이미지 속 벽의 색상 등을 물으면 비주얼 챗GPT를 이를 인식해 답해준다. 지금까지 이미지 생성 AI 서비스를 사용하려면 여러 단어를 나열·조합하며 원하는 결과가 나올 때까지 반복해야 했는데, 비주얼 챗GPT처럼 AI가 구체적인 지시를 이해하면 한층 간편하게 이미지를 만들 수 있게 된다. 업계는 GPT-4.0가 더 진화해 이미지뿐만 아니라 영상이나 음성, 동작까지 인식할 수 있을 것으로 본다.

하정우 네이버 AI연구소장은 "비주얼 챗GPT는 MS 본사가 만든 서비스가 아니어서 오픈AI와 큰 관계가 없다. 따라서 GPT-4.0이 어떤 형태일지, 실제 16일에 공개를 할지는 지켜봐야 안다"면서도 "기술적으로는 GPT-3.0만으로도 멀티모달이 불가능하지 않다는 것을 보여줬다"고 설명했다.



머니투데이 주요뉴스

"밸류업 실망" 저PBR주 무섭게 뚝뚝…이 와중에 오른 종목들
네이버 메인에서 머니투데이 구독 카카오톡에서 머니투데이 채널 추가

베스트클릭

오늘의 꿀팁

  • 뉴스 속 오늘
  • 더영상
  • 날씨는?
  • 헬스투데이

많이 본 뉴스

부동산 유튜브 정보채널 부릿지
2023 대한민국 사회안전지수
[연중기획] 인공지능 시대의 생존법, AI 리터러시 키우자

포토 / 영상