이미지만 보고 답변·검색 척척… AI, ‘멀티모달’ 달고 진화

세계일보

국내외 서비스 업그레이드 가속

가구·신발 올리면 유사 상품 목록 쫙
장소 찾아주고 음식 영양성분 안내
텍스트 넘어서 이미지 분석해 대화
네이버·카카오 검색엔진·챗봇에 활용

GPT-4V, 인간 얼굴 표정까지 읽어내
구글, 동영상·코드·수학 인식해 처리
갤럭시S24 ‘서치 투 서클’에 탑재돼

#1. 최신 스마트폰 갤럭시S24에는 ‘서치 투 서클’ 기능이 탑재됐다. 인터넷 어느 화면에서나 홈 버튼을 2∼3초 누르고 해당 기능을 활성화시킨 뒤 동그라미를 그리면 인공지능(AI)이 곧바로 정보를 알려준다. 인터넷이나 영상에서 본 신발이나 장소 등을 찾는 데 유용하다. 이미지를 인식하는 구글의 멀티모달 AI 제미나이 프로를 기반으로 구동된다.

#2. AI 스타트업 업스테이지가 만든 카카오톡 채널 ‘AskUp’은 음식 사진을 올리면 영양정보를 제공한다. 떡볶이 사진을 보여주자 ‘떡볶음(떡, 달걀, 고추장 등) 325㎉, 탄수화물 47g, 단백질 11g, 지방 10g’이라고 알려줬다.

챗GPT의 등장 이후 사람들은 AI와 대화할 수 있게 됐다. 텍스트를 입력하면 그에 맞는 문장을 생성한다. AI는 여기에서 한발 더 나아가 이미지나 음성을 이해하고 답하는 멀티모달 AI로 진화하고 있다. 국내외 정보통신기술(ICT) 기업들이 새로운 서비스를 고민하면서 멀티모달 AI 활용은 더 다양해질 전망이다.

4일 업계에 따르면 멀티모달이란 텍스트뿐 아니라 이미지, 음성, 영상, 제스처 등 여러 정보를 이해하고 처리할 수 있는 AI를 말한다. 사람은 시각과 청각, 촉각, 미각 등 여러 정보를 종합해 결론을 도출하는데, AI도 비슷해지는 셈이다. 멀티모달대규모언어모델(MLLM)이나 대규모멀티모달모델(LMM)이라는 용어로 쓰인다.

멀티모달은 AI 가상 비서, 의료, 쇼핑, 교육 및 학습 보조 도구, 자율주행 등 다양한 영역에서 활용될 수 있다. 업계 관계자는 “기존에도 멀티모달 AI가 있었지만, 최근에는 챗GPT와 같은 거대언어모델(LLM)과 결합하면서 더 많은 일을 할 수 있게 됐다”고 설명했다.

국내에서는 네이버와 카카오, LG 등이 멀티모달 AI를 선보이고 있다.

네이버는 멀티모달 검색 엔진 ‘옴니서치’를 보유하고 있다. 옴니서치는 텍스트와 이미지 등 각기 다른 입력을 조합해 이해한 뒤 검색 결과를 도출한다. 현재 네이버 스마트렌즈에 적용돼 있다. 스마트렌즈로 궁금한 사물을 촬영한 뒤 ‘검색어 추가’를 통해 텍스트를 입력하면 사용자가 원하는 보다 정확한 정보를 얻을 수 있다. 특히 쇼핑 검색 영역에서는 가구, 인테리어 카테고리 내에 1억4000여개 상품을 검색할 수 있다.

네이버의 AI 챗봇 ‘클로바X’에도 지난해 12월 멀티모달이 일부 추가됐다. ‘이미지 편집’ 기능으로, 이미지를 올리고 요청사항을 텍스트로 입력하면 변경된다. 예를 들어 풀밭에 있는 강아지 이미지를 올린 뒤 대화창에 ‘강아지를 토끼로 바꿔줘’라고 하면 이미지가 달라진다. 현재 일부 사용자들을 대상으로 제한적으로 제공하고 있지만, 기능 고도화와 함께 사용자를 계속 확대할 예정이다. 네이버는 음성 등 다른 기능도 추가할 계획이다.

카카오는 최근 MLLM ‘허니비’를 오픈소스로 공개했다. 허니비는 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있다. 눈 위에 개와 고양이가 있는 이미지에 대해 “두 동물의 대화를 써줘”라고 입력하면 허니비는 “이미지에서 한 고양이가 눈 속에 누워 있는 개의 등에 앉아 있습니다. 고양이: 냐옹~ 덩치 큰 친구야. 태워줘서 고마워 / 강아지: 왈왈~ 천만에, 내 친구. 네가 내 등에 있어서 너무 좋아”라는 답을 생성해낸다.

LG의 초거대 AI ‘엑사원 2.0’도 멀티모달 모델이다. 특허와 논문 등 약 4500만건의 전문 문헌과 3억5000만장의 이미지를 학습해 언어와 이미지 양방향 생성이 가능하다.

SK텔레콤의 초거대 AI 서비스 에이닷(A.)에도 사진을 보여주며 대화를 이어갈 수 있는 멀티모달 기술이 적용됐다.

해외에서는 오픈AI가 멀티모달 모델에서도 앞서는 모습이다. 지난해 3월 멀티모달 AI 초기 버전인 GPT-4를 공개한 데 이어, 같은 해 9월 업그레이드된 GPT-4V(비전)를 발표했다. GPT-4가 요리 이미지를 업로드하면 조리법을 생성하고, 식재료를 분석하는 수준이었다면 GPT-4V는 이해도가 더 높다. 오픈AI의 보고서를 보면 GPT-4V에 김밥 만드는 사진을 무질서하게 제시한 뒤 순서대로 정렬하라고 명령하면 정확하게 답을 내놓는다. 다양한 얼굴 사진에 나타난 화남, 놀람, 실망 등 감정도 읽어낸다.

구글 제미나이는 텍스트, 동영상, 이미지, 코드, 수학 등 다양한 미디어의 입력을 한 번에 처리할 수 있다. 현재 구글 AI 챗봇 ‘바드’에서 제미나이 기능을 맛볼 수 있다. 기자가 바드에 해변에 앉아 있는 골든 리트리버 사진을 첨부한 뒤 “이미지를 바탕으로 짧은 동화를 써줘”라고 입력하자 바다에서 살길 바라던 리트리버가 결국 그렇게 됐다는 내용으로 ‘꿈은 이루어질 수 있으니 꿈을 잃지 말라’는 교훈을 담은 이야기를 척척 만들어냈다.

이밖에 애플은 멀티모달 LLM ‘페렛’을 오픈소스 형태로 공개했고, 아마존웹서비스(AWS)는 자체개발 LLM ‘타이탄’의 멀티모달 버전을, 메타는 멀티모달 이미지 생성AI 카멜레온을 선보였다.

이진경 기자 ljin@segye.com

세계일보

스포츠

이미지만 보고 답변·검색 척척… AI, ‘멀티모달’ 달고 진화

오피니언

HOT뉴스

포토