LG '엑사원 2.0' 살펴보니…챗GPT·바드가 놓친 '신뢰성' 잡았다

LG AI연구원, 초거대 AI '엑사원 2.0' 공개

학습 과정서 '저작권·개인정보' 문제 배제

텍스트·이미지 함께 활용, 최적 결과 생성

유니버스·디스커버리·아틀리에 3종 시연

배경훈 LG AI연구원장이 19일 서울 강서구 LG사이언스파크 컨버전스홀에서 열린 LG AI 토크콘서트 2023에 나와 초거대 인공지능AI 엑사원 20을 소개하고 있다사진성상영 기자 — 배경훈 LG AI연구원장이 19일 서울 강서구 LG사이언스파크 컨버전스홀에서 열린 'LG AI 토크콘서트 2023'에 나와 초거대 인공지능(AI) '엑사원 2.0'을 소개하고 있다.[사진=성상영 기자]

[이코노믹데일리] LG가 생성형 인공지능(AI) 일종인 '챗GPT'와 '바드'의 대항마로 개발한 '엑사원 2.0'이 베일을 벗었다. 엑사원 2.0은 한국어와 영어를 동시에 이해하고 답변할 뿐 아니라 텍스트와 이미지를 함께 인식·이해해 결과물까지 내놓는 멀티모달(Multimodal) AI로써 높은 전문성과 신뢰도를 요구하는 산업·연구 현장에 적용될 전망이다.

LG AI연구원은 19일 오전 서울 강서구 마곡 LG사이언스파크 컨버전스홀에서 'LG AI 토크콘서트 2023'을 열고 엑사원 2.0을 공개했다. 2021년 12월 처음 선보인 엑사원을 개량해 약 1년 7개월 만에 새 버전을 내놨다.

◆챗GPT·바드와 달리 '거짓말' 못하는 엑사원 2.0

엑사원 2.0이 현재 가장 잘 알려진 생성형 AI인 미국 오픈AI의 챗GPT 또는 구글의 바드와 다른 점은 전문성과 신뢰성이다. 이번에 공개된 엑사원 2.0은 기업·연구소 등과 파트너십을 통해 특허와 논문을 비롯한 전문 문헌 4500만건, 이미지 3억5000만장 이상을 학습했다. 온라인에서 무차별적으로 정보를 수집해 학습하는 다른 생성형 AI와 비교해 거짓 정보(hallucination·환각)를 만들어낼 가능성을 차단했다.

배경훈 LG AI연구원장은 이날 "산업 현장에서 현재 생성형 AI에 만족하지 못한 주된 이유는 결과의 신뢰성이 높지 않고 학습 과정에서 비용이 발생할 뿐 아니라 기업 데이터 유출에 대한 우려가 있기 때문"이라며 "엑사원 2.0은 LG 계열사, 파트너사의 전문 데이터를 확보하고 모든 저작권과 개인정보 유출 문제를 해결하며 학습했다"고 강조했다.

바꿔 말하면 AI를 개발하는 것 자체에 목표를 둔 다른 생성형 AI와 달리 엑사원 2.0은 제조, 연구개발(R&D), 마케팅 등 산업 현장에서 활용 가능한 플랫폼 개발이라는 목적으로 만들어졌다. 자연스레 다른 AI가 간과한 학습 데이터의 근거는 무엇인지, 저작권 분쟁 여지는 없는지 같은 '윤리 문제'를 해결하는 과정이 함께 이뤄졌다.

배경훈 LG AI연구원장세 번째이 19일 열린 LG AI 토크콘서트 2023에서 기자들의 질문에 답하고 있다사진성상영 기자 — 배경훈 LG AI연구원장(세 번째)이 19일 열린 'LG AI 토크콘서트 2023'에서 기자들의 질문에 답하고 있다.[사진=성상영 기자]

실제 이문태 LG AI연구원 어드밴스드ML랩장이 시연한 엑사원 2.0 기반 전문가용 대화형 AI 플랫폼 '엑사원 유니버스'는 기본적인 화면 구성은 챗GPT와 같았지만 한 가지가 더 있었다. 챗GPT가 질문을 입력하는 곳과 답변이 표시되는 곳, 질문한 기록으로만 이뤄졌다면 엑사원 유니버스는 화면 오른쪽에 답변의 근거·출처를 함께 보여줬다. 근거나 출처가 불명확한 정보는 처음부터 배제된다.

또한 다른 대화형 AI와 달리 사전에 학습한 데이터 이외에도 출처마다 최신 전문 자료를 포함해 추론하고 답변을 생성한다. 엑사원 유니버스는 각 분야 전문가들이 믿고 정보를 탐색할 만큼 전문성과 신뢰성을 높이는 데 초점을 맞췄다.

◆R&D·마케팅 등 산업 현장 활용에 초점…"이미 상용화"

엑사원 2.0으로 탄생한 플랫폼 중에는 소재·물질·신약 개발에 활용할 수 있는 '엑사원 디스커버리'도 있었다. 엑사원 디스커버리는 인간 과학자가 기계적으로 반복해야 하는 무수한 시행착오를 가상 실험을 통해 줄여주는 도구다. 이 플랫폼은 먼저 기존 연구 데이터를 취합한 뒤 개발해야 할 물질의 특성을 파악한다. 그리고 후보 물질을 찾아내 가상으로 합성한 뒤 해당 물질이 목표에 얼마나 부합하는지를 분자 구조와 예상 수치로 보여준다.

한세희 머티리얼즈 인텔리전스랩장은 "통상 신소재 개발까지 '가설 수립→실험→실패'에 이르는 과정을 1만회 이상 반복해야 했지만 엑사원 디스커버리를 활용하면 수십회까지 줄일 수 있다"고 설명했다.

이날 토크콘서트에서는 인간의 창작 활동을 보조하는 플랫폼인 '엑사원 아틀리에'도 시연됐다. 엑사원 아틀리에는 사진이나 그림을 분석해 문장으로 설명하거나 그 반대도 가능하다. 이미지에 담긴 특징적인 요소를 핵심 키워드로 파악해 인간의 언어 구조에 맞게 조합하는 식이다

LG AI연구원이 개발한 초거대 인공지능AI 엑사원 20 기반 멀티모달 플랫폼 엑사원 아틀리에가 LG전자 공기청정기 제품 사진으로 광고 문구를 만들어낸 모습사진성상영 기자 — LG AI연구원이 개발한 초거대 인공지능(AI) '엑사원 2.0' 기반 멀티모달 플랫폼 '엑사원 아틀리에'가 LG전자 공기청정기 제품 사진으로 광고 문구를 만들어낸 모습[사진=성상영 기자]

시연에서 LG전자 공기청정기 'LG 퓨리케어' 사진을 넣고 "광고를 위한 마케팅 문구를 만들어 줘"라고 입력했더니 "LG 퓨리케어로 공기의 힘을 믿으세요! 생활 공간을 건강하고 쾌적하게 만들어 드립니다", "실내 환경에 숨 쉬는 자유를 선사하는 LG 퓨리케어로 깨끗한 하루를 시작하세요" 같은 문장을 표출했다.

이처럼 다양한 플랫폼으로 응용할 수 있는 이유는 엑사원 2.0이 멀티모달 AI이기 때문이다. 일반적인 생성형 AI가 텍스트 또는 이미지를 개별적으로 학습하고 처리하는 데 반해 멀티모달 AI는 여러 요소를 연계해 학습하고 추론한다. 한국어와 영어를 자유롭게 오가며 질의·응답이 가능한 이중 언어(Bilingual) 모델이라는 점도 차별화된 요소다.

LG AI연구원은 엑사원 2.0을 개발하며 최적화에도 힘썼다. 같은 성능을 내는 기존 언어 모델과 비교해 추론 처리 시간은 25%, 메모리 사용량은 70% 줄여 비용을 약 78% 절감했다. 언어·이미지 양방향 모델은 이전보다 메모리 사용량이 2배로 늘었지만 추론 처리 시간을 83% 단축해 66%에 이르는 비용을 절약했다.

엑사원 2.0 기반 플랫폼은 B2B(기업 간 거래) 시장에서 우선 상용화될 예정이다. 배경훈 원장은 "LG생활건강, LG전자에서 일부 상용화했고 계열사를 중심으로 산업 현장에서 사례를 만드는 데 집중할 것"이라며 "엑사원 유니버스는 대부분 연구자가 쓸 수 있도록 공개하고 아틀리에는 일부 B2C(기업-소비자 간 거래)로 접근할 수도 있다"고 밝혔다.