검색결과 총 5건
-
-
카카오, AI '카나나' 핵심 기술 나눔… "K-AI 생태계 함께 키운다"
[이코노믹데일리] 카카오가 자체 개발 인공지능(AI) 언어모델 ‘카나나’의 핵심 모델들을 오픈소스로 공개하며 국내 AI 생태계 확장과 기술 접근성 강화에 나섰다. 카카오는 23일 자체 개발 언어모델 ‘카나나’ 라인업 가운데 8B(80억 매개변수)와 2.1B 크기의 모델을 오픈소스 공유 플랫폼 허깅페이스에 공개했다고 밝혔다. 이번에 공개된 모델은 △Kanana-1.5-8b-base △Kanana-1.5-8b-instruct △Kanana-1.5-2.1b-base △Kanana-1.5-2.1b-instruct 총 4종이다. 아파치 2.0 라이선스를 적용해 누구나 자유롭게 수정하고 상업적으로도 활용할 수 있다. 이 모델들은 지난 2월 말 공개한 버전보다 성능이 한층 향상됐다. 특히 목표 설정, 계획 수립, 도구 사용 등 자율적이고 능동적인 작업을 수행하는 에이전틱 AI(Agentic AI) 구현을 위한 기능 강화에 중점을 뒀다. 카카오에 따르면 글로벌 모델 대비 뛰어난 한국어 성능을 유지하면서 코딩과 수학 문제 해결, 함수 호출(Function Calling) 능력에서 이전 대비 평균 1.5배의 성능 향상을 기록해 오픈소스 최고 기술 수준(SOTA)의 유의미한 성능을 달성했다. 또한 긴 문맥에 대한 이해도를 높이고 답변을 간결하게 최적화해 사용성을 개선했다. 기존보다 더 긴 텍스트 입력에 대해 안정적인 처리가 가능하며 정확도와 응답 길이를 최적화한 답변을 통해 서비스 환경에서 사용자의 체감 성능을 향상시켰다고 회사 측은 설명했다. 카카오는 현재 더욱 긴 입력 처리, 보다 정교화된 추론, 구조적인 효율성 등 다수 영역에서 진화된 ‘카나나2’ 모델 개발도 진행 중이다. 카카오는 이번 오픈소스 공개를 통해 국내 거대언어모델(LLM) 생태계 활성화를 위한 시도와 기여를 꾸준히 이어갈 계획이다. 특히 AI 연구자와 개발자는 물론 기업이 목적에 맞게 모델을 자유롭게 튜닝하고 활용할 수 있는 상업 라이선스를 적용해 기술 경쟁력을 확보함과 동시에 협력 기반의 AI 생태계를 구축해 나간다는 방침이다. 김병학 카카오 카나나 성과리더는 “이번 오픈소스 공개를 통해 AI 기술을 통한 성장과 경쟁을 함께하는 환경을 만들고, 이러한 생태계 내에서 기술을 발전시킬 수 있는 계기를 꾸준히 마련해가고자 한다”며 “인공지능 모델 성능의 고도화는 물론 오픈소스의 본질적인 가치를 함께 추구해 갈 것”이라고 말했다. 카카오는 지난해 자체 개발 AI 모델 카나나의 라인업을 공개한 이후 공식 테크 블로그 등을 통해 언어모델, 멀티모달 언어모델, 비주얼 생성모델 등의 성능과 개발기를 꾸준히 공개해왔다. 지난 2월에는 ‘Kanana Nano 2.1B’ 모델을 오픈소스로 허깅페이스에 처음 배포했으며 최근에는 국내 최초로 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘Kanana-o’의 성능을 공개하기도 했다. 카카오의 이러한 적극적인 오픈소스 정책은 국내 AI 기술 발전과 다양한 산업 분야로의 AI 확산을 촉진할 것으로 기대된다.
2025-05-23 16:22:38
-
알리바바 클라우드, 엣지 기기용 멀티모달 AI 'Qwen2.5-Omni-7B' 공개
[이코노믹데일리] 알리바바 그룹의 디지털 기술 및 인텔리전스 핵심 부문인 알리바바 클라우드가 최신 멀티모달 인공지능(AI) 모델 'Qwen2.5-Omni-7B'를 31일 새롭게 선보였다. Qwen2.5-Omni-7B 모델은 텍스트, 이미지, 음성, 영상 등 여러 유형의 입력 데이터를 동시에 이해하고 처리할 수 있는 엔드투엔드(end-to-end) 방식으로 개발되었다. 사용자의 다양한 입력에 대해 실시간 텍스트 응답은 물론, 자연스러운 음성 답변까지 생성 가능하다. 특히 70억 개(7B)의 상대적으로 적은 파라미터로 구성된 경량 모델임에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 구현한 점이 특징이다. 이러한 컴팩트한 설계와 고성능의 조합은 지능형 음성 애플리케이션과 같이 실제 환경에서 민첩하고 비용 효율적으로 작동해야 하는 AI 에이전트 개발에 유리하다. 예를 들어 시각 장애인이 주변 환경을 실시간 음성 설명으로 인지하도록 돕거나 동영상 속 재료를 분석해 요리법을 단계별로 안내하는 등의 서비스 구현이 가능하다. 알리바바 클라우드는 Qwen2.5-Omni-7B 모델을 오픈소스 커뮤니티에 공개했다. 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 누구나 접근할 수 있으며 자체 플랫폼인 큐원 챗(Qwen Chat)과 모델스코프(ModelScope)에서도 이용 가능하다. 이번 모델의 우수한 성능은 혁신적인 아키텍처 설계에 기반한다. 텍스트 생성(Thinker)과 음성 합성(Talker) 기능을 분리하여 모달 간 간섭을 최소화한 'Thinker-Talker 아키텍처', 비디오와 오디오 입력을 효과적으로 동기화하여 일관된 콘텐츠 생성을 돕는 'TMRoPE' 위치 임베딩 기술 그리고 끊김 없는 음성 상호작용을 위해 지연 시간을 줄인 '블록와이즈 스트리밍 처리' 기술 등이 적용되었다. Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성 등 다양한 조합의 방대한 데이터셋으로 사전 학습되어 여러 종류의 작업에서 강력한 성능을 발휘한다. 특히 시각, 청각, 텍스트 정보를 복합적으로 이해하고 추론하는 능력을 평가하는 OmniBench 벤치마크 등 멀티모달 처리 능력이 중요한 평가에서도 최고 수준의 성능을 기록했다. 또한 인컨텍스트 러닝(ICL)과 강화학습(RL)을 통해 문맥에 맞는 음성 이해 및 생성 능력을 향상시키고 음성 응답 시 발음 오류나 부자연스러운 끊김 현상을 크게 줄여 안정성을 높였다. 한편 알리바바 클라우드는 지난해 9월 Qwen2.5 시리즈를 처음 선보인 이후 올해 1월에는 'Qwen2.5-Max'를 출시하여 챗봇 아레나에서 7위를 기록하는 등 우수한 성능을 입증한 바 있다. 시각 이해 모델 'Qwen2.5-VL', 장문 처리 모델 'Qwen2.5-1M' 등도 오픈소스로 공개하며 Qwen 모델 라인업을 지속적으로 확장하고 있다.
2025-03-31 15:54:50
-
-