이코노믹데일리 - 정확한 뉴스와 깊이 있는 분석
금융
산업
생활경제
IT
건설
피플
국제
이슈
문화
딥인사이트
검색
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
2026.01.09 금요일
흐림
서울 4˚C
흐림
부산 1˚C
맑음
대구 -1˚C
흐림
인천 7˚C
흐림
광주 1˚C
흐림
대전 4˚C
흐림
울산 2˚C
흐림
강릉 4˚C
흐림
제주 8˚C
검색
검색 버튼
검색
'그록 4.1'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
2
건
韓 '소버린 AI', 수능 수학 풀게 했더니… 해외 모델에 완패
[이코노믹데일리] 정부가 주도하는 '국가대표 AI' 프로젝트 참여사들의 대형언어모델(LLM)이 수학 문제 해결 능력에서 해외 경쟁 모델에 크게 뒤처지는 것으로 나타났다. 파이썬 도구를 활용하는 등 보정 작업을 거쳤음에도 해외 빅테크 기업들의 기술 격차를 좁히지 못했다는 분석이다. 15일 김종락 서강대 수학과 교수 연구팀은 국내 5개 소버린 AI 모델과 해외 5개 모델을 대상으로 수능 수학 및 논술 문제를 풀게 한 결과 이 같은 격차가 확인됐다고 밝혔다. 연구팀은 수능 고난도 문항과 국내외 대학 입시 문제 등 총 50개 문항을 선정해 테스트를 진행했다. 비교 대상이 된 국내 모델은 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 '라마 바르코 8B 인스트럭트' 등이다. 해외 모델은 오픈AI의 'GPT-5.1', 구글 '제미나이 3 프로', 앤스로픽 '클로드 오퍼스 4.5' 등이 포함됐다. 평가 결과 해외 모델들은 76~92점대의 높은 정답률을 기록한 반면 국내 모델은 대부분 20점대에 머물렀다. 해외 모델 중에서는 구글 제미나이 3 프로가 92점으로 1위를 차지했고 클로드 오퍼스 4.5(84%)와 xAI의 그록 4.1(82%)이 뒤를 이었다. 국내 모델 중에서는 업스테이지의 솔라 프로-2가 58점으로 가장 선전했지만 나머지 모델들은 20점대 초반에 그쳤고 엔씨소프트의 경량 모델은 2점에 불과했다. 연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워 파이썬을 연산 도구로 활용하도록 설계했음에도 성적이 저조했다고 설명했다. 보다 심화된 난이도의 자체 개발 문제 세트 '엔트로피매스' 평가에서도 결과는 비슷했다. 해외 모델은 80~90점대의 고득점을 유지했으나 국내 모델은 7~53점대로 편차가 컸다. 3회 시도 기회를 부여하는 방식에서도 해외 모델은 만점이나 90점대를 기록한 반면 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점에 그쳤다. 김종락 교수는 "현재 공개된 버전 기준으로 국내 모델의 수준이 글로벌 프런티어 모델보다 뒤처짐을 확인했다"며 "각 팀이 개발 중인 차세대 국가대표 AI 모델이 공개되면 다시 성능을 검증할 계획"이라고 말했다.
2025-12-15 10:39:09
중국 '키미-K2' 도발에 美 빅테크 총반격…GPT-5.1·제미나이3 잇따라 출격
[이코노믹데일리] 중국의 AI 스타트업 문샷AI가 쏘아 올린 '키미-K2-씽킹'이 전 세계 AI 업계를 강타하며 제2의 '딥시크 모먼트'를 재현하고 있다. 중국의 최신 모델이 벤치마크에서 미국의 선두 주자들을 압도하자 오픈AI와 구글, xAI 등 미국 빅테크들이 일제히 차세대 모델을 쏟아내며 진화에 나서는 등 미·중 AI 기술 패권 전쟁이 최고조로 치닫고 있다. 20일 업계에 따르면 이번 격전의 방아쇠는 지난 6일 문샷AI가 공개한 오픈소스 추론 모델 '키미-K2-씽킹(Kimi-K2-Thinking)'이 당겼다. 이 모델은 특정 분야에서 인간 전문가 수준을 평가하는 HLE(Human Level Evaluation) 테스트에서 44.9점을 기록하며 오픈AI의 'GPT-5'(41.7점)와 앤트로픽의 '클로드 소넷 4.5'(32점)를 제치고 1위에 오르는 이변을 연출했다. 웹 검색 능력을 평가하는 '브라우즈콤프'에서도 60.2점을 받아 GPT-5(54.9점)를 따돌렸다. 미국 빅테크들은 즉각적인 반격에 나섰다. 오픈AI는 키미-K2 출시 일주일 만인 13일 수학과 코딩 성능을 대폭 강화한 'GPT-5.1'을 공개하며 맞불을 놨다. 이어 일론 머스크의 xAI가 17일 심층 사고 기능을 탑재한 '그록 4.1'을 내놓으며 잠시 벤치마크 상위권을 탈환했으나 곧바로 구글이 차세대 모델 '제미나이3(Gemini 3)'를 출시하며 판을 다시 뒤집었다. 제미나이3는 HLE 벤치마크에서 37.4점을 기록, GPT-5.1과 클로드 소넷 4.5를 앞서며 현존 최고 성능임을 과시했다. 이번 사태가 '딥시크 모먼트'로 불리는 이유는 단순히 성능 때문만이 아니다. 중국 AI 모델들이 보여주는 압도적인 '비용 효율성'이 미국 빅테크들에 실질적인 공포감을 주고 있기 때문이다. CNBC 등 외신에 따르면 문샷AI의 모델 훈련 비용은 약 460만 달러(약 67억원) 수준으로 추정된다. 이는 수억 달러를 쏟아부어야 하는 미국 모델들에 비해 파괴적인 가격 경쟁력을 갖춘 것이다. 실제로 또 다른 중국 AI 기업 딥시크는 18일(현지시간) 학술지 네이처에 게재한 논문을 통해 자사 모델 'R1'의 훈련 비용이 불과 29만 4000달러(약 4억원)였다고 밝혔다. 이는 오픈AI가 2023년 공개한 기초 모델 훈련 비용(1억달러 이상)의 0.3% 수준에 불과하다. 중국이 저렴한 비용으로 미국 최상위 모델에 근접하거나 능가하는 성능을 뽑아내면서 '자본력'으로 기술 격차를 유지해 온 미국의 우위가 흔들리고 있다는 분석이 나온다. 미·중 간의 기술 격차 축소는 수치로도 증명된다. 스탠퍼드대 인간중심AI연구소(HAI) 보고서에 따르면 2024년 1월 103점에 달했던 미·중 최상위 모델 간 성능 격차는 올해 2월 23점까지 좁혀졌다. MMLU(대규모 다중 작업 언어 이해) 벤치마크 격차는 2023년 20%포인트에서 2024년 말 0.3%포인트로 사실상 사라졌다. 업계 관계자는 "중국 모델들이 오픈소스와 효율성을 무기로 미국의 턱밑까지 추격했다"며 "미국 빅테크들이 성능뿐만 아니라 비용 구조 혁신 없이는 주도권을 장담하기 어려운 국면에 진입했다"고 진단했다.
2025-11-20 08:24:37
처음
이전
1
다음
끝
많이 본 뉴스
1
인터넷신문협회, "뉴스 저작권, AI 데이터로 진화"...비큐AI와 'RDP 그룹' 출범
2
[CES 2026] '피지컬 AI' 전쟁터로 변하다... 로봇이 묻는다 "돈 벌어줄까"
3
[2026 ED 신년기획] LG엔솔·삼성SDI·SK온, 합작에서 단독 체제로...배터리 생산 전략 대전환
4
주담대 금리, 6%대로…한달 원리금 100만원 증가
5
[2026 ED 신년기획] 포스코퓨처엠·에코프로, NCM서 LFP 전환..."ESS 시장 공략 본격화"
6
공사만으로는 한계…건설업계, 시공 경쟁 넘어 '기술·서비스 경쟁' 시대로
7
제조업 넘어 게임까지…크래프톤, 대통령 방중 경제사절단 합류
8
[CES 2026] 인텔·삼성·SK, AI 반도체 경쟁 본격화
영상
Youtube 바로가기
오피니언
[데스크칼럼] 시도그룹 권혁 회장, '한국의 오나시스'라는 비교가 다시 나오는 이유