이코노믹데일리 - 정확한 뉴스와 깊이 있는 분석
금융
산업
생활경제
IT
건설
피플
국제
이슈
문화
딥인사이트
검색
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
2026.01.09 금요일
흐림
서울 4˚C
흐림
부산 1˚C
맑음
대구 -1˚C
흐림
인천 7˚C
흐림
광주 1˚C
흐림
대전 4˚C
흐림
울산 2˚C
흐림
강릉 4˚C
흐림
제주 8˚C
검색
검색 버튼
검색
'GPT-5.1'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
4
건
韓 '소버린 AI', 수능 수학 풀게 했더니… 해외 모델에 완패
[이코노믹데일리] 정부가 주도하는 '국가대표 AI' 프로젝트 참여사들의 대형언어모델(LLM)이 수학 문제 해결 능력에서 해외 경쟁 모델에 크게 뒤처지는 것으로 나타났다. 파이썬 도구를 활용하는 등 보정 작업을 거쳤음에도 해외 빅테크 기업들의 기술 격차를 좁히지 못했다는 분석이다. 15일 김종락 서강대 수학과 교수 연구팀은 국내 5개 소버린 AI 모델과 해외 5개 모델을 대상으로 수능 수학 및 논술 문제를 풀게 한 결과 이 같은 격차가 확인됐다고 밝혔다. 연구팀은 수능 고난도 문항과 국내외 대학 입시 문제 등 총 50개 문항을 선정해 테스트를 진행했다. 비교 대상이 된 국내 모델은 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 '라마 바르코 8B 인스트럭트' 등이다. 해외 모델은 오픈AI의 'GPT-5.1', 구글 '제미나이 3 프로', 앤스로픽 '클로드 오퍼스 4.5' 등이 포함됐다. 평가 결과 해외 모델들은 76~92점대의 높은 정답률을 기록한 반면 국내 모델은 대부분 20점대에 머물렀다. 해외 모델 중에서는 구글 제미나이 3 프로가 92점으로 1위를 차지했고 클로드 오퍼스 4.5(84%)와 xAI의 그록 4.1(82%)이 뒤를 이었다. 국내 모델 중에서는 업스테이지의 솔라 프로-2가 58점으로 가장 선전했지만 나머지 모델들은 20점대 초반에 그쳤고 엔씨소프트의 경량 모델은 2점에 불과했다. 연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워 파이썬을 연산 도구로 활용하도록 설계했음에도 성적이 저조했다고 설명했다. 보다 심화된 난이도의 자체 개발 문제 세트 '엔트로피매스' 평가에서도 결과는 비슷했다. 해외 모델은 80~90점대의 고득점을 유지했으나 국내 모델은 7~53점대로 편차가 컸다. 3회 시도 기회를 부여하는 방식에서도 해외 모델은 만점이나 90점대를 기록한 반면 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점에 그쳤다. 김종락 교수는 "현재 공개된 버전 기준으로 국내 모델의 수준이 글로벌 프런티어 모델보다 뒤처짐을 확인했다"며 "각 팀이 개발 중인 차세대 국가대표 AI 모델이 공개되면 다시 성능을 검증할 계획"이라고 말했다.
2025-12-15 10:39:09
앤트로픽, 최상위 AI '클로드 오퍼스 4.5' 출시
[이코노믹데일리] 오픈AI 출신 연구진이 설립한 AI 스타트업 앤트로픽이 코딩과 추론 능력에서 현존 최고 성능을 입증한 차세대 모델을 공개하며 글로벌 AI 패권 경쟁에 다시 불을 붙였다. 경쟁사인 구글과 오픈AI의 최신 모델을 벤치마크에서 따돌린 것은 물론 이용 가격을 파격적으로 낮추며 시장 점유율 확대를 위한 공격적인 행보에 나섰다. 앤트로픽은 25일(한국시간) 자사의 거대언어모델(LLM) 라인업 중 최상위 모델인 '클로드 오퍼스(Opus) 4.5'를 정식 출시했다고 밝혔다. 이번 모델은 복잡한 추론과 전문 작업에 특화된 하이엔드급으로 코딩과 에이전트 기능, 컴퓨터 활용 능력에서 비약적인 발전을 이뤘다. 가장 주목할 점은 소프트웨어 엔지니어링 능력을 평가하는 'SWE-벤치' 결과다. 오퍼스 4.5는 이 평가에서 80.9%의 점수를 기록하며 구글의 '제미나이 3 프로'(76.2%)와 오픈AI의 공학 특화 모델 'GPT-5.1 코덱스 맥스'(77.9%)를 모두 앞질렀다. 훈련 데이터에 없는 새로운 유형의 문제를 해결하는 능력을 보는 'ARC-AGI-2' 벤치마크에서도 37.6%를 기록, 경쟁사 모델들을 여유 있게 따돌리며 독보적인 문제 해결 능력을 과시했다. 앤트로픽은 성능 향상과 더불어 '가격 파괴' 카드를 꺼내 들었다. 오퍼스 4.5의 API 사용료는 100만 토큰당 입력 5달러, 출력 25달러로 책정됐다. 이는 기존 모델 대비 3분의 1 수준으로 대폭 인하된 가격이다. 앤트로픽 측은 "문제 해결 과정에서 불필요한 탐색이나 중복 추론을 줄여 더 적은 토큰으로 우수한 결과를 도출할 수 있게 됐다"며 효율성 개선이 가격 인하의 배경임을 설명했다. 사용성도 대폭 강화됐다. 오퍼스 4.5는 앤트로픽 자체 앱과 API뿐만 아니라 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드 등 주요 3대 클라우드 플랫폼에서 즉시 사용할 수 있다. 또한, 엑셀이나 크롬 브라우저, 데스크톱 환경 등 실무자가 자주 사용하는 도구와의 연동성을 높여 '일 잘하는 AI'로서의 입지를 굳히겠다는 전략이다. 앤트로픽은 기술 문서인 시스템 카드를 통해 "오퍼스 4.5는 지금까지 선보인 모델 중 가장 견고하게 정렬된 모델"이라며 성능뿐만 아니라 AI 안전성 측면에서도 업계 최고 수준을 달성했음을 강조했다. 업계에서는 이번 앤트로픽의 신제품 출시가 오픈AI와 구글이 주도하던 초거대 AI 경쟁 구도를 다시 한번 흔들 것으로 보고 있다. 특히 압도적인 코딩 성능과 낮아진 비용은 개발자와 기업 고객들에게 매력적인 선택지가 될 전망이다.
2025-11-25 16:17:33
"더 똑똑한 AI는 의미 없다"…오픈AI와 구글, '성능 경쟁' 끝내고 '용도 전쟁' 돌입
[이코노믹데일리] 오픈AI의 'GPT-5.1'과 구글의 '제미나이3(Gemini 3)'가 일주일 간격으로 시장에 쏟아지며 전 세계 AI 업계가 다시금 들썩이고 있다. 두 모델 모두 전작을 뛰어넘는 성능을 보여주고 있지만 과거처럼 '누가 더 똑똑한가'를 가리는 수직적 경쟁은 끝났다는 분석이 지배적이다. 대신 구글은 압도적인 '창의성과 멀티모달'을, 오픈AI는 극한의 '속도와 효율'을 택하며 각자의 생존 영역을 구축하는 '각자도생'의 길로 들어섰다. 구글이 내세운 제미나이3 시리즈의 핵심 무기는 '복합 멀티모달' 능력이다. 텍스트를 넘어 영상, 이미지, 대용량 문서(PDF)를 한 번에 처리하는 능력에서 경쟁사를 압도한다. 구글은 공식 블로그를 통해 인간 전문가 수준을 평가하는 ‘인류의 마지막 시험(Humanity's Last Exam, HLE)’ 벤치마크 결과 최상위 모델인 ‘제미나이3 프로’가 37.5%의 정답률을 기록해 26.5%에 그친 GPT-5.1을 큰 격차로 따돌렸다고 밝혔다. 여기에 100만 토큰 이상의 대규모 문맥 유지력과 안드로이드, 유튜브 등 구글 생태계와의 연동성은 제미나이3만의 강력한 해자(Moat)다. 특히 텍스트 명령만으로 3D 시뮬레이션과 게임 구조를 짜주는 '바이브 코딩(Vibe Coding)'과 4K 해상도 이미지를 생성하는 '나노바나나 프로'는 크리에이터들에게 대체 불가능한 옵션으로 자리 잡고 있다. 미국 테크 매체 톰스가이드가 진행한 비교 실험에서 제미나이3가 창의적 글쓰기, 이미지 분석 등 7개 항목에서 승리한 것도 이러한 특성을 뒷받침한다. 반면 오픈AI의 GPT-5.1은 철저히 '비즈니스 효율'에 초점을 맞췄다. '인스턴트(Instant)'와 '씽킹(Thinking)'으로 이원화된 적응형 추론 모드는 작업 난이도에 따라 리소스를 조절하며 속도와 비용을 최적화한다. 전작(GPT-5) 대비 2~3배 빨라진 속도와 절반으로 줄어든 토큰 비용은 기업 고객들에게 거부할 수 없는 매력이다. 코딩 벤치마크인 SWE-bench Verified에서 76.3%를 기록하며 제미나이3 프로(76.2%)를 근소하게 앞선 점도 실무 개발자들의 지지를 받는 요인이다. 레딧 등 개발자 커뮤니티에서는 "실시간 대화나 API 기반 서비스에선 GPT-5.1이 더 안정적"이라는 평가가 주를 이룬다. 하지만 화려한 성능표 뒤에는 두 기업이 감추고 싶은 '불편한 진실'도 존재한다. 구글 제미나이3의 경우 혁신적인 기능만큼이나 높은 '진입 장벽'이 문제다. 심층 추론 기능인 '딥싱크(DeepThink)'는 대규모 문맥 분석에 탁월하지만 초기 버전에서 간헐적인 추론 오류가 보고되고 있으며 무엇보다 API 단가가 지나치게 높다는 지적을 받는다. 아무리 성능이 좋아도 비용 효율이 떨어지면 대다수 기업이 도입하기 어렵다. '나노바나나 프로' 같은 도구 역시 고사양을 요구해 일반 사용자의 접근성은 떨어진다. 오픈AI의 GPT-5.1 역시 비판에서 자유롭지 않다. '효율'을 강조했지만 이는 역설적으로 기술적 혁신이 정체되었다는 방증이기도 하다. 복잡한 멀티모달 처리나 초장기 문맥 유지력에서 구글에 비해 보수적인 접근을 취하면서 "더 이상 오픈AI가 AI 트렌드를 선도하지 못한다"는 회의론도 고개를 들고 있다. 벤치마크 점수 0.1% 차이로 우위를 주장하는 마케팅 전쟁에 피로감을 호소하는 목소리도 높다. 결국 시장의 선택 기준은 '성능 우열'이 아닌 '목적 적합성'으로 이동하고 있다. 테크크런치는 "더 뛰어난 모델을 찾는 시대는 끝났다. 이제는 어떤 일을 누구에게 맡길지가 핵심"이라고 진단했다. 톰스가이드 역시 “창의적·복합적 사고가 필요하면 제미나이 3, 정밀성과 계산 중심 업무라면 GPT-5.1이 더 적합하다”고 평가했다. 이제 AI 전쟁의 승패는 누가 더 높은 점수를 받느냐가 아니라 누가 더 빨리 사용자의 구체적인 업무 파이프라인에 녹아드느냐에 달려있다. 2025년의 AI 시장은 '절대 강자'가 사라진 자리에 '최적의 도구'만이 살아남는 춘추전국시대로 접어들었다.
2025-11-23 15:07:31
중국 '키미-K2' 도발에 美 빅테크 총반격…GPT-5.1·제미나이3 잇따라 출격
[이코노믹데일리] 중국의 AI 스타트업 문샷AI가 쏘아 올린 '키미-K2-씽킹'이 전 세계 AI 업계를 강타하며 제2의 '딥시크 모먼트'를 재현하고 있다. 중국의 최신 모델이 벤치마크에서 미국의 선두 주자들을 압도하자 오픈AI와 구글, xAI 등 미국 빅테크들이 일제히 차세대 모델을 쏟아내며 진화에 나서는 등 미·중 AI 기술 패권 전쟁이 최고조로 치닫고 있다. 20일 업계에 따르면 이번 격전의 방아쇠는 지난 6일 문샷AI가 공개한 오픈소스 추론 모델 '키미-K2-씽킹(Kimi-K2-Thinking)'이 당겼다. 이 모델은 특정 분야에서 인간 전문가 수준을 평가하는 HLE(Human Level Evaluation) 테스트에서 44.9점을 기록하며 오픈AI의 'GPT-5'(41.7점)와 앤트로픽의 '클로드 소넷 4.5'(32점)를 제치고 1위에 오르는 이변을 연출했다. 웹 검색 능력을 평가하는 '브라우즈콤프'에서도 60.2점을 받아 GPT-5(54.9점)를 따돌렸다. 미국 빅테크들은 즉각적인 반격에 나섰다. 오픈AI는 키미-K2 출시 일주일 만인 13일 수학과 코딩 성능을 대폭 강화한 'GPT-5.1'을 공개하며 맞불을 놨다. 이어 일론 머스크의 xAI가 17일 심층 사고 기능을 탑재한 '그록 4.1'을 내놓으며 잠시 벤치마크 상위권을 탈환했으나 곧바로 구글이 차세대 모델 '제미나이3(Gemini 3)'를 출시하며 판을 다시 뒤집었다. 제미나이3는 HLE 벤치마크에서 37.4점을 기록, GPT-5.1과 클로드 소넷 4.5를 앞서며 현존 최고 성능임을 과시했다. 이번 사태가 '딥시크 모먼트'로 불리는 이유는 단순히 성능 때문만이 아니다. 중국 AI 모델들이 보여주는 압도적인 '비용 효율성'이 미국 빅테크들에 실질적인 공포감을 주고 있기 때문이다. CNBC 등 외신에 따르면 문샷AI의 모델 훈련 비용은 약 460만 달러(약 67억원) 수준으로 추정된다. 이는 수억 달러를 쏟아부어야 하는 미국 모델들에 비해 파괴적인 가격 경쟁력을 갖춘 것이다. 실제로 또 다른 중국 AI 기업 딥시크는 18일(현지시간) 학술지 네이처에 게재한 논문을 통해 자사 모델 'R1'의 훈련 비용이 불과 29만 4000달러(약 4억원)였다고 밝혔다. 이는 오픈AI가 2023년 공개한 기초 모델 훈련 비용(1억달러 이상)의 0.3% 수준에 불과하다. 중국이 저렴한 비용으로 미국 최상위 모델에 근접하거나 능가하는 성능을 뽑아내면서 '자본력'으로 기술 격차를 유지해 온 미국의 우위가 흔들리고 있다는 분석이 나온다. 미·중 간의 기술 격차 축소는 수치로도 증명된다. 스탠퍼드대 인간중심AI연구소(HAI) 보고서에 따르면 2024년 1월 103점에 달했던 미·중 최상위 모델 간 성능 격차는 올해 2월 23점까지 좁혀졌다. MMLU(대규모 다중 작업 언어 이해) 벤치마크 격차는 2023년 20%포인트에서 2024년 말 0.3%포인트로 사실상 사라졌다. 업계 관계자는 "중국 모델들이 오픈소스와 효율성을 무기로 미국의 턱밑까지 추격했다"며 "미국 빅테크들이 성능뿐만 아니라 비용 구조 혁신 없이는 주도권을 장담하기 어려운 국면에 진입했다"고 진단했다.
2025-11-20 08:24:37
처음
이전
1
다음
끝
많이 본 뉴스
1
인터넷신문협회, "뉴스 저작권, AI 데이터로 진화"...비큐AI와 'RDP 그룹' 출범
2
[CES 2026] '피지컬 AI' 전쟁터로 변하다... 로봇이 묻는다 "돈 벌어줄까"
3
[2026 ED 신년기획] LG엔솔·삼성SDI·SK온, 합작에서 단독 체제로...배터리 생산 전략 대전환
4
주담대 금리, 6%대로…한달 원리금 100만원 증가
5
[2026 ED 신년기획] 포스코퓨처엠·에코프로, NCM서 LFP 전환..."ESS 시장 공략 본격화"
6
공사만으로는 한계…건설업계, 시공 경쟁 넘어 '기술·서비스 경쟁' 시대로
7
제조업 넘어 게임까지…크래프톤, 대통령 방중 경제사절단 합류
8
[CES 2026] 인텔·삼성·SK, AI 반도체 경쟁 본격화
영상
Youtube 바로가기
오피니언
[데스크칼럼] 시도그룹 권혁 회장, '한국의 오나시스'라는 비교가 다시 나오는 이유