이코노믹데일리 - 정확한 뉴스와 깊이 있는 분석
금융
산업
생활경제
IT
건설
피플
국제
이슈
문화
딥인사이트
검색
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
2026.01.11 일요일
맑음
서울 -7˚C
맑음
부산 -2˚C
맑음
대구 -2˚C
맑음
인천 -6˚C
흐림
광주 -3˚C
흐림
대전 -4˚C
맑음
울산 -4˚C
맑음
강릉 -7˚C
흐림
제주 2˚C
검색
검색 버튼
검색
'클로드 오퍼스 4.5'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
2
건
韓 '소버린 AI', 수능 수학 풀게 했더니… 해외 모델에 완패
[이코노믹데일리] 정부가 주도하는 '국가대표 AI' 프로젝트 참여사들의 대형언어모델(LLM)이 수학 문제 해결 능력에서 해외 경쟁 모델에 크게 뒤처지는 것으로 나타났다. 파이썬 도구를 활용하는 등 보정 작업을 거쳤음에도 해외 빅테크 기업들의 기술 격차를 좁히지 못했다는 분석이다. 15일 김종락 서강대 수학과 교수 연구팀은 국내 5개 소버린 AI 모델과 해외 5개 모델을 대상으로 수능 수학 및 논술 문제를 풀게 한 결과 이 같은 격차가 확인됐다고 밝혔다. 연구팀은 수능 고난도 문항과 국내외 대학 입시 문제 등 총 50개 문항을 선정해 테스트를 진행했다. 비교 대상이 된 국내 모델은 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 '라마 바르코 8B 인스트럭트' 등이다. 해외 모델은 오픈AI의 'GPT-5.1', 구글 '제미나이 3 프로', 앤스로픽 '클로드 오퍼스 4.5' 등이 포함됐다. 평가 결과 해외 모델들은 76~92점대의 높은 정답률을 기록한 반면 국내 모델은 대부분 20점대에 머물렀다. 해외 모델 중에서는 구글 제미나이 3 프로가 92점으로 1위를 차지했고 클로드 오퍼스 4.5(84%)와 xAI의 그록 4.1(82%)이 뒤를 이었다. 국내 모델 중에서는 업스테이지의 솔라 프로-2가 58점으로 가장 선전했지만 나머지 모델들은 20점대 초반에 그쳤고 엔씨소프트의 경량 모델은 2점에 불과했다. 연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워 파이썬을 연산 도구로 활용하도록 설계했음에도 성적이 저조했다고 설명했다. 보다 심화된 난이도의 자체 개발 문제 세트 '엔트로피매스' 평가에서도 결과는 비슷했다. 해외 모델은 80~90점대의 고득점을 유지했으나 국내 모델은 7~53점대로 편차가 컸다. 3회 시도 기회를 부여하는 방식에서도 해외 모델은 만점이나 90점대를 기록한 반면 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점에 그쳤다. 김종락 교수는 "현재 공개된 버전 기준으로 국내 모델의 수준이 글로벌 프런티어 모델보다 뒤처짐을 확인했다"며 "각 팀이 개발 중인 차세대 국가대표 AI 모델이 공개되면 다시 성능을 검증할 계획"이라고 말했다.
2025-12-15 10:39:09
앤트로픽, 최상위 AI '클로드 오퍼스 4.5' 출시
[이코노믹데일리] 오픈AI 출신 연구진이 설립한 AI 스타트업 앤트로픽이 코딩과 추론 능력에서 현존 최고 성능을 입증한 차세대 모델을 공개하며 글로벌 AI 패권 경쟁에 다시 불을 붙였다. 경쟁사인 구글과 오픈AI의 최신 모델을 벤치마크에서 따돌린 것은 물론 이용 가격을 파격적으로 낮추며 시장 점유율 확대를 위한 공격적인 행보에 나섰다. 앤트로픽은 25일(한국시간) 자사의 거대언어모델(LLM) 라인업 중 최상위 모델인 '클로드 오퍼스(Opus) 4.5'를 정식 출시했다고 밝혔다. 이번 모델은 복잡한 추론과 전문 작업에 특화된 하이엔드급으로 코딩과 에이전트 기능, 컴퓨터 활용 능력에서 비약적인 발전을 이뤘다. 가장 주목할 점은 소프트웨어 엔지니어링 능력을 평가하는 'SWE-벤치' 결과다. 오퍼스 4.5는 이 평가에서 80.9%의 점수를 기록하며 구글의 '제미나이 3 프로'(76.2%)와 오픈AI의 공학 특화 모델 'GPT-5.1 코덱스 맥스'(77.9%)를 모두 앞질렀다. 훈련 데이터에 없는 새로운 유형의 문제를 해결하는 능력을 보는 'ARC-AGI-2' 벤치마크에서도 37.6%를 기록, 경쟁사 모델들을 여유 있게 따돌리며 독보적인 문제 해결 능력을 과시했다. 앤트로픽은 성능 향상과 더불어 '가격 파괴' 카드를 꺼내 들었다. 오퍼스 4.5의 API 사용료는 100만 토큰당 입력 5달러, 출력 25달러로 책정됐다. 이는 기존 모델 대비 3분의 1 수준으로 대폭 인하된 가격이다. 앤트로픽 측은 "문제 해결 과정에서 불필요한 탐색이나 중복 추론을 줄여 더 적은 토큰으로 우수한 결과를 도출할 수 있게 됐다"며 효율성 개선이 가격 인하의 배경임을 설명했다. 사용성도 대폭 강화됐다. 오퍼스 4.5는 앤트로픽 자체 앱과 API뿐만 아니라 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드 등 주요 3대 클라우드 플랫폼에서 즉시 사용할 수 있다. 또한, 엑셀이나 크롬 브라우저, 데스크톱 환경 등 실무자가 자주 사용하는 도구와의 연동성을 높여 '일 잘하는 AI'로서의 입지를 굳히겠다는 전략이다. 앤트로픽은 기술 문서인 시스템 카드를 통해 "오퍼스 4.5는 지금까지 선보인 모델 중 가장 견고하게 정렬된 모델"이라며 성능뿐만 아니라 AI 안전성 측면에서도 업계 최고 수준을 달성했음을 강조했다. 업계에서는 이번 앤트로픽의 신제품 출시가 오픈AI와 구글이 주도하던 초거대 AI 경쟁 구도를 다시 한번 흔들 것으로 보고 있다. 특히 압도적인 코딩 성능과 낮아진 비용은 개발자와 기업 고객들에게 매력적인 선택지가 될 전망이다.
2025-11-25 16:17:33
처음
이전
1
다음
끝
많이 본 뉴스
1
인터넷신문협회, "뉴스 저작권, AI 데이터로 진화"...비큐AI와 'RDP 그룹' 출범
2
[CES 2026] 인텔·삼성·SK, AI 반도체 경쟁 본격화
3
공사만으로는 한계…건설업계, 시공 경쟁 넘어 '기술·서비스 경쟁' 시대로
4
서학개미 몰린 카카오페이·토스증권…정부 국내주식 유인책에 '전전긍긍'
5
[합법과 관행의 경계에 선 자본, 선박왕 권혁] ①해운 성장의 한복판에 섰던 이름, 권혁
6
[합법과 관행의 경계에 선 자본, 선박왕 권혁] ② 선단으로 존재감을 키운 기업, 시도그룹
7
팀네이버, '엔비디아 블랙웰' 4000장 확보…AI 개발 속도 '12배' 도약
8
[CES 2026] 장재훈 현대차 부회장 "자율주행 절대 늦지 않아…글로벌 협업 중요"
영상
Youtube 바로가기
오피니언
[광고쟁이 단상 ②] 業의 본질을 뚫는 울림, 김승연 회장의 '진심'이 시대를 비추다