이코노믹데일리 - 정확한 뉴스와 깊이 있는 분석
금융
산업
생활경제
IT
건설
피플
국제
이슈
문화
딥인사이트
검색
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
2026.01.30 금요일
맑음
서울 -6˚C
맑음
부산 -1˚C
맑음
대구 -4˚C
맑음
인천 -6˚C
흐림
광주 -5˚C
흐림
대전 -5˚C
흐림
울산 -3˚C
흐림
강릉 -4˚C
흐림
제주 1˚C
검색
검색 버튼
검색
'엔트로피매스'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
1
건
韓 '소버린 AI', 수능 수학 풀게 했더니… 해외 모델에 완패
[이코노믹데일리] 정부가 주도하는 '국가대표 AI' 프로젝트 참여사들의 대형언어모델(LLM)이 수학 문제 해결 능력에서 해외 경쟁 모델에 크게 뒤처지는 것으로 나타났다. 파이썬 도구를 활용하는 등 보정 작업을 거쳤음에도 해외 빅테크 기업들의 기술 격차를 좁히지 못했다는 분석이다. 15일 김종락 서강대 수학과 교수 연구팀은 국내 5개 소버린 AI 모델과 해외 5개 모델을 대상으로 수능 수학 및 논술 문제를 풀게 한 결과 이 같은 격차가 확인됐다고 밝혔다. 연구팀은 수능 고난도 문항과 국내외 대학 입시 문제 등 총 50개 문항을 선정해 테스트를 진행했다. 비교 대상이 된 국내 모델은 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007', SK텔레콤의 'A.X 4.0(72B)', 엔씨소프트의 '라마 바르코 8B 인스트럭트' 등이다. 해외 모델은 오픈AI의 'GPT-5.1', 구글 '제미나이 3 프로', 앤스로픽 '클로드 오퍼스 4.5' 등이 포함됐다. 평가 결과 해외 모델들은 76~92점대의 높은 정답률을 기록한 반면 국내 모델은 대부분 20점대에 머물렀다. 해외 모델 중에서는 구글 제미나이 3 프로가 92점으로 1위를 차지했고 클로드 오퍼스 4.5(84%)와 xAI의 그록 4.1(82%)이 뒤를 이었다. 국내 모델 중에서는 업스테이지의 솔라 프로-2가 58점으로 가장 선전했지만 나머지 모델들은 20점대 초반에 그쳤고 엔씨소프트의 경량 모델은 2점에 불과했다. 연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어려워 파이썬을 연산 도구로 활용하도록 설계했음에도 성적이 저조했다고 설명했다. 보다 심화된 난이도의 자체 개발 문제 세트 '엔트로피매스' 평가에서도 결과는 비슷했다. 해외 모델은 80~90점대의 고득점을 유지했으나 국내 모델은 7~53점대로 편차가 컸다. 3회 시도 기회를 부여하는 방식에서도 해외 모델은 만점이나 90점대를 기록한 반면 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점에 그쳤다. 김종락 교수는 "현재 공개된 버전 기준으로 국내 모델의 수준이 글로벌 프런티어 모델보다 뒤처짐을 확인했다"며 "각 팀이 개발 중인 차세대 국가대표 AI 모델이 공개되면 다시 성능을 검증할 계획"이라고 말했다.
2025-12-15 10:39:09
처음
이전
1
다음
끝
많이 본 뉴스
1
넥슨 '메이플키우기', 확률·잠수함 패치 논란…회복되는 넥슨 신뢰 '흔들'
2
넥슨, '메이플키우기' 어빌리티 오류 무공지 대처… 강대현·김정욱 공동 대표 사과
3
"매출보다 신뢰가 먼저"... 넥슨, '메이플 키우기' 전액 환불 '통큰 결단'
4
[현장] 인텔, 18 나노 공정 기반 '인텔 코어 Ultra 시리즈 3' 공개…AI PC 시장 반등 노린다
5
[현장] 삼성·인텔·교보문고의 AI 삼각편대... 서점에서 만난 '갤럭시 북6'
6
AI 안경, 스마트폰 이후를 노리다…번역·비서·검색 품은 차세대 웨어러블
7
브라우저 안으로 들어온 AI…구글, 크롬에 제미나이 탑재 예고
8
삼성·SK, 2월 'HBM4 대전' 개막... AI 반도체 패권 다툰다
영상
Youtube 바로가기
오피니언
[편집인 칼럼] 함영주 판결이 남긴 질문...사법의 시간은 누구를 위해 흐르는가