이코노믹데일리 - 정확한 뉴스와 깊이 있는 분석
금융
산업
생활경제
IT
건설
피플
국제
이슈
문화
딥인사이트
검색
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
2026.01.27 화요일
눈
서울 -5˚C
맑음
부산 2˚C
맑음
대구 1˚C
흐림
인천 -1˚C
흐림
광주 -2˚C
흐림
대전 -4˚C
흐림
울산 1˚C
흐림
강릉 -2˚C
흐림
제주 4˚C
검색
검색 버튼
검색
'SWE벤치마크'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
1
건
오픈AI, GPT-5.2 전격 출시… 구글 추격에 '한 달 만의 승부수'
[이코노믹데일리] 오픈AI(CEO 샘 올트먼)가 구글의 거센 추격을 따돌리기 위해 이전 모델 출시 한 달 만에 성능을 대폭 강화한 ‘GPT-5.2’를 전격 공개하며 초거대 AI 패권 경쟁에 다시 불을 붙였다. 오픈AI는 11일(현지시간) 전문 지식 업무 수행 능력을 극대화한 GPT-5.2 시리즈를 출시한다고 밝혔다. 이번 신모델은 기존의 즉답(Instant) 및 사고(Thinking) 모드에 더해 복잡한 장기 연산에 최적화된 ‘프로(Pro)’ 모드를 추가하며 총 3가지 라인업으로 구성됐다. 오픈AI가 이례적으로 한 달 만에 새 버전을 내놓은 것은 경쟁사인 구글의 ‘제미나이3 프로’가 벤치마크 성능에서 앞서나가며 점유율을 위협했기 때문이다. 실제 샘 올트먼 CEO는 제미나이3 프로 출시 직후 사내에 최고 비상 단계인 ‘코드레드(Code Red)’를 발령하고 챗GPT 성능 개선에 총력을 기울일 것을 주문한 바 있다. GPT-5.2는 이러한 위기감 속에 탄생한 만큼 압도적인 성능 지표를 제시했다. 전문 산업 현장의 44개 직종 업무 능력을 평가하는 GDPval 테스트에서 GPT-5.2 프로 모드는 74.1%를 기록해 인간 전문가 수준에 도달했다. 이는 전작인 GPT-5(38.8%) 대비 비약적인 성장이다. 소프트웨어 엔지니어링 능력을 평가하는 SWE 벤치마크에서는 80%를 기록해 제미나이3 프로(76.2%)를 따돌렸고 코딩 특화 모델인 앤트로픽의 클로드 오퍼스4.5(80.9%)와 대등한 수준에 올랐다. 또한 ‘인간의 마지막 시험’으로 불리는 박사급 추론 능력 평가(HLE)에서도 검색 도구 활용 시 50%의 정답률을 보여 제미나이3 프로(45.8%)를 앞섰다. 고질적인 문제였던 환각(Hallucination) 현상도 개선됐다. 내부 테스트 결과 사고 모드의 오류율은 6.2%로 전작 대비 약 30% 감소해 신뢰도를 높였다. 오픈AI는 이 밖에도 연령 예측 모델을 적용해 미성년자 보호 기능을 강화하고 디즈니와의 라이선스 계약을 통해 소라(Sora) 앱에서 디즈니 IP를 활용한 영상 제작을 지원하는 등 콘텐츠 확장에도 나섰다. 한편 샘 올트먼 CEO는 회사 창립 10주년을 맞아 “향후 10년 안에 초지능(AGI) 구축이 거의 확실시된다”며 “2035년에는 상상하기 어려운 일을 해낼 것”이라는 비전을 제시했다.
2025-12-12 16:39:47
처음
이전
1
다음
끝
많이 본 뉴스
1
넥슨 '메이플키우기', 확률·잠수함 패치 논란…회복되는 넥슨 신뢰 '흔들'
2
[위기의 한국 AI 반도체 ②] "물러설 곳 없다"… 리벨리온·퓨리오사AI
3
대한항공 등 한진그룹 5개 항공사, 26일부터 기내 보조배터리 '사용 금지'
4
삼성·SK, 29일 동시 실적발표... 'HBM4' 주도권 놓고 정면 승부
5
인라이플, AI 광고 플랫폼 '모비온 4.0' 출시... "데이터 가독성 혁신"
6
현대차 노조 "로봇 1대가 직원 3명분... '아틀라스' 현장 투입 절대 반대"
7
상가 입주권 허용이 부메랑…개포주공6·7단지, 법원 제동에 재건축 일정 흔들
8
한덕수 징역 23년 선고 후 법정구속
영상
Youtube 바로가기
오피니언
[편집인 칼럼] 군을 정리하는 권력, 권력을 준비하는 군