19일(현지시간) 테크크런치 보도에 따르면, 오픈AI 자체 평가 결과 o3는 질문의 33%, o4 미니는 무려 48%에서 환각을 보였다. 이는 기존 모델인 o1(16%)과 o3 미니(14.8%) 대비 두세 배 높은 수치다. 기존 비추론 모델인 GPT-4o보다도 환각 빈도가 높게 나타났다.
이 모델들은 '이미지로 사고할 수 있는 첫 모델'로 소개되며 이미지 분석 및 코딩 능력 등에서 향상된 성능을 보였다. 하지만 정작 AI의 기본적 신뢰성과 직결되는 환각 문제는 오히려 악화된 것이다.
오픈AI는 이러한 환각 악화 현상의 정확한 원인을 파악 중이며, "더 많은 연구가 필요하다"고 밝혔다. 다만, 현재까지는 이 모델들이 "전반적으로 더 많은 주장을 하기에 부정확하거나 환각적인 주장을 하는 경우도 늘었다"고 설명했다.
업계에서는 주요 AI 기업들이 추론형 모델 개발에 집중하는 상황에서 이번 결과가 향후 추론형 AI의 신뢰성에 대한 우려를 키울 수 있다고 지적한다. 답변의 정확성이 특히 중요한 세무, 회계, 법조계 등에서는 환각 이슈가 해결되지 않을 경우 추론형 AI 사용에 제약이 따를 수 있다.
이에 대해 오픈AI는 "모든 문제에서 환각 해결은 지속적인 연구 분야"라며 "정확성과 신뢰성 개선을 위해 노력하고 있다"고 해명했다.
























![[2025APEC] 李대통령, 오늘 시진핑 주석과 회담…정상외교 슈퍼위크 마무리](https://image.ajunews.com/content/image/2025/11/01/20251101100053506030_388_136.jpg)
![[2025APEC] 젠슨 황 韓, 소프트웨어·제조·AI 모두 갖춘 나라…지금이 기회](https://image.ajunews.com/content/image/2025/11/01/20251101095034661628_388_136.jpg)
![[2025APEC] CEO 서밋 폐막…AI격차 해소 등 3대 실천과제 제시](https://image.ajunews.com/content/image/2025/11/01/20251101091203535386_388_136.jpg)
![[김아령의 주말 장바구니] 대형마트 특가 총공세…한우·수산물 반값 경쟁](https://image.ajunews.com/content/image/2025/10/31/20251031090645354821_388_136.jpg)
![[정보운의 강철부대] 친환경 쇄빙선…북극항로 문을 두드리다](https://image.ajunews.com/content/image/2025/10/31/20251031154643759206_388_136.jpg)
![[류청빛의 車근차근] 하드웨어에서 소프트웨어로… 자동차 산업의 새 중심, SDV](https://image.ajunews.com/content/image/2025/10/31/20251031143056679989_388_136.jpg)
![[김다경의 전자사전] AI가 다시 쓰는 반도체 사이클…슈퍼사이클의 문이 열렸다](https://image.ajunews.com/content/image/2025/10/31/20251031151942944154_388_136.png)
![[지다혜의 금은보화] 원금보장에 고수익까지…지수연동예금 틈새 상품으로 떠올라](https://image.ajunews.com/content/image/2025/10/31/20251031110318749533_388_136.jpg)
![[2025APEC] 젠슨 황 AI허브한국 획기적 제안에…李대통령 엔비디아 투자 전폭지원](https://image.ajunews.com/content/image/2025/10/31/20251031204345614729_388_136.jpg)
![[2025APEC] APEC K만찬…李대통령 만파식적 화음, 아태 평화로 이어질 것](https://image.ajunews.com/content/image/2025/10/31/20251031211045776787_388_136.jpg)
댓글 더보기