2025.09.19 금요일
서울 20˚C
흐림 부산 24˚C
흐림 대구 23˚C
인천 20˚C
흐림 광주 22˚C
흐림 대전 22˚C
흐림 울산 21˚C
흐림 강릉 19˚C
흐림 제주 28˚C
신화통신

[테크] 中 딥시크 R1 성능 및 동료 평가 '네이처'에 실려

기자정보, 기사등록일
郭爽,Larry Neild,黄宗治
2025-09-19 15:45:57
사용자가 지난 2월 17일 딥시크(DeepSeek·深度求索) 모바일 앱(APP)에 질문을 하고 있다. (사진/신화통신)

(런던=신화통신) 중국 인공지능(AI) 스타트업 딥시크(DeepSeek·深度求索)가 개발한 AI 모델 R1은 최초로 정식 동료 평가를 받은 대형 언어 모델(LLM)로 자리매김했다고 18일(현지시간) 국제 학술지 '네이처(Nature)'에 발표된 연구가 전했다. 딥시크 측은 자사 혁신적 접근 방식이 경쟁사 성과에 의존하지 않고 독자적으로 성과를 거두었다고 강조했다.

지난 1월 출시된 R1은 수학·프로그래밍 등 추론 집약적 작업에서 뛰어난 성능을 발휘하며, 미국 기술 기업들이 개발한 유사 도구들의 비용 효율적인 대안으로 자리매김하고 있다.

R1은 자유롭게 다운로드할 수 있는 오픈웨이트 모델이다. 현재까지 1천90만 건 이상의 다운로드를 기록하며 AI 커뮤니티 플랫폼 허깅페이스(Hugging Face)에서 가장 인기 있는 모델로 꼽힌다.

논문은 R1이 정식 동료평가를 거친 최초의 LLM이라고 강조하며 올해 초 발표된 사전공개 논문(preprint)을 바탕으로 딥시크가 어떻게 기존 LLM을 강화해 복잡한 추론 과제를 해결하도록 했는지 상세히 설명했다.

자료에 따르면 R1의 훈련 비용은 약 29만4천 달러에 불과하다. 경쟁 모델에 수천만 달러가 투입된 것과 비교해 현저히 낮은 수준이다. R1의 기반이 되는 기초 모델 구축에는 약 600만 달러가 소요된 것으로 나타났다.

논문은 딥시크가 R1 개발을 위해 '순수 강화학습(RL)'으로 불리는 자동화된 시행착오 방식을 새롭게 활용했다고 설명했다. 사람이 선별한 추론 사례를 단순히 학습하는 대신, 정확한 답변을 도출했을 때 보상을 받도록 설계됐다.

또 효율성 제고를 위해 R1은 별도의 알고리즘에 의존하기보다 '그룹 상대 정책 최적화(group relative policy optimization, GRPO)' 기법을 통해 산출물을 스스로 평가하는 방법을 택했다.

루이스 턴스톨 허깅페이스 머신러닝 엔지니어는 다른 연구자들이 R1 개발에 사용된 방법을 기존 LLM 추론 능력 향상에 적용하고 나아가 수학과 코딩을 넘어선 분야로 확장하려는 시도를 하고 있다고 밝혔다.




0개의 댓글
0 / 300
댓글 더보기
KB국민은행_2
컴투스
NH농협은행
우리은행
우리은행
과실비율정보포털
한국토지주택공사
대신증권
KB금융그룹_1
KB국민은행_1
KB금융그룹_3
DB그룹
신한은행
콜마
농협
KB금융그룹_2
kt
미래에셋
kb캐피탈
현대
신한카드
우리은행
다올투자증권
삼성물산
KB국민은행_3
하이닉스
한화
한국증권금융
하나금융그룹
우리은행
다음
이전
댓글을 삭제 하시겠습니까?
닫기
로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?
닫기
기사 이미지 확대 보기
닫기