2025.08.22 금요일
구름 서울 27˚C
맑음 부산 29˚C
구름 대구 29˚C
구름 인천 28˚C
맑음 광주 25˚C
맑음 대전 24˚C
구름 울산 26˚C
흐림 강릉 27˚C
구름 제주 29˚C
신화통신

[테크] 中 AI 파운데이션 모델 훈련에 사용되는 중국어 데이터 비중 60% 이상

기자정보, 기사등록일
高亢
2025-08-22 15:25:41

(베이징=신화통신) 중국어 데이터가 중국 국내 인공지능(AI) 파운데이션 모델 훈련 성능 향상에 중요한 역할을 하고 있다.

중국 국가데이터국이 최근 발표한 통계에 따르면 중국의 다수 AI 파운데이션 모델 훈련에 사용된 중국어 데이터 비중은 이미 60%를 넘어섰고 일부 모델은 80%에 달했다. 높은 수준의 중국어 데이터 개발과 공급 능력이 꾸준히 강화되면서 중국 AI 모델의 성능이 빠르게 향상되고 있다는 평가다.

지난달 2일 커다쉰페이(科大訊飛∙iFLYTEK) AI(인공지능) 에이전트 체험관 직원이 AI 학습기의 기능을 소개하고 있다. (사진/신화통신)

류례훙(劉烈宏) 중국 국가데이터국 국장은 "AI 시대의 텍스트를 처리하는 가장 작은 데이터 단위인 토큰은 인터넷 시대의 '트래픽'과 같다"고 설명했다. 그에 따르면 지난해 초 중국의 일평균 토큰 소모량은 1천억 개였지만 지난 6월 말 기준 이 규모는 이미 30조 개를 돌파했다. 1년 반 만에 300배 이상 증가하면서 중국의 AI 응용 규모가 빠르게 확대되고 있음을 보여줬다는 설명이다.

또한 지난 6월 말 기준 중국에서 완성된 고품질 데이터 세트는 3만5천 개 이상으로 집계됐다. 데이터 총량은 400PB(페타바이트·1PB당 2MB 크기의 고화질 사진 약 5억 장 저장 가능)를 넘어섰다. 이는 중국 국가도서관 디지털 자원 총량의 약 140배와 맞먹는다.

AI 모형의 훈련 또한 데이터 거래 수요의 증가를 촉진했다. 6월 말 기준 중국 각지의 데이터 세트 누적 거래액은 40억 위안(약 7천760억원)에 육박하고, 데이터 거래 기관이 등록한 고품질 데이터 세트의 총규모는 246PB에 달한 것으로 조사됐다.




0개의 댓글
0 / 300
댓글 더보기
IBK
kb_3
한화
KB금융그룹_2
농협
한미그룹
신한투자증권
하나금융그룹
동국제약
KB금융그룹_1
KB_1
NH농협은행
삼성자산운용
부영그룹
SK증권
종근당
kb_2
신한은행
KB
롯데
국민카드
NH농협
kb
농협
과실비율정보포털
신한금융
우리은행_2
메리츠증권
우리은행_1
KB금융그룹_3
미래에셋자산운용
다음
이전
댓글을 삭제 하시겠습니까?
닫기
로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?
닫기
기사 이미지 확대 보기
닫기