KAIST, 저렴한 GPU로 AI 비용 67% 절감하는 '스펙엣지' 기술 개발

"데이터센터 의존도 낮춘다"...엣지 GPU 활용 기술 확보

KAIST 전기및전자공학부 박진우 박사 조승근 석사과정 한동수 교수외쪽부터사진KAIST — KAIST 전기및전자공학부 박진우 박사, 조승근 석사과정, 한동수 교수(외쪽부터).[사진=KAIST]

[이코노믹데일리] 인공지능(AI) 서비스의 고질적인 문제로 지적되던 운영 비용을 획기적으로 낮출 수 있는 기술이 국내 연구진에 의해 개발됐다.

한국과학기술원(KAIST·총장 이광형)은 전기및전자공학부 한동수 교수 연구팀이 데이터센터 외부의 저렴한 소비자급 GPU를 활용해 대규모 언어모델(LLM) 인프라 비용을 절감하는 '스펙엣지(SpecEdge)' 기술을 개발했다고 28일 밝혔다. 그동안 LLM 기반 AI 서비스는 고가의 데이터센터 GPU에 전적으로 의존해 비용 부담이 크고 기술 진입장벽이 높다는 한계가 있었다.

이번에 개발된 스펙엣지는 데이터센터 GPU와 개인 PC 및 소형 서버에 탑재된 '엣지 GPU'가 역할을 분담하는 방식이다. 연구팀은 '추측적 디코딩(Speculative Decoding)' 기술을 적용해 엣지 GPU가 먼저 확률 높은 단어를 빠르게 생성하면 데이터센터의 대규모 모델이 이를 검증하도록 설계했다. 이 과정에서 엣지 GPU는 서버 응답을 기다리지 않고 연속적으로 단어를 생성해 처리 속도를 높였다.

기술 적용 결과는 놀랍다. 기존 데이터센터 GPU만 사용하는 방식 대비 AI가 문장을 만드는 최소 단위인 토큰당 비용을 약 67.6% 절감하는 데 성공했다. 비용 효율성은 1.91배 높아졌고 서버 처리량 또한 2.22배 향상됐다. 특히 일반적인 인터넷 환경에서도 원활하게 작동해 별도 네트워크 구축 없이 즉시 상용화가 가능하다는 점이 특징이다.

연구팀은 이 기술이 스마트폰과 개인용 컴퓨터 및 신경망 처리장치(NPU) 등 다양한 기기로 확장될 경우 AI 서비스의 대중화를 앞당길 것으로 보고 있다. 한동수 교수는 "데이터센터를 넘어 사용자 주변의 엣지 자원까지 인프라로 활용해 누구나 고품질 AI를 저렴하게 이용하는 환경을 만들겠다"고 강조했다.

이번 연구 성과는 그 우수성을 인정받아 이달 초 미국 샌디에이고에서 열린 세계 최고 권위의 AI 학회 '신경정보처리시스템 학회(NeurIPS)'에서 상위 3.2%에 해당하는 스포트라이트 논문으로 선정돼 발표됐다.