중국의 스타트업 딥시크가 자사의 생성형 AI 'R1' 모델 훈련에 4억 원을 지출했다고 밝혔습니다.

딥시크는 'R1' 훈련 비용의 구체적인 추정치를 처음으로 공개한 내용의 논문을 지난 17일 국제 학술지 네이처에 실었습니다.

딥시크 측은 모델 훈련에 엔비디아의 저사양칩인 'H800' 512개를 사용했다고 언급하며, R1 모델의 훈련 비용에 29만4천달러 약 4억821만원가 들었다고 주장했습니다.

또, 이번 논문에 딸린 추가 정보에서 엔비디아 A100을 보유하고 있고 개발 준비단계에서 사용했다는 사실도 처음으로 인정했습니다.

딥시크 창업자 량원펑이 설립한 투자회사 하이플라이어(환팡량화)는 연산 플랫폼 '파이어플라이어2'의 구축을 위해 'A100' 1만개를 보유한 것으로 알려졌습니다.

중국 관영 신화통신은 R1 훈련비용이 경쟁 모델들에 비해 현저히 낮지만, R1을 뒷받침하는 기반 모델 구축에 투입된 대략 600만 달러 (약 83억5천만원)는 별개라고 설명했습니다.

이밖에 R1은 순수 강화 학습 방식으로 추론 능력을 향상시킨 것으로 나타났습니다.

이는 인간에 의한 수동 학습 방식이 아니라 AI가 정확한 답변을 하면 보상 받고, 틀린 답변을 하면 페널티를 받는 구조 속에서 스스로 진화하도록 유도하는 방식입니다.

딥시크 'R1' 강화 학습방식 추론 훈련 관련 논문(네이처)


배삼진 특파원(baesj@yna.co.kr)

연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23

배삼진(baesj@yna.co.kr)

당신이 담은 순간이 뉴스입니다!

ⓒ연합뉴스TV, 무단 전재-재배포, AI 학습 및 활용 금지

  • 좋아요

    0
  • 응원해요

    0
  • 후속 원해요

    0

ADVERTISEMENT