인공지능[연합뉴스][연합뉴스]우리나라 주요 인공지능(AI) 모델의 수학 수능 및 논술 문제 풀이 능력이 해외 모델에 비해 크게 떨어지는 것으로 평가됐습니다.
김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI에 도전하는 5개 팀의 주요 대형언어모델(LLM)과 챗GPT 등 해외 5개 모델에 수능 수학 20문제, 논술 30문제 등 총 50문제를 풀게 한 결과 이같이 나타났다고 오늘(15일) 밝혔습니다.
수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를, 논술 문제로는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 출제했습니다.
AI 모델은 한국에서는 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007' SK텔레콤[017670]의 'A.X 4.0(72B)' 엔씨소프트 경량모델 '라마 바르코 8B 인스트럭트'를 선정했습니다.
해외 모델로는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2에게 문제 풀이를 시켰습니다.
그 결과 해외 모델은 76~92점을 받았지만, 한국 모델은 솔라 프로2만 58점을 받았을 뿐 나머지는 20점대 낮은 점수를 기록했습니다.
라마 바르코 8B 인스트럭트는 고작 2점을 얻는 데 그쳤습니다.
연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다고 설명했습니다.
이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했습니다.
이번에도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮은 성적을 받았습니다.
세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 만점, 나머지 해외 모델은 90점을 기록했습니다.
하지만 한국 모델은 솔라 프로-2 70점, 엑사원 60점, HCX-007 40점, A.X 4.0 30점, 라마 바르코 8B 인스트럭트 20점에 그쳤습니다.
김 교수는 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"라며 "국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"라고 설명했습니다.
연구팀은 이번에 쓰인 국내 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔습니다.
김 교수는 "엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것"이라며 "자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것"이라고 말했습니다.
이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS), 딥파운틴에서 공동 지원했습니다.
연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23
권정상(jusang@yna.co.kr)
당신이 담은 순간이 뉴스입니다!
- jebo23
- 라인 앱에서 'jebo23' 친구 추가
- jebo23@yna.co.kr
ⓒ연합뉴스TV, 무단 전재-재배포, AI 학습 및 활용 금지
-
좋아요
0 -
응원해요
0 -
후속 원해요
0
ADVERTISEMENT