LLM [사진: 셔터스톡]
[디지털투데이 AI리포터] 애플의 인공지능(AI) 연구원들이 대규모 언어 모델(LLM)은 아직 인간처럼 논리적으로 생각하고 문제를 해결하는 능력이 부족하다는 내용의 논문을 발표했다.
<!-- -->
13일(현지시간) 일본 IT미디어에 따르면 이 논문은 LLM이 정말 인간처럼 논리적으로 생각해 문제를 풀 수 있는지를 검증하고 있다. 결론적으로 LLM은 현재까지 표면적인 패턴을 흉내내고 대답을 내고 있을 뿐, 진정한 추론 능력은 가지고 있지 않은 것으로 드러났다.
이를 검증하기 위해 연구진은 'GSM-심볼릭'이라는 새로운 테스트 방법을 개발했다. 테스트 결과, 오픈AI의 GPT-4o나 o1-프리뷰 등의 LLM은 다른 LLM에 비해 높은 성능을 보였지만, 진정한 추론 능력을 획득하기에는 아직 과제가 있다고 한다.
논문에 따르면 LLM은 숫자나 말을 조금 바꾸는 것만으로도 정답률이 크게 떨어졌다. 이는 LLM이 문제의 본질을 이해하고 해결하는 것이 아니라 학습 데이터에서 본 패턴을 단순히 적용할 뿐일 가능성을 시사한다.
또한 간단한 문제는 풀어도, 문제문이 길어지고 복잡해지면 정답률이 떨어졌다. 아울러 문제문에 겉으로 보기에는 관련성이 있어 보이지만 실제로는 답에 전혀 영향을 미치지 않는 정보를 추가하면 LLM이 실수하기 쉬워지는 것으로 나타났다.
이를 바탕으로 연구진은 현재 LLM이 진정한 수학적 추론 능력을 획득하기 위해서는 패턴 인식을 넘어서는 보다 고도의 추론 능력의 개발이 필요하다고 결론지었다.
[db:圖片]