요약
- 본 논문은 LLM 기반 챗봇 평가에서 인간 선호도를 반영하는 새로운 방법론인 LLM-as-a-judge를 제안한다.
- GPT-4 같은 모델을 심판으로 사용해 인간 평가와 유사한 결과를 자동으로 얻을 수 있다.
- 또한, MT-bench와 Chatbot Arena라는 벤치마크를 도입해 다중 턴 대화와 지시 수행 능력을 평가하며, 기존 능력 기반 평가와 인간 선호도 기반 평가를 결합한 하이브리드 평가 프레임워크의 도입을 제안한다.
1. INTRODUCTION
챗봇들은 주로 supervised instruction fine-tuning and reinforcement learning with human feedback (RLHF)를 통해 더 나은 성능을 발휘하게 된다. 이를 통해, 모델은 인간의 지시를 더 잘 따르고 대화를 자연스럽게 할 수 있도록 align 된다. 사용자들은 aligned 챗봇을 unaligned 챗봇보다 선호하고 있다.
기존의 LLM 모델들은 대규모 텍스트 데이터를 바탕으로 학습이 된다. 이 과정에서 인간의 피드백이 개입하지 않고, 모델이 인터넷에 있는 텍스트 데이터나, 책, 문서 등을 바탕으로 언어 패턴을 학습하는 방식이다. 이러한 모델들은 광범위한 정보와 언어 패턴을 알고 있지만, 특정 사용자 지시나 질문에 정확하고 친절하게 대답하는 방식으로 align 되어 있지는 않다. 그래서 이러한 모델들을 unaligned 상태라고 표현한다. 즉, 주어진 질문에 인간이 기대하는 방식으로 대답하지 않을 수도 있는 모델이라는 뜻이다.
하지만 이런 aligned LLM 모델들이 전통적인 벤치마크 테스트에서는 항상 좋은 점수를 받는 것은 아니다. 예를 들어, MMLU나 HELM 같은 기존 벤치마크는 이런 aligned model과 기본 모델과의 성능 차이를 명확히 구분하지 못하는 경우가 많다. 이로 인해, 실제 사용자들이 느끼는 챗봇의 유용성과 벤치마크 테스트에서 평가되는 기준 사이에는 큰 차이가 있다는 점을 알 수 있다.
MMLU(Massive Multitask Language Understanding)?
LLM이 다양한 과목에 대한 지식을 얼마나 잘 이해하고 있는지 평가하는 벤치마크이다. 예를 들어, 과학, 역사, 수학, 법률 등 다양한 분야에 걸쳐 질문을 던지고, 그에 대한 답변을 측정하는 것이다.
HELM(Holistic Evaluation of Language Models) ?
언어 모델의 성능을 다방면에서 평가하는 종합적인 평가 기준이다. 단순히 답변의 정확성뿐만 아니라 모델의 효율성, 공정성, 편향성, 확장 가능성 등의 다양한 기준을 종합적으로 평가한다. 즉, 모델이 얼마나 빠르고 공정하게, 그리고 얼마나 적절한 답변을 내놓는지 등을 평가하는 벤치마트이다.
기존 평가 방식은 주로 지식 문제나 검색 문제 같은 정답이 정해져 있는 문제에 집중하고 있다. 이런 문제들은 모델이 정확한 답을 할 수 있는 능력을 측정하는 데는 효과적이지만, 다중 턴 대화처럼 정답이 하나로 정해져 있지 않은 상황에서 모델이 얼마나 인간의 지시를 잘 따르는지는 제대로 평가하지 못한다.

예시로 두 가지 모델을 비교하면,
- A- LLaMA-13B: 사전 학습된 기본 모델로, 따로 추가 학습을 하지 않은 상태
- B- Vicuna-13B: LLaMA-13B를 기반으로 고품질 대화 데이터를 사용해 추가로 학습시킨(미세 조정된) 모델
기존의 벤치마크에서는 LLaMA-13B가 나쁘지 않은 성능을 보였지만, 개방형 질문(정답이 정해져 있지 않고 사람마다 다르게 느낄 수 있는 질문)에 대해서는 사람들이 이 모델의 답을 선호하지 않는 경우가 많다. 즉, 기존 평가 방식과 인간이 실제로 느끼는 선호도의 차이가 존재한다는 것이 논문의 핵심 문제이다. 그래서 인간의 선호도에 맞춘 모델의 성능을 평가할 수 있는 새로운 자동화된 평가 방법이 필요하다고 주장하고 있다.
본 논문에서는 새로운 자동화된 평가 방법으로 두 가지 벤치마크를 도입하고자 한다:
- MT-bench
- 이 벤치마크는 챗봇이 여러 턴에 걸쳐 대화하고 지시를 얼마나 잘 따르는지 평가하는 개방형 질문들로 이루어져 있다. 사용자들이 챗봇과 대화를 나누면서 지시를 얼마나 잘 수행하는지와 같은 인간이 선호하는 중요한 능력들을 평가하게 된다. 또한, 이 질문들은 챗봇이 추론 능력이나 수학적 문제 해결 능력같은 핵심 기능들을 구분할 수 있도록 만들어졌다.
- Chatbot Arena
- 이 플랫폼은 크라우드소싱 방식으로 사용자들이 두 챗봇과 동시에 대화를 나누고, 그 대화 내용을 바탕으로 챗봇의 응답을 평가하는 시스템이다. 현실적인 상황에서 두 챗봇의 성능을 비교할 수 있도록 설계되었으며, 사용자는 개인적인 선호도에 따라 챗봇의 응답이 더 나은지를 평가한다.
► 이 두 벤치마크는 챗봇의 대화 능력과 사용자 선호도에 맞춘 성능을 평가하는 데 초점을 맞추고 있다.
인간이 직접 평가하는 것은 LLM의 성능을 평가할 때 가장 신뢰할 수 있는 기준이지만, 시간이 많이 걸리고 비용이 많이 드는 문제가 있다. 따라서, 본 논문에서는 평가를 자동화하기 위해, GPT-4 같은 최신 LLM을 인간 대신 평가자로 사용하는 방법을 시도하고 있다. 즉, LLM-as-a-judge 방식은 최신 LLM이 이미 인간의 피드백을 학습한 상태에서, 사람처럼 평가할 수 있다는 점을 이용한 것이다.
► GPT-4 같은 모델이 사람 대신 평가할 수 있는지에 대한 연구는 아직 많이 없다.
본 논문에서는 LLM-as-a-judge이 인간 평가와 얼마나 잘 일치하는지 연구한다. GPT-4 같은 LLM 모델이 사람처럼 평가할 수 있는지 검토하기 위해, 4가지의 잠재적인 문제점을 분석한다.
- Position Bias (위치적 편향)
- 모델이 문장의 위치에 따라 답변을 다르게 평가하는 경향을 의미한다. 즉, 어떤 답변이 앞부분에 있을수록 모델이 그 답변을 더 중요한 것으로 인식할 수 있다는 의미이다.
- 위치적 편향이 있는 모델은 앞부분에 결론이나 핵심이 있는 답변을 더 선호할 수 있다.
- 좋은 모델은 위치적 편향 없이 전체 문장을 골고루 평가하여 종합적인 판단을 내리는 모델을 의미한다.
- 위치적 편향의 문제점. 불완전한 평가, 복잡한 질문에 대한 불리함, 편향된 평가
- Verbosity Bias (장황함 편향)
- 모델이 더 긴 답변을 더 정확하거나 훌륭하다고 평가하는 편향을 의미한다. 즉, 길고 자세한 답변이 더 많은 정보를 포함한다고 생각하여 더 높은 점수를 줄 가능성이 있다.
- Self-Enhancement Bias (자기 증진 편향)
- 모델이 자신이 생성한 답변을 더 긍정적으로 평가하는 경향을 의미한다. 즉, 자신의 답변을 과대평가 할 수 있다.
- Limited Reasoning Ability (제한된 추론 능력)
- LLM이 복잡한 논리적 추론이나 수학적 문제를 해결하는 데 한계를 보일 수 있다. 즉, 깊이 있는 문제 해결이나 복잡한 질문에 대해 정확한 판단을 내리지 못할 가능성이 있다.
► 이러한 문제들이 있다는 점을 인정하면서도, 일부는 경미하거나 수정이 가능하다는 결과를 보여준다. 이를 해결한 후, 3천 건의 전문가 투표와 3천 건의 일반 사용자 투표를 통해 실험한 결과, GPT-4가 심판 역할을 할 때 인간 평가와 80% 이상 일치하는 결과를 얻었다.
►LLM-as-a-judge 방식이 빠르고 효율적으로 인간의 선호도를 평가할 수 있는 방법이라는 점에서, 전통적인 인간 펴가를 대체할 수 있는 가능성이 크다는 것을 의미한다.
'논문 리뷰 > LLM 논문 리뷰' 카테고리의 다른 글
[논문리뷰] Code Llama: Open Foundation Models for Code (1) | 2024.10.15 |
---|
댓글