728x90 반응형 llm-as-a-judge1 [논문리뷰] Judging LLM-as-a-Judgewith MT-Bench and Chatbot Arena (INTRO) 요약본 논문은 LLM 기반 챗봇 평가에서 인간 선호도를 반영하는 새로운 방법론인 LLM-as-a-judge를 제안한다.GPT-4 같은 모델을 심판으로 사용해 인간 평가와 유사한 결과를 자동으로 얻을 수 있다.또한, MT-bench와 Chatbot Arena라는 벤치마크를 도입해 다중 턴 대화와 지시 수행 능력을 평가하며, 기존 능력 기반 평가와 인간 선호도 기반 평가를 결합한 하이브리드 평가 프레임워크의 도입을 제안한다. 1. INTRODUCTION챗봇들은 주로 supervised instruction fine-tuning and reinforcement learning with human feedback (RLHF)를 통해 더 나은 성능을 발휘하게 된다. 이를 통해, 모델은 인간의 지시를 더 잘 따르고.. 2024. 10. 16. 이전 1 다음 728x90 반응형