본문 바로가기
728x90
반응형

논문 리뷰/LLM 논문 리뷰2

[논문리뷰] Judging LLM-as-a-Judgewith MT-Bench and Chatbot Arena (INTRO) 요약본 논문은 LLM 기반 챗봇 평가에서 인간 선호도를 반영하는 새로운 방법론인 LLM-as-a-judge를 제안한다.GPT-4 같은 모델을 심판으로 사용해 인간 평가와 유사한 결과를 자동으로 얻을 수 있다.또한, MT-bench와 Chatbot Arena라는 벤치마크를 도입해 다중 턴 대화와 지시 수행 능력을 평가하며, 기존 능력 기반 평가와 인간 선호도 기반 평가를 결합한 하이브리드 평가 프레임워크의 도입을 제안한다. 1. INTRODUCTION챗봇들은 주로 supervised instruction fine-tuning and reinforcement learning with human feedback (RLHF)를 통해 더 나은 성능을 발휘하게 된다. 이를 통해, 모델은 인간의 지시를 더 잘 따르고.. 2024. 10. 16.
[논문리뷰] Code Llama: Open Foundation Models for Code 요약Llama 2를 기반으로 한 코드용 LLM 시리즈인 Code Llama를 제안Llama 2 70B 모델을 이용해 코딩 문제를 생성하고, Code Llama - Python 7B를 사용해 유닛 테스트와 솔루션을 생성하여 Self Instruct 데이터셋 생성Llama 2에서 사용된 로터리 포지션 임베딩(RoPE)의 회전 주파수($\theta$)를 조정하는 것이 긴 시퀀스를 안정적으로 학습시키는 데 중요함을 확인하였고, 파인 튜닝을 위해 회전 주파수를 10,000에서 1,000,000으로 증가  0. ABSTRACTCode Llama는 코드 작성에 특화된 Llama 2 기반의 대형 언어 모델 시리즈로, 공개된 모델 중 최고 성능을 제공하며 코드 완성 능력, 큰 입력 컨텍스트 지원, 프로그래밍 작업에 대한.. 2024. 10. 15.
728x90
반응형