본문 바로가기
728x90
반응형

논문 리뷰4

[논문리뷰] CaSe4SR: Using category sequence graph to augment session-based recommendation 요약문제 정의. 짧은 세션에서는 사용자 의도가 명확히 드러나지 않으며, 긴 세션에서는 사용자의 관심이 흐려질 수 있다. 해결 방법. 아이템 카테고리 정보를 활용하여 해결 방법론 요약. Case4SR은 세션 기반 추천을 위한 카테고리 시퀀스 그래프를 활용한다. 사용자 행동 시퀀스와 아이템 카테고리 시퀀스에서 아이템 그래프와 카테고리 그래프를 각각 구축한다. 그래프 신경망(GNN)을 사용하여 아이템과 카테고리의 표현을 각각 학습한 후, 통합한다.   1. INTRODUCTION지금까지의 연구는 주로 항목 수준의 모델링에 초점을 맞추었기 때문에 사용자 관심에 대한 인식에서 편향 발생할 수 있다.짧은 세션의 경우 제한된 상호 작용 행동만으로는 사용자의 실제 의도를 파악하기 어렵다.예를 들어, 사용자가 vivo .. 2024. 10. 17.
[논문리뷰] Judging LLM-as-a-Judgewith MT-Bench and Chatbot Arena (INTRO) 요약본 논문은 LLM 기반 챗봇 평가에서 인간 선호도를 반영하는 새로운 방법론인 LLM-as-a-judge를 제안한다.GPT-4 같은 모델을 심판으로 사용해 인간 평가와 유사한 결과를 자동으로 얻을 수 있다.또한, MT-bench와 Chatbot Arena라는 벤치마크를 도입해 다중 턴 대화와 지시 수행 능력을 평가하며, 기존 능력 기반 평가와 인간 선호도 기반 평가를 결합한 하이브리드 평가 프레임워크의 도입을 제안한다. 1. INTRODUCTION챗봇들은 주로 supervised instruction fine-tuning and reinforcement learning with human feedback (RLHF)를 통해 더 나은 성능을 발휘하게 된다. 이를 통해, 모델은 인간의 지시를 더 잘 따르고.. 2024. 10. 16.
[논문리뷰] Code Llama: Open Foundation Models for Code 요약Llama 2를 기반으로 한 코드용 LLM 시리즈인 Code Llama를 제안Llama 2 70B 모델을 이용해 코딩 문제를 생성하고, Code Llama - Python 7B를 사용해 유닛 테스트와 솔루션을 생성하여 Self Instruct 데이터셋 생성Llama 2에서 사용된 로터리 포지션 임베딩(RoPE)의 회전 주파수($\theta$)를 조정하는 것이 긴 시퀀스를 안정적으로 학습시키는 데 중요함을 확인하였고, 파인 튜닝을 위해 회전 주파수를 10,000에서 1,000,000으로 증가  0. ABSTRACTCode Llama는 코드 작성에 특화된 Llama 2 기반의 대형 언어 모델 시리즈로, 공개된 모델 중 최고 성능을 제공하며 코드 완성 능력, 큰 입력 컨텍스트 지원, 프로그래밍 작업에 대한.. 2024. 10. 15.
[논문리뷰]AdaGCN: Adaboosting Graph Convolutional Networks into deep models (진행중) 1. 개요 최근에 그래프 구조 데이터와 관련된 연구들이 많은 관심을 받고 있다. Graph neural networks 중에서도 특히 Graph convolutional networks가 node classification, link prediction, clustering task에 우수한 성능을 보여주고 있다. 하지만 이러한 모델들의 대부분은 오직 2~3개의 층으로만 구성된 얕은 모델 구조를 가지고 있다. (shallow model architetures with only 2~3 layers) GCN 층을 깊게 쌓을수록 원칙적으로 더 많은 정보에 접근할 수 있지만 성능이 더 떨어지는 이유가 GCN의 얕은 설계의 이유이다. Oversmooting (Li et al., 2018) 은 Deep GCN이 실.. 2022. 7. 17.
728x90
반응형