[논문리뷰] CaSe4SR: Using category sequence graph to augment session-based recommendation

조조링 2024. 10. 17. 15:59

728x90

요약

문제 정의. 짧은 세션에서는 사용자 의도가 명확히 드러나지 않으며, 긴 세션에서는 사용자의 관심이 흐려질 수 있다.
해결 방법. 아이템 카테고리 정보를 활용하여 해결

방법론 요약. Case4SR은 세션 기반 추천을 위한 카테고리 시퀀스 그래프를 활용한다. 사용자 행동 시퀀스와 아이템 카테고리 시퀀스에서 아이템 그래프와 카테고리 그래프를 각각 구축한다. 그래프 신경망(GNN)을 사용하여 아이템과 카테고리의 표현을 각각 학습한 후, 통합한다.

1. INTRODUCTION

지금까지의 연구는 주로 항목 수준의 모델링에 초점을 맞추었기 때문에 사용자 관심에 대한 인식에서 편향 발생할 수 있다.

짧은 세션의 경우 제한된 상호 작용 행동만으로는 사용자의 실제 의도를 파악하기 어렵다.
예를 들어, 사용자가 vivo X30뒤에 iPhone XR을 클릭한다면, 항목 자체의 관점에서 두 항목은 완전히 다른 항목이므로, 이 두 개의 행동만으로는 사용자의 실제 의도 파악하기 어렵다.
사용자의 관심사는 변할 수 있으므로, 긴 세션에서 행동 간의 전환 관계는 더 복잡해지며, 복잡한 전환 모드는 사용자의 선호도에 대한 판단을 어렵게 할 수 있다.

► 따라서 본 논문은 세션 시퀀스를 모델링하기 위해 항목 측면에서 보조 정보를 추가하고자 한다.

(예시)

iPhone 11, iPhone XR 및 iPhone XS는 모두 iPhone이다. 이때, 항목 수준에서만 고려한다면 이들은 공통점이 없으며 서로 다른 항목 ID를 가지고 있다. 만약 이 세개의 항목이 세션 시퀀스를 구성한다면, 항목 수준에서만 모델링하면 세부적인 잡음에 영향을 받기 쉽다. 하지만 카테고리 수준의 분석을 결합하면 사용자의 실제 요구에 부합하는 제품을 정확하게 추천해 줄 수 있다.

2. METHOD

2.1 overview

항목들 사이의 순차적 및 비순차적 종속성을 동시에 포착하여 사용자 선호도 예측
항목 시퀀스와 카테고리 시퀀스를 얻어서 각각 방향 그래프로 모델링
GNN 사용해 방향 그래프에 기반하여 항목 노드와 카테고리 노드의 벡터 표현을 얻음
두 벡터 표현을 결합
세션의 전역 임베딩은 어텐션 네트워크 통해 얻고, 로컬 임베딩은 세션 내 마지막 항목 사용

2.2 Item Graph

2.2.1 The construction of item graph

2.2.2 Node embedding in the item graph

GNN을 통해 모든 아이템 xi들을 d차원의 ei 벡터로 변환
시간 t에서 아웃, 인 인접행렬A가 주어지면, 이웃 노드 정보를 결합한 노드 표현은 다음과 같다.

2.3 Category Graph

2.3.1 The construction of category graph

같은 카테고리 내의 항목들 사이에는 종종 많은 유사성이 존재, 이러한 유사성은 사용자의 선호도 표현
이전의 항목만을 고려했을때는, 항목들 사이의 시퀀스 관계만을 포착할 수 있었지만, 행동들 사이의 내재적 유사성을 포착하지는 못했다.

2.3.2 Node embedding in the category graph

카테고리 간의 전환 탐색하는 중요한 기능은 사용자 선호도의 변화를 찾을 수 있다는 것
이를 통해 어떤 항목을 선택하기 전에 사용자의 탐색 습관을 파악할 수 있으며, 이는 후보 항목의 범위 좁히는 데 도움이 된다.

2.4 Session representation

카테고리는 항목의 특징이며, 항목 시퀀스의 표현을 보완할 수 있는 요소이다. 따라서 fusing layer에서 항목 임베딩과 카테고리 임배딩을 통합하여 전체 세션의 최종 표현을 얻을 수 있다.
$s_l = [e_n;f_n]$
세션의 각 항목은 최종 예측에 다른 영향을 미친다. 따라서 세션의 글로벌 임베딩에는 어텐션 메커니즘이 사용되며, 세션 내 모든 항목의 임베딩을 통합하여 결과를 계산한다.
항목 카테고리 정보의 퓨전은 항목의 중요성에 일정한 영향을 미치므로 어텐션 가중치 계산에 영향을 준다.
이를 위해 두 가지 퓨전 방법을 시도하여 카테고리 정보 추가해 세션의 글로벌 임베딩 얻는다.

2.4.1 A global representation method based on unweighted fusion

항목 임베딩과 카테고리 임베딩의 퓨전 후에 어텐션을 채택하여 전역 임베딩 얻는다.
우선, 학습 임베딩과 카테고리 임베딩을 concat해서 새로운 항목 임베딩 벡터 얻는다.
그런 다음 세션 내에서 카테고리 정보를 도입하는 항목에 가중치는 부여하기 위해 어텐션 메커니즘을 사용하여 세션의 전역 임베딩을 얻는다.

2.4.2 A global representation method based on weighted fusion

이 방법은 항목 시퀀스와 카테고리 시퀀스가 입력 레이어와 임베딩 레이어에서 별도로 처리된 후 병합된 결과이다. 항목 그래프와 카테고리 그래프를 각각 가중치 적용하여 퓨전하여 전역 임베딩을 얻는다.

3. EXPERIMENTS

3.1 Comparison with baseline methods (RQ1)

3.2 Comparison with different session sequence lengths (RQ2)

세션 길이가 증가함에 따라 Recall, MRR 측면에서의 성능이 두 데이터셋 모두에서 감소
이는 RNN, CNN, GNN 기반 방법이 세션 기반 추천 작업에서 긴 시퀀스를 처리하는 데에는 일정한 한계가 있음을 보여준다.

SR-GNN의 추천 성능이 더욱 두드러지며, GNN의 세션 기반 추천 작업에서의 적응성 보여준다.
본 논문의 알고리즘은 짧은 세션~긴 세션 모든 모델 중 가장 우수하다. 이는 카테고리 정보가 아이템 정보를 강력하게 보완하며 사용자의 다음 행동을 예측하는 데 중요한 역할을 한다는 것을 보여준다.
- 짧은 세션에서, 아이템 수의 한계로 사용자 의도가 불분명한 문제 해결
- 긴 세션에서, 다양한 사용자 관심사로 인해 발생하는 세부적인 잡음 문제 해결

728x90