What is Pixie
•
Pin과 Board로 이루어진 Bipartite Graph를 만들어 가장 Relevant한 Pin을 찾는 추천 시스템
•
RandomWalk의 Visit Count를 통해 Relevance를 계산해 냄
️ How dose Pixie into Recommendation Pipeline
•
다른 Recsys들과 마찬가지로 Candidate Generation + Full Ranking 구조로 동작함
Candidate Generation
•
Candidate Generation은 Recall-Driven으로 다양한 관련있는 Pin을 가져오는게 중요함
•
Pixie는 Candidate Generator중 하나로서 동작함
•
일반적으로 휴리스틱한 기준으로 Candidate을 정렬함
•
비즈니스 로직에 따라 특정 Candidate에 대해 Boost를 해주기도 함
Full Ranking
•
여러 Candiate Generator가 가져온 후보를 Aggregate하며 Precise, Complex한 NN을 사용함
•
모델이 복잡하므로 Top-N에 대해서만 Rank를 매기고, 가장 높은 Rank인 핀들을 유저에게 보여줌
Make Pixie more personalized
Pixies Challenges
•
RandomWalk + Visit Count 기반으로 점수가 매겨지므로, 유저의 선호가 전혀 반영되지 않음
•
Business Needs를 추천에 반영하기 어렵고 Boosting Layer로 넘겨야 함
ML Models Challenges
•
ML 모델을 이용하면 Score + Boost를 우아하게 대체할 수 있으나 Inference Time이 문제임
•
Pixie는 다양한 지면에서 일어나는 요청에 대해 초당 7500만개 Pin을 처리 가능함
•
Pixie에 모델을 추가해도 Latency가 크게 증가하지 않는게 중요함
LigthWeight Ranker, Goal
•
Latency를 증가시키지 않으면서 개인화된 Ranker를 부착하는게 목표임
•
이후 Full Ranker가 있으므로 Ranking의 정확도를 어느정도 희생해도 됨
•
Business Needs가 발생하면 유연하게 이를 반영할 수 있어야함
Building a multi-tenant LightWeigh Ranker
Creating a Training Dataset
•
일반적으로 추천 관련 Log는 Front-End단에서 유저에게 보여준 Item에 대해서만 기록함
•
우리는 Serving 과정에서 추천 관련 Log를 다 기록하고(못 보여준것들도), Front에선 Label만 가져옴
•
이렇게 하면 Client별로 Log Infra별도로 만들 필요도 없고, 정보량도 늘어남
How to train and optimize LightWeight Ranker
Model
•
Complexity 낮은 XGBoost와 GBDT 모델부터 시작했음
•
Full-Ranker가 사용하는 Feature 다 사용했고, Pixie의 Graph Feature도 사용함
•
모델 Objecitve는 (1) Full-Ranker Distillation (2) Funnel 효율을 개선시키기 두 가지를 고려했음
◦
Full-Ranker는 Engagement를 예측하도록 학습되는데, 이를 모방하는 것을 Distillation라고 정의함
◦
Funnel 효율 개선이란, 다음 Ranker를 통과했을 때 남은 Pin의 갯수를 늘리는 것
•
아래는 각 Objective별로 Label을 어떻게 정의했는지 보여줌
Result
•
Funnel 효율 관련 모델은 실제로 Funnel을 통과하는 Pin의 갯수를 증가시킴
•
다만 “Pure” 버전은 Action을 할만한 Pin을 잘 구분하지는 못함
•
“Blended” 버전이 셋 중 가장 좋은 결과를 보여줌
Additional
•
이렇게 학습된 모델을 Client별 Task에 맞게 학습해서 이용함 | Ex : {HomeFeed : Save}, {Email : Click}
Wins
Impact to Pixie and Its Clients
•
Pixie를 사용하고 있는 여러 Client들에서 성과를 거둠, 또한 Client별 Needs에 맞는 모델 구축 가능해짐
•
Homefeed의 경우 Save가 1-2%가 늘어났고, Related-Pin 지면은 CTR, 체류시간이 1% 늘어남
•
Email Noti의 경우, WAU를 6% 증가시킴.
Impact to Pixie and Its Clients
•
유저 입장에서는 기존 퍼널 앞단에서 탈락하지만, 더 관련있는 Pin들을 경험할 수 있게됨