はじめに
こんにちは、データサイエンティストの栗本です。
LINEヤフーでは、最新の知見を業務に取り入れるべく、論文の社内共有会や社外研究会への参加などを積極的に行っています。その一環として、業務に関連するトピックを扱う海外カンファレンスに社員が会社負担で参加できる制度があります。
その制度を利用して、2025年9月22日〜26日にプラハ(チェコ)で開催された国際会議RecSys 2025に聴講参加してきましたので、その内容について報告します。
(※ 写真は自身で撮影したものか、論文から引用したものです)
目次
- RecSysについて
- 概要
- 3つの特徴
- 6つのメイントピック
- Best Paper (Candidates)
- Short Paper
- Full Paper
- 気になった論文
- Towards LLM-Based Usability Analysis for Recommender User Interfaces(栗本)
- How Do Users Perceive Recommender Systems' Objectives?(栗本)
- Not All Impressions Are Created Equal: Psychology-Informed Retention Optimization for Short-Form Video Recommendation(栗本)
- The Future is Sparse: Embedding Compression for Scalable Retrieval in Recommender Systems(木村)
- Generalized User Representations for Large-Scale Recommendations and Downstream Tasks (近藤)
- Off-Policy Evaluation of Candidate Generators in Two-Stage Recommender Systems (堀)
- 現地参加のメリット
- おわりに
- おまけ
RecSysについて
概要
ACM Conference on Recommender Systems (RecSys) は名前の通り推薦システムに特化した国際会議です。今年で19回目の開催となります。テーマ特化の会議ということもあってかBigTechもバンバン新作を投稿してくるため、この領域に関心のある研究者・実務者にとっては動向を見逃せない学会です。
3つの特徴
類似学会と比べて特徴的な点として、以下が挙げられます。

| 特徴 | 説明 |
|---|---|
| 企業からの投稿が多い | 企業での実運用・研究が盛んな技術領域のため、企業からの発表が非常に多いです。実際、RecSys 2025ではIndustryが投稿種別で最多と なっています。また、Industry Trackでは学術的な新規性よりも、新しい課題を発見して解決を試みたり新しい技術を活用して実際にプロダクトを改善したり、といった実務的な有用性が高く評価される印象です。採択率もFull, Shortの20%前後と比べると、Industryでは36%程度と比較的高め。 |
| シングルトラック | 大規模な学会だと本会議の発表が並列で行われることが多いのですが、比較的小規模ということもあってか本会議の発表は1か所で行われます。これによって、「セレンディピティ」的な出会いが生まれやすい、質疑が盛り上がりやすいといった利点が生まれています。 |
| 日本人参加者が多い | RecSys ChallengeというKaggleのような学会コンペがあり、優勝したリクルートさんや入賞したNTTドコモさんのように強いチームが複数存在することから、日本人参加者の割合が投稿論文の割合に比して非常に大きいです。 |
6つのメイントピック
学会運営から、RecSys 2025のメイントピックとして以下6つが紹介されました。

| トピック | 所感 |
|---|---|
| LLMs in Recommendation Systems | これは本当に多かったです。一昔前の「深層学習を使って〇〇してみました」の大流行がそのままLLMでもという印象。 |
| Cold-Start and Sparse Data Challenges | コールドスタート問題(利用ログが全くない新規等のユーザにどう推薦するか)自体は昔からありますが、従来の推薦システムが苦手としLLMが得意としている問題というのもあって、増えていたのだと思います。 |
| Multi-Objective Optimization | 多様性やセレンディピティの考慮など、単なる精度改善以上のものにしていこうという「Beyond accuracy」の潮流がここ数年あり、引き続き盛り上がっているという印象です。また、複数のステークホルダーの観点を考慮しようという研究も見られました。 |
| User Feedback and Negative Signals | これはあまり印象に残らなかったです。他トピックが問題設定なのに比べて、これだけ使う情報の種類という切り方だったために、単に気づかなかっただけかもしれません。 |
| Retrieval and Ranking at Scale | BigTechの発表でこの手の発表が多かったです。弊社と比べてもさらに一段二段上のスケールゆえ、こういった課題に直面し解決に取り組むのも一足先なのだろうという印象です。 |
| Advanced Embedding Techniques | 同上で、やはり非常に多くのユーザにプロダクトを提供する上での困り事や工夫の話が多く見られました。Embeddingは推薦のベースになることが多いので、推薦領域の中では基礎的な研究開発という趣を感じました。(semantic IDの話題など) |
Best Paper (Candidates)
Short Paper
Short PaperのBest Paper Candidatesには以下の3論文が選ばれていました。

- Beyond Top-1: Addressing Inconsistencies in Evaluating Counterfactual Explanations for Recommender Systems
- Biases in LLM-Generated Musical Taste Profiles for Recommendation
- Emotion Vector-Based Fine-Tuning of Large Language Models for Age-Aware Teenage Book Recommendations
そしてBest Paperに選ばれた論文はBeyond Top-1: Addressing Inconsistencies in Evaluating Counterfactual Explanations for Recommender Systemsです。

Counterfactual Explanation(反実仮想説明)は、入力を変えたとき推薦がどう変わるかを説明する手法・研究ドメインです。しかし評価手続きが標準化されておらず、推薦モデルの性能に評価が左右される不一致が先行研究で指摘されていました。具体的には多くの研究がTop-1の変化だけを基準にしている一方で、推薦システムはTop-Nのランキングを出力とすることが多いため、正確に評価できていないのではないか?という点です。
そこで、さまざまなデータセット/モデル/反実仮想説明手法で検証を行い、Top-1評価ではモデル性能が少し変わっただけで反実仮想説明手法の相対順位が入れ替わることを示しました。また、Top-1ではなくTop-Nで評価すると頑健性が増すことを報告しています。

推薦システムのモデル改善の研究だとTop-1で評価することはまずないと思いますが、こういった論文が出てくるということはおそらく説明生成の領域では一般的だったようです。とすると、今後このドメインでの研究成果が信用されていく上で重要な転換点となる研究なのではと思いました。
Full Paper
Full PaperのBest Paper Candidatesには以下の5論文が選ばれていました。日本からWantedlyさんの論文も選ばれています(すごい!)。

- A Non-Parametric Choice Model That Learns How Users Choose Between Recommended Options
- IP2: Entity-Guided Interest Probing for Personalized News Recommendation
- Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network
- Off-Policy Evaluation and Learning for Matching Markets
- You Don't Bring Me Flowers: Mitigating Unwanted Recommendations Through Conformal Risk Control
そしてBest Paperに選ばれた論文はYou Don't Bring Me Flowers: Mitigating Unwanted Recommendations Through Conformal Risk Controlです。

内容はLayerXさんの2025-10-07機械学習勉強会やWantedlyさんのRecSys'25参加レポートに詳しいため割愛します。
気になった論文
ここでは、参加したメンバーの気になった論文をご紹介します。
Towards LLM-Based Usability Analysis for Recommender User Interfaces (栗本)
IntRSという推薦 × インターフェースのワークショップでの論文です。
近年非常に発展しているマルチモーダルLLM(画像+テキスト)により、スクリーンショットからの半自動的なヒューリスティック評価が可能かを検証した論文です。Amazon、YouTube、Spotifyなど主要プラットフォームにおいて、新規ユーザ相当の状態でスクリーンショットを取得、Gemini 2.5 Flashを使用してレイアウトや情報量、推薦の透明性などを評価。基準ごとに達成/未達+理由+改善提案を生成しています。

実験では150評価(10サイト×2シナリオ×基準)を実行し、約216秒で完了。UI関係の評価は良好だったようですが、推薦関連の評価はまだまだで、現時点ではまずこういったものに投げた後に人手で確認・優先順位づけをするのが良さそうとのこと。
同じGemini 2.5でもProだったりChatGPT 5 Proだったり、最新のモデルだとまた結果も変わってきそうです。しかし、パッと見で判断できる改善ポイ ントはもうある程度自動化できそう、ということをますます感じさせる研究でした。
How Do Users Perceive Recommender Systems' Objectives? (Full Paper) (栗本)
昨今、精度改善はもちろんだけどそれ以外の観点も考慮しようねという"Beyondaccuracy"という潮流があり、多様性や新規性等も考慮した多目的推薦システムの研究開発が進んでいます。こういったシステムは、「アルゴリズムが用いる評価指標(例:多様性を数値化したもの)が、ユーザの主観的な認識(例:多様だと感じる感覚)を正しく反映している」という重要な前提に基づいているものの、この前提が本当に正しいかは十分に検証されていませんでした。
そこで、書籍と映画の2つのドメインでユーザ調査を実施し、推薦システムの各目的(関連性、多様性、新規性など)に対する「システムの指標」と「ユーザの認識」の間のミスマッチを定量的に評価しています。結果、「多様性」「新規性」「探索」といった精度以外の目的についてはユーザの解釈が大きく分かれ、特に30%以上のユーザが「多様性」や「新規性」を「探索」と同じ意味で捉えており、定義との間に概念的なズレがあることを示しました。

いくら指標を改善できてもそもそもユーザの感覚とはズレてるよね、となったらせっかく改善してもユーザは特に嬉しくないと思いますし、今行っている改善が上手くいけば、ユーザは実際嬉しいのか