LINEヤフーでは、最新の知見を業務に取り入れるべく論文の社内共有会や社外研究会への参加などを積極的に行っています。
その一環として、業務に関連するトピックを扱う海外カンファレンスに社員が会社負担で参加できる制度があります。
その制度を利用して、2024年8月25日〜29日にバルセロナ(スペイン)で開催された国際会議KDD2024に聴講参加してきましたので、その内容について報告します。
目次
- KDDの概要:高濱
- 気になった論文・セッションの紹介
- 推薦システムへのLLM活用:山口
- 推薦システムの多様性やバイアスの改善:高濱
- 推薦システム研究の動向と新アプローチ:田邊
- サービス横断のデータや特徴量:松井
- 広告関連技術とA/Bテストの新たな視点:小川
- まとめ
- Appendix(学会の雰囲気)
KDDの概要
KDDは "ACM SIGKDD Conference on Knowledge Discovery and Data Mining" の略で、機械学習やデータマイニングをテーマとした論文の発表を行う国際会議です。
KDDでは推薦や広告など企業活動に関連したトピックも多く、実際にビジネス面での貢献にフォーカスしたセッション等もあり、LINEヤフーでの業務にも関連が深いです。
2024年は第30回目となり、スペインのバルセロナで開催されました。
基本的な情報
- 開催日程
- Workshop:8/25, 8/26
- 本会議:8/27 ~ 8/29
- 会場:Centre de Convencions Internacional de Barcelona
- 参加者数:2,312人
- スポンサー数:33
- プラチナスポンサーはZhipu AI(中国)
- そのほかにはAlibaba Cloud, Apple, Google, Bloomberg, Amazon science, Baidu, Pinterestなど
- 採択率
- Research Track:提出数2,046、採択数411(採択率20.1%)
- Applied Data Science Track:提出数738、採択数151(採択率20.5%)
ビジネスへの適用を念頭に置いた論文が多い印象で、発表者と聴講者ともに企業に所属する参加者が目立っていました。
発表者やスポンサーに関しては特に中国系の企業・研究者が多かったと感じました。
会場はバルセロナの中心地から少し離れたエリアにあり、比較的治安も良くてショッピングモールや海が近かったので非常に良い立地でした。
各セッションについて
本会議のセッションに関しては大きく2種類に分かれているのが特徴です。
- Research Track
- 理論的な研究や、新規性のあるモデル、アルゴリズムの提案に関する論文
- Applied Data Science Track (ADS)
- 機械学習やデータサイエンスの実応用に関するシステム設計や実装に関する論文
- 実際にビジネスに適用されて成果を出したり重要な知見が得られていることが重視される(とOpening Sessionで言われていました)
Research Trackに関するWord Cloudでは「Graph」「Recommendation」「Time-series」「Efficient」「Federated」などのワードが目立っていました。
聴講していても、生成AI系の発表とGraphを使ったNNモデルの発表が多かったと感じました。
また、KDDでは採 択された論文全てにOral発表の機会が与えられているのが特徴でした。
一方で採択論文のポスターセッションもあり、そこで著者に直接話を聞くこともできました。
Workshopではさまざまなトピックの多様なセッションが開催されています。
1つのworkshopは4時間ほどで、Keynote(招待公演)やpanel discussion、数件の論文発表が行われます。
有名なものだとAdKDDであったり、近年の傾向を反映してLLM関連のWorkshopも複数開催されていました。
他にも例えばFragile Earthという、持続可能な社会の実現にMLを活用するという挑戦的なworkshopもあり興味深かったです。
さらに、付随するコンペティションチャレンジであるKDD Cupも有名で、今年は3種類のタスクがありました。
- OAG-challenge: 学術データに対する知識グラフ構築のタスク。誤った情報の訂正やQuestion Answeringを含む。
- Meta : RAGシステムを使った質問応答の性能を競う。
- Amazon : LLMを使ったオンラインショッピングの支援。
本会議やWorkshopは10個前後のセッションが並行して開催されており、これ以外にもさまざまなプログラムがあったため、特に興味のあるものを選んで聴講する必要がありました。
これ以降では、参加した社員それぞれの視点から、印象に残った論文やセッションをテーマごとに絞って紹介します。
Topic: 推薦システムへのLLM活用
機械学習エンジニアの山口です。業務ではコマース向けの推薦システムを開発しています。今回の聴講では、言語モデルを活用した推薦の発表が多くありました。個人的に発表を聞いて面白かったものをピックアップして紹介します。
RecExplainer: Aligning Large Language Models for Explaining Recommendation Models
背景
近年の推薦システムでは、ItemやUserのEmbeddingから推薦を生成していますが、その推論根拠はブラックボックスでした。
本研究では、LLMの理解と推論能力を活用し、推論根拠を自然言語で生成するタスクに取り組んでいます。
提案手法
本研究では、RecExplainerというフレームワークを提案しています。この手法の特徴は、ブラックボックスな推薦モデルの出力を模倣するようにLLMをアライメントすることです。具体的には、以下の3つのアライメント方法を提案しています。
-
Behavior alignment: ターゲット推薦モデルの入出力結果をエミュレートするようにLLMをアライメントします。主にRetrieval、Rankingアライメントを行います。
-
Intention alignment: ターゲット推薦モデルの内部状態(Embedding, Hidden-states)を直接参照し、LLM はEmbeddingを直接解釈できるようにアライメントします。Item, Userの入力はTextではなく、Embeddingに変わります。アライメントでは、Item, User EmbeddingをTokenへ変換するMLPを追加で学習します。
-
Hybrid alignment: BehaviorとIntentionの両方のアライメントを行います。入力にテキスト情報と推薦モデルのEmbedding両方を与えることで表現力を高めます。
実験
実験は、Video Games(Amazon)、Movies & TV(Amazon)、Steamの3つのデータセットを使用し、LLMはvicuna-v1.3-7bを用いて行われました。アライメントを行わない場合やIn-context learning(ICL)と比較しています。
- Alignment Effect: Hit ratio、NDCGの指標を比較すると、RecExplainerが最も性能が高く、オリジナルの推薦モデルを模倣できていること、アライメントの重要性を示しています。
- Explanation Generation Ability: RecExplainer Hybridが最良の説明品質を持ち、Intention alignmentのみでは性能が下がるものの、Hybridにすることで性能向上が確認されました。
Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System
背景
BERTやLLMを用いた推薦システムは多く提案されていますが、従来の強調フィルタリング(CF; Collaborative Filtering)ベースの手法がログが十分に集まっている(Warm Item)場合に依然として高性能であり、LLMはCold Item (ログが十分に落ちていないitem)でしか効果的に活用できないという問題がありました。
提案手法
本研究では、CFで得られた知識を用いてLLMをアライメントし、Warm ItemとCold Itemの両方に対応できる推薦システムを提案しています。この手法は、CFモデリングの手法によらず実装可能であり(Model-agnostic)、LLMのファインチューニングも不要で、比較的低コストで実現できます。
提案手法は2段階のLLMアライメントを採用しています。
- Stage-1: CFで作成したItem EmbeddingとItem TextをSBERTでエンコードし、Auto-Encoderで潜在空間にマッピングしてJoint Embeddingを獲得します。
- Stage-2: Stage-1で得たJoint EmbeddingをMLPでLLMのToken空間に変換し、CF情報を活用するためのプロンプト設計を行います。
実験
実験は、AmazonのMovies and TV、Video Games、Beauty、Toysのデータセットを用い、LLMとしてopt-6.7b、CF-RecSysモデルとしてSASRecを使用して行われました。
- 性能比較: LLM-OnlyやTALLRecといったLLMベースの手法がCFベースに比べてスコアを落としている中、提案手法(A-LLMRec)はスコアを向上させ、CF知識でアライメントを行う本手法の有用性が確認されました。
- Cold/Warm Item での評価: Cold Itemでは大幅にスコアを改善し、Warm ItemでもCF(SASRec)と同等以上のスコアを達成。どちらの条件でも高性能を示し、LLM活用によるCold Itemの改善とCFが強いWarm Itemの推薦を両立できていることが示されました。
感想
1つ目の研究について、モデリング手法は LLM as a surrogate model としての利用や、Intention alignment が Vision Language Model のようなマルチモーダルモデルと同様に解釈でき、面白い試みだと思いました。
2つ目の研究について、強調フィルタリング (CF) の知識を LLM へアライメントすることで、LLM の推薦性能を向上できており、とても興味深いトピックでした。また、アライメントも Prompt Tuning や Auto-Encoder の学習のみで良いため、低コストで実現可能なのも特徴的だと思います。
私の業務で取り組んでいるコマースにおける推薦システムの課題として、ユーザごとにニーズが異なることや、商品数やユーザ規模が大規模であるため、十分なパーソナライズの提供が難しい点があります。例えば、あるユーザは値段比較を重視する一方で、別のユーザは商品の探索に重点を置くことがあります。このような多様なニーズに対応するために、パーソナライズされた推薦が重要であると考えています。
本記事で紹介したLLMによる推薦モデリング手法では、LLMの得意とするパーソナライズ・説明能力だけでなく、課題であった推薦精度も高く維持されていることが示されています。
推薦向けのLLMを構築することで、推薦リストの生成や説明の付与だけでなく、対話形式での推薦への応用も視野に入るのではないかと思います。
運用面に関しては、今回紹介した論文ではどちらも7Bクラスであり、推薦に限定すれば実現可能性は高いのではないかと考えています。
今後もこのトピックに関して動向を注視し、可能であれば、実サービスへの活用を検討していきたいと思います。
Topic: 推薦システムの多様 性やバイアスの改善
機械学習エンジニアの高濱です。私は業務で推薦システムの実装に携わっており、特に推薦の多様性やバイアスの除去といったテーマに関心があります。
推薦システムはユーザーの興味に近いアイテムを提示してより良い体験を提供できる魅力的なツールである反面、提示するアイテムが人気なものや一部のカテゴリに偏っていると、逆にユーザーの満足度を下げてしまったり、誤った印象を与えてしまったりするおそれがあります。
ここではそういった問題を解決するための研究で気になったものをいくつか紹介します。
Trinity: Syncretizing Multi-/Long-Tail/Long-Term Interests All in One
背景
中国国内でのTikTokにあたるアプリ「Douyin」の推薦システムを対象とした、ByteDanceによる発表です。
一般に大規模推薦システムでは、人気のあるアイテムはもちろん、それ以外に以下の3パターンを提示できることが求められます。
- Multi Interest:ユーザーが興味を持つ複数のトピック
- Long-tail Interest:少数のユーザーだけが興味を持つマイナーなトピック
- Long-term Interest:ユーザーの長期的、継続的な興味に関連するトピック
Douyinはオンラインの推薦モデルを採用していますが、直近の履歴を重視し過ぎて過去の履歴を忘却しやすい(Interest Amnesia Problem)という問題点があり、上の3パターンをうまく提示できていませんでした。
この研究では、アイテムの多様性を重視した"Trinity"というモデルを別途作成し、現行のオンラインモデルを補完することを提案しました。