LINEヤフー Tech Blog

LINEヤフー株式会社のサービスを支える、技術・開発文化を発信しています。

LINEギフトユーザーの休眠予測と休眠予備群の特徴抽出(インターンレポート)

こんにちは、東京科学大学大学院工学院情報通信系修士1年の城戸晴輝です。普段は自然言語処理の研究をしています。今回ご縁をいただき2024年8月19日からの8週間、データサイエンス統括本部 ソーシャルコマースチームにて、インターンに参加させていただきました。本記事では、インターンで実施した 「LINEギフトの休眠(過去の購入から一定期間次の購入のない状態のこと)防止のための分析」 を紹介します。

背景・課題

LINEギフトとは

LINEギフトとは、LINEアプリを通じて友達や家族に、さまざまなプレゼントを贈ることができるサービスです。2015年にサービスを開始し、累計ユーザー数は2024年7月時点で3,500万人を超えています。年間利用者数は、贈った人が約1,000万人、もらった人が約1,500万人と多く、現在も成長し続けているサービスです。LINEギフトのサービス概要については、以下のページをご参照ください。

取り組んだテーマ

現在進行形で成長し続けているLINEギフトですが、成長に伴って休眠ユーザーも増加していました。サービスの規模が大きくなるにつれて休眠ユーザーが一定の割合で増加することは自然なことではありますが、LINEギフトのさらなる成長のために、「休眠ユーザーを復帰させる」または「休眠を防止する」ことやそのための分析は、事業としても重要度の高いテーマであると位置づけられていました。

過去の分析において、「休眠ユーザーを復帰させる」ことについては分析や施策提案が行われていたものの、休眠判定前のユーザー(休眠予備群)の「休眠を防止する」ための分析は行われていませんでした。そのため、「休眠予備群」に対する全体像や特徴についての解像度が低く、休眠防止に有効な施策を検討・実施できていないという課題がありました。そこで今回のインターンでは、休眠予備群の全体像や「休眠しやすい人」の特徴を把握するための分析を実施しました。

分析のゴール

まず、最初に本分析におけるゴールを定義しました。これによりどのような分析やアウトプットが必要になるかを前もって明確化でき、見通しよく分析を進めていけるため、インターン先の部署ではプロセスが標準化されていました。今回は、以下の2つの状態をゴールとして定義しました。

  1. 休眠判定日よりも前の段階で休眠が確定することがあるか(≒「ある特定のルールに当てはまるユーザーは高い確率で休眠する」という休眠ルールが存在するか)を確認できている状態
  2. 休眠予備群の全体像と「休眠しやすい人」の特徴が明らかになっている状態

分析結果

Q. 休眠判定日よりも前の段階で休眠が確定することがあるか?

結論としてはYesで、 「休眠判定日より前に休眠が確定することがある」 と考えられます。本分析では、休眠予測モデル(ランダムフォレスト・決定木)を構築し、「休眠」と判定される将来時点での休眠確率を予測しましたが、その性能は十分高い状況でした(ただし、今後のサービス活用に向けてさらなる改善の余地あり)。これは、休眠予測モデルが「ある特定のルールに当てはまるユーザーはその後休眠する」という法則性(=休眠に至るルール)を精度高く抽出できているということであり、つまり「休眠ルールが存在している」と考えられるためです。
実際にROC-AUCという指標を用いてランダムフォレストと決定木モデルの予測性能を見てみると、以下のようになりました。横軸は最終購入日からの経過日数(約1年間)です。いずれのモデルも最終購入日の直後で最も高い性能を見せており、その後性能は低下していきますが、約1年後に少し改善するという動きが見られます。

図1: 決定木の予測性能の推移
図1: 決定木の予測性能の推移
図2: ランダムフォレストの予測性能の推移
図2: ランダムフォレストの予測性能の推移

上記のROC-AUCの推移から、購入から時間がたつにつれ、休眠するユーザーとしないユーザーの特徴量に違いが少なくなっていき、休眠判定が難しくなっていくことがわかります。約1年後に予測性能が改善していることについては、LINEギフトの特性として、誕生日や特定のシーズナルイベントにおける利用のように1年周期で動きが活発になるユーザーが多く、休眠する/しないユーザー間での特徴量の差が大きくなったことが理由として考えられます。

モデルについて

本分析において、視覚的な条件分岐を得るために決定木を、特徴量重要度などから休眠ルールを解釈するためランダムフォレストを使用しました。また、最終購入日からの経過日数を断面として休眠ルールに違いがあるかを確認するため、最終購入からn日経過時点の情報を元に、休眠予測モデルを14日ごと(n = 0, 14, 28, ...)に、決定木とランダムフォレストについてそれぞれ構築しました。目的変数を「その後休眠するか否か」とし、特徴量は以下を利用しています(一部抜粋)。

  • 購入
    • 贈り先のばらけ具合
    • 単価
    • 回数
    • 自分宛/友だち宛
    • eギフト/配送ギフト
    • シーズナルイベント/非シーズナルイベント
    • クーポン利用有無
  • ギフト受取回数
  • クーポン取得数
  • お気に入り
    • ほしいものリスト登録数
    • 贈りたいものリスト登録数
  • 属性
    • 居住地(MLによる推定値)
    • 性別(MLによる推定値)
    • 年齢(MLによる推定値)
    • 職業(MLによる推定値)
  • 誕生日
    • 登録有無
    • 公開有無
  • アクセス数
    • 閲覧商品数
    • クリック数

これら特徴量同士の相関によって特徴量重要度が不安定になることを避けるため、ドメイン知識に基づいて不要なものを削除したり、グルーピングしました。また、基礎集計結果との整合性を確認するなど、機械学習モデルの解釈性を高めるための工夫を行っています。

Q. 休眠が起こりやすい人の特徴は何か?

休眠予備群の全体像

最初に、休眠予備群の全体像を理解するための「前さばき分析」を行いました。これにより事前に定めたゴール自体の筋を見直せたり、ゴールの達成確率を上げられ、さらに見通しよく分析を進めていけるという点で、これも部署で推奨されていました。

まず年ごとに新規で休眠判定されたユーザー数の推移を見てみると、2023年は利用ユーザーの増加に伴い前年よりも多くのユーザーが新たに休眠判定されていました。休眠予備群のボリュームも大きく、本分析の重要性は高いことがわかります。

休眠予備群がどの程度LINEギフトやLINEギフトのLINE公式アカウント(OA)配信にアクセスしているかの情報は、後に施策を考えていく上で非常に重要であるため、これについても集計しました。休眠予備群が最終購入日以降もLINEギフトにアクセスしていれば、休眠防止施策の選択肢としてLINEギフトのUI・機能の検討やOA配信の活用が考えられるようになります。結果としては、休眠予備群の大半が最終購入日以降もLINEギフトにアクセスしていることがわかりました。さらに、OA配信を見たりクリックしているユーザーも多数いることがわかりました。このことから、休眠防止のために、最終購入日以降の再訪タイミングでそのユーザーに合わせて購入を促すようなUI・機能の検討、あるいはOA配信施策を実施することに一定の効果が期待できると考えます。

基礎集計から明らかになった休眠しやすいユーザーの特徴

機械学習モデルに与える特徴量を考えるためにも、「最終購入以前の行動」「最終購入より後の行動」「属性」の3つの軸でどのような特徴が休眠傾向に影響を与えるのかについて分析を行いました。
その中でも、後述する「休眠予測モデルが抽出した休眠ルールの解釈から明らかになったこと」に含まれていない内容から一部抜粋して紹介します。

購入目的によって次の購入タイミングの傾向に違いがある

このグラフはある日に購入したユーザーについて、「その日からn日後の時点でまだ次の購入がないユーザーがどれだけ残っているか」の推移を示しています。縦軸は人数で、横軸は経過日数です。これを見てみると、母の日(2023年5月14日)に購入のあったユーザーは父の日に次の購入をしやすく、非シーズナルイベント日に購入のあったユーザーは、シーズナルイベントに大きく左右されず次の購入をしています。このように、LINEギフトの使い方によっても購入タイミングの傾向に違いが見られることがわかりました。

図3: 母の日に購入のあったユーザー
図3: 母の日に購入のあったユーザー
図4: 非シーズナルイベント日に購入のあったユーザー
図4: 非シーズナルイベント日に購入のあったユーザー

学生であることと休眠しやすさには相関がある

性年代や職業などの属性(MLによる推定値)により、その後休眠するか否かの割合に違いがありました。特に学生が休眠しやすく、その理由として「人間関係が流動的であること」が考えられます。新たな人間関係ができることも期待されるため、新たなギフトシーンが生まれたときに、LINEギフトを確実に利用してもらうことが重要であると考えられます。

OAフォローと休眠割合の低さには相関がある

OAフォローしている場合としていない場合でも、その後休眠するか否かの割合に違いがありました。OAフォローをしているほうがその後休眠するユーザーの割合が低いのですが、これは「OAフォロー」という原因が「休眠しにくい」という結果を引き起こすことを示すものではない、つまり「OAフォローを推進することで休眠割合を減少させられる」ことを必ずしも意味しないことに注意が必要です。例えば、今後も継続して利用しようと考えているユーザーがOAフォローをする傾向があるとすれば、OAフォロー有無による休眠割合の違いはOAフォローによる販促によるものではなく、そもそもの継続利用意志がOAフォロー有無に反映されていることになるからです。
この場合、何らかの方法でOAフォローをさせられたとしても継続利用意志には影響を及ぼさないため、休眠ユーザーは減らないかもしれません。本来は因果推論の手法を適用し、このような因果関係の妥当性の検証を行うほうがよいのですが、時間の都合上今回の分析では実施できていません。後続の議論においてもこの制約を念頭においた上で読んでいただけるとありがたいです。

休眠予測モデルが抽出した休眠ルールの解釈から明らかになった休眠しやすいユーザーの特徴

決定木・ランダムフォレストが抽出した休眠ルールの解釈を行い、より詳細な休眠予備群の特徴を分析しました。経過日数ごとに休眠ルールの違いが見られましたが、この記事においては、予測性能の高かった経過日数0日目の決定木の分岐(図5)と、ランダムフォレストの特徴量重要度(表1)だけを解釈し、休眠ルールの違いを議論していきます。特徴量重要度にはSHAP(SHapley Additive exPlanations)を用いています。

図5: 経過日数0日時点での決定木の分岐
図5: 経過日数0日時点での決定木の分岐
#特徴量寄与
1贈り先のばらけ具合(贈り先人数÷利用回数)大きいほど休眠確率DOWN
※ただし、ちょうど1になる場合は利用回数の少なさと相関するため休眠確率UP
2総受取回数多いほど休眠確率DOWN
3過去一年の利用回数多いほど休眠確率DOWN
4過去一年の友だち宛利用回数多いほど休眠確率DOWN
5過去一年の受取回数多いほど休眠確率DOWN
6過去半年の利用回数多いほど休眠確率DOWN
7友だち宛総利用回数多いほど休眠確率DOWN
8最終購入日時点で新規利用か継続利用か継続利用は休眠確率DOWN、新規利用は休眠確率UP
9過去一年の配送ギフト利用回数多いほど休眠確率DOWN
10過去一年のアクセス回数多いほど休眠確率DOWN
11総利用回数多いほど休眠確率DOWN
12配送ギフト総利用回数多いほど休眠確率DOWN
13過去3カ月の利用回数多いほど休眠確率DOWN
14過去半年の受取回数多いほど休眠確率DOWN
15誕生日公開公開していると休眠確率DOWN
16総アクセス回数多いほど休眠確率DOWN
17総クリック回数(商品ページまたはショップページへ遷移するクリックのみ)多いほど休眠確率DOWN

表1: 経過日数0日時点でのランダムフォレストのSHAP(一部抜粋・順不同)

高頻度で友だち宛利用をしており、多くのギフトを受け取っていることと休眠しづらさには相関がある

図5の決定木では、最終購入から友だち宛利用回数とギフト受取回数が一定以上であるユーザーは最も休眠確率が低いと、決定木により予測されていることがわかります。さらに、過去分析でお返し率の高さと相関が見られている「誕生日公開」も休眠確率に影響しています。これらから、贈り合いを促進することで、継続的なLINEギフト利用につながりやすくなることが示唆されます。

友だち宛の贈り先の多様さと休眠しづらさには相関がある

表1から、贈り先のばらけ具合(贈り先人数÷利用回数)が大きいほど、休眠確率が低くなる方向に寄与することがわかります。ただし、ちょうど1であるときはそもそも利用経験が少ない場合に多いので、休眠確率が高くなる方向に寄与しています。このことから、LINEギフトは人間関係の変化に大きく影響を受けるため、少ない固定ユーザーに贈るだけでなく、多様な贈り先の確保が休眠を防ぐことが示唆されます。そのためには、やはり「新しいギフトシーンをこぼさないようにすること」が重要であると考えられます。

配送ギフトの利用経験や多くの商品をクリックしたかどうかと休眠しづらさには相関がある

表1から、配送ギフトの利用回数や商品・ショップのクリック回数が多いほど休眠確率が低くなる方向に寄与しています。このことから、LINEギフトの機能や取扱商品を知ってもらうことが休眠防止につながることが示唆されます。よって、その人にとって良い機能や商品があるにもかかわらず、そこに辿り着かずに休眠しているユーザーに対し、「LINEギフトの機能・使い方をわかりやすく伝えること」や「商品レコメンドの強化」が有効であると考えられます。

展望

休眠予測モデルの性能改善

本分析ではルール抽出に重きをおいてモデルを構築しましたが、休眠予防のためには「休眠するユーザーを当てること」に重きをおいたモデルが必須です。そのためには、今回得られた「休眠しやすい」ユーザーの特徴を踏まえ、学習・予測に利用する特徴量を再検討する必要があります。

また、本来は休眠予測に寄与するであろうと思われる「最終購入からの経過日数」は特徴量から除いています(それに伴い、目的変数である休眠有無については、経過日数によらず休眠するレコード数と休眠しないレコード数が一対一になるように調整しています)。もし経過日数をモデルに組み込めば、基本的に「経過日数が増えるにつれ休眠確率は大きくなっていく」ことになると予想されますが、このことから「経過日数が増えるほど休眠しやすい」と議論しても有益な示唆は得られません。最終購入日からの経過日数が多いことによって「休眠しやすさ」が決まるのではなく、「休眠しやすい」から最終購入日からの経過日数が多いと考えるのが自然であり、前者は因果関係が逆になっているからです。

モデルのハイパーパラメータについても、時間の都合上最適化できていません。より予測性能の高いモデルを構築するため、ハイパーパラメータの最適化も課題として残されています。

休眠確率を下げるルールの深掘り

本分析では「休眠した/しなかったユーザーはどのような商品を購入していたのか」のような商品軸での深掘りまではできていません。例えば、休眠ユーザーの最終購入での購入商品や、「お返し」のトリガーとなる商品は何だったのか、を分析することで贈り合いを促進することも目指せると考えています。

さらに、「休眠確率を高く予測されたが後に休眠確率の下がったユーザー」を分析することで、休眠確率の下がったターニングポイントにおけるイベントやユーザー心理を把握し、休眠予備群についてのより解像度の高い理解が可能となるでしょう。

休眠判定前のアクセスで購入しなかった理由の深掘り

休眠予備群もLINEギフトにアクセスしていることを確認しましたが、それでも購入に至っていない原因を特定することが休眠防止に重要であると考えられます。特に最終購入から約一年後にアクセスが増加することがわかっており、「昨年と同様のギフトシーンにおいてLINEギフトを利用しようとしたものの、何らかの要因により利用せず休眠した」ユーザーが存在しているようです。そのようなユーザーがLINEギフトを利用しなかった理由を考察することで、継続的な利用につながる示唆が得られると思われます。

感想

まず、8週間もの長い間多くのサポートをしていただいたDSチームの方々、また事業部の方々に感謝申し上げます。特に、メンターの上田さんや上長の岡田さんには常に適切なアドバイスをいただき、効果的に分析に取り組むことができました。ありがとうございます。事業部の方々の意見もいただきながら「どのような背景・課題があるかを確認し、それを解決するためにどのようなアウトプットが必要か、またそのアウトプットを得るためには具体的にどのような分析が必要かを決定する」といった分析の設計から始め、適宜フィードバックをいただきつつ実際に分析を実施し、結果を共有する、というデータサイエンティスト職の一連の流れを経験でき、とても勉強になりました。

結果共有会では、面白くて役立つからと想定よりも多くの方々に出席いただくなど、前向きな反応を多くいただき、「頑張って分析した甲斐があったな」と感じ非常に嬉しかったです。振り返ってみると、インターン参加前と今では別人に思えるほどたくさん成長することができました。業務の中での経験や、インターン期間中個人的に多くの技術書を読んだり統計検定を取得したこと、そしてチームの方々からの手厚いサポートのおかげで飛躍的に成長することができました。また、成長したことで自分に足りていない部分も多く見つけることができたので、今後はそれらを伸ばしていきたいと思っています。

8週間毎日新たな学びがあり、非常に勉強になりました。改めて、インターンに参加させていただいたLINEヤフー株式会社と、お世話になった皆様に感謝いたします。8週間本当に楽しかったです!!ありがとうございました!!!!