こんにちは、東京科学大学大学院工学院情報通信系修士1年の城戸晴輝です。普段は自然言語処理の研究をしています。今回ご縁をいただき2024年8月19日からの8週間、データサイエンス統括本部 ソーシャルコマースチームにて、インターンに参加させていただきました。本記事では、インターンで実施した 「LINEギフトの休眠(過去の購入から一定期間次の購入のない状態のこと)防止のための分析」 を紹介します。
背景・課題
LINEギフトとは
LINEギフトとは、LINEアプリを通じて友達や家族に、さまざまなプレゼントを贈ることができ るサービスです。2015年にサービスを開始し、累計ユーザー数は2024年7月時点で3,500万人を超えています。年間利用者数は、贈った人が約1,000万人、もらった人が約1,500万人と多く、現在も成長し続けているサービスです。LINEギフトのサービス概要については、以下のページをご参照ください。
取り組んだテーマ
現在進行形で成長し続けているLINEギフトですが、成長に伴って休眠ユーザーも増加していました。サービスの規模が大きくなるにつれて休眠ユーザーが一定の割合で増加することは自然なことではありますが、LINEギフトのさらなる成長のために、「休眠ユーザーを復帰させる」または「休眠を防止する」ことやそのための分析は、事業としても重要度の高いテーマであると位置づけられていました。
過去の分析において、「休眠ユーザーを復帰させる」ことについては分析や施策提案が行われていたものの、休眠判定前のユーザー(休眠予備群)の「休眠を防止する」ための分析は行われていませんでした。そのため、「休眠予備群」に対する全体像や特徴についての解像度が低く、休眠防止に有効な施策を検討・実施できていないという課題がありました。そこで今回のインターンでは、休眠予備群の全体像や「休眠しやすい人」の特徴を把握するための分析を実施しました。
分析のゴール
まず、最初に本分析におけるゴールを定義しました。これによりどのような分析やアウトプットが必要になるかを前もって明確化でき、見通しよく分析を進めていけるため、インターン先の部署ではプロセスが標準化されていました。今回は、以下の2つの状態をゴールとして定義しました。
- 休眠判定日よりも前の段階で休眠が確定することがあるか(≒「ある特定のルールに当てはまるユーザーは高い確率で休眠する」という休眠ルールが存在するか)を確認できている状態
- 休眠予備群の全体像と「休眠しやすい人」の特徴が明らかになっている状態
分析結果
Q. 休眠判定日よりも前の段階で休眠が確定することがあるか?
結論としてはYesで、 「休眠判定日より前に休眠が確定することがある」 と考えられます。本分析では、休眠予測モデル(ランダムフォレスト・決定木)を構築し、「休眠」と判定される将来時点での休眠確率を予測しましたが、その性能は十分高い状況でした(ただし、今後のサービス活用に向けてさらなる改善の余地あり)。これは、休眠予測モデルが「ある特定のルールに当てはまるユーザーはその後休眠する」という法則性(=休眠に至るルール)を精度高く抽出できているということであり、つまり「休眠ルールが存在している」と考えられるためです。
実際にROC-AUCという指標を用いてランダムフォレストと決定木モデルの予測性能を見てみると、以下のようになりました。横軸は最終購入日からの経過日数(約1年間)です。いずれのモデルも最終購入日の直後で最も高い性能を見せており、その後性能は低下していきますが、約1年後に少し改善するという動きが見られます。
上記のROC-AUCの推移から、購入から時間がたつにつれ、休眠するユーザーとしないユーザーの特徴量に違いが少なくなっていき、休眠判定が難しくなっていくことがわかります。約1年後に予測性能が改善していることについては、LINEギフトの特性として、誕生日や特定のシーズナルイベントにおける利用のように1年周期で動きが活発になるユーザーが多く、休眠する/しないユーザー間での特徴量の差が大きくなったことが理由として考えられます。
モデルについて
本分析において、視覚的な条件分岐を得るために決定木を、特徴量重要度などから休眠ルールを解釈するためランダムフォレストを使用しました。また、最終購入日からの経過日数を断面として休眠ルールに違いがあるかを確認するため、最終購入からn日経過時点の情報を元に、休眠予測モデルを14日ごと(n = 0, 14, 28, ...)に、決定木とランダムフォレストについてそれぞれ構築しました。目的変数を「その後休眠するか否か」と し、特徴量は以下を利用しています(一部抜粋)。
- 購入
- 贈り先のばらけ具合
- 単価
- 回数
- 自分宛/友だち宛
- eギフト/配送ギフト
- シーズナルイベント/非シーズナルイベント
- クーポン利用有無
- ギフト受取回数
- クーポン取得数
- お気に入り
- ほしいものリスト登録数
- 贈りたいものリスト登録数
- 属性
- 居住地(MLによる推定値)
- 性別(MLによる推定値)
- 年齢(MLによる推定値)
- 職業(MLによる推定値)
- 誕生日
- 登録有無
- 公開有無
- アクセス数
- 閲覧商品数
- クリック数
これら特徴量同士の相関によって特徴量重要度が不安定になることを避けるため、ドメイン知識に基づいて不要なものを削除したり、グルーピングしました。また、基礎集計結果との整合性を確認するなど、機械学習モデルの解釈性を高めるための工夫を行っています。
Q. 休眠が起こりやすい人の特徴は何か?
休眠予備群の全体像
最初に、休眠予備群の全体像を理解するための「前さばき分析」を行いました。これにより事前に定めたゴール自体の筋を見直せたり、ゴールの達成確率を上げられ、さらに見通しよく分析を進めていけるという点で、これも部署で推奨されていました。
まず年ごとに新規で休眠判定されたユーザー数の推移を見てみると、2023年は利用ユーザーの増加に伴い前年よりも多くのユーザーが新たに休眠判定されていました。休眠予備群のボリュームも大きく、本分析の重要性は高いことがわかります。
休眠予備群がどの程度LINEギフトやLINEギフトのLINE公式アカウント(OA)配信にアクセスしているかの情報は、後に施策を考えていく上で非常に重要であるため、これについても集計しました。休眠予備群が最終購入日以降もLINEギフトにアクセスしていれば、休眠防止施策の選択肢としてLINEギフトのUI・機能の検討やOA配信の活用が考えられるようになります。結果としては、休眠予備群の大半が最終購入日以降もLINEギフトにアクセスしていることがわかりました。さらに、OA配信を見たりクリックしているユーザーも多数いることがわかりました。このことから、休眠防止のために、最終購入日以降の再訪タイミングでそのユーザーに合わせて購入を促すようなUI・機能の検討、あるいはOA配信施策を実施することに一定の効果が期待できると考えます。
基礎集計から明らかになった休眠しやすいユーザーの特徴
機械学習モデルに与える特徴量を考えるためにも、「最終購入以前の行動」「最終購入より後の行動」「属性」の3つの軸でどのような特徴が休眠傾向に影響を与えるのかについて分析を行いました。
その中でも、後述する「休眠予測モデルが抽出した休眠ルールの解釈から明らかになったこと」に含まれていない内容から一部抜粋して紹介します。
購入目的によって次の購入タイミングの傾向に違いがある
このグラフはある日に購入したユーザーについて、「その日からn日後の時点でまだ次 の購入がないユーザーがどれだけ残っているか」の推移を示しています。縦軸は人数で、横軸は経過日数です。これを見てみると、母の日(2023年5月14日)に購入のあったユーザーは父の日に次の購入をしやすく、非シーズナルイベント日に購入のあったユーザーは、シーズナルイベントに大きく左右されず次の購入をしています。このように、LINEギフトの使い方によっても購入タイミングの傾向に違いが見られることがわかりました。
学生であることと休眠しやすさには相関がある
性年代や職業などの属性(MLによる推定値)により、その後休眠するか否かの割合に違いがありました。特に学生が休眠しやすく、その理由として「人間関係が流動的であること」が考えられます。新たな人間関係ができることも期待されるため、新たなギフトシーンが生まれたときに、LINEギフトを確実に利用してもらうことが重要であると考えられます。
OAフォローと休眠割合の低さには 相関がある
OAフォローしている場合としていない場合でも、その後休眠するか否かの割合に違いがありました。OAフォローをしているほうがその後休眠するユーザーの割合が低いのですが、これは「OAフォロー」という原因が「休眠しにくい」という結果を引き起こすことを示すものではない、つまり「OAフォローを推進することで休眠割合を減少させられる」ことを必ずしも意味しないことに注意が必要です。例えば、今後も継続して利用しようと考えているユーザーがOAフォローをする傾向があるとすれば、OAフォロー有無による休眠割合の違いはOAフォローによる販促によるものではなく、そもそもの継続利用意志がOAフォロー有無に反映されていることになるからです。
この場合、何らかの方法でOAフォローをさせられたとしても継続利用意志には影響を及ぼさないため、休眠ユーザーは減らないかもしれません。本来は因果推論の手法を適用し、このような因果関係の妥当性の検証を行うほうがよいのですが、時間の都合上今回の分析では実施できていません。後続の議論においてもこの制約を念頭においた上で読んでいただけるとありがたいです。
休眠予測モデルが抽出した休眠ルールの解釈から明らかになった休眠しやすいユーザーの特徴
決定木・ランダムフォレストが抽出した休眠ルールの解釈を行い、より詳細な休眠予備群の特徴を分析しました。経過日数ごとに休眠ルールの違いが見られましたが、この記事においては、予測性能の高かった経過日数0日目の決定木の分岐(図5)と 、ランダムフォレストの特徴量重要度(表1)だけを解釈し、休眠ルールの違いを議論していきます。特徴量重要度にはSHAP(SHapley Additive exPlanations)を用いています。
# | 特徴量 | 寄与 |
---|---|---|
1 | 贈り先のばらけ具合(贈り先人数÷利用回数) | 大きいほど休眠確率DOWN ※ただし、ちょうど1になる場合は利用回数の少なさと相関するため休眠確率UP |
2 | 総受取回数 | 多いほど休眠確率DOWN |
3 | 過去一年の利用回数 | 多いほど休眠確率DOWN |
4 | 過去一年の友だち宛利用回数 | 多いほど休眠確率DOWN |
5 | 過去一年の受取回数 | 多いほど休眠確率DOWN |
6 | 過去半年の利用回数 | 多いほど休眠確率DOWN |
7 | 友だち宛総利用回数 | 多いほど休眠確率DOWN |
8 | 最終購入日時点で新規利用か継続利用か | 継続利用は休眠確率DOWN、新規利用は休眠確率UP |
9 | 過去一年の配送ギフト利用回数 | 多いほど休眠確率DOWN |
10 | 過去一年のアクセス回数 | 多いほど休眠確率DOWN |
11 | 総利用回数 | 多いほど休眠確率DOWN |
12 | 配送ギフト総利用回数 | 多いほど休眠確率DOWN |
13 | 過去3カ月の利用回数 | 多いほど休眠確率DOWN |
14 | 過去半年の受取回数 | 多いほど休眠確率DOWN |
15 | 誕生日公開 | 公開していると休眠確率DOWN |
16 | 総アクセス回数 | 多いほど休眠確率DOWN |
17 | 総クリック回数(商品ページまたはショップページへ遷移するクリックのみ) | 多いほど休眠確率DOWN |
… | … | … |
表1: 経過日数0日時点でのランダムフォレストのSHAP(一部抜粋・順不同)