KDD (Knowledge Data Science and Data Mining) 為 ACM (Association for Computing Machinery) 主辦的頂級資料挖掘論壇;
2023 在美國加州洛杉磯郡的長堤會議娛樂中心 (Long Beach Convention & Entertainment Center) 展開連續 5 天的綜合型會議 (08/06-08/10) ,
其中包含 conference、workshop、tutorial 和國內外頂尖大學電資學院熱愛組隊參加的 KDD cup,
這次我參加的是 08/06-08/08 的 workshop 和 tutorial。
KDD workshop 和 tutorial 遍及資料科學各項領域,學界業界高手雲集,除了 FAAMG 外也有不少灣區或美國知名企業派員參加,
例如 NVIDIA、Uber、Airbnb、eBay 和 Walmart,企業攤位也是滿滿人潮。
由於每場 workshop/tutorial 為期半天,權衡之下只好挑出與 LINE 台灣 EC 資料工程團隊在資料科學與機器學習業務相關場次,
主要環繞在用戶歷程建置與分析、深度學習推薦系統與搜尋引擎延伸服務。
首先第一場為用戶歷程 workshop, End-End Customer Journey
Unveiling the Guest & Host Journey: Session-Based Instrumentation on Airbnb Platform
講者: Shant Torosean (Airbnb)
我們在收集用戶歷程時常會遇到該如何將用戶在 UI 元件上的操作 (e.g. 拖拉、點擊等 ) 轉換成可以使用的資料。
在這個主題中講者提到不要單一去觀察用戶的單點行為,而是該將一系列的活動轉變成一組 session,
以 Airbnb 訂房服務為例,即是把 search page, listing page 和 checkout page 串為 session 用來代表用戶的 booking journey。
有向路徑屬性圖 (Directed Path-based attribution)
本講次關鍵分享為
-
用心設計如何取得關鍵資料是最有效的解決方案
-
相較於採購外部解決方案並在後續規劃如何教育團隊使用, 自行開發實作相對實惠
-
維護 session 的生命週期是很耗團隊時間的, 記得依照商業價值排好各類 session 建制的優先順序
Devoted to Long-Term Adventure: Growing Airbnb Through Measuring Customer Lifetime Value
講者: Sean O’Donnell & Jason Cai & Linsha Chen (Airbnb)
CLV (Customer Lifetime Value) 現今趨勢為 Machine Learning。
- 在用戶事件上通常專注於處理兩種面向的資料, feature 和 label。
- 在系統設計上以追求預測精準度 (precision) 為主要考量,
工程上利用模型迭代運算 (Logistic Regression/SparkGBT/XGBoost)。
- 但缺點是相當顯著的,需要帶入市場銷售上的 domain knowledge。
Airbnb 資料科學團隊希望導入 HMM (Hidden Markov Model) 來解決需要人為帶入 domain knowledge 的困擾。
在 CLV 的案例中將以 booking 和 search 等 "Active" 狀態來預測 "Inactive" 狀態 (該用戶/其他用戶 booking 的機率)。
系統設計如下
- 用戶互動: MTA (Multi-Touch-Attribute) 系統
- 資料區間: 80 天
- ML 模型: LSTM
- 模型評估指標: SHAP (SHapley Additive exPlanations)
定義: Future Incremental Value (FIV) 計算 Markerting (AD)和用戶 Booking 資料未來所能帶來的價值,
n1 數量的用戶於這個月 booking
n0 數量的用戶在這段時間沒有 booking
接下來的一年中用戶產生的 revenue 定義為 y
這個 naive approach 可以很簡單的計算固定期間用戶 booking 和沒有 booking 帶來的效益
Multi-objective Online Advertisement Budget Allocation
講者: Yang Cao & Shiyao Guan (Uber); Tushar Shanker (NA); Mert Bay (Noom)
當新用戶加入時公司需要花很多費用在數位行銷平台,行銷團隊無法很精確的將行銷活動預算效用最大化。
- Uber 行銷活動層級
- 事件位階
傳統的行銷做法將會帶來下述的許多困境
- 手動配置
- 很難因應不同的行銷目標 (impression/click/first conversion/long-term value 都可能是最大化的方向)