前言
大家好,我是 Edward,目前在 LINE Data Dev 擔任 Data Scientist。
最近我們很榮幸接待了 清大設計思考與數據分析社(NTUH DTDA) 以及 臺大人工智慧應用社(NTU AI) 兩個社團到LINE參訪。能夠以講者的身份與兩校同學交流,對我來說也是很寶貴的經驗。
這篇文章把當時兩場分享的內容整理起來,總結我在LINE做資料相關開發的心得、面對模糊需求時如何拆解問題,以及 Agentic AI 時代下資料科學工作可能出現的變化。希望不論你是否有參加企業參訪 ,都能從這篇文章中得到一些啟發。
Data Dev 團隊在做什麼?把LINE的大量資料轉化成真正能上線的服務
在 Data Dev 的工作可以用一句話概括:
把 LINE 上數以千萬計的 raw data,轉化成能真正落地、並讓使用者實際體驗到價值的服務。
這個過程並不是單一路徑,而是一段需要多種專業協作的過程。
在不同階段,我們會運用到:
- Data Engineering:建立資料 pipeline、確保資料可靠可用
- Data Science:進行分析、萃取資訊、提出洞見
- Machine Learning:挖掘資料隱藏的特徵,協助我們全面地解決問題
- Software Development:把邏輯或模型真正整合到軟體服務之中
你可以把它想像成:
我們收到的是「資料相關或 AI 相關的需求」——而我們的任務就是把落地成一個能在產品端被使用者體驗到的功能。
這中間會遇到很多挑戰:資料是否足夠?邏輯如何落地?模型如何部署?跨團隊如何協作?而這些正是 Data Dev 團隊每天都在面對、也最有成就感的部分。
我怎麼設計一個 Data-Driven 專案?從模糊到落地的方法
面對一個模糊的需求,到底該怎麼開始?資料專案往往看起來很複雜,但真正的挑戰通常來自一開始的「不確定性」。
在處理這類需求時,我自己有個一貫的習慣:
先把問題拆解。
我會透過不停問自己問題的方式,把原本模糊的需求逐漸拆成可理解、可測量、又能真正落地的子問題。只要拆解得夠細,就能開始一步步逼近可實作的解法。
以下以一個實際在工作中遇到的任務為例:
「想偵測每日 KPI 是否異常。」
需求只有這樣一句話,沒有定義 KPI、也沒有說什麼叫「異常」。
而這正是許多 data-driven 專案的起點。
Step 1:定義指標
我會先從釐清問題開始。
-
KPI 到底指的是什麼?
是日活躍用戶?每日瀏覽數?還是某個行為事件的發生量?
-
「異常」又該怎麼定義?
是用二元分類模型?還是用 outlier detection?
這一步看似簡單,但非常關鍵。
若問題或是指標定義不清楚,後面所有分析與模型都無法真正滿足需求。
Step 2:收集資料
指標確定後,我會開始確認資料層面的可行性:
- 有沒有資料?量夠不夠?
- 是否乾淨、可靠?
- 如果拿不到資料,該調整指標還是換方法?
Step 3: 萃取資訊
這裡就進入大家比較熟悉的領域了,包括:
- 看資料分佈、做視覺化
- 建立特徵
- 訓練模型、觀察 pattern
回頭看過去,我發現學生時期的我常常會直接從這裡開始做起——
但實際在工作裡,前面的問題釐清和資料確認,往往會更決定專案能不能順利進行。
Step 4:產生洞見
身為資料科學家/工程師在說明專案內容時難免會被半開玩笑地提醒一句:
「可以講人話?」
這句話聽起來有點好笑,但背後其實是在說:
模型的準確率、特徵權重、係數大小……這些對我們來說很重要,但對商業或產品團隊來說不一定能直接轉化成意義。
他們真正想知道的是——
- 為什麼今天會出現這個異常?
- 會對產品或營運造成什麼影響?
- 這代表我們需要提前調整策略嗎?
所以這一步的關鍵在於:
如何把技術性的結果,轉譯成商業場景真的能用、能理解的 insight。
Step 5:擴展應用
做到前面四步後,一個 data-driven 專案基本上已經可以落地了。
但我會再問自己:
「這個 solution 有沒有可能變成一個更通用的 service?」
例如:
- 套到不同服務會需要改動哪些功能?
- 設計邏輯哪些能抽象化、模組化?
- 能不能讓它支援更多不同類型的商業場景?
這一步常常決定:
一個 solution 能不能真正升級成可長期使用、並且規模化的 service。
Agentic AI 對資料科學帶來的影響
近年 AI 的發展速度非常快,也讓資料科學的工作方式開始出現明顯變化。
若從模型能力的角度來看,整體演進可以簡單分成三個階段
-
ML/DL 模型:輸出可能性有限
輸出為分類、分數、機率、迴歸數值等固定格式。
-
Generative AI:有限輸出組成無限可能
將有限 token 輸出,透過排列組合生成文字、圖片、語音等無限的可能性。
-
Agentic AI:透過外接工具取得「決策能力」
能主動決策、使用工具、發 API、跑 SQL、解讀文件並執行任務。
而當 Agentic AI 技術越來越成熟,我開始重新檢視自己前面拆解的資料科學流程:
哪些步驟可以交給Agent?交給 Agent 之後會帶來什麼 trade-off?
我自己的觀察是
依照 Agent 所看到的資料「處理程度」不同,可以分成三個層次,從 洞見 → 結構化資料 → 原始資料,資訊越往前越 raw,Agent 的自由度也越高、不穩定性及風險也越高。