LY Corporation Tech Blog

支持 LY Corporation 和 LY Corporation Group (LINE Plus, LINE Taiwan and LINE Vietnam) 服務,宣傳技術和開發文化。

從 Data-Driven 到 Agentic AI - NTHU DTDA & NTU AI 企業參訪

前言

大家好,我是 Edward,目前在 LINE Data Dev 擔任 Data Scientist

最近我們很榮幸接待了 清大設計思考與數據分析社(NTUH DTDA) 以及 臺大人工智慧應用社(NTU AI) 兩個社團到LINE參訪。能夠以講者的身份與兩校同學交流,對我來說也是很寶貴的經驗。

這篇文章把當時兩場分享的內容整理起來,總結我在LINE做資料相關開發的心得、面對模糊需求時如何拆解問題,以及 Agentic AI 時代下資料科學工作可能出現的變化。希望不論你是否有參加企業參訪,都能從這篇文章中得到一些啟發。


Data Dev 團隊在做什麼?把LINE的大量資料轉化成真正能上線的服務

Data Dev 的工作可以用一句話概括:

把 LINE 上數以千萬計的 raw data,轉化成能真正落地、並讓使用者實際體驗到價值的服務。

這個過程並不是單一路徑,而是一段需要多種專業協作的過程。

在不同階段,我們會運用到:

  • Data Engineering:建立資料 pipeline、確保資料可靠可用
  • Data Science:進行分析、萃取資訊、提出洞見
  • Machine Learning:挖掘資料隱藏的特徵,協助我們全面地解決問題
  • Software Development:把邏輯或模型真正整合到軟體服務之中

你可以把它想像成:

我們收到的是「資料相關或 AI 相關的需求」——而我們的任務就是把落地成一個能在產品端被使用者體驗到的功能。

這中間會遇到很多挑戰:資料是否足夠?邏輯如何落地?模型如何部署?跨團隊如何協作?而這些正是 Data Dev 團隊每天都在面對、也最有成就感的部分。


我怎麼設計一個 Data-Driven 專案?從模糊到落地的方法

面對一個模糊的需求,到底該怎麼開始?資料專案往往看起來很複雜,但真正的挑戰通常來自一開始的「不確定性」。

在處理這類需求時,我自己有個一貫的習慣:

先把問題拆解。

我會透過不停問自己問題的方式,把原本模糊的需求逐漸拆成可理解、可測量、又能真正落地的子問題。只要拆解得夠細,就能開始一步步逼近可實作的解法。

以下以一個實際在工作中遇到的任務為例:

「想偵測每日 KPI 是否異常。」

需求只有這樣一句話,沒有定義 KPI、也沒有說什麼叫「異常」。

而這正是許多 data-driven 專案的起點。

Step 1:定義指標

我會先從釐清問題開始。

  • KPI 到底指的是什麼?

    是日活躍用戶?每日瀏覽數?還是某個行為事件的發生量?

  • 「異常」又該怎麼定義?

    是用二元分類模型?還是用 outlier detection?

這一步看似簡單,但非常關鍵。

若問題或是指標定義不清楚,後面所有分析與模型都無法真正滿足需求。


Step 2:收集資料

指標確定後,我會開始確認資料層面的可行性:

  • 有沒有資料?量夠不夠?
  • 是否乾淨、可靠?
  • 如果拿不到資料,該調整指標還是換方法?

Step 3:萃取資訊

這裡就進入大家比較熟悉的領域了,包括:

  • 看資料分佈、做視覺化
  • 建立特徵
  • 訓練模型、觀察 pattern

回頭看過去,我發現學生時期的我常常會直接從這裡開始做起——

但實際在工作裡,前面的問題釐清和資料確認,往往會更決定專案能不能順利進行。


Step 4:產生洞見

身為資料科學家/工程師在說明專案內容時難免會被半開玩笑地提醒一句:

「可以講人話?」

這句話聽起來有點好笑,但背後其實是在說:

模型的準確率、特徵權重、係數大小……這些對我們來說很重要,但對商業或產品團隊來說不一定能直接轉化成意義。

他們真正想知道的是——

  • 為什麼今天會出現這個異常?
  • 會對產品或營運造成什麼影響?
  • 這代表我們需要提前調整策略嗎?

所以這一步的關鍵在於:

如何把技術性的結果,轉譯成商業場景真的能用、能理解的 insight。


Step 5:擴展應用

做到前面四步後,一個 data-driven 專案基本上已經可以落地了。

但我會再問自己:

「這個 solution 有沒有可能變成一個更通用的 service?」

例如:

  • 套到不同服務會需要改動哪些功能?
  • 設計邏輯哪些能抽象化、模組化?
  • 能不能讓它支援更多不同類型的商業場景?

這一步常常決定:

一個 solution 能不能真正升級成可長期使用、並且規模化的 service。


Agentic AI 對資料科學帶來的影響

近年 AI 的發展速度非常快,也讓資料科學的工作方式開始出現明顯變化。

若從模型能力的角度來看,整體演進可以簡單分成三個階段

  • ML/DL 模型:輸出可能性有限

    輸出為分類、分數、機率、迴歸數值等固定格式。

  • Generative AI:有限輸出組成無限可能

    將有限 token 輸出,透過排列組合生成文字、圖片、語音等無限的可能性。

  • Agentic AI:透過外接工具取得「決策能力」

    能主動決策、使用工具、發 API、跑 SQL、解讀文件並執行任務。

而當 Agentic AI 技術越來越成熟,我開始重新檢視自己前面拆解的資料科學流程:

哪些步驟可以交給Agent?交給 Agent 之後會帶來什麼 trade-off?

我自己的觀察是

依照 Agent 所看到的資料「處理程度」不同,可以分成三個層次,從 洞見 → 結構化資料 → 原始資料,資訊越往前越 raw,Agent 的自由度也越高、不穩定性及風險也越高。

在這一層,AI Agent 看到的是已經處理好的資訊,例如:

  • 模型輸出
  • 統計指標
  • 已整理過的分析結果

它的角色像是:

  • 幫忙解釋模型
  • 將技術語言翻成商業洞見
  • 自動生成報告或摘要
  • 根據結果通知利害關係人(搭配 messaging tool)

這其實是我最常把 Agent 鑲嵌進 data solution pipeline 的地方。

因為資訊已經整理過,所以 AI 更容易理解,也比較不容易出現預期之外的結果。


第二層:萃取資訊(AI 看 structured data)

接著往上推一層。

這時 AI 看到的是:

  • 已整理好的 structured data
  • 乾淨的欄位、特徵、表格

它能做的事情也更多,例如:

  • 覺得資料適合用哪種模型(classification / clustering / anomaly detection…)
  • 主動決定特徵該怎麼處理
  • 自動跑 baseline、比較不同方法
  • 依照目的選擇我事先準備好的工具列(toolbox)

這一層 agent 的自主性更高,但也更需要:

  • 給它好的工具
  • 清楚定義任務邊界
  • 謹慎監控它的決策過程

第三層:收集數據(AI 看 raw database)

再往上推一層,就是最 raw 的層級——

讓 AI 直接面對 原始資料庫(raw database)

AI 可能做的事情包括:

  • 根據任務需求自己寫 SQL
  • 決定 join 哪些表
  • 選擇要拉哪些欄位
  • 挖掘它認為有用的資料片段

這邊的挑戰也最多:

  • raw data 非常雜,AI 容易錯誤理解
  • 欄位之間的意義需要 domain knowledge
  • 權限一定要嚴格限制(AI 只能讀、不能寫

從洞見 → 結構化資料 → 原始資料庫,AI Agent 能看到的信息越來越 raw,能做的事情越來越多,但 trade-off 也更明顯:

  • 越前面的階段(產生洞見)越安全、越容易落地
  • 越往後的階段(收集原始資料)越需要小心權限、驗證與邊界設定

透過這樣的分層,我在實際專案中會更容易釐清:

  • 該把 AI 用在哪裡最有效?
  • 哪些地方要給 AI 自由?
  • 哪些地方一定要有人的判斷?

當天同學們的提問:兩個讓我印象很深的問題

在兩場企業參訪中,同學們提了非常多深入又有趣的問題,從 AI 技術到產品決策都有。

其中有兩題讓我印象特別深刻,我也在這裡簡單分享我的想法。


Q1. 在做新功能或整合服務時,背後的思考邏輯是什麼?

以 Data Dev 這種比較中央的團隊來說,我們會收到來自不同服務的資料或 AI 相關需求。

在真正把一個 idea 做成產品時,我個人的做法是採用 MVP(最小可行性產品)思維

  • 先做出最小版本
  • 快速得到回饋
  • 再逐步微調與迭代

我喜歡用 攀岩比喻

每次移動時,都會固定住三個點,只移動其中一個。

穩定地前進,不需要每一步都大突破,但每一步都能更加接近目標。

這種做法能確保速度與品質取得平衡,也讓專案更容易持續推進。


Q2. 在導入 AI 到產品時,團隊如何做決策與優先順序評估?

AI 很強,但不代表所有問題都適合用 AI 解決。

我在評估「要不要用 AI」時,通常會優先思考:

  • 錯誤風險低嗎?
  • 任務重複性高不高?
  • 適不適合模糊化處理?

例如近期有在開發一套能整合內部服務文件知識的搜尋工具。

由於各服務的文件格式都不同,單靠 coding parse 其實很難做到統一格式;

但 LLM 的強項剛好是語意整理與模糊化處理,因此在這類場景中導入 AI 的效果就很好。


結語

這兩次企業參訪活動,對我來說是非常有收穫的經驗。

除了能與清大 DTDA 以及台大 AI 社的同學交流,也讓我重新整理了自己在LINE做資料開發、設計 data-driven 專案、以及面對 Agentic AI 時的思考方式。

也很感謝 Developer Relations 團隊籌辦這兩次活動,讓我有機會把這些經驗分享給大家。

imageimage