LY Corporation Tech Blog

支持 LY Corporation 和 LY Corporation Group (LINE Plus, LINE Taiwan and LINE Vietnam) 服務,宣傳技術和開發文化。

Data Team實習@LINE_台科大北醫GDG參訪

前言

大家好,我是Steven,目前就讀於台大資工系網媒所,在LINE TECHFRESH擔任Data team的intern。

 今天主要想跟同學們介紹三個部分 :

1.介紹我所認識的Data Team

2.目前實習生涯學到的事

3.實習生活長什麼樣子

 

Data Team 任務類型

今天想先簡單跟大家介紹一下Data team處理的任務。

在大語言模型逐漸成熟、成為技術潮流的年代,資料比起以往更顯重要。Data Team是處理Data、AI模型開發與部署的重要單位,因此任務涵蓋廣泛。只要是LINE Taiwan生態系(LINE Family Service)認為可以開發、改進、有商業前景的重要服務,幾乎都會看到我們Data team參與其中。

我們Data team的組成大致分為四種角色 - 資料科學家(DS)、資料工程師(DE)、機器學習工程師(MLE)、AI Solution工程師(AE)。以上分類主要是工作任務粗淺性質,實際任務執行下Data team四種角色也可能會重疊到其他角色職務內容。在下方Data Engineer Workflow圖示可以對於四個角色有更詳細的了解。

Data Engineer Workflow

1. 資料科學家(DS): 用資料理解問題、建立能解決問題的模型。在一個 AI 專案中,DS 大多出現在 Discover → Develop → Train → Test 階段,是整個專案中負責「資料洞察」與「模型邏輯」的靈魂人物。

    DS 的核心任務 :

  • 探索資料(EDA): 透過統計與視覺化方法理解資料分佈、特性與異常。
  • 設計特徵(Feature Engineering): 將原始資料轉換成模型更容易理解的特徵。
  • 模型建立(Model Build): 使用 ML/DL 技術嘗試不同模型架構。
  • 超參數調整(Hyperparameter tuning): 找到模型效能最佳的組合。
  • 誤差分析(Error Analysis): 探索模型錯誤的原因、提出改善方向。
  • 效能評估(Evaluation): 根據指標(precision、recall、F1…)驗證模型表現。

 

2. 資料工程師 (DE) : 確保資料流動、清洗、儲存、運行都穩定且可擴展。DE 的角色橫跨 Prepare → Develop → Deploy → Monitor,是確保整個 pipeline 跑得動且資料品質合規的工程職。

    DE 的核心任務:

  • 資料準備(Data Preparation): 建置 ETL/ELT pipeline,把資料從各系統拉到乾淨可靠的儲存系統。
  • 資料品質控管(Data Validation): 監控資料遺失、資料型態變動、資料異常。
  • 模型部署支持(Deployment Infra): 提供模型運行、Serverless 或容器化環境。
  • Scaling 與效能最佳化: 讓模型與資料服務能支撐高併發流量。
  • 資料漂移(Data Drift)監控: 確保部署後資料變動不會讓模型失效。

 

3. 機器學習工程師(MLE) : 從模型到產品的橋樑(偏 ML Ops)。接手模型,把它變成可上線、可維護的產品。

   MLE 是 Develop → Train → Test → Deploy → Monitor 的主角,負責將 DS 做出的模型「產品化」。

   MLE 的核心任務:

  • 模型訓練整合(Training Pipeline): 建立自動化訓練流程(如 Airflow、Kubeflow、MLflow)。
  • 模型版本管理(Model Registry): 維護多版本模型的流程與審查。
  • 部署模型(Deployment): 讓模型能在 API、微服務、邊緣裝置等環境中運作。
  • 效能調教(Performance): 包含推論速度、記憶體使用、成本最佳化。
  • Scaling 與可用性: 確保服務穩定、支援高負載。
  • 監控模型(Model Monitoring): 偵測模型衰退(Model Decay)、資料漂移、效能異常。

4. AI Engineer(AE) : 開發新的 AI 應用與商業化推動者,把「技術」變成「能落地賺錢的新產品/新專案」。

   AI Solution Engineer 在多個階段都會出現,尤其是在 Prepare(定義需求)→ Discover(找最適合的 AI 技術)→ Deploy(落地產品)。

   AE 的核心任務:

  • 技術趨勢探索(Tech Scouting): 找到最新、最成熟且具風險控管能力的 AI 技術(如最新大模型、TTS、ASR、RAG)。
  • 需求訪談與商業性評估: 了解事業單位需求,分析 AI 是否能帶來價值。
  • 快速 PoC / MVP: 做小型原型,驗證 AI 是否真的可行。
  • 設計端到端解決方案: 包含資料流、模型選型、API 介接、部署架構、成本試算。
  • 推動跨部門協作: 與 PM、Biz、DS、MLE、DE 一起完成新服務落地。
  • 商業化思考: 讓 AI 技術變成新的產品、功能或商業機會。

在 LINE 的定位裡,AI Solution的AI Engineer team 任務是將最新 AI 技術導入,開發能創造價值的新專案關鍵角色。我在LINE TECHFRESH目前近五個多月的生涯就是隸屬在這個部門,參與研究、開發AI專案的任務。

AI engineer in LINE

剛進來實習的前幾個月,我們部門研究以下三個技術,而我主要參與的是以下列出的前兩個研究主題

  • 開源台灣腔TTS
  • Diffusion model生成影片
  • 透過Finetune、RAG製做AI agent

 

這些主題都是從大語言模型逐漸成熟開始冒出來的新技術,也是在生成式AI與商業模式能有效結合的熱門領域。開源程式與研究都很新穎,技術更新、迭代速度飛快。通常半年到一年內就會冒出更好、更適合的開源技術與模型。

AI engineer必須具備快速跟上新技術的熱情以及能快速累積這些技術背後原理知識,才能對於開發有足夠敏銳的視野與方向。

 

實習學到的事

我在LINE Data team實習,認為以下三個部分是在LINE學到重要的事。

  • 認識LLM的強大與侷限
  • 認識Demo規劃 v.s. 產品上線
  • 認識AI的產業趨勢

近幾年取得突破的生成式AI研究,有很大一部分架構的Backbone都是大語言模型。例如TTS這種文字轉聲音的服務取得重要突破,背後架構基礎也來自大語言模型,然而大語言模型也會有它的弱點。

 例如在Pretrain階段,有些資料型態模型見過很多,有些型態模型見過很少,訓練時的資料分部可能並不均勻,而是Long tailed分布的。我們在頂級國際論文看到的Benchmark表現很好有可能是因為pretrain時期見過夠多類似資料,所以產生的品質沒有問題。然而真正落地使用可能遇到的問題資料型態、邏輯脈絡,不是大語言模型本來熟悉的,他就很可能會產生幻覺或錯誤(Hallucinations or Error)。此時就需要對於資料型態有更深的理解,例如想辦法做問題的Data Augmentaion、改變他產生token的機率分布、或者在模型設置Gate來控管他的輸出情況。

 

在LINE這樣的大規模公司,除了開發外,也會自然而然更認識部署需要注意的細節。

例如不能只是產生出很好的輸出效果就好,也要注意本身的程式碼有沒有註記能商用。

比方說,我剛實習的前幾個月使用讓模型學習TTS的來源音檔沒有註記能商用,所以開發出來也無法商用。

我來LINE實習之前的視野可能只在意開發效果,有做出來就覺得很開心很有成就感了,但來到LINE實習後,我的mentor讓我學到更多細節(ex:開發之前先看一下開源程式是否註記Apache 2.0可商用)

如果只有自己獨立開發,可能就不會注意到這麼多。如果拿成品去商用,不小心可能就侵權了。我認為這也是在大公司實習才學得到的。如同右邊圖示形容的意境,工程師可能規畫了七步要打敗熊,但其實在前面第二步就死掉了,因為用的開源程式根本不能商用。

在LINE開發AI專案,會對於目前具有商業前景的AI技術有較敏銳、全面的認知,由於部門定位目標就是要開發最好、最有商業前景的AI專案。這個能力不論是實習結束繼續待在LINE轉正、或是到其他公司工作,都是非常有幫助的。我們的工作內容不一定是要自己從頭打造自己的模型,而是能夠快速看懂需求後結合現有AI技術搭建服務。

可以看到上圖2025年下半年美國的職缺趨勢,純粹做研究、做傳統開發的軟體工程師職缺變少了,而理解AI技術與商業模式,搭建AI服務的工程師職缺變多了。可以從上圖了解,在Data team所處理的任務很符合當今的就業趨勢。

 

實習生活長什麼樣子

大部分Data team實習時間主要處理三件事情

  • 開會
  • 研究
  • 開發

原則上公司會用Ticket追蹤進度,另外我們TECHFRESH有1對1的Mentor聊聊制度,讓實習生可以調整自己實習期間的步調

除上班開發研究之餘,公司也會有上班進修的機會。在LINE我們TECHFRESH跟正職都可以參加以公司為單位受邀的活動,不會因為是實習生就沒辦法參加。像下圖就是今年Google 8月舉辦不對外公開的AI論壇,只有受邀公司(ex:LINE)可以參加。

在上班以外,公司也很用心為我們TECHFRESH舉辦月會,讓所有不同部門TECHFRESH可以喝下午茶、吃點心,互相交流生活或知識。另外我們Data team還設有每個月正職員工慶生吃蛋糕活動,實習生也都可以參加。

結論

LINE非常用心辦理LINE TECHFRESH計畫,也讓我實習旅程收穫滿滿。非常推薦大家好好厚實實力、勇敢投遞履歷,通過面試考核來LINE當LINER,體驗、學習大規模科技公司解決問題的能力。

image