
大家好,我是賴仲哲,目前在 LINE 擔任 Data Engineer,這篇文章主要分享 Data Engineer 日常點滴,希望對 LINE Data Engineer 有興趣的學生或者是業界人士能有些幫助與了解。
這篇文章會分享
- 前言
- 實際的工作內容
- 台灣實作的機會
- 產業趨勢與職涯發展
#前言
關於什麼是資料工程師(Data Engineer)?我相信大家都已經Google過或是問過ChatGPT,這邊就不多說,直接看以下這張…
<picture>
</picture>
</picture>(ref:https://www.linkedin.com/pulse/data-engineer-vs-scientist-ml-heba-al-haddad/)
簡單說,如果把水當作資料(Data)的話,資料工程師就像是『水管工人』,建立一些水管(Pipeline),將源頭的水經過一些手法處理(ex.過濾/萃取/加工/補充/驗證),然後引導到自家可能有一個水塔(Database)裡面,讓需要這些水的使用者可以方便去飲用,不用自己額外去處理這樣。
當然,每間公司對於這個職缺工作內容的守備範圍,各不相同,我聽過有管到很源頭的(機房???),也有完全沒有這個職缺,叫MLE/DS自己去拿資料,可能資料就躺在公司某台Server folder底下,要用就請自己去拿。(笑)
那麼,作為水管工人可能會遇到什麼情況呢?
- 雜質過多(Dirty Data)- 原始水源可能含有雜質,如泥沙、微生物(缺失值、錯誤值),需要透過 過濾(Filtering) 去除不必要的部分,例如刪除缺失值、標準化數據格式。