數據採集——追求數據品質的開端
有賴近年的AI熱潮,目前已落地的AI應用服務可說是都達到了階段性的成熟。在不可能總是期待演算法大幅進展的情況下,要在這樣的競爭態勢中脫穎而出,數據的質量更是成為兵家必爭之地。另一方面,因為許多應用場景高度相同,同一領域中的AI服務出現嚴重同質化的現象,這更加劇了對於數據質量的追求,以期許藉此能讓自家產品在這片同質化中突破重圍。
其中,大數據的觀念醞釀已久,人們對於「量」的討論已不陌生,但如今高品「質」的數據更是追逐的關鍵,而數據採集正是這一連串追求數據品質的開端。目前,已有許多針對AI數據服務的平台,從規劃、採集、預處理到標註,一條龍式地包辦建模前的所有數據處理,因此要得到質量兼具的數據已有一定的路徑可循,但無論決定自己搞定,抑或與數據服務商合作,對於數據採集仍要有全面的認識,始能更好地完成採集任務,故本篇將會以我認為一位執行APM(AI Product Management)的Product Manager應有的核心知識為主軸,並盡可能闡述AI數據採集的特點及其步驟。
AI數據採集的特點/ 與傳統大數據採集的不同之處
提到數據採集,擁有大數據經驗的人可能都會立刻想到Hadoop的Chukwa、Cloudera的Flume、 Facebook的Scribe或是LinkedIn的Kafka,這些都是耳熟能詳的日誌系統,通過它們來採集大數據已是企業必備的核心,此外,也可透過爬蟲或網站本身公開的API獲取網站數據。但事實上,AI數據採集在內涵上與傳統大數據有相當大的不同,具體體現如下。
垂直領域的場景數據
如今AI應用於大量新興垂直領域蓬勃誕生,意味著對於數據的需求相對新、稀,並且更為聚焦,也就是說,不但更加客製化,難度也相對提升。舉一個較立體的例子,比如現今的人臉辨識,如僅是辨識出人臉(找到五官)已遠遠不足,新的相關應用可能需要做到視線追蹤、表情辨識,甚至唇形辨識等等,所需的數據擁有更強的場景性,可以想見在採集的方式及難度上,皆與傳統的大數據截然不同。未來,隨著場景數據在各自領域的培養與成長,或許也將為AI應用帶來更多的突破與想像。
須建立即時反饋機制
傳統的大數據採集,往往於定義好目標範圍後,便不需要頻繁且即時的修正,即便需要修調,也通常是因為網站或APP的改版而調整數據收集的項目,或是因組織的目標改變,導致所關注的數據指標也隨之改變;反之,AI數據在採集的過程中,第一線的採集人員如發覺任何問題,或對數據的立面有了新的認識,都應該建立反饋機制、即時回報,工程師們才能立刻就數據的問題進行判斷與回饋,確定這就是模型所需的數據,以免在建模時發現數據有所缺憾甚至錯誤。
「思維方向」及「對數據廣度的要求」不同
過去在收集BI(Business Intelligence)數據時,時常是不確定問題在哪,所以希望透過數據來告訴我們,在此情況下,通常是盡可能地收集廣而大量的數據,最後再透過數據可視化來了解現況、幫助決策;但AI數據的收集則是在確立了待解決的問題後,始規劃接下來數據收集的方案,且收集方向僅聚焦在待解決的問題上,並且這些數據通常需要經過標註,才能為模型所使用。兩者在數據廣度及思維方向上截然不同。
AI數據採集流程
正式採集前,得先大致了解目前AI數據的分類,主要分為圖片、文本、語音、視頻,在此不細述。
Step 1. 提出採集方案
首先,因為在制定數據策略時,已羅列出所需的數據清單(如:項目、格式、名詞定義等細節),此時Product Manager只要根據該清單提出採集方案即可。採集方案包含每日可採到的資料數、總共需要的資料數、時程安排、人力規劃(採審分工)、審查標準、交付日等等,都必須涵蓋於方案中。如果是將數據採集任務交付給數據服務商,或是數據場景較為複雜、專業性較高,可在此階段進行場景還原,讓採集人員和需求單位同時面對真實情境,尋求對於數據理解的絕對一致。另一更簡潔的方法就是提供數據樣本。
Step 2. 執行數據試採
執行數據試採,並將試採的數據集進行預處理、標註等作業,確認是否有隱藏的問題需修正,並藉此確立人員的作業程序與數據清單中所有數據的數據標準。數據標準一旦建立,就將長久伴隨著我們,不會輕易修調,否則容易造成許多根本上的麻煩。數據標準是數據治理的第一步,網上對於它的定義也不少,這裡我挑選阿里雲對於數據標準的說明:
數據是由特定的環境產生的,這些環境因素包括生產者,時間,系統等,從而造成了同一個語義的數據,有多種不同的定義方法,給後續進行數據匯集和整合帶來障礙。因此,數據處理的前奏就是數據標準化,數據標準作為一個統一的數據共識,在標準化中發揮重要作用。
Step 3. 採集方案確立
經歷上一步驟,更完整的、調整後的採集方案已然誕生,當然Step2與3兩個階段可以不斷重複,直到確定最終版本。
Step 4. 執行數據採集
執行過程中最重要的便是溝通機制的建立,第一線採集人員發現的問題需要被快速有效地統整並彙報,AI engineer也需迅速地確立應變之道,Product Manager便是其關鍵橋樑。總之,一來一往的即時反饋會是前期每天的工作,並非採集方案確立後就等著驗收。
Step 5. 數據審查
數據審查員應在此階段嚴格依循採集方案中確立的審查標準進行查核,確保其真實性及完整性,為數據預處理奠定良好的基礎。此外,尤要注意隱私及倫理,例如面向醫療的數據;具有高度專業性的數據,也建議與擁有專業素養的人共審,比如醫療、金融等。另一方面,要注意大型數據集需要設立多個數據審查的時間節點,確保每個階段的完成度。
Step 6. 數據交付
Step 7. 數據驗收
假設是與數據服務商合作,當對方交付數據後,自然需要一個驗收的階段,為專案劃下完美的句點,或也可為了永續合作提出進一步的建議。即便是組織內部的跨部門合作,在數據中心交付數據後,工程部門同樣需要再次驗收。
本文劃重點
瞭解AI數據採集與傳統大數據採集的不同之處,即AI數據採集的特點。
認識何謂垂直領域的場景數據。
瞭解AI數據與BI數據在「數據廣度」及「思維方向」上的不同。
熟稔AI數據採集流程的每個步驟及其細節。
有能力提出完整的數據採集方案與建立數據標準。
專業人員參與數據審查,與設立多個數據審查時間節點是必要的。
進階思考
如欲自行採集數據,採集預算該如何估算?
AI數據採集的工具該如何選擇?
無法估算單日能採集到多少數據量時,其應對的策略是?
Comments