世界在變今期焦點專題與活動技術解說科技知識

【AI 並非無所不能】解構 Machine Learning (機器學習)的限制與應用

機器學習不能做到的:數據清理

雖然這兩個渠道的最新一批機器學習產品可能會減少商業環境中數據科學的一些難點,但專家警告說,無論新工具的預測能力如何,機器學習都無法解決兩個問題:分別數據清理,以及跳出帕雷托法則。

機器學習可能有助於加快數據科學的一些拙劣的工作,幫助企業檢測風險,識別機會或提供更好的服務,但這些工具不會解決大部分的數據科學短缺問題。業務用戶仍然需要數據科學家幫忙篩選並分析數據。

數據清理(data cleansing)指刪除、更正資料庫中錯誤、不完整、格式有誤或多餘的數據。數據清理不僅僅更正錯誤,同樣加強來自各個單獨信息系統不同數據間的一致性。專門的數據清理軟體能夠自動檢測數據文件,更正錯誤數據,並用全企業一致的格式整合數據。

許多企業想要開始使用現成的機器學習工具的主要障礙就是數據開始的質量。 「在此之前,必先確保數據的結構正確,以及識別可能存在的任何偏差。」數據轉換服務Trifacta的產品經理Alon Bartur表示。

Bartur表示,隨著企業採用多種機器學習工具來評估業務流程或特定任務各個階段的數據,他們可能需要將其數據重組為適合該機器學習工具的格式。

隨著消息量的增加,數據清理將是一個重大的問題。

機器學習不能做到的:跳出帕雷托法則

帕雷托法則(英語:Pareto principle),也稱為二八定律或80/20法則,此法則指在眾多現象中,80%的結果取決於20%的原因,而這一法則在很多方面被廣泛的應用。如80%的勞動成果取決於20%的前期努力等等。

在機器學習中,機器可以處理約80%的數據,但剩下的20%將需要數據科學家去處理。

Dorard認為這是Instart Logic等產品試圖解決具體問題的主要原因之一。 「如果許多公司有同樣的需求,那麼這些解決方案將會滿足這些需求。但如果你想做一些有創意的事情,那麼你將不得不提出自己的解決方案。」

數據分析作為任何企業的競爭優勢,帶動生產力,增長和創新都處於領先地位。僅美國就有近20萬名數據科學家短缺,150萬名經理和分析師有信心根據數據供應作出決定。新的機器學習工具可以減輕一些費力的數據科學過程(如Skytree)的負擔,或者處理80%的工作負載(如Instart Logic或Sumo Logic),但是數據科學仍然將有很大的需求來準備數據第一名。

資料來源:thenewstack

TechApple.com 編輯部

堅持製作專業科技內容,全員擁有多種不同技術知識的特異科技媒體團隊。 電郵:editor@techapple.com

× Whatsapp聯絡