5分鍾閱讀

AI項目失敗的5種原因(3):與數據相關的AI失敗

有特色的圖片

想知道如何開始使用人工智能?以我們的營銷人員按需駕駛AI係列為例。

了解更多

編者按:本文由Trust Insights公司授權轉載,該公司幫助營銷人員解決/實現收集數據和衡量數字營銷努力的問題。

閱讀下麵的前兩部分:

簡介

人們反複認為人工智能(AI)是一種神奇的東西,可以從無到有,這導致許多項目誤入歧途。這就是為什麼2019年普華永道首席執行官調查顯示,隻有不到一半的美國公司正在著手實施戰略人工智能計劃——失敗的風險很大。在本係列中,我們將研究AI項目在AI之旅開始時最常見的失敗方式。在你自己的人工智能計劃中,要注意這些失敗——以及補救或防止它們的方法。

第3部分:與數據相關的故障

在我們討論失敗之前,讓我們回顧一下AI項目的生命周期,了解應該發生什麼。

即時洞察:人工智能/機器學習生命周期

獲取生命周期的整頁PDF從我們的即時洞察主題,並跟隨。

現在我們已經確定了總體策略中的主要問題,讓我們將目光轉向生命周期中數據部分可能遇到的主要問題:

  • 數據需求
  • 數據收集
  • 探索性數據分析
  • 數據準備

數據要求故障

數據需求是您的項目需要哪些數據的技術規範,誰負責這些數據,在哪裏以及如何存儲和使用數據,以及您采取了哪些措施來保護和優化數據的使用。

數據需求框架的一個例子是信任洞察6C數據質量框架

數據需求失敗在有多個階段(如概念驗證和生產階段)的項目中最為常見。使概念驗證有效的捷徑和“技巧”通常無法在生產中擴展。

同樣重要的是,數據需求經常隨著時間的推移而變化,特別是隨著項目的成熟。在項目開始時有效或有用的東西可能沒有完全進入生產模式。

數據需求失敗的解藥是仔細地與業務需求保持一致,徹底的計劃,了解你將使用什麼係統進行機器學習(以及它們的數據需求),以及廣泛的準備和對可能出錯或變化的預見。

例如,假設我們正在製作一個社交媒體分析模型,著眼於優化我們在社交媒體上發布的內容。會出什麼問題呢?根據長期的經驗,我們知道很可能:

  • 隨著時間的推移,API的變化可能會改變數據的格式、頻率或完整性
  • 社交網絡可能會限製或刪除數據(Instagram點讚)
  • 社交網絡可能會改變某些數據的定義(Facebook視頻視圖vs YouTube視頻視圖)
  • 人們可能會改變他們使用的網絡(MySpace)
  • 法律可能會改變我們被允許收集和存儲的數據(GDPR)
  • 供應商變了,我們也變了。
  • 一個供應商使用的格式可能與另一個供應商不兼容(特別是在機器學習模型中)

而這隻是冰山一角。評估潛在風險的一般最佳實踐框架是為您的數據執行SWOT和PESTLE分析。

一旦我們預測到可能的變化場景,我們就能更好地理解我們需要什麼樣的數據,我們應該計劃什麼,我們可能需要改變什麼,以及如何管理我們的原始材料和數據中的這些變化。這個過程的最後一部分是記錄我們的數據需求,以便當事情發生變化時,我們知道我們從什麼開始。

數據收集

數據收集是生命周期中的一個區域,與其他部分相比,它通常有更少的事情出錯;在大多數情況下,公司已經非常擅長收集數據。

在數據收集過程中,出錯的地方在於過程本身。由於許多流程可以並且是自動化的,因此數據收集可能會無聲地失敗,並且在使用數據之前沒有人知道。

例如,某個軟件可能會失敗,某個調度器可能無法運行,或者遇到意外的數據錯誤。如果收集數據的軟件沒有在遇到錯誤時提醒用戶,你可能不知道。

另一個常見的現象,尤其是來自社交網絡等第三方提供商的營銷數據,是數據格式的變化,而第三方沒有宣布或沒有充分記錄。例如,Facebook已經多次改變了指定直播視頻的方式;我們不得不調整我們的軟件以適應和預測這些變化。

數據收集失敗的解藥是定期維護和驗證。理想情況下,你使用的軟件有定期、頻繁的內建檢查;也就是說,對於一個人來說,定期檢查軟件仍然是值得的,並且與數據要求的重要性一樣頻繁。最簡單的經驗法則是將數據的重要性分成兩半,並在這些間隔內進行檢查。如果你每天需要一次數據,每半天檢查一次。如果你一周需要一次數據,每隔半周檢查一次。

探索性數據分析

探索性數據分析的正式規程和過程(eda)是一個充滿失敗的領域,原因很簡單:

大多數公司都沒有做到這一點。

對於少數幾家進行EDA的公司來說,大多數都是隨意、馬虎的方式,沒有明確定義的流程。

EDA是什麼?顧名思義,這都是關於探索數據以了解其特征和異常情況。正式的EDA流程是這樣的:

信任洞察的探索性數據分析框架

公司的錯誤之處在於跳過了步驟(假設他們真的這麼做了)。對於那些沒有訓練有素的數據科學家和數據分析師的公司來說,這種情況尤其常見。當一個項目剛開始時,徹底的EDA是必不可少的。在執行EDA之前,您不知道您不知道什麼,這為您的項目帶來了巨大的失敗風險。

在此過程中需要認識到的一件重要的事情是,前三個步驟可以是迭代的,對於任務關鍵型項目通常是迭代的。您可能會發現EDA過程中的異常或空白,將您送回到起點,回到數據需求,或在數據收集中進行修複。

數據準備

這個過程的最後一個階段是,如果你做好了前三個步驟,應該是最沒有錯誤的部分。數據準備將我們指定、收集和分析的數據準備好,供機器學習軟件使用。此時的常見步驟包括糾正EDA中發現的錯誤、輸入缺失的數據以及將數據從一種類型轉換為另一種類型。

數據準備中最常見的錯誤包括與您將用於建模的AI工具不一致。例如,如果你正在進行傳統的深度學習(沒有任何自動化的數據準備),你將不得不將某些變量轉換為與深度學習兼容的格式,例如稀疏分類變量。這裏有一個簡單的例子。假設在電子表格中有一列顯示用戶最喜歡的社交網絡:

表格數據

這看起來相當簡單,但傳統的深度學習網絡根本無法理解這一點。該軟件將要求數據像這樣格式化:

一個熱編碼表格數據

數據準備失敗的解藥是知道軟件需要什麼數據格式,這應該在數據需求階段就已經定義好了。

下一篇:建模會出什麼問題?

我們必須盡可能正確地獲得過程的數據階段。數據不僅是機器學習和人工智能的基礎,也是一項巨大的成本節約措施。構建機器學習模型的過程可能會耗費大量時間和資源。如果我們的數據質量很差,我們可能會在建模上投入大量的資源,結果模型失敗,需要重新開始。伟德bv885通過正確處理數據來避免這種代價高昂的失敗!

接下來,我們將把目光轉向生命周期建模部分中最有可能出錯的事情。請繼續關注!

相關的帖子

AI項目失敗的5種原因(2):戰略性AI失敗

克裏斯托弗·s·佩恩| 2022年4月11日

毫無疑問,人工智能項目中最常見的失敗是業務需求的失敗。以下是如何避免這種情況以及其他戰略失敗的方法。

AI項目失敗的5種原因(5):部署相關失敗

克裏斯托弗·s·佩恩| 2022年6月20日

人們反複認為人工智能(AI)是一種神奇的東西,可以從無到有,這導致許多項目誤入歧途。

AI項目失敗的5種原因(4):與建模相關的AI失敗

克裏斯托弗·s·佩恩| 2022年6月14日

如果你不想讓你的AI項目失敗,在建模過程中你需要注意兩個主要問題。

Baidu
map