編者注:本文轉載自Mobilewalla的網站.Mobilewalla是營銷AI研BETVlCTOR1946伟德究所的合作夥伴。
幹淨的數據對於預測建模和機器學習的成功至關重要。
以下是為什麼您需要數據清理來克服“髒”數據問題,並創建一個完整、公正的數據庫,該數據庫沒有欺詐、重複、差異和結構錯誤。
什麼是數據清理?
數據清理,也稱為數據清理,是為預測建模或分析準備數據的重要第一步。它指的是刪除或修改不正確的、欺騙性的、不完整的、格式不正確的或重複的數據的過程。它產生了一個經過驗證的、標準的、統一的、便於算法處理的高質量數據集。
為什麼預測建模需要幹淨的數據?
預測模型,不管所采用的算法有多複雜,都隻能和用來訓練它們的數據一樣好。不正確的數據產生不正確的見解。
此外,格式不佳、非結構化的數據不容易被計算機排序。例如,在檢查性別項下的條目時,人類可能會理解“woman”、“f”、“female”和“fem”都是同一個意思,但機器會認為它們是不同的,除非被告知另有含義。
數據不足也是一個問題。用更大範圍和規模的數據訓練的簡單算法,比用有限數據訓練的高級算法產生更準確、更有預測性的見解。第三方數據豐富是一種常見的解決方法,但是當數據從多個來源編譯時,必須格外小心以達到一致性並解決重複。
潔淨數據的要素
幹淨的數據是什麼樣子的?如果您正在為預測建模練習做準備,您的數據應該具有以下特性。
1.完整的和公正的
42%的商業和技術決策者表示,缺乏公正、高質量的數據是他們在業務中采用人工智能的最大障礙。許多品牌隻能通過與客戶的直接互動獲得第一方數據。這些數據本身就帶有偏見和局限性,因為它隻講述了當前用戶的故事,而不是當前用戶基礎之外的潛在用戶或其他個人。
此外,第一方數據通常隻描述與品牌的互動,而不一定是人口統計或行為信息,這對識別潛在的新客戶有用。
數據濃縮是解決這個問題的最好辦法。通過與可信的數據提供商合作,您可以用第三方數據來補充您的第一方數據,從而對您當前和潛在的客戶基礎提供更多的洞察。
2.一致的和有組織的
數據點需要表述一致,預測模型才能準確運行。不一致可能由輸入錯誤、拚寫錯誤、存儲或傳輸中的損壞、不同的數據定義以及命名約定的變化引起。解決不一致是一個重要的(盡管是手工的)過程,它是啟用更多預測模型的關鍵。
3.免費的欺詐
在今天這個互聯的世界裏,移動數據需求量很大。然而,移動程序購買市場每年因欺詐流量損失160億美元。無論何時處理移動數據,都需要使用先進的手段來識別欺詐行為。
Mobilewalla的數據清理工具包括確定性模式發現、人工智能和基於機器學習的方法的組合,這些方法產生啟發式模式,以檢測欺詐設備,位置數據、IP地址等等。
4.重複的決議
需要檢查數據庫是否有重複,特別是涉及多個數據源時。一些數據分析師選擇完全刪除潛在的重複記錄,而不是利用寶貴的時間和資源來解決它們。伟德bv885
一種更有效的策略是使用移動廣告客戶ID (MAID)來構建持久客戶的身份跨渠道。這不僅通過根據MAID為消費者行為建立索引來解決數據庫重複問題,而且還有助於品牌研究和分析跨渠道的行為。
5.遵守私隱條例
圍繞消費者數據存儲和使用的監管環境的加強影響著各地的數字業務。無論您是收集自己的第一方數據,還是與第三方數據提供商合作,您都必須遵守歐洲通用數據保護條例(GDPR)或加州消費者隱私法案(CCPA)等法律。
勞裏罩
Laurie Hood是Mobilewalla市場營銷高級副總裁。