人工智能應該嚇到我們所有人,但不是因為理由得到了埃隆·馬斯克的支持.
公司已經超越了炒作,競相構建和采用“智能”解決方案,人工智能的意外後果已經變得越來越明顯。從穀歌有性別偏見的自動完成來致命的自駕車輛到一個有種族偏見的算法,把白人病人排在黑人病人前麵在美國,過去一年裏不乏災難性的例子。
這些問題並不新鮮。2016年,在美國被廣泛用於指導量刑的COMPAS程序被發現預測黑人被告構成再犯的風險更高比他們實際做的要多。而且,就在2015年,在穀歌圖像中搜索“CEO”這個詞會不成比例地返回白人男性的照片.最後,我們不要忘記泰-微軟公司試圖建立一個聊天機器人,與世界對話並向世界學習卑鄙的,欺負,hatebot.
那麼,作為營銷人員,你為什麼要在意這些呢?毫無疑問,為大局著想是好事。但是,自然語言生成中的性別偏見或醫療風險評分中的性別歧視如何影響我?
- 你沉浸在定性的市場研究中,從客戶調查到在線評論,你正在考慮使用眾多新興的人工智能工具之一,對這些數據進行分類和分析。如果您的情感工具始終將與非裔美國人名字有關的團隊成員的反饋識別為更多的負麵比其他名字嗎?
- 你正在投資於高度個性化的數字體驗,並使用人工智能引導客戶選擇新產品。你的初始受眾是,比方說,有購房興趣的35歲左右的人。AI過度暴露於這一用戶,而較少暴露於其他用戶,並強調這是最成功的市場群體,而忽視了其他人。
- 你正在努力改進你的潛在客戶識別和評分過程,花更多的時間在那些更有可能購買的客戶身上。如果不加以檢查,人工智能就可以鎖定潛在的問題行為。假設你的AI解決方案利用在線潛在客戶行為和參與度來產生潛在客戶得分。購買曆史、在線觀看行為和地理位置都可以代表性別、種族、年齡和其他受保護的群體。如果人工智能開始利用這些因素來獲取線索,您可能會發現自己處於一個棘手的領域,特別是如果您經營的是金融、醫療保健或保險等受監管的領域。
超過50%的企業將人工智能視為優先事項。這不是假設;這是我們的新現實,你需要準備好駕馭它。
我們都可以支持“不造成傷害”,但當後果似乎不可預測時,如何為AI解決方案的開發和部署帶來道德準則?僅僅讓數據科學家們討論人工智能的倫理是不夠的。最終用戶和采用者也需要成為這些對話的一部分。
如果所有的AI模型都必須在源數據方麵接受一定程度的訓練,那麼我們應該警惕我們的新AI係統從過去的錯誤中學習。作為一個社會,我們在過去的幾十年裏已經克服了社會偏見;我們不應該讓我們的AI係統從人類最糟糕的行為模式中學習,讓我們倒退。因此,對於利益相關者來說,了解偏見是如何通過用於訓練AI模型的數據表現出來的是至關重要的。
數據複雜性vs目標複雜性,以及質量難題
在之前的一篇文章中,我介紹了AI是數據複雜性和分析目標複雜性的函數.隨著你的AI解決方案的目標變得更加複雜(如實時推薦),以及數據的本質變得更加複雜(如更大的數據集、自然語言、圖像和音頻),衡量解決方案的客觀性能變得更加困難。什麼是好的推薦信?是否有多個好的推薦?
在人工智能可能學習到的更複雜的數據集中,檢測偏差也更困難或不太明顯。然而,基於複雜數據的複雜目標的人工智能解決方案正在迅速出現。
Explainability與性能
“黑匣子”方法的激增,很大程度上是由神經網絡的進步推動的,可以檢測高度複雜的模式,並實現最先進的預測性能。然而,這些模型的缺點是缺乏可解釋性。
假設您有一個回歸模型,該模型基於日期、天氣和曆史訂單量等許多因素來預測銷售總量。您不僅可以知道回歸模型分配給每個因素的重要性,還可以相對直接地查看底層數據集並指出每個因素對最終預測的貢獻。與回歸模型不同,神經網絡有數十萬甚至數十億個參數,這些參數是底層數據的轉換和排列,通過數學調整來識別人類無法理解的微妙模式。
如果人工智能的目標是推動商業結果,那麼追求具有最高馬力和性能的模型是很有誘惑力的。在發生意外後果的風險較低的情況下,或許這是一個可以接受的選擇。即便如此,當你的老板或公司想要深入了解具體預測背後的“原因”時,黑箱方法還是不夠用。在極端情況下,偏見可能會引入嚴重的風險,比如歧視客戶或員工,解決方案的可解釋性就變得更加關鍵。
偏見是如何進入等式的
理解偏見是如何進入等式的,這讓人工智能的倫理考量變得如此具有挑戰性。一個人工智能解決方案有許多階段和構建模塊。
- 訓練數據集。公共數據集是挖掘信息的偉大倉庫,但它們也使曆史上的社會規範永垂不朽。盲目使用這些數據集可能會導致偏見,比如新聞中主要出現的男性首席執行官的曆史圖像。
- 代理變量。這指的是一個特征與另一個特征高度相關;例如,種族和人口普查。即使明確地從數據集中刪除種族信息,如果將人口普查等代理輸入模型,也可能會引入基於曆史社會規範的偏見。
- Pre-trained模型。隨著數據科學世界中許多快速變化的進步,使用第三方api和構建塊是很常見的,而第三方api和構建塊也使用其他第三方api和構建塊。這些構建模塊可能是在有偏見的數據集上訓練出來的。即使你特別勤奮,偏見也可能通過這些工具引入。
解決方案
盡管人工智能倫理的挑戰在於沒有明確的答案或保證避免意外後果的方法,但這裏有一些重要的問題,任何即將踏上人工智能之旅的精明團隊都應該考慮清楚:
- 可解釋性。特別是當使用像深度神經網絡這樣的“黑箱”方法時,你如何才能可靠地找到解釋“為什麼”的方法呢?為什麼模型會得出這樣的結果?為什麼這對公司很重要?
- 可追溯性。具體的模型是如何訓練的?您對底層數據集了解多少?你能否證明,在整個過程中,為了盡量減少偏見,做出了合理的努力?
- 可審核性。你將如何審計你的AI解決方案在野外執行的性能和管理風險?如何檢測潛在的問題和意外行為?
最後,我要強調對話的重要性。防範偏見和負麵後果是每個人的工作。我經常看到團隊回避AI對話,因為他們“不是技術人員”,或者相反地,他們是獨立工作的數據科學家。下次當你發現自己正在進行關於人工智能的對話時,不要隻問模型能做什麼,也要問模型是如何以及為什麼被訓練的。
卡爾Al-Dhubaib
Cal是一名數據科學家和企業家,他授權組織啟動數據科學計劃,提高底線。他是Pandata的首席數據科學家兼合夥人,經常就人工智能主題發表演講。