對數據科學和人工智能的關鍵術語感到困惑?
你並不孤單。如果你想在你的職業生涯和公司中進一步理解、試點和擴展AI,有很多重要的術語需要了解。
不過別擔心。我們的朋友Pandata你已經準備好了。Pandata使組織能夠設計和開發以人為本的人工智能和機器學習解決方案。他們是數據科學專家而且他們是人工智能翻譯——他們知道如何用簡單的方式描述複雜的主題。
他們甚至整理了一個方便的數據科學和人工智能詞彙表,我們從他們的網站重新發布在他們的允許下。如果你想更好地理解和使用人工智能,它有20個你需要知道的術語。
算法
操作數據以達到最終目標的一係列指令或方法。我們使用Python或R等編程語言來實現算法。算法可以包括從簡單的加法到極其複雜的神經網絡的過程。
人工智能(AI)
人工智能是一種解決方案,它可以學習識別模式並對模式做出反應,模擬傳統的人類任務,如理解語言、推薦業務操作和合成大量信息。當人工智能通過學習依賴於大量信息的非常重複的任務來幫助人類時,它的工作效果最好。
商業智能
數據應該用於獲得可操作的商業智能。我們的主要目標是使用數據為業務價值做出貢獻。這是通過統計分析、數據可視化/報告和機器學習來實現的。
儀表盤
交互式數據可視化或一係列可視化,允許涉眾探索數據的各個維度。我們使用Tableau或PowerBI等工具開發儀表板,目標是實現可破譯性和易用性,以便最終用戶能夠獨立地鑽取數據細節或探索高級摘要信息。
工程數據
數據工程包括規劃、設計和實現信息係統。這包括數據存儲以及數據科學家用來訪問和轉換數據的管道。
數據濃縮
一個組織的數據可以通過改進業務洞察力和增強預測分析的方式得到增強。我們使用開源數據的廣泛知識來補充和豐富您的專有數據源。
數據湖vs數據倉庫
存儲數據的位置取決於所擁有的數據類型。“數據湖”用於當您擁有的全部是原始的、未處理的數據時,這些數據通常具有不同的結構,彼此之間沒有任何關係。“數據倉庫”用於存儲來自多個來源的結構化或關係數據,而不僅僅是一個。
數據科學
數據科學是數學、統計學、計算機編程和商業的交叉學科。數據科學是這些工具的應用,從數據中提供洞察和價值。
數據可視化
數據可用於提供業務智能,但如果涉眾不能理解它,則很難將該智能轉換為業務價值。可視化和報告彌補了這一差距。在展示統計分析或機器學習的結果時,這也是必要的。
深度學習
使用深度神經網絡等架構來執行機器學習。如果情況需要,深度學習可以超越經典方法,並提供最先進的表現。我們發現深度學習在序列數據、圖像數據或從模擬環境中學習時最有用。
探索性數據分析(EDA)
在任何與數據相關的項目的關鍵早期階段,EDA涉及到探索可用數據和總結主要特征,通常使用可視化。它可以為數據集提供額外的見解,並產生用於更正式的統計建模的想法和假設。
提取、轉換和加載(ETL)
為了準備一個經過清理的數據集以供查詢和進一步使用,ETL涉及從一個或多個數據源提取數據,將數據轉換為適當的格式或結構,並將數據加載到目標數據庫。
特征選擇
特征選擇用於機器學習——隻從數據中選擇相關的特征,並刪除冗餘或不相關的特征,從而簡化模型並減少訓練時間。
Hadoop
Apache Hadoop是一個用於分布式存儲和處理數據的開源軟件框架。Hadoop得益於Hadoop集群中跨節點的文件分布,以及跨多個節點並行處理數據。Hadoop可以部署在本地計算機集群上,也可以部署在雲中(使用亞馬遜的AWS或微軟的Azure等服務),或者作為混合解決方案。
機器學習
機器學習算法允許計算機從數據中學習以執行特定的任務。大多數情況下,這是某種形式的預測或優化,盡管它也可以用於一般的模式挖掘。
自然語言處理(NLP)
世界上的大部分數據都是以自然語言的形式出現的,這些語言通常是非結構化的。我們將經典方法和現代深度學習相結合,通過各種形式的文本數據獲得可操作的見解和預測分析。
模式挖掘
盡管模式挖掘對所有形式的機器學習都很有用,但它在“無監督”環境下最有用,在這種情況下,數據不能自然地用於預測分析。它通常自己提供商業智能,並可作為執行預測分析的墊腳石。
推薦係統
推薦係統用於根據用戶的曆史偏好或類似用戶的偏好等輸入來預測用戶的偏好。推薦係統的常見用途包括Spotify和YouTube等流媒體內容服務生成的建議,以及亞馬遜和許多其他電子商務網站生成的產品推薦。
有監督機器學習與無監督機器學習
監督式機器學習使用訓練數據,其中包括輸入和預期輸出。一旦訓練完成,模型將接受之前未見過的輸入,並根據訓練期間開發的函數預測輸出。監督學習算法的常見示例包括決策樹、線性和邏輯回歸以及k-最近鄰。常見的應用包括預測未來模式或分類類別。
無監督學習在本質上更具探索性。輸出類別不包括在訓練集中,一個共同的目標是找到以前未檢測到的模式。無監督學習算法的一個常見例子是k-means,常見的應用是用於異常檢測的聚類。
統計分析
這通常用於收集數據的高級知識。這些高級知識用於激勵進一步的業務智能工作。統計分析可以單獨創建可操作的商業智能,也可以與報告解決方案結合使用。它也經常被認為是機器學習的必要成分。
麥克壞了的
作為首席內容官,Mike Kaput使用內容營銷、營銷策略和營銷技術來增長和擴大營銷AI研究所的流量、銷量和收入。BETVlCTOR1946伟德作為一名狂熱的作家,Mike已經發表了數百篇關於如何在營銷中使用人工智能來增加收入和降低成本的文章。Mike是《營銷人工智能:AI,營銷和商業的未來》(Matt Holt Books, 2022)的合著者。他也是《比特幣簡明英語》(Bitcoin in Plain English)一書的作者,這是世界上最受歡迎的加密貨幣的初學者指南。