數據挖掘中的分類

分類是一種數據挖掘技術,它將類別分配給一組數據,以幫助進行更準確的預測和分析。 有時也稱為決策樹 ,分類是幾種方法之一,旨在使非常大的數據集的分析有效。

為什麼分類?

非常大的數據庫正在成為當今“大數據”世界的常態。 想像一下具有數TB數據的數據庫 - 一兆兆字節是一萬億字節的數據。

僅Facebook就每天都會處理600 TB的新數據(截至2014年,這是上次報告這些規格的時間)。 大數據的主要挑戰是如何理解它。

數量並不是唯一的問題:大數據也往往是多樣化的,非結構化和快速變化的。 考慮音頻和視頻數據,社交媒體帖子,3D數據或地理空間數據。 這類數據不容易分類或組織。

為了應對這一挑戰,已經開發了一系列用於提取有用信息的自動方法,其中包括分類

分類如何工作

我們將討論如何進行分類的工作,以避免過度使用技術手段。 目標是創建一套分類規則來回答問題,做出決定或預測行為。首先,開發一套訓練數據,其中包含一組特定的屬性以及可能的結果。

分類算法的工作是發現這組屬性如何達到其結論。

情景 :也許一家信用卡公司正試圖確定哪些潛在客戶應該收到信用卡優惠。

這可能是其一套訓練數據:

培訓數據
名稱 年齡 性別 年收入 信用卡優惠
John Doe 25 中號 $ 39,500 沒有
Jane Doe 56 F $ 125,000個

“預測變量”列年齡性別和年收入確定“預測變量屬性” 信用卡優惠的價值 。 在訓練集中,預測屬性是已知的。 分類算法然後試圖確定預測變量屬性的值如何達到:預測變量與決策之間存在什麼關係? 它將製定一套預測規則,通常是IF / THEN聲明,例如:

IF(年齡> 18歲或年齡<75歲)和年收入> 40,000 THEN信用卡優惠=是

顯然,這是一個簡單的例子,算法需要比這裡顯示的兩條記錄更大的數據採樣。 此外,預測規則可能要復雜得多,包括捕獲屬性細節的子規則。

接下來,該算法被給出要分析的數據的“預測集”,但是該集缺乏預測屬性(或決策):

預測數據
名稱 年齡 性別 年收入 信用卡優惠
傑克弗羅斯特 42 中號 $ 88,000
瑪麗默里 16 F $ 0

這個預測數據有助於估計預測規則的準確性,然後對規則進行調整,直到開發人員認為預測有效且有用。

日常分類示例

分類和其他數據挖掘技術背後的大部分日常消費者體驗背後。

天氣預報可能會利用分類來報告是否下雨,晴天或多雲。 醫學界可能會分析健康狀況以預測醫療結果。 一種分類方法Naive Bayesian使用條件概率對垃圾郵件進行分類。 從欺詐檢測到產品報價,每天都會對數據進行分類並產生預測。