分類是一種數據挖掘技術,它將類別分配給一組數據,以幫助進行更準確的預測和分析。 有時也稱為決策樹 ,分類是幾種方法之一,旨在使非常大的數據集的分析有效。
為什麼分類?
非常大的數據庫正在成為當今“大數據”世界的常態。 想像一下具有數TB數據的數據庫 - 一兆兆字節是一萬億字節的數據。
僅Facebook就每天都會處理600 TB的新數據(截至2014年,這是上次報告這些規格的時間)。 大數據的主要挑戰是如何理解它。
數量並不是唯一的問題:大數據也往往是多樣化的,非結構化和快速變化的。 考慮音頻和視頻數據,社交媒體帖子,3D數據或地理空間數據。 這類數據不容易分類或組織。
為了應對這一挑戰,已經開發了一系列用於提取有用信息的自動方法,其中包括分類 。
分類如何工作
我們將討論如何進行分類的工作,以避免過度使用技術手段。 目標是創建一套分類規則來回答問題,做出決定或預測行為。首先,開發一套訓練數據,其中包含一組特定的屬性以及可能的結果。
分類算法的工作是發現這組屬性如何達到其結論。
情景 :也許一家信用卡公司正試圖確定哪些潛在客戶應該收到信用卡優惠。
這可能是其一套訓練數據:
名稱 | 年齡 | 性別 | 年收入 | 信用卡優惠 |
---|---|---|---|---|
John Doe | 25 | 中號 | $ 39,500 | 沒有 |
Jane Doe | 56 | F | $ 125,000個 | 是 |
“預測變量”列年齡 , 性別和年收入確定“預測變量屬性” 信用卡優惠的價值 。 在訓練集中,預測屬性是已知的。 分類算法然後試圖確定預測變量屬性的值如何達到:預測變量與決策之間存在什麼關係? 它將製定一套預測規則,通常是IF / THEN聲明,例如:
IF(年齡> 18歲或年齡<75歲)和年收入> 40,000 THEN信用卡優惠=是
顯然,這是一個簡單的例子,算法需要比這裡顯示的兩條記錄更大的數據採樣。 此外,預測規則可能要復雜得多,包括捕獲屬性細節的子規則。
接下來,該算法被給出要分析的數據的“預測集”,但是該集缺乏預測屬性(或決策):
名稱 | 年齡 | 性別 | 年收入 | 信用卡優惠 |
---|---|---|---|---|
傑克弗羅斯特 | 42 | 中號 | $ 88,000 | |
瑪麗默里 | 16 | F | $ 0 |
這個預測數據有助於估計預測規則的準確性,然後對規則進行調整,直到開發人員認為預測有效且有用。
日常分類示例
分類和其他數據挖掘技術背後的大部分日常消費者體驗背後。
天氣預報可能會利用分類來報告是否下雨,晴天或多雲。 醫學界可能會分析健康狀況以預測醫療結果。 一種分類方法Naive Bayesian使用條件概率對垃圾郵件進行分類。 從欺詐檢測到產品報價,每天都會對數據進行分類並產生預測。