數據挖掘中的分類

分類是一種數據挖掘技術，它將類別分配給一組數據，以幫助進行更準確的預測和分析。有時也稱為決策樹 ，分類是幾種方法之一，旨在使非常大的數據集的分析有效。

非常大的數據庫正在成為當今“大數據”世界的常態。想像一下具有數TB數據的數據庫 - 一兆兆字節是一萬億字節的數據。

僅Facebook就每天都會處理600 TB的新數據（截至2014年，這是上次報告這些規格的時間）。大數據的主要挑戰是如何理解它。

數量並不是唯一的問題：大數據也往往是多樣化的，非結構化和快速變化的。考慮音頻和視頻數據，社交媒體帖子，3D數據或地理空間數據。這類數據不容易分類或組織。

為了應對這一挑戰，已經開發了一系列用於提取有用信息的自動方法，其中包括分類。

我們將討論如何進行分類的工作，以避免過度使用技術手段。目標是創建一套分類規則來回答問題，做出決定或預測行為。首先，開發一套訓練數據，其中包含一組特定的屬性以及可能的結果。

分類算法的工作是發現這組屬性如何達到其結論。

情景：也許一家信用卡公司正試圖確定哪些潛在客戶應該收到信用卡優惠。

這可能是其一套訓練數據：

**培訓數據**
名稱	年齡	性別	年收入	信用卡優惠
John Doe	25	中號	$ 39,500	沒有
Jane Doe	56	F	$ 125,000個	是

“預測變量”列年齡，性別和年收入確定“預測變量屬性” 信用卡優惠的價值 。在訓練集中，預測屬性是已知的。分類算法然後試圖確定預測變量屬性的值如何達到：預測變量與決策之間存在什麼關係？它將製定一套預測規則，通常是IF / THEN聲明，例如：

IF（年齡> 18歲或年齡<75歲）和年收入> 40,000 THEN信用卡優惠=是

顯然，這是一個簡單的例子，算法需要比這裡顯示的兩條記錄更大的數據採樣。此外，預測規則可能要復雜得多，包括捕獲屬性細節的子規則。

接下來，該算法被給出要分析的數據的“預測集”，但是該集缺乏預測屬性（或決策）：

**預測數據**
名稱	年齡	性別	年收入	信用卡優惠
傑克弗羅斯特	42	中號	$ 88,000
瑪麗默里	16	F	$ 0

這個預測數據有助於估計預測規則的準確性，然後對規則進行調整，直到開發人員認為預測有效且有用。

分類和其他數據挖掘技術背後的大部分日常消費者體驗背後。

天氣預報可能會利用分類來報告是否下雨，晴天或多雲。醫學界可能會分析健康狀況以預測醫療結果。一種分類方法Naive Bayesian使用條件概率對垃圾郵件進行分類。從欺詐檢測到產品報價，每天都會對數據進行分類並產生預測。

Alike posts