回歸分析變量之間的關係
回歸是一種數據挖掘技術,用於在給定特定數據集的情況下預測一系列數值(也稱為連續值 )。 例如,回歸可能用於預測產品或服務的成本,給出其他變量。
回歸用於多個行業,用於商業和營銷計劃,財務預測,環境建模和趨勢分析。
回歸與VS 分類
回歸和分類是用於解決類似問題的數據挖掘技術,但它們經常被混淆。 兩者都用於預測分析,但回歸用於預測數值或連續值,而分類將數據分配到離散類別中。
例如,回歸將用於根據其位置,平方英尺,上次售出時的價格,類似房屋的價格以及其他因素來預測房屋的價值。 如果您希望將房屋劃分為類別,例如可步行,批量或犯罪率,則分類將是有序的。
回歸技術的類型
最簡單和最古老的回歸形式是線性回歸,用於估計兩個變量之間的關係。 該技術使用直線的數學公式(y = mx + b)。 簡而言之,這僅僅意味著,給定具有Y和X軸的圖,X和Y之間的關係是一條具有少量異常值的直線。 例如,我們可以假設,鑑於人口的增加,糧食產量將以同樣的速度增加 - 這要求兩個數字之間有強烈的線性關係。 為了想像這一點,考慮一個圖表,其中Y軸跟踪人口增加,X軸跟踪食物產量。 隨著Y值的增加,X值會以相同的速率增加,從而使它們之間的關係成為一條直線。
諸如多元回歸等先進技術可以預測多個變量之間的關係 - 例如,收入,教育和人們選擇居住的地方之間是否存在關聯? 增加更多變量顯著增加了預測的複雜性。 有多種類型的多元回歸技術,包括標準,分層,逐步和逐步,每種都有其自己的應用程序。
在這一點上,了解我們要預測的內容(依賴或預測的變量)和我們用來進行預測的數據(獨立或預測變量)很重要。 在我們的例子中,我們想要預測給定收入和受教育程度( 預測變量)的選擇生活地點( 預測變量)。
- 標準多元回歸同時考慮所有預測變量。 例如1)收入和教育(預測者)和鄰居選擇(預測)之間的關係是什麼; 2)每個個體預測因素在多大程度上對這種關係做出貢獻?
- 逐步多元回歸回答了一個完全不同的問題。 逐步回歸算法將分析哪些預測因子最適合用來預測鄰域選擇 - 意味著逐步模型評估預測變量的重要性順序,然後選擇相關子集。 這種類型的回歸問題使用“步驟”來開發回歸方程。 鑑於這種類型的回歸,所有預測變量甚至可能不出現在最終的回歸方程中。
- 分階段回歸就像一步一步,是一個連續的過程,但是預測變量以事先定義的預先指定的順序輸入到模型中,即該算法不包含內置的一組方程,用於確定輸入預測變量。 當創建回歸方程的人具有該領域的專業知識時,這通常被使用。
- 逐步回歸也類似於逐步回歸 ,但分析變量組而不是單個變量。