定義回歸統計模型

回歸分析變量之間的關係

回歸是一種數據挖掘技術,用於在給定特定數據集的情況下預測一系列數值(也稱為連續值 )。 例如,回歸可能用於預測產品或服務的成本,給出其他變量。

回歸用於多個行業,用於商業和營銷計劃,財務預測,環境建模和趨勢分析。

回歸與VS 分類

回歸和分類是用於解決類似問題的數據挖掘技術,但它們經常被混淆。 兩者都用於預測分析,但回歸用於預測數值或連續值,而分類將數據分配到離散類別中。

例如,回歸將用於根據其位置,平方英尺,上次售出時的價格,類似房屋的價格以及其他因素來預測房屋的價值。 如果您希望將房屋劃分為類別,例如可步行,批量或犯罪率,則分類將是有序的。

回歸技術的類型

最簡單和最古老的回歸形式是線性回歸,用於估計兩個變量之間的關係。 該技術使用直線的數學公式(y = mx + b)。 簡而言之,這僅僅意味著,給定具有Y和X軸的圖,X和Y之間的關係是一條具有少量異常值的直線。 例如,我們可以假設,鑑於人口的增加,糧食產量將以同樣的速度增加 - 這要求兩個數字之間有強烈的線性關係。 為了想像這一點,考慮一個圖表,其中Y軸跟踪人口增加,X軸跟踪食物產量。 隨著Y值的增加,X值會以相同的速率增加,從而使它們之間的關係成為一條直線。

諸如多元回歸等先進技術可以預測多個變量之間的關係 - 例如,收入,教育和人們選擇居住的地方之間是否存在關聯? 增加更多變量顯著增加了預測的複雜性。 有多種類型的多元回歸技術,包括標準,分層,逐步和逐步,每種都有其自己的應用程序。

在這一點上,了解我們要預測的內容(依賴或預測的變量)和我們用來進行預測的數據(獨立或預測變量)很重要。 在我們的例子中,我們想要預測給定收入和受教育程度( 預測變量)的選擇生活地點( 預測變量)。