定義回歸統計模型

by 麥克查普爾

回歸分析變量之間的關係

回歸是一種數據挖掘技術，用於在給定特定數據集的情況下預測一系列數值（也稱為連續值 ）。例如，回歸可能用於預測產品或服務的成本，給出其他變量。

回歸用於多個行業，用於商業和營銷計劃，財務預測，環境建模和趨勢分析。

回歸與VS 分類

回歸和分類是用於解決類似問題的數據挖掘技術，但它們經常被混淆。兩者都用於預測分析，但回歸用於預測數值或連續值，而分類將數據分配到離散類別中。

例如，回歸將用於根據其位置，平方英尺，上次售出時的價格，類似房屋的價格以及其他因素來預測房屋的價值。如果您希望將房屋劃分為類別，例如可步行，批量或犯罪率，則分類將是有序的。

回歸技術的類型

最簡單和最古老的回歸形式是線性回歸，用於估計兩個變量之間的關係。該技術使用直線的數學公式（y = mx + b）。簡而言之，這僅僅意味著，給定具有Y和X軸的圖，X和Y之間的關係是一條具有少量異常值的直線。例如，我們可以假設，鑑於人口的增加，糧食產量將以同樣的速度增加 - 這要求兩個數字之間有強烈的線性關係。為了想像這一點，考慮一個圖表，其中Y軸跟踪人口增加，X軸跟踪食物產量。隨著Y值的增加，X值會以相同的速率增加，從而使它們之間的關係成為一條直線。

諸如多元回歸等先進技術可以預測多個變量之間的關係 - 例如，收入，教育和人們選擇居住的地方之間是否存在關聯？增加更多變量顯著增加了預測的複雜性。有多種類型的多元回歸技術，包括標準，分層，逐步和逐步，每種都有其自己的應用程序。

在這一點上，了解我們要預測的內容（依賴或預測的變量）和我們用來進行預測的數據（獨立或預測變量）很重要。在我們的例子中，我們想要預測給定收入和受教育程度（預測變量）的選擇生活地點（預測變量）。

標準多元回歸同時考慮所有預測變量。例如1）收入和教育（預測者）和鄰居選擇（預測）之間的關係是什麼; 2）每個個體預測因素在多大程度上對這種關係做出貢獻？
逐步多元回歸回答了一個完全不同的問題。逐步回歸算法將分析哪些預測因子最適合用來預測鄰域選擇 - 意味著逐步模型評估預測變量的重要性順序，然後選擇相關子集。這種類型的回歸問題使用“步驟”來開發回歸方程。鑑於這種類型的回歸，所有預測變量甚至可能不出現在最終的回歸方程中。
分階段回歸就像一步一步，是一個連續的過程，但是預測變量以事先定義的預先指定的順序輸入到模型中，即該算法不包含內置的一組方程，用於確定輸入預測變量。當創建回歸方程的人具有該領域的專業知識時，這通常被使用。

逐步回歸也類似於逐步回歸，但分析變量組而不是單個變量。

回歸與VS 分類

回歸技術的類型

Alike posts

See Newest

Sapid posts