【AI60問】Q22什麼是線性回歸分析？

回歸是一種解題方法，或者說「學習」方法，也是機器學習、資料探勘中一塊比較重要的概念。
線性回歸對於機器學習/資料科學的初學者來說，他是知名度最廣的建模方式之一，他是首選名額，演算法適用性很廣。

內容目錄

什麼是回歸分析？

先簡單為大家說明，回歸的英文是Regression，單詞Regress中文意思是退化、倒退的意思。回歸分析是預測建模的技術，是運用一個或一組變數來預測另一組變數的統計技術總稱。

自變數 Independent variable：（預測，因）預測的變項
因變數 Dependent variable：（目標，果）被預測的變項稱

通常運用在預測建模、時間順序、查找變數間關係上使用。

又能分為兩種回歸分析：

簡單回歸 Simple Regression
根據一個「自變數」來預測「因變數」的回歸分析
多元回歸 Multiple regression
「自變數」為兩個或兩個以上

簡單來說，當我們看到大量事實呈現的狀態後，可以進一步判斷它可能的原因與狀態之間的關係。

舉例：用高中學生在校成績來預測其學測分數，就是簡單回歸分析；
而若同時用學生在校成績、智商兩個「自變數」來預測其學測分數，就是多元回歸分析的應用。

因此，回歸分析它是建模、資料分析的重要工具。

為什麼要運用回歸分析？

回歸分析是估計兩個或兩個以上變數間的關係。

可以舉個例子，幫助理解：

假設TibaMe要預估這3個月的線上課銷售提升幅度，
而TibaMe的報表上顯示線上課銷售額為每月成本支出的3倍。
下一步我們就可以簡單預測出未來TibaMe可能的線上課銷售情況。

除此之外，回歸分析還能了解同個變數可能帶來的不同影響，如：價格變動幅度與促銷活動的關聯。

它為市場研究員、資料分析師、資料科學家構建預測模型提供各種重要變數。

回歸分析方式非常多種，但最有名的其中一個是線性回歸分析。

「線性」回歸分析是什麼？

對於線性回歸分析，它的因變數是連續的，自變數則可以是連續的或是離散的。它的回歸線在本質上是線性的。

在機器學習、資料探勘領域，最常用的回歸是兩大類：線性回歸、非線性回歸。

線性回歸 Linear Regression：
假定「自變數」和「因變數」之間的函數關係為線性
非線形回歸 Nonlinear Regression：
假定「自變數」和「因變數」之間的函數關係為非線性

設計「線性回歸」這種關係為：y = f(x) = wx + b

這裡的w和x分別是1×n和n×1的矩陣，wx 則指的是這兩個矩陣的內積。

具體一點說，例如：在一個實驗中觀察到一名病患的幾個指標呈現線性關係。
若觀察到的不是線性關係而用線性模型來建模的話，會得到欠擬合的結果。

*欠擬合 underfitting：
指模型擬合程度不高，數據距離擬合曲線較遠，
或指模型沒有很好地捕捉到數據特徵，不能夠很好地擬合數據。

當拿到的x是一個5維的向量，x和y都是觀測到的值。

x：代表一名患者的年齡、身高、體重、血壓、血脂這幾個指標值
y：描述他們血糖程度的指標值

拿到大量樣本（就是大量的x和y）後，能猜測向量 (年齡、身高、體重、血壓、血脂) 和與其有關聯關係的血糖程度y值有這樣的關係：

y=w₁×年齡+w₂×身高+w₃×體重+w₄×血壓+w₅×血脂+b

把每一名患者的 (年齡,身高,體重,血壓,血脂) 具體向量值帶入，並把其血糖程度y值也帶入。

如此一來，在所有的患者數據輸入後，會出現一系列的六元一次方程，未知數是w₁~w₅和b—也就是w矩陣的內容和偏置b的內容。

接著要做的事，是要把w矩陣的內容和偏置b的內容求出一個最「合適」的解來。

這個「合適」的概念，是要得到一個在範圍內由f(x)映射得到的y，和真實觀測到的y的差距的加總，寫出來會是這種方式：

Loss的含義是什麼？

如果w和b給的值理想，差距值會是0，因為每個x經過映射都和觀測值一致，這種理想狀況，在實際應用中見不到。所以，Loss越小，映射關係描述越精準。

若想辦法把 Loss 描述成：Loss=f（w, b），Loss盡可能小的w和b的取值，就成功了。得到一個誤差足夠小的w和b，能夠在驗證用的資料集上有滿足當前需求的精度表現。

如：預測病患的血糖誤差為誤差平均<=0.3為容忍上線，訓練後在驗證集上的表現為誤差平均為0.2，就是合格。

以往的機器學習、資料探勘中回歸、分類，這些演算法都有一個要把獲取到的資料集分成訓練集、驗證集的過程。

訓練集資料：訓練、歸納關係使用
驗證集資料：做驗證，避免過擬合現象

* 過擬合 Overfitting：
擬合了每個數據，反而丟失要的規律，
使用擬合結果去預測另一個訓練集時誤差會更為明顯。

資料集的劃分可以三七開、二八開，現在生產環境中大多使用這樣的比例，訓練集則使用資料較多的部分。

由於這種假設中輸入的x向量與標籤值y是一種線性關係 y=f（x）=wx+b，所以才叫做線性回歸，這也是最常見的形式，也就是x和w都是一維向量的情況。

若是呈現其他關係，如指數、對數關係，這時候使用線性回歸去做「擬合」會發現損失函數過大，驗證集的誤差也會過大，會出現欠擬合現象。

以上簡單介紹，回歸分析的定義與用處、線性回歸分析。

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術，若你想進一步了解或學習 AI / 資料科學的相關知識或技能，歡迎來TibaMe 👉 https://bit.ly/3o4N39e

下篇將與大家分享什麼是決策樹演算法？

每週4則，每日5分鐘，提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用，歡迎訂閱TibaMe FB及部落格，或你有其他想了解的主題歡迎在下方留言讓我們知道唷！

緯育TibaMe FB

企業人才數位轉型FB

企業AI、數位人才or平台培訓方案請點選

參考資料

線性回歸決策樹回歸分析