【AI60問】Q22什麼是線性回歸分析?

by 提拔我園丁
緯育TibaMe AI小教室-Q23什麼是線性回歸?

回歸是一種解題方法,或者說「學習」方法,也是機器學習、資料探勘中一塊比較重要的概念。
線性回歸對於機器學習/資料科學的初學者來說,他是知名度最廣的建模方式之一,他是首選名額,演算法適用性很廣。

什麼是回歸分析?

先簡單為大家說明, 回歸的英文是Regression, 單詞Regress中文意思是退化、倒退的意思。回歸分析是預測建模的技術,是運用一個或一組變數來預測另一組變數的統計技術總稱。

  • 自變數 Independent variable:(預測,因)預測的變項
  • 因變數 Dependent variable:(目標,果)被預測的變項稱

通常運用在預測建模、時間順序、查找變數間關係上使用。

又能分為兩種回歸分析:

  • 簡單回歸 Simple Regression
    根據一個「自變數」來預測「因變數」的回歸分析
  • 多元回歸 Multiple regression
    「自變數」為兩個或兩個以上

簡單來說,當我們看到大量事實呈現的狀態後,可以進一步判斷它可能的原因與狀態之間的關係。

舉例:用高中學生在校成績來預測其學測分數,就是簡單回歸分析;
而若同時用學生在校成績、智商兩個「自變數」來預測其學測分數,就是多元回歸分析的應用。

因此,回歸分析它是建模、資料分析的重要工具。

為什麼要運用回歸分析?

回歸分析是估計兩個或兩個以上變數間的關係。

可以舉個例子,幫助理解:

假設TibaMe要預估這3個月的線上課銷售提升幅度,
而TibaMe的報表上顯示線上課銷售額為每月成本支出的3倍。
下一步我們就可以簡單預測出未來TibaMe可能的線上課銷售情況。

除此之外,回歸分析還能了解同個變數可能帶來的不同影響,如:價格變動幅度與促銷活動的關聯。

它為市場研究員、資料分析師、資料科學家構建預測模型提供各種重要變數。

回歸分析方式非常多種,但最有名的其中一個是線性回歸分析。

「線性」回歸分析是什麼?

對於線性回歸分析,它的因變數是連續的,自變數則可以是連續的或是離散的。它的回歸線在本質上是線性的。

在機器學習、資料探勘領域,最常用的回歸是兩大類:線性回歸非線性回歸

  • 線性回歸 Linear Regression
    假定「自變數」和「因變數」之間的函數關係為線性
  • 非線形回歸 Nonlinear Regression
    假定「自變數」和「因變數」之間的函數關係為非線性

設計「線性回歸」這種關係為:y = f(x) = wx + b

這裡的w和x分別是1×n和n×1的矩陣,wx 則指的是這兩個矩陣的內積。

具體一點說,例如:在一個實驗中觀察到一名病患的幾個指標呈現線性關係。
若觀察到的不是線性關係而用線性模型來建模的話,會得到欠擬合的結果。

*欠擬合 underfitting
指模型擬合程度不高,數據距離擬合曲線較遠,
或指模型沒有很好地捕捉到數據特徵,不能夠很好地擬合數據。

當拿到的x是一個5維的向量,x和y都是觀測到的值。

  • x:代表一名患者的年齡、身高、體重、血壓、血脂這幾個指標值
  • y:描述他們血糖程度的指標值

拿到大量樣本(就是大量的x和y)後,能猜測向量 (年齡、身高、體重、血壓、血脂) 和與其有關聯關係的血糖程度y值有這樣的關係:

y=w1×年齡+w2×身高+w3×體重+w4×血壓+w5×血脂+b

把每一名患者的 (年齡,身高,體重,血壓,血脂) 具體向量值帶入,並把其血糖程度y值也帶入。

如此一來,在所有的患者數據輸入後,會出現一系列的六元一次方程,未知數是w1~w5和b—也就是w矩陣的內容和偏置b的內容。

接著要做的事,是要把w矩陣的內容和偏置b的內容求出一個最「合適」的解來。

這個「合適」的概念,是要得到一個在範圍內由f(x)映射得到的y,和真實觀測到的y的差距的加總,寫出來會是這種方式:

緯育TibaMeAI 60問-什麼是線性回歸?
圖22-1

Loss的含義是什麼?

如果w和b給的值理想,差距值會是0,因為每個x經過映射都和觀測值一致,這種理想狀況,在實際應用中見不到。所以,Loss越小,映射關係描述越精準。

若想辦法把 Loss 描述成:Loss=f(w, b),Loss盡可能小的w和b的取值,就成功了。得到一個誤差足夠小的w和b,能夠在驗證用的資料集上有滿足當前需求的精度表現。

如:預測病患的血糖誤差為誤差平均<=0.3為容忍上線,訓練後在驗證集上的表現為誤差平均為0.2,就是合格。

圖22-2 資料集分成訓練集、驗證集

以往的機器學習、資料探勘中回歸、分類,這些演算法都有一個要把獲取到的資料集分成訓練集、驗證集的過程。

  • 訓練集資料:訓練、歸納關係使用
  • 驗證集資料:做驗證,避免過擬合現象
* 過擬合 Overfitting
擬合了每個數據,反而丟失要的規律,
使用擬合結果去預測另一個訓練集時誤差會更為明顯。

資料集的劃分可以三七開、二八開,現在生產環境中大多使用這樣的比例,訓練集則使用資料較多的部分。

由於這種假設中輸入的x向量與標籤值y是一種線性關係 y=f(x)=wx+b,所以才叫做線性回歸,這也是最常見的形式,也就是x和w都是一維向量的情況。

若是呈現其他關係,如指數、對數關係,這時候使用線性回歸去做「擬合」會發現損失函數過大,驗證集的誤差也會過大,會出現欠擬合現象。

以上簡單介紹,回歸分析的定義與用處、線性回歸分析。

緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e

下篇將與大家分享什麼是決策樹演算法?

每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!

緯育TibaMe FB

企業人才數位轉型FB

企業AI、數位人才or平台培訓方案請點選

參考資料

分享這篇文章:
0 留言
3

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料