回歸是一種解題方法,或者說「學習」方法,也是機器學習、資料探勘中一塊比較重要的概念。
線性回歸對於機器學習/資料科學的初學者來說,他是知名度最廣的建模方式之一,他是首選名額,演算法適用性很廣。
什麼是回歸分析?
先簡單為大家說明, 回歸的英文是Regression, 單詞Regress中文意思是退化、倒退的意思。回歸分析是預測建模的技術,是運用一個或一組變數來預測另一組變數的統計技術總稱。
- 自變數 Independent variable:(預測,因)預測的變項
- 因變數 Dependent variable:(目標,果)被預測的變項稱
通常運用在預測建模、時間順序、查找變數間關係上使用。
又能分為兩種回歸分析:
- 簡單回歸 Simple Regression
根據一個「自變數」來預測「因變數」的回歸分析 - 多元回歸 Multiple regression
「自變數」為兩個或兩個以上
簡單來說,當我們看到大量事實呈現的狀態後,可以進一步判斷它可能的原因與狀態之間的關係。
舉例:用高中學生在校成績來預測其學測分數,就是簡單回歸分析;
而若同時用學生在校成績、智商兩個「自變數」來預測其學測分數,就是多元回歸分析的應用。
因此,回歸分析它是建模、資料分析的重要工具。
為什麼要運用回歸分析?
回歸分析是估計兩個或兩個以上變數間的關係。
可以舉個例子,幫助理解:
假設TibaMe要預估這3個月的線上課銷售提升幅度,
而TibaMe的報表上顯示線上課銷售額為每月成本支出的3倍。
下一步我們就可以簡單預測出未來TibaMe可能的線上課銷售情況。
除此之外,回歸分析還能了解同個變數可能帶來的不同影響,如:價格變動幅度與促銷活動的關聯。
它為市場研究員、資料分析師、資料科學家構建預測模型提供各種重要變數。
回歸分析方式非常多種,但最有名的其中一個是線性回歸分析。
「線性」回歸分析是什麼?
對於線性回歸分析,它的因變數是連續的,自變數則可以是連續的或是離散的。它的回歸線在本質上是線性的。
在機器學習、資料探勘領域,最常用的回歸是兩大類:線性回歸、非線性回歸。
- 線性回歸 Linear Regression:
假定「自變數」和「因變數」之間的函數關係為線性 - 非線形回歸 Nonlinear Regression:
假定「自變數」和「因變數」之間的函數關係為非線性
設計「線性回歸」這種關係為:y = f(x) = wx + b
這裡的w和x分別是1×n和n×1的矩陣,wx 則指的是這兩個矩陣的內積。
具體一點說,例如:在一個實驗中觀察到一名病患的幾個指標呈現線性關係。
若觀察到的不是線性關係而用線性模型來建模的話,會得到欠擬合的結果。
*欠擬合 underfitting:
指模型擬合程度不高,數據距離擬合曲線較遠,
或指模型沒有很好地捕捉到數據特徵,不能夠很好地擬合數據。
當拿到的x是一個5維的向量,x和y都是觀測到的值。
- x:代表一名患者的年齡、身高、體重、血壓、血脂這幾個指標值
- y:描述他們血糖程度的指標值
拿到大量樣本(就是大量的x和y)後,能猜測向量 (年齡、身高、體重、血壓、血脂) 和與其有關聯關係的血糖程度y值有這樣的關係:
y=w1×年齡+w2×身高+w3×體重+w4×血壓+w5×血脂+b
把每一名患者的 (年齡,身高,體重,血壓,血脂) 具體向量值帶入,並把其血糖程度y值也帶入。
如此一來,在所有的患者數據輸入後,會出現一系列的六元一次方程,未知數是w1~w5和b—也就是w矩陣的內容和偏置b的內容。
接著要做的事,是要把w矩陣的內容和偏置b的內容求出一個最「合適」的解來。
這個「合適」的概念,是要得到一個在範圍內由f(x)映射得到的y,和真實觀測到的y的差距的加總,寫出來會是這種方式:
Loss的含義是什麼?
如果w和b給的值理想,差距值會是0,因為每個x經過映射都和觀測值一致,這種理想狀況,在實際應用中見不到。所以,Loss越小,映射關係描述越精準。
若想辦法把 Loss 描述成:Loss=f(w, b),Loss盡可能小的w和b的取值,就成功了。得到一個誤差足夠小的w和b,能夠在驗證用的資料集上有滿足當前需求的精度表現。
如:預測病患的血糖誤差為誤差平均<=0.3為容忍上線,訓練後在驗證集上的表現為誤差平均為0.2,就是合格。
以往的機器學習、資料探勘中回歸、分類,這些演算法都有一個要把獲取到的資料集分成訓練集、驗證集的過程。
- 訓練集資料:訓練、歸納關係使用
- 驗證集資料:做驗證,避免過擬合現象
* 過擬合 Overfitting:
擬合了每個數據,反而丟失要的規律,
使用擬合結果去預測另一個訓練集時誤差會更為明顯。
資料集的劃分可以三七開、二八開,現在生產環境中大多使用這樣的比例,訓練集則使用資料較多的部分。
由於這種假設中輸入的x向量與標籤值y是一種線性關係 y=f(x)=wx+b,所以才叫做線性回歸,這也是最常見的形式,也就是x和w都是一維向量的情況。
若是呈現其他關係,如指數、對數關係,這時候使用線性回歸去做「擬合」會發現損失函數過大,驗證集的誤差也會過大,會出現欠擬合現象。
以上簡單介紹,回歸分析的定義與用處、線性回歸分析。
緯育TibaMe已經有10萬人次來學習AI/資料科學知識或技術,若你想進一步了解或學習 AI / 資料科學的相關知識或技能,歡迎來TibaMe 👉 https://bit.ly/3o4N39e
下篇將與大家分享什麼是決策樹演算法?
每週4則,每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若您想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或你有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料