對資料科學家來說,預測模型是使用統計模型預測未來結果的作法,現在在AI領域相當盛行。成功的預測模型的基礎,就叫做「特徵工程」(Feature Engineering),它是資料科學流程中最耗費時間的步驟,涉及許多測試、錯誤。
特徵工程是將原始數據進行一系列處理,轉爲「特徵」,更好表示預測模型處理的實際問題,提升對於未知數據的準確性。簡單說,就是建立模型的觀察值或特徵,是一個表示和展現數據的過程。
如:評估患者罹患心臟病風險的一種模型,可從他們的身高、體重、年齡、其他特徵得知,但直接使用可用功能並是最有效的做法。更有效的方式是計算體重與身高的比例,就是BMI。
從給定的數據中,導出新的抽象特徵的過程,就可以說是「特徵工程」,通常使用許多數學、統計函數來完成這個稱為「轉換」的步驟。主要用在將目標問題所在的特定領域知識或自動化方法來生成、提取、刪除或組合變化,從而得到特徵。
以下是關於「特徵學習」的六大問題
1、機器學習中的特徵(Feature)
在機器學習和模型識別中,特徵是在觀測現象中的一種獨立、可測量的屬性。
而模型識別、分類和回歸問題最關鍵的一步,是選擇信息量多、有差異、獨立的特徵。一開始的原始特徵數據資料集可能太多、資訊雜論,因此在機器學習的應用中,首先是選擇特徵子集、建構新的特徵集,促進演算法的學習,提高泛化能力和可解釋性。
*泛化能力 Generalization:我們的設計模型可應對未來數據,也就是可以被廣泛使用卻仍在我們模型範圍內,表示它的適應性很好。
在表格資料中,觀測數據或實例,是由不同的變量或屬性而成,屬性就指特徵。但是與屬性有差異,特徵是對於分析和解決問題有用、具有意義的屬性。不同的屬性,代表的特徵也不盡相同。
- 機器視覺:一幅圖像是一個觀測,但特徵可能是圖中的一條線
- 自然語言處理:一個文本是一個觀測,但其中段落或詞彙可能是一種特徵
- 語音識別:一段語音是一個觀測,但一個詞或音節是一種特徵
2、特徵的重要性(Feature Importance)
可以客觀評價特徵的實用性。
判別特徵的重要性是對特徵進行選擇的首要指標,特徵會根據重要性被分配分數,再根據分數不同進行排序,其中,高分的特徵被選擇出來放入訓練數據集。若與預測的事物高度相關,這個特徵可能是重要的,而相關係數和獨立變量方法是最常使用的作法。
在構建模型的過程中,一些複雜的預測模型會在演算法內部進行特徵重要性的評價和選擇。
如:多元自適應回歸樣條法(Multivariate Adaptive Regression Splines,MARS)、隨機森林(Random Forest)、梯度提升機(Gradient Boosting Machines)。
這些模型在模型準備階段時,會進行變量重要性的確定。
3、特徵提取(Feature Extraction)
若將某些觀測數據直接建模,他的原始狀態數據太多,像是圖像、音頻、文本數據,若只是看作表格數據,其中包含數千筆的屬性。
因次,特徵提取是自動地對原始觀測降維,使其特徵集合小到可以進行建模的過程。
*降維:指在某些限定條件下,降低隨機變量個數,得到一組「不相關」主變量的過程。
不同的數據使用不同的提取方式,
- 表格式數據:主元素分析(Principal Component Analysis)、群集等映射方法
- 圖像數據:進行線(line)或邊緣(edge)的提取
- 圖像、視頻和音頻數據:數字信息處理的方法
4、特徵選擇(Feature Selection)
不同的特徵對模型的準確度,也會有不同的影響,有些特徵與要解決的問題不相關,有些特徵是冗贅資訊,這些特徵都需要被移除。
特徵選擇,自動選擇出對於問題最重要的特徵子集的過程。
特徵選擇演算法,可以使用很多方法:
- 評分方法進行排序
- 反覆試驗搜尋出特徵子集,自動創建並評估模型,得到客觀的、預測效果最好的特徵子集
- 將特徵選擇作爲模型的附加功能,如:逐步回歸法(Stepwise regression)
它是個重複演練的過程,有時可能認為特徵選擇做的很好,但實際中模型訓練並不好。所以,每次特徵選擇都要使用模型去驗證,最終目的是為了獲得能訓練出好的模型的數據,提升模型的性能。
5、特徵構建(Feature Construction)
特徵重要性和選擇,是告訴使用者特徵的客觀特性,但在這些工作後,需要人工進行特徵的建構。
特徵構建,需要花費大量時間,針對實際樣本數據進行處理。需要思考數據的結構、如何將特徵數據輸入給預測演算法。
- 表格數據:將特徵進行混合或組合以得到新特徵,或透過對特徵進行分解、切分來構造新的特徵
- 文本數據:設計出針對特定問題的文本指標
- 圖像數據:自動過濾,得到相關結構
6、特徵學習(Feature Learning)
特徵學習,在原始數據中自動識別和使用特徵。
現代深度學習方法在特徵學習領域有很多成功案例,如:自編碼器、受限玻爾茲曼機。
以無監督或半監督的方式,實現自動學習抽象的特徵表示(壓縮形式),結果用於支撐,如:語音識別、圖像分類、物體識別和其他領域的先進成果。
抽象的特徵表達可以自動得到,但無法理解和利用這些學習得到的結果,只有黑盒的方式才可以使用這些特徵。我們無法輕易明白如何創造效果優質的相思特徵或相異特徵。這個技能很難,但也說明它很重要。
想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?
點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist
每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若你想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!
緯育TibaMe FB
企業人才數位轉型FB
企業AI、數位人才or平台培訓方案請點選
參考資料