【AI60問】Q30什麼是特徵工程？

對資料科學家來說，預測模型是使用統計模型預測未來結果的作法，現在在AI領域相當盛行。成功的預測模型的基礎，就叫做「特徵工程」（Feature Engineering），它是資料科學流程中最耗費時間的步驟，涉及許多測試、錯誤。

特徵工程是將原始數據進行一系列處理，轉爲「特徵」，更好表示預測模型處理的實際問題，提升對於未知數據的準確性。簡單說，就是建立模型的觀察值或特徵，是一個表示和展現數據的過程。

如：評估患者罹患心臟病風險的一種模型，可從他們的身高、體重、年齡、其他特徵得知，但直接使用可用功能並是最有效的做法。更有效的方式是計算體重與身高的比例，就是BMI。

從給定的數據中，導出新的抽象特徵的過程，就可以說是「特徵工程」，通常使用許多數學、統計函數來完成這個稱為「轉換」的步驟。主要用在將目標問題所在的特定領域知識或自動化方法來生成、提取、刪除或組合變化，從而得到特徵。

圖 30-1、**預測模型建立過程很大程度上依賴於特徵工程**
資料來源：IBM

以下是關於「特徵學習」的六大問題

1、機器學習中的特徵（Feature）

在機器學習和模型識別中，特徵是在觀測現象中的一種獨立、可測量的屬性。

而模型識別、分類和回歸問題最關鍵的一步，是選擇信息量多、有差異、獨立的特徵。一開始的原始特徵數據資料集可能太多、資訊雜論，因此在機器學習的應用中，首先是選擇特徵子集、建構新的特徵集，促進演算法的學習，提高泛化能力和可解釋性。

*泛化能力 Generalization：我們的設計模型可應對未來數據，也就是可以被廣泛使用卻仍在我們模型範圍內，表示它的適應性很好。

在表格資料中，觀測數據或實例，是由不同的變量或屬性而成，屬性就指特徵。但是與屬性有差異，特徵是對於分析和解決問題有用、具有意義的屬性。不同的屬性，代表的特徵也不盡相同。

機器視覺：一幅圖像是一個觀測，但特徵可能是圖中的一條線
自然語言處理：一個文本是一個觀測，但其中段落或詞彙可能是一種特徵
語音識別：一段語音是一個觀測，但一個詞或音節是一種特徵

2、特徵的重要性（Feature Importance）

可以客觀評價特徵的實用性。

判別特徵的重要性是對特徵進行選擇的首要指標，特徵會根據重要性被分配分數，再根據分數不同進行排序，其中，高分的特徵被選擇出來放入訓練數據集。若與預測的事物高度相關，這個特徵可能是重要的，而相關係數和獨立變量方法是最常使用的作法。

在構建模型的過程中，一些複雜的預測模型會在演算法內部進行特徵重要性的評價和選擇。

如：多元自適應回歸樣條法（Multivariate Adaptive Regression Splines，MARS）、隨機森林（Random Forest）、梯度提升機（Gradient Boosting Machines）。

這些模型在模型準備階段時，會進行變量重要性的確定。

3、特徵提取（Feature Extraction）

若將某些觀測數據直接建模，他的原始狀態數據太多，像是圖像、音頻、文本數據，若只是看作表格數據，其中包含數千筆的屬性。

因次，特徵提取是自動地對原始觀測降維，使其特徵集合小到可以進行建模的過程。

*降維：指在某些限定條件下，降低隨機變量個數，得到一組「不相關」主變量的過程。

不同的數據使用不同的提取方式，

表格式數據：主元素分析（Principal Component Analysis）、群集等映射方法
圖像數據：進行線（line）或邊緣（edge）的提取
圖像、視頻和音頻數據：數字信息處理的方法

4、特徵選擇（Feature Selection）

不同的特徵對模型的準確度，也會有不同的影響，有些特徵與要解決的問題不相關，有些特徵是冗贅資訊，這些特徵都需要被移除。

特徵選擇，自動選擇出對於問題最重要的特徵子集的過程。

特徵選擇演算法，可以使用很多方法：

評分方法進行排序
反覆試驗搜尋出特徵子集，自動創建並評估模型，得到客觀的、預測效果最好的特徵子集
將特徵選擇作爲模型的附加功能，如：逐步回歸法（Stepwise regression）

它是個重複演練的過程，有時可能認為特徵選擇做的很好，但實際中模型訓練並不好。所以，每次特徵選擇都要使用模型去驗證，最終目的是為了獲得能訓練出好的模型的數據，提升模型的性能。

5、特徵構建（Feature Construction）

特徵重要性和選擇，是告訴使用者特徵的客觀特性，但在這些工作後，需要人工進行特徵的建構。

特徵構建，需要花費大量時間，針對實際樣本數據進行處理。需要思考數據的結構、如何將特徵數據輸入給預測演算法。

表格數據：將特徵進行混合或組合以得到新特徵，或透過對特徵進行分解、切分來構造新的特徵
文本數據：設計出針對特定問題的文本指標
圖像數據：自動過濾，得到相關結構

6、特徵學習（Feature Learning）

特徵學習，在原始數據中自動識別和使用特徵。

現代深度學習方法在特徵學習領域有很多成功案例，如：自編碼器、受限玻爾茲曼機。

以無監督或半監督的方式，實現自動學習抽象的特徵表示（壓縮形式），結果用於支撐，如：語音識別、圖像分類、物體識別和其他領域的先進成果。

抽象的特徵表達可以自動得到，但無法理解和利用這些學習得到的結果，只有黑盒的方式才可以使用這些特徵。我們無法輕易明白如何創造效果優質的相思特徵或相異特徵。這個技能很難，但也說明它很重要。

想成為爬蟲工程師、資料分析師、資料工程師、資料分析領域專家、人工智慧產品經理嗎？還是你的公司正需要培養此領域人才呢？

點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist

每日5分鐘，提拔我園丁陪你快速添補AI/資料科學知識與技能。

若你想了解更多AI/資料科學的小知識、及各產業的相關應用，歡迎訂閱TibaMe FB及部落格，或有其他想了解的主題歡迎在下方留言讓我們知道唷！

緯育TibaMe FB
企業人才數位轉型FB
企業AI、數位人才or平台培訓方案請點選

參考資料

資料科學家數據分析人工智慧機器學習數據模型特徵工程特徵學習