當我們決定使用機器學習模型解決業務場景時,在確定好模型的目標和評估指標之後,第一步就會碰到樣本問題,但如何選擇好樣本呢?
樣本選擇主要是從海量數據中識別和選擇相關性高的數據作爲機器學習模型的輸入,最理想的情況就是選擇了最少量的樣本,模型的效果依然不會變差。
樣本選擇的三點好處
機器學習的數據並非越多越好。數據收集的第一個重點是搞清楚可以解決我們的問題,而不是盲目的收集一大堆數據,或者收集過於抽象的數據。
而當數據量過大,程式會耗費大量的計算資源,減少數據量能夠縮減模型的運算時間,若是數據量過於龐大,可能會導致機器學習模型無法應用。因此我們必須選擇樣本,若我們做到樣本選擇會有以下三點好處:
1、節省資源
全部數據包含太多冗餘資訊,相關性太低的數據對模型解決業務問題是沒有任何幫助的,同時程序上會耗掉大量的計算資源,產生資源浪費。
2、改善數據質量
只要是數據,都會有噪聲存在,不管是錯誤的還是重複的噪聲。樣本選擇過程中去除了噪聲,改善了數據質量。
3、使用方法來實現樣本選擇
樣本選擇常用數據去噪、採樣這些簡單有效的方法,也可以使用複雜的方法,透過搜尋整個數據集或利用演算法來實現樣本選擇,這類方法就是原型選擇和訓練集選擇。
在數據去噪的過程中,最重要的就是如何識別噪聲,識別出噪聲後才可以直接過濾或修改數據…等操作。噪聲數據可能是重複值、缺失值、超出範圍的異常值等,也可能是標記錯誤。而對標記錯誤的處理方法常見的是集成過濾、交叉驗證過濾和反覆運算分割過濾三種方法,這都是基於融合或者投票思想進行數據過濾的。
採樣是一種統計技術,從整體選擇一部分進行推論。一個好的樣本子集應該具有無偏性和很小的樣本方差,其中無偏性指的是對樣本的期望等於全體樣本的期望;樣本方差則是衡量樣本估計值和真實值的偏差,小方差能保證估計值不會産生太大的偏差。
五個樣本採樣的方法
主要有分成:無放回簡單隨機抽樣、有放回簡單抽樣 、 平衡採樣 、 整群採樣 、 分層採樣。
1、無放回簡單
隨機採樣就是隨機抽取固定數量的樣本。
2、有放回簡單抽樣
指每次抽取一條樣本之後不將該樣本從原始數據中剔除,繼續抽,可能這條樣本會被抽中多次。
3、平衡採樣
根據目標進行採樣,適合在不平衡分類中使用。
假如:正負樣本的比例在1:100,我們想要得到正負樣本比在1:10的數據樣本,那麽在正樣本數據中進行上採樣,把正樣本複製10遍,在負樣本數據中進行下採樣,隨機刪除部分樣本保留原來的十分之一。
4、整群採樣
指先將數據集分成互斥的幾個群,然後在這幾個群中分別進行簡單隨機抽樣作爲樣本集。
5、分層抽樣
是指將數據集劃分成不同的層,在層內部進行數據採樣,最後匯合成總樣本集。
想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?
點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist
提拔我園丁陪你快速添補AI/資料科學知識與技能。
若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料