【人工智慧】AI如影隨行,淺談影像辨識

by TibaMe小編
AI如影隨形,淺談影像辨識

撰文者:TibaMe AI人工智慧課程總監 Ryan

在電腦視覺中,影像辨識其實有許多不同的實現方式,每種實現方式所需要的標記資料、以及實做方式也有很大的不同,本篇文章將會為大家介紹六種不同的常見任務。

(1) 影像分類 ( Image Classification ):

這種應用所需要標記成本最低,因為整張圖只會有一個標記,例如下圖中有一位牧羊人與三隻羊,若我們非得要為整張影像賦予一個意義,以物件的角度,通常是會分成”人”,因為理論上這張影像中最顯著的”物體”是人,促使深度學習技術興起的競賽-ILSVRC (Imagenet Large Scale Visual Recognition Challenge),其實主要是提供巨量的影像分類資料,而這個競賽所產生的知名CNN,例如Alexnet, GoogLenet, VGG, ResNet,其實都是影像分類的CNN,而通常物體偵測或是影像分割模型都會使用在影像分類資料集所預訓練的模型來達到更好的效果,而這稱為遷移學習 (Transfer Learning),是深度學習中相當重要的概念。

(2) 物件定位 (Object Localization ):

此任務的目的是預測影像中最顯著的”一個”物體的Bounding Box,再透過影像分類的方式辨識此bounding box中的物體,請注意,依據定義,影像只會有”一個”顯著的物體,因此,這樣的假設要應用在現實生活中,顯然較為困難,因為我們並不能控制影像內只能含有一個最顯著的物體,而且物件定位可完全被物體偵測模型取代。

(3) 物體辨識 (Object Recognition ):

這樣的任務通常又稱為 Object Detection (物體偵測) ,請注意在機器學習的時代,我們通常都是先找出所有物體的bounding box,再將每bounding box分類成不同的類別,所以這樣的任務有時稱為物件辨識,在深度學習時代,一開始的也是運用這樣two stage的方式來實現物體偵測,例如R-CNN, Fast R-CNN, Faster R-CNN等,後來又有所謂的one stage的模型,例如YOLO, SSD等,這樣的detector,要完成偵測一張影像中物體,CNN中的每一層只會被執行一次,而這過程也沒有所謂先找物體的boundg box再進一步分類的過程,可以想見,one stage的detector的速度通常比較快,而通常two stage detector的辨識率會比較高。

(4) 語義影像分割 ( Semantic Segmentation ):

所謂的語義分割,指的是每一個像素都會被分成某一類,例如下圖中所有的羊被繪上同一種顏色既代表牠們屬於同一個類別,值得一提的是,以下三隻羊中,就語義分割來說,每隻羊不存在黑色的輪廓,也就是左邊的兩隻羊應該會”相連”,而這也是語義分割不能替代Object Detection的主要原因,因為同類物體只要交疊,我們就無法區別個別像素分別屬於那個個體,而語義分割的標記成本是很巨大的,因為這等同於需要人工為每個像素標記,知名的語義分割模型包括了FCN, Deeplab等。

(5) 實例影像分割 ( Instance Segmentation ):

實例分割最簡單的實現方式可解讀為先進行物體偵測,也就是找出每個物體的bounding box後,再於每個bounding box中進行語義分割,下圖中三隻羊分別以不同顏色繪製代表著這三隻羊屬於不同的個體,也就是不會有語義分割屬於同一類物體會彼此相連的問題,而且語義分割理論上去除了物體偵測中每個bounding box中的冗餘資訊,例如下圖中標出人的boundg box中,其實許多像素與”人”是無關的,知名的實例影像分割模型有Mask R-CNN。

然而,相較於語義分割,實例分割只能偵測出所有能用bounding box框選出的物體,其餘像素一概無法進行判定,例如草地,這也是實例分割美中不足的地方。所幸這兩年有一種全新的 Panoptic Segmentation (全景分割) 可同時實現語義分割與實例分割,針對這樣的應用,本專欄以後會有更具體的介紹。

(6) 關鍵點偵測 ( Keypoint Detection ):

這樣應用,通常是為了偵測人體的各個部位,甚至是整個骨架,而基於這些keypoint,我們還可進一步的分析人的Pose,以達到所謂的活動辨識 (Activity Recognition),例如在安養院中,運用這樣的技術,我們可以透過監控系統得知是否有老人跌倒等。知名的關鍵點偵測模型包括了OpenPose。

以上六種影像分析的任務其實在生活當中有很多的應用,尤其是在大開源的時代,各種應用的原始碼其實隨處可見,但針對特定的應用,若是選錯了模型,可能會導致研究進度或是產品開發進度的嚴重落後,有句話說 ”Prior preparation prevents poor performance” ,對影像辨識演算法有個通盤的瞭解,後續專案的執行才能少走冤枉路,未來,影像辨識除了工業上的應用外,運用較為輕薄短小的模型,更有望整合在智慧型手機等行動裝置上,打造生活上的各種應用。

AI資料科學家:三階段全方位學程班

階段一:【基礎思維方案】

必備職能
AI / 資料科學科普
點我了解更多

階段二:【核心技術方案】

必備職能
資料分析程式語言、資料庫網路爬蟲、資料探勘、機器學習
點我了解更多

階段三:【全面應用方案】

必備職能
影像辨識、深度學習、自然語言處理資料視覺化、醫療影像分析、智慧製造分析
點我了解更多

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料