作者:ALEX老師 編輯:TibaMe行銷團隊
電腦視覺(Computer vision)是指用攝影機和電腦,代替人眼對目標進行辨識、跟蹤和測量等機器視覺,或是進一步的做圖像處理,用電腦處理成更適合人眼觀察,或儀器檢測的圖像,而各類電腦視覺的任務通常都需要運用機器學習或是深度學習的技術來實現。

機器學習是實現人工智慧的一個途徑,即以機器學習為手段解決人工智慧中的問題。機器學習已經有數十年的歷史,其內容涉及機率、統計、數值分析等學科,機器學習理論解決問題的方法是是從資料中萃取規律,以對未知的資料進行預測。近年來,深度學習基於機器學習中的神經網路,結合巨量資料,因而在各種電腦視覺的任務上有了突破性的發展。例如在2015年152層神經網路在ImageNet影像資料庫上的錯誤率已經達到3.6%,超越了人類平均5%的辨識率。

如果我們想實現貓與狗的分類,我們可能很難列出貓與狗的所有外觀特徵,再一一區分兩種動物在各種特徵上的不同。機器學習便是模仿人類學習的方式,透過電腦視覺技術觀察資料,取出有意義的特徵,並進一步的運用這些特徵來學習分辨貓與狗。
以貓狗分類問題為例,在機器學習中,通常可用以下幾種不同的學習方式來實現。
• 監督式學習
• 非監督式學習
• 半監督學習

監督式學習就像是我們給了機器一堆貓的照片告訴機器說「這個是貓」,再給機器一堆狗的照片告訴它「這是狗」,讓機器自己去學習分辨,而這樣的學習方式也代表我們需要為這些資料進行”標記”,也就是每張照片是貓或狗我們都需要知道才能完成監督式學習。
非監督式學習就像是我們給了機器一堆貓的照片和一堆狗的照片,可是我們並沒有告訴機器哪些是貓哪些是狗,也就是資料完全不需要標記,而我們期待機器能自動學會貓與狗照片的不同之處。
半監督式學習的主要精神是部份資料有標記,部份資料無標記,我們期待機器透過標記資料能大略學會貓與狗的不同,再透過無標記的資料而學的更好,而通常無標記資料的數量會比標記資料多很多。
而未來機器學習的趨勢是什麼呢? CNN的發明人,同時也是Facebook AI Research的首席AI 科學家, Yann LeCun預言,接下的趨勢是自監督式學習(self-supervised learning),也就是前述的非監督式學習,而他稱自監督學習的原因是,大家都知道資料愈多學習效果愈好,但人工標記資料的成本高昂,而且,透過大量資料學習的方式,和人類的學習方式不一樣,例如一個幾個月大小嬰兒透過觀察以及少量的互動,就能學會一個物體恆存(object permanence)的概念,也就是一個剛剛才看到的物體,現在就算沒出現在眼前,它還是存在,但對於機器來說,比如我們將一台攝影機接上一個機器來偵測照片中有那些物體,現在物體偵測的模型已可達到極高的辨識率,但假始我們把此物體用毯子蓋起來,機器即視該物體已經消失,針對這樣子的任務,最先進的物體偵測模型仍比不上一個小嬰兒,而這就是為什麼Yann Lecun強調未來的機器模型發展重點在於觀察以及少量的互動!
