突破人類視覺極限,AI的科技之眼能夠達到什麼境界?AI視覺辨識系統YOLO系列,不僅提升人類各個層面的精準應用,同時仍在不斷研究改進中突破極限,尤其在台灣團隊接手研發後,更進一步發展成為台灣之光!
中研院資訊科學研究所所長廖弘源帶領團隊及王建堯博士,將AI視覺辨識系統YOLO發揚光大,目前已邁入YOLOv9世代,透過深度學習,不僅能運用在交通、國防、醫療等領域,連一般照片或影片的辨識都更加精確。就讓廖所長來為大家介紹,到底YOLO可以幫我們做哪些事?

電腦視覺辨識的突破歷程
很多人好奇,YOLO到底是什麼?其實YOLO就是「You Only Look Once」的簡稱。透過電腦科技的發展,達到一眼看清全貌,這是AI視覺辨識的一大突破,但一切開端並不容易。
從1980年代到1990年,我在美國讀書並從事博士後研究。當時電腦視覺研究領域沒那麼容易突破。舉例來說,假如你看到某張影像,能夠輕易說出這是日月潭水社碼頭,甚至還能目測建築物與你的距離。因為人眼所見進入腦中,透過幾十年的訓練,很多事情都植基在腦神經裡,所以能輕易辨識出來。但對於電腦而言,影像進入系統只是一連串數字組合,即使是簡單辨識物件及距離判斷也極為困難。而這個問題困擾了電腦視覺領域研究者超過40年之久。
2007年,普林斯頓大學的鄧嘉和李飛飛教授開啟了一項計畫,他們花了4年時間,用1,400萬張影像,訓練出21,000個物件的視覺字典──ImageNet。這個影像字典的誕生,為電腦視覺領域打開新的大門,這樣一來,當一張未知影像進來時,可以依據視覺字典,快速識別出路邊影像裡的物體,比如一隻狗、一輛腳踏車,甚至一部汽車或卡車。
2010年以後,隨著深度學習的發展,電腦視覺領域重新出發。2013年正式開啟了兩階段的物件偵測系統,稱為R-CNN。到了2015年6月,華盛頓大學的博士生約瑟夫.雷德蒙開創了YOLO,一階段的物件偵測系統,並且在第一次推出後就迅速提升了速度。當然,精準度沒有兩階段系統來得高,但到了2016年12月,他發展了YOLO9000,能夠識別9,000種物件。2018年4月,雷德蒙更推出了YOLOv3,做出了許多突破。
雷德蒙是一位很善良的人,他擔心自己開發的技術會被不當使用,甚至對無辜大眾造成傷害,因此決定放棄繼續這項研究,並轉行成為一名馬戲團空中飛人。他將自己開發的DarkNet工具交給了一位俄羅斯人維護,名叫Alexey Bochkovskiy。2018年,我們開始進入物件偵測領域,並開始研究像YOLO這樣的系統,逐漸取得一些成果。2019年推出了CSPNet,並將它放到GitHub上,這引起了Alexey Bochkovskiy的關注,他希望我們能將這些成果應用到不同的機器。
台灣研究團隊的王建堯博士,在2020年3月底成功完成了新的訓練法則,並在4月正式推出YOLOv4。自此之後,整個即時物件偵測領域,都是台灣的天下。
台灣加速AI視覺辨識發展
台灣團隊對於電腦視覺辨識研究的快速進展,可以追溯到2017年。當時科技部長陳良基發起了國科會AI計劃,並向全國徵求。我們的計劃從500多個申請案中脫穎而出,當時的目標是希望產學結合,業界出題,學界解題,這樣更能找到有價值、有規模的實際解決方案。
我們選擇了義隆電子來進行智慧城市的交通流分析。當時在桃園大園機場附近的連續5個路口,安裝了2種不同的攝影機。一種是360度魚眼攝影機,負責捕捉十字路口80公尺縱深範圍,用電腦視覺來擷取交通參數;另一種則是槍型攝影機,負責十字路口4個延伸方向的監控。這些攝影機收集的交通參數,希望能夠互相傳遞,並可動態調整交通號誌。
這項工作並不容易,2018年研究魚眼攝影機時,發現當時義隆電子提供的硬體設備規格較低,導致無法直接將視訊傳回雲端進行運算及處理,經過半年努力,我們成功地克服這項難題,並在2019年進一步將YOLOv4技術應用於槍型攝影機的車流偵測,最終的系統目標,就是讓路口之間得到的交通參數,透過互相傳遞,不需人為介入,就能自動控制交通號誌。希望結合深度學習與物件偵測,讓視覺辨識技術更為精確。
YOLOv4的應用非常廣泛。例如,無人機可以用來追蹤汽車軌跡,也可以應用於電子智慧交通系統,像是巴士可能不再需要後視鏡,只需在車後安裝一個攝影機,就能透過YOLOv4偵測到進入盲區的摩托車、腳踏車或行人,並及時警示司機。
在醫學領域上,運用在顯微鏡下面,YOLOv4可以偵測血球,以及噬菌體培養皿監測、細胞有絲分裂檢測等。對於骨科醫師來說,它能幫助檢測骨折,透過大量X光片訓練樣本,讓電腦識別不同骨折類型,未來它碰到一張未知的醫學影像時,就可以從學習資料中辨別各種骨折情況,並標出影像中可能骨折的地方,協助醫生更精確地診斷和治療病患。

YOLO新世代的進程
從YOLOv4到YOLOv7,我們把層級概念提升到網路層級,希望能夠減少記憶體存取,讓資料流的傳遞更加高效,同時設計還加上了語意,引進了隱藏知識(implicit knowledge)的概念。
舉例來說,我在讀高中時,老師告訴我們考試範圍是某一章,但最後卻考了不在提示範圍內的章節。但其實那一章也在課本裡,只是我們沒有注意到,這就像是隱藏知識。內隱知識需要我們自己發現,外顯知識(explicit knowledge)則像老師提到的考試範圍,顯而易見。用這個概念,我們希望電腦能自動將隱藏知識學習起來,讓視覺辨識更加精準。
在智慧交通方面,我們應用YOLOv7與北科大合作,針對交通工程進行實際應用。以國道一號增設台74線為例,YOLOv7可以幫助偵測不同車輛,並為每種車輛標註不同顏色標籤,例如小客車、貨車或是卡車,對交通管理很有幫助。
在國防應用上,我能理解約瑟夫.雷德蒙的苦衷,他曾擔心自己的技術會被用來做壞事,但我認為如果能擁有最先進的視覺辨識技術,我們就能在極短時間內防守領空、保衛國土。且除了防禦需求之外,更是確保台灣的防護科技不會落後其他國家。這項技術可以追蹤敵方的無人機,時刻警覺。不過雖然我們的AI視覺技術領先世界,但在機械技術方面仍需加強,以確保能夠有效防衛。
到了YOLOv9,我們針對資料流的傳遞問題進行改進。由於在傳遞過程中,深層的網路層會因為多次的矩陣乘法而損失資料,因此我們設計了GELAN硬體,盡可能保持資料的完整性。
YOLOv9在國防上,更能擴大陸海空偵測,陸地的車輛、海上的船艦、天上的飛機,在科技輔助下,更能精確辨視各種來源的影像,讓防禦更上一層樓。
不忘科學家的初心
身為一名科學家,我的初心就是對未知事物的好奇心,本著良心為人類創造最大福祉。在這個過程中,我們團隊面臨最大的挑戰之一,就是在成功之後所遇到的種種誘惑。YOLO系列技術取得成功後,許多人捧著錢來找我們合作。然而,我們的目標並不僅是商業化或是創造短期經濟利益,而是希望能夠開發更先進的技術,幫助更多人,讓台灣的研究成效在全世界發光發亮。
而要保持初心,需要有清晰的目標與遠見,才能真正做到寧靜致遠。在個人研究道路上,一直堅信著我的座右銘「厚道是做人做事最重要的基礎,要對全人類有貢獻,就不要怕難走的路」!
更多演講論述,請看大愛電視《人文講堂》節目:〈領先全球的AI視覺辨識〉
分享圖文請註明出處,未經本站同意不得轉載
瀏覽次數:6678