你不知道的台灣之光！讓AI學會「看東西」，YOLO電腦視覺辨識領先世界｜廖弘源演講、孫沛芬、葉嘉雯整理／大愛電視《人文講堂》

突破人類視覺極限，AI的科技之眼能夠達到什麼境界？AI視覺辨識系統YOLO系列，不僅提升人類各個層面的精準應用，同時仍在不斷研究改進中突破極限，尤其在台灣團隊接手研發後，更進一步發展成為台灣之光！

中研院資訊科學研究所所長廖弘源帶領團隊及王建堯博士，將AI視覺辨識系統YOLO發揚光大，目前已邁入YOLOv9世代，透過深度學習，不僅能運用在交通、國防、醫療等領域，連一般照片或影片的辨識都更加精確。就讓廖所長來為大家介紹，到底YOLO可以幫我們做哪些事？

中研院資訊科學研究所所長廖弘源認為，儘管團隊將AI視覺辨識技術推向高峰，但無論科技如何發展，守住科學家的初心，對未知事物保持好奇心，為人類創造最大的福祉，才是最重要的。圖片來源：大愛電視提供。

電腦視覺辨識的突破歷程

很多人好奇，YOLO到底是什麼？其實YOLO就是「You Only Look Once」的簡稱。透過電腦科技的發展，達到一眼看清全貌，這是AI視覺辨識的一大突破，但一切開端並不容易。

從1980年代到1990年，我在美國讀書並從事博士後研究。當時電腦視覺研究領域沒那麼容易突破。舉例來說，假如你看到某張影像，能夠輕易說出這是日月潭水社碼頭，甚至還能目測建築物與你的距離。因為人眼所見進入腦中，透過幾十年的訓練，很多事情都植基在腦神經裡，所以能輕易辨識出來。但對於電腦而言，影像進入系統只是一連串數字組合，即使是簡單辨識物件及距離判斷也極為困難。而這個問題困擾了電腦視覺領域研究者超過40年之久。

2007年，普林斯頓大學的鄧嘉和李飛飛教授開啟了一項計畫，他們花了4年時間，用1,400萬張影像，訓練出21,000個物件的視覺字典──ImageNet。這個影像字典的誕生，為電腦視覺領域打開新的大門，這樣一來，當一張未知影像進來時，可以依據視覺字典，快速識別出路邊影像裡的物體，比如一隻狗、一輛腳踏車，甚至一部汽車或卡車。

2010年以後，隨著深度學習的發展，電腦視覺領域重新出發。2013年正式開啟了兩階段的物件偵測系統，稱為R-CNN。到了2015年6月，華盛頓大學的博士生約瑟夫．雷德蒙開創了YOLO，一階段的物件偵測系統，並且在第一次推出後就迅速提升了速度。當然，精準度沒有兩階段系統來得高，但到了2016年12月，他發展了YOLO9000，能夠識別9,000種物件。2018年4月，雷德蒙更推出了YOLOv3，做出了許多突破。

雷德蒙是一位很善良的人，他擔心自己開發的技術會被不當使用，甚至對無辜大眾造成傷害，因此決定放棄繼續這項研究，並轉行成為一名馬戲團空中飛人。他將自己開發的DarkNet工具交給了一位俄羅斯人維護，名叫Alexey Bochkovskiy。2018年，我們開始進入物件偵測領域，並開始研究像YOLO這樣的系統，逐漸取得一些成果。2019年推出了CSPNet，並將它放到GitHub上，這引起了Alexey Bochkovskiy的關注，他希望我們能將這些成果應用到不同的機器。

台灣研究團隊的王建堯博士，在2020年3月底成功完成了新的訓練法則，並在4月正式推出YOLOv4。自此之後，整個即時物件偵測領域，都是台灣的天下。

台灣加速AI視覺辨識發展

台灣團隊對於電腦視覺辨識研究的快速進展，可以追溯到2017年。當時科技部長陳良基發起了國科會AI計劃，並向全國徵求。我們的計劃從500多個申請案中脫穎而出，當時的目標是希望產學結合，業界出題，學界解題，這樣更能找到有價值、有規模的實際解決方案。

我們選擇了義隆電子來進行智慧城市的交通流分析。當時在桃園大園機場附近的連續5個路口，安裝了2種不同的攝影機。一種是360度魚眼攝影機，負責捕捉十字路口80公尺縱深範圍，用電腦視覺來擷取交通參數；另一種則是槍型攝影機，負責十字路口4個延伸方向的監控。這些攝影機收集的交通參數，希望能夠互相傳遞，並可動態調整交通號誌。

這項工作並不容易，2018年研究魚眼攝影機時，發現當時義隆電子提供的硬體設備規格較低，導致無法直接將視訊傳回雲端進行運算及處理，經過半年努力，我們成功地克服這項難題，並在2019年進一步將YOLOv4技術應用於槍型攝影機的車流偵測，最終的系統目標，就是讓路口之間得到的交通參數，透過互相傳遞，不需人為介入，就能自動控制交通號誌。希望結合深度學習與物件偵測，讓視覺辨識技術更為精確。

YOLOv4的應用非常廣泛。例如，無人機可以用來追蹤汽車軌跡，也可以應用於電子智慧交通系統，像是巴士可能不再需要後視鏡，只需在車後安裝一個攝影機，就能透過YOLOv4偵測到進入盲區的摩托車、腳踏車或行人，並及時警示司機。

在醫學領域上，運用在顯微鏡下面，YOLOv4可以偵測血球，以及噬菌體培養皿監測、細胞有絲分裂檢測等。對於骨科醫師來說，它能幫助檢測骨折，透過大量X光片訓練樣本，讓電腦識別不同骨折類型，未來它碰到一張未知的醫學影像時，就可以從學習資料中辨別各種骨折情況，並標出影像中可能骨折的地方，協助醫生更精確地診斷和治療病患。

如今，巴士等交通工具可能不再需要後視鏡，只需在車後安裝一個攝影機，就能透過YOLOv4偵測到進入盲區的摩托車、腳踏車或行人，並及時警示司機。圖片來源：PeopleImages.com - Yuri A／Shutterstock

YOLO新世代的進程

從YOLOv4到YOLOv7，我們把層級概念提升到網路層級，希望能夠減少記憶體存取，讓資料流的傳遞更加高效，同時設計還加上了語意，引進了隱藏知識（implicit knowledge）的概念。

舉例來說，我在讀高中時，老師告訴我們考試範圍是某一章，但最後卻考了不在提示範圍內的章節。但其實那一章也在課本裡，只是我們沒有注意到，這就像是隱藏知識。內隱知識需要我們自己發現，外顯知識（explicit knowledge）則像老師提到的考試範圍，顯而易見。用這個概念，我們希望電腦能自動將隱藏知識學習起來，讓視覺辨識更加精準。

在智慧交通方面，我們應用YOLOv7與北科大合作，針對交通工程進行實際應用。以國道一號增設台74線為例，YOLOv7可以幫助偵測不同車輛，並為每種車輛標註不同顏色標籤，例如小客車、貨車或是卡車，對交通管理很有幫助。

在國防應用上，我能理解約瑟夫．雷德蒙的苦衷，他曾擔心自己的技術會被用來做壞事，但我認為如果能擁有最先進的視覺辨識技術，我們就能在極短時間內防守領空、保衛國土。且除了防禦需求之外，更是確保台灣的防護科技不會落後其他國家。這項技術可以追蹤敵方的無人機，時刻警覺。不過雖然我們的AI視覺技術領先世界，但在機械技術方面仍需加強，以確保能夠有效防衛。

到了YOLOv9，我們針對資料流的傳遞問題進行改進。由於在傳遞過程中，深層的網路層會因為多次的矩陣乘法而損失資料，因此我們設計了GELAN硬體，盡可能保持資料的完整性。

YOLOv9在國防上，更能擴大陸海空偵測，陸地的車輛、海上的船艦、天上的飛機，在科技輔助下，更能精確辨視各種來源的影像，讓防禦更上一層樓。

不忘科學家的初心

身為一名科學家，我的初心就是對未知事物的好奇心，本著良心為人類創造最大福祉。在這個過程中，我們團隊面臨最大的挑戰之一，就是在成功之後所遇到的種種誘惑。YOLO系列技術取得成功後，許多人捧著錢來找我們合作。然而，我們的目標並不僅是商業化或是創造短期經濟利益，而是希望能夠開發更先進的技術，幫助更多人，讓台灣的研究成效在全世界發光發亮。

而要保持初心，需要有清晰的目標與遠見，才能真正做到寧靜致遠。在個人研究道路上，一直堅信著我的座右銘「厚道是做人做事最重要的基礎，要對全人類有貢獻，就不要怕難走的路」！

更多演講論述，請看大愛電視《人文講堂》節目：〈領先全球的AI視覺辨識〉

分享圖文請註明出處，未經本站同意不得轉載

瀏覽次數：7602

你不知道的台灣之光！讓AI學會「看東西」，YOLO電腦視覺辨識領先世界

電腦視覺辨識的突破歷程

台灣加速AI視覺辨識發展

YOLO新世代的進程

不忘科學家的初心

獨立評論

葉嘉雯

大愛電視《人文講堂》

「獨立評論＠天下」提醒您：

1.本欄位提供網路意見交流平台，專欄反映作者意見，不代表本社立場
2.發言時彼此尊重，若涉及個人隱私、人身攻擊、族群歧視等狀況，本站將移除留言。
3.本留言板所有言論不代表天下雜誌立場。

葉嘉雯

大愛電視《人文講堂》

熱門文章

1

2

3

4

5

你不知道的台灣之光！讓AI學會「看東西」，YOLO電腦視覺辨識領先世界

電腦視覺辨識的突破歷程

台灣加速AI視覺辨識發展

YOLO新世代的進程

不忘科學家的初心

獨立評論

編輯推薦

延伸閱讀

葉嘉雯

大愛電視《人文講堂》

「獨立評論＠天下」提醒您：

1.本欄位提供網路意見交流平台，專欄反映作者意見，不代表本社立場 2.發言時彼此尊重，若涉及個人隱私、人身攻擊、族群歧視等狀況，本站將移除留言。 3.本留言板所有言論不代表天下雜誌立場。

葉嘉雯

大愛電視《人文講堂》

熱門文章

1

2

3

4

5

1.本欄位提供網路意見交流平台，專欄反映作者意見，不代表本社立場
2.發言時彼此尊重，若涉及個人隱私、人身攻擊、族群歧視等狀況，本站將移除留言。
3.本留言板所有言論不代表天下雜誌立場。