又到年底,德勤、賽迪智庫、清華大學、IDC、工信部等,人工智能相關的產業研究院、投資機構、媒體等,相繼發布了今年的人工智能報告。
小HUI將用一個系列分享研讀這些報告的筆記。
分享內容主要圍繞計算機視覺、自然語言處理等AI技術,在安防、醫療、自動駕駛、工業制造、辦公、服務、家居等領域的應用,包括實現的典型功能,存在的主要難點等。也會大概梳理主要的技術進展和頭部公司。
范圍上,除了當前熱點的技術和應用,也包含屬于人工智能領域,但已經廣泛應用的技術。
小HUI希望這階段的分享維持“從需求看技術”的角度。有任何建議,歡迎留言交流。
這個系列的分享將從計算機視覺開始,小HUI會分6~8期來記錄計算機視覺在文字識別、工業視覺、生物識別、智能安防、自動駕駛、智慧醫療等領域的應用。
第一期是對計算機視覺應用的概述。
計算機視覺,作為一門計算機學科,是利用攝像機和電腦代替人眼,使得計算機擁有類似于人類的那種對目標進行分割、分類、識別、跟蹤、判別決策的功能。
從應用的角度看,讓計算機看見、看清、識別、理解圖像和視頻,以及根據圖像和視頻預判、決策的技術,通常都歸于計算機視覺。
計算機視覺一個完整的處理過程如下:
計算機視覺完整處理過程
計算機視覺對圖像的處理,分為感知智能和認知智能兩個層次:
在感知智能層,計算機通過攝像頭獲取光學圖像或視頻,經過提取、標注、識別等處理后,能夠“看見”,并辨別“是什么”。感知的結果類似于:圖里有一個水族缸和兩個人。
在認知智能層,計算機將前面感知的信息,結合其他方式獲得的語義上下文,應用知識、聯想、記憶、推理等方法處理后,能夠“看懂”,并在理解的基礎上進行人機交互。認知的結果類似于:Jake和爸爸去長隆海洋公園看鯨鯊。那天他們真開心。
一般而言,感知層實現的功能相對通用,處理結果可以在很多應用中使用。實現認知層的功能,一方面需要特定領域的知識,另一方面需要進一步采取后續行動形成閉環,因而很難通用。
目前計算機視覺的大部分的應用集中在感知智能層面,例如:人臉識別、拍照搜索、文字識別等。
感知智能在特定行業也有案例,例如:金融行業的風控、自動駕駛的行人意圖識別、安防領域的人員違規行為識別等。
2 計算機視覺的應用
OCR
計算機視覺技術最早的應用,是計算機文字識別(OCR)。OCR的意思是“光學字符識別”——對圖像中的印刷體或手寫文字進行識別,轉化成電子文檔。
紙質、電子化文字資料在使用上各有優勢:紙質資料方便查看和標記,電子化資料便于存檔和檢索。OCR使得紙質資料能夠快速、方便地錄入到計算機中,保持紙質、電子化資料的一致性。
OCR現在的應用已經不限于印刷物上的文字提取,這項技術出現了兩個分支:手寫體識別和自然環境中印刷體識別。前者在教育和辦公場景中有很好的應用前景;后者在安防、自動駕駛、工業視覺等領域,提供多模感知的一種信息源。
工業視覺
工業視覺是和計算機視覺并列的分類,都屬于機器視覺。二者的市場容量也在同一個級別。
工業視覺在工業生產的各環節中,進行自動的識別、檢測、測量、定位,提升加工、裝配、質檢、分揀等各環節的效率,提升產品質量、降低工人勞動強度。
工業視覺在制造業已經應用了十多年,最早應用于半導體和電子行業,現在在汽車制造業大規模落地,未來還可能在印刷、包裝、食品、藥品、倉儲等領域快速增長。
工業視覺的落地,在每個行業都有大量的工程問題需要解決,但底層技術的瓶頸并不太多。隨著工業4.0的推進,將會進入高速增長期。
生物識別
計算機視覺另一個比較成熟的應用,是人體生物特征識別(簡稱生物識別)。生物識別是指通過指紋、視網膜、虹膜、指/掌靜脈、掌紋/掌形、人臉、步態、聲紋、筆跡等人體的生物特征,進行個人身份的鑒別和認證。其中,除了聲紋以外,其他的識別方法都屬于計算機視覺范疇。
傳統的身份認證是用戶名+密碼,或者實體卡片、鑰匙等,容易忘記、丟失、被盜取,或者被仿制。生物識別使用人與生俱來、差異性大、穩定性好、難以仿制的生物特征來進行身份的認證,更加安全和便捷。
生物識別已經廣泛用于銀行、國防、機場、高鐵等高安全級別的場所,以及門禁、移動設備解鎖、個人支付等場景中的身份認證。
智能安防
計算機視覺目前最大的應用市場是智能安防(大約60%的市場)。智能安防主要幫助相關部門實現:事后追蹤、事中報警、事前預警,一方面降低違法行為的發生頻率,另一方面也減輕工作強度。
公共區域雖然有大量的監控攝像頭,但需要進行人、車、物追蹤的時候,還是需要人工調取和分析,不僅工作量大,而且依賴經驗。在人流密集的區域,為了及時發現異常,需要專職人員時刻觀察攝像頭抓取的現場信息,極易產生疲勞和疏忽。
智能安防現在可以實現無人值守場地(如地下車庫)的看管、開放區域內的跨鏡頭目標(主要是人、車)追蹤、落腳點分析、追逃和尋人、人流密集區域,會議/活動/展覽的主動安全預防等。
自動駕駛
自動駕駛是計算機視覺最具潛力的應用方向之一。2019年全球在人工智能領域的投資,有10%都投給了自動駕駛。
L4/L5級自動駕駛——高度/完全自動駕駛——將會徹底改變城市交通的管理方式,小汽車將成為公共交通的主體。也會改變人們的出行方式,絕大部分個性化的市內交通需求都可以即時滿足,私家車將不再必要。
這個領域目前的應用主要在toB,如自動駕駛卡車或特種車輛在礦區、港區、建筑工地、農田,以及長途貨運的應用。此外還有園區低速通勤、接駁、遞送,或清掃作業。
乘用車方面,城市公交和出租車,目前尚在試運營測試階段。
toC的應用主要是小型乘用車的ADAS功能應用,如自動泊車和高速公路自動行駛。
智慧醫療
近年來,人工智能、大數據在醫療領域的手術機器人、醫學影像分析、輔助診斷、藥物研發、疾病預測、醫院管理等方面有廣泛的應用。
計算機視覺在醫療上最典型的是醫學影像分析。通過病灶自動識別與標注、影像的三維重建等,幫助醫生提高診斷的準確性和效率。目前已經可以用于腫瘤篩查、眼底篩查、X線胸片閱片、腦疾病診斷、骨傷鑒定、骨齡分析、病理切片分析、皮膚病輔助診斷等。
醫學影像的三維重建,加上AR/VR的顯示技術,還被用于輔助診斷和手術導航。在診斷時幫助評估病變程度和康復水平。在手術中準確找到病變位置,減少對其他組織的破壞,實現精準醫療。
其他
?
計算機視覺的應用不限于上述領域,toB的如:
零售系統中基于人臉的會員管理和客流統計;
視頻網站上自動檢測和屏蔽不良內容;
金融領域網上銀行的身份驗證等。
toC的應用以高質量拍照、照片美化、拍照識別為主。如:
智能手機/智能相機的人像拍攝、HDR、夜景等功能;
手持云臺對目標的自動跟拍;
對照片的后期美顏、風格化處理、自動標記等;
拍照翻譯、以圖搜圖、拍照識別植物、酒類、商標等;
對食物進行拍照識別,合理評估和安排膳食。
計算機視覺和硬件結合,還有一些機器人方面的應用,如:
以繪本閱讀為代表的教育類機器人;
掃地機器人、智能貓眼和門鎖等智能家居產品;
能自動跟隨和導航的家用或服務機器人;
……
3 白皮書摘錄
以神經網絡算法為基礎的深度學習,讓計算機視覺的應用門檻降低、落地效率提高。直接促進了計算機視覺在民生、安全、家居、制造、娛樂、服務等產業的廣泛應用,滿足各個行業對數據化,以及基于數據進行質量、成本、效率、體驗改進的需要。
企業服務中的智能營銷,金融中的智能風控,大健康中的智能影像診療,汽車中的自動駕駛(ADAS)系統和機器人中的服務機器人,是人工智能領域的熱門投資對象。
其中,長期最被看好的是自動駕駛,它將深刻變革汽車行業的產業鏈。機器人領域的投資今年以來,熱度有所降低。
AI在金融領域的應用最深入,而在制造業領域的應用潛力則被長期低估。
政府在人工智能應用落地上發揮了重要作用,一方面對AI有明確的政策導向和產業支持;另一方面在自動駕駛等民生領域、智能安防等公共領域,政府也是AI產品重要的買家。
人工智能領域這些年的投資額、人才儲備、論文和專利數量,都有明顯的提升,和美國等先發國家的差距正在縮小。
各細分領域專利申請比例
但積累的時間還不夠,從基礎到應用都還有明顯的、甚至數量級上的差距:
1、基礎層包含計算芯片、數據、算法三部分。
國內在終端專用計算芯片上有了長足的發展。在云端計算芯片上,BAT也都有布局,阿里的云端計算芯片已經發布并用于阿里云平臺。在通用計算芯片上,目前還是空白
國內科技企業通過互聯網發展期的積累,獲得了海量的數據,這些數據現在也推動了計算機視覺、自然語言處理上的發展。
國內在算法、算法框架、訓練框架上投入的科技公司非常少,這些方面的差距也非常明顯。
2、技術層包含計算機視覺、自然語言處理、語音識別、機器學習等細分領域。國內的進展主要集中在工程應用領域,而這些技術所需的通用和專業數據集、知識庫的建設還有非常大的差距。
3、應用層包含醫療、安防、金融、無人駕駛等,國內的產業應用發展的非常快,邊落地邊改進是國內的AI應用快速發展的基礎。在應用層的短板,主要是國內的科研成果轉換還缺少科技企業家群體的參與,以及鼓勵和支持科技企業家創新的生態。
未來幾年的人工智能預計會維持40%以上的增長,OCR、圖像識別、人體與人臉識別、自然語言交互的智能客服等,會在金融、制造、互聯網和信息服務等領域加速落地,支持企業在運營、客服、營銷等方面降低成本、提高效率、創新業務。