計算機視覺技術最早的應用,是計算機文字識別(OCR)。OCR的意思是“光學字符識別”——對圖像中的印刷體或手寫文字進行識別,轉化成電子文檔。
紙質、電子化文字資料在使用上各有優勢:紙質資料方便查看和標記,電子化資料便于存檔和檢索。OCR使得紙質資料能夠快速、方便地錄入到計算機中,保持紙質、電子化資料的一致性。
OCR的誕生,最早是為了將現世留存的文字資料,比如書籍、報刊、文件、檔案、單據等資料輸入計算機,進行數字化管理,方便檢索和查詢。針對的是印刷體文字資料的識別。
英文的印刷體文字識別,已經成熟應用40多年。中文的印刷體文字識別,在1989年也已經進入實用,現在手機APP就可以實現印刷資料的拍照轉錄。
現在OCR的應用范圍已經超出紙質資料錄入,拓展了新的應用場景,比如:
車牌識別道閘——自動識別車輛的號牌,匹配車輛的月卡、進場時間信息,確定放行或收費。
名片識別——拍照識別名片的關鍵信息,自動填寫通訊錄。
文本提取——從照片、街景、監控圖像中提取LOGO、招牌、街道標志、車牌等文本信息。
拍照搜索——這是一類應用,包含拍照搜索,根據圖中的商標、文字搜索相關內容;拍照搜題目,根據圖文從題庫中搜索答案;拍照翻譯,將圖片中的外文翻譯成母語……
近二十多年,OCR技術開發的重心是手寫體識別。
手寫識別案例
手寫識別的用途很廣泛,例如:
手寫輸入法。
手寫檔案、單據的錄入。比如傳統的手寫人事檔案、履歷等,想要跨地域調取查閱,往往需要耗費當事人好幾天的時間。醫療機構保存的歷史病歷檔案,如果能轉換為文字數據,對于現代醫療科技是一個非常大的數據源。手寫的快遞運單、申請單據等,手寫識別會解放大量的轉錄工作量。
學習和辦公需要。個人手寫的讀書筆記、會議紀要、日常記錄、思維導圖等,轉換成電子文檔,方便搜索和分享。
目前,手寫輸入法、有固定格式的單據,識別效果已經比較好,尤其是手寫輸入法,很潦草的字都有不錯的識別率。
OCR分三種:
印刷體識別,印刷字體的識別
聯機手寫識別,在電子寫字板等輸入設備上手寫文字的識別
脫機手寫識別,在紙張上手寫文字的識別
印刷體OCR,基本實現過程大概如下:
印刷體OCR的基本過程
印刷體OCR在實用中,預處理和切分是對識別效果影響最大的環節。
現在的印刷體OCR,使用了專業的深度學習算法,解決印刷質量、復雜背景、文字畸變、小間距、低分辨率、光線、拍照角度、表面折痕污損等條件下的預處理、切分問題,簡化了對操作者的要求。
現在印刷體的OCR還追求高還原度掃描錄入。支持表格的識別;版面結構的理解和恢復;縮進、段落等文字格式的自動處理;圖文混排、多語種混排的自適應識別和恢復等。使得OCR自動錄入的電子文檔,可以高度還原紙質文檔的板式和內容。
有些特殊的OCR任務還要解決特定的問題,例如從街景照片中提取街道標志和車牌。主要的難點是在預處理階段,識別路牌和車牌所在圖像區域的輪廓。這很多也是用專業的深度學習算法實現的。
聯機手寫OCR和印刷體OCR區別比較大。不需要前面的預處理、版面處理、切分環節。
識別環節,輸入的信息除了文字的圖像,還包括筆跡的順序和方向、速度和停頓等。
至于后處理,因為聯機手寫OCR一般用做輸入法,使用過程中,用戶可以在多個識別結果中選擇一個,如果發現識別錯誤,通常會直接重寫,因此對后處理的要求也不高。
聯機手寫OCR目前的識別率也比較高,連筆、傾斜、潦草、書寫不規范、筆順錯誤、形似字都有比較高的識別率。
脫機手寫OCR和印刷體OCR的處理過程是一樣的。但是每個人的手寫體差異太大,脫機手寫OCR在切分和識別環節的難度也更大一些。
早年的脫機手寫OCR對書寫的規范性要求比較高,只有整齊的正楷字才有比較好的識別率。近年來使用深度學習算法,脫機手寫OCR的識別效果好很多。小HUI實測的情況看,基本上人眼能夠正常辨認的兒童、成人手寫字體,即使有連筆、缺筆、傾斜等問題,識別率都能在90%以上。人眼不能確認,但能夠通過上下文辨認的內容,識別情況就不理想了。
病歷檔案錄入是脫機手寫OCR的主要目標場景之一,目前的識別率還非常低。
市面上還有一些產品,用聯機手寫OCR的技術,實現類似離線OCR的應用場景:
將寫字板做成文件板夾的形式,使用時將紙張夾在板夾上,用戶在紙張上書寫的同時,寫字板在后臺完成識別工作。這對于習慣書寫紙質檔案,但又需要保留數據的用戶——比如醫生——也是一個不錯的解決方案。
經過30來年的發展,OCR的應用早已不限于紙質文字資料的數字化,自然環境中的印刷體識別“OCR in the wild”有非常廣泛的用途:
在安防攝像頭拍攝的監控視頻中,識別車牌,實現車輛的自動標記,和軌跡繪制。
自動駕駛中,識別拍攝的路況等圖像中的文字,實現高精地圖+路牌識別的導航。
在生產線上識別產品上的文字或代碼,進行質量檢測。
……
圖片來源:AI研習社
在教育用途中,機器人 +印刷體識別,創造的繪本閱讀機器人,幫助家長培養孩子的早期閱讀習慣。
在辦公用途中,聯機手寫OCR和語音識別甚至機器翻譯結合,能夠很好的滿足會議實錄的需求。
AI+醫療,也是OCR的重要落地方向,但是病歷的數字化,除了需要推進人工智能技術的落地,還要結合醫療術語規范化本身的推進。
文字識別是計算機視覺最早的應用之一,現在OCR已經從印刷體文字的識別,發展到了手寫輸入和手寫識別,應用范圍也已經從印刷品的掃描錄入,拓展到安防、自動駕駛、制造業、醫療等領域。未來,OCR應該還會在更多領域,滿足掃描錄入、人機交互等方面的需求。
就技術而言,中文OCR做的比較專業的,國內有文通和漢王,臺灣有丹青和蒙恬,國外是ABBYY和IRIS。離線手寫OCR目前漢王的識別率最高。