什么是光学字符识别 (OCR)?
當前位置:博猫 > 技術分享 > 什麼是光學字符識别 (OCR)?

博猫

博猫平台登录:机器视觉 2021-09-22 9023 0


光學字符識别,簡稱OCR,用于描述将文本圖像轉換為機器編碼文本的算法和技術(電子和機械)。我們通常從軟件的角度考慮 OCR 。也就是說,這些系統:

  1. 接受輸入圖像(掃描的、拍攝的或計算機生成的)

  2. 自動檢測文本并像人類一樣“閱讀”它

  3. 将文本轉換為機器可讀格式,以便在更大的計算機視覺系統範圍内對其進行搜索、索引和處理


image.png

什麼是光學字符識别 (OCR)?

OCR 系統也可以是機械的和物理的。例如,您可能熟悉電子鉛筆,它會在您書寫時自動掃描您的筆迹。完成書寫後,将筆連接到計算機(通用串行總線 (USB)、藍牙或其他方式)。然後,OCR 軟件會分析 smartpen 記錄的動作和圖像,生成機器可讀的文本。

OCR的應用

OCR 的應用有很多,最初是為盲人制造閱讀機(Schantz,1982)。從那時起,OCR 應用程序有了顯着的發展,包括(但不限于):

  1. 自動車牌/車牌識别 (ALPR/ANPR)

  2. 交通标志識别

  3. 分析和擊敗網站上的 CAPTCHA(完全自動化的公共圖靈測試,以區分計算機和人類)

  4. 從名片中提取信息

  5. 自動讀取護照的機讀區 (MRZ) 和其他相關部分

  6. 從銀行支票中解析路由号碼、帳号和貨币金額

  7. 理解自然場景中的文本,例如從智能手機拍攝的照片

方向和腳本檢測

在我們詳細讨論 OCR 之前,我們需要簡要介紹一下方向和腳本檢測 (OSD),我們将在以後的教程中詳細介紹。如果 OCR 是獲取輸入圖像并以人類可讀和機器可讀格式返回文本的過程,那麼 OSD 是分析圖像以獲取文本元數據的過程,特别是方向和腳本/書寫風格。

文本的方向是輸入圖像中文本的角度(以度為單位)。為了獲得更高的 OCR 精度,我們可能需要應用 OSD 來确定文本方向,對其進行校正,然後應用 OCR。

腳本和寫作風格是指用于書面和打字交流的一組字符和符号。我們大多數人都熟悉拉丁字符,它構成了許多歐洲和西方國家使用的字符和符号;但是,還有許多其他形式的書寫方式被廣泛使用,包括阿拉伯語、希伯來語、中文等。拉丁字符與阿拉伯語有很大不同,而阿拉伯語又與日本漢字不同,這是一種使用漢字的日本書寫系統.

OCR 系統可以針對特定腳本或書寫系統做出的任何規則、啟發式方法或假設,都将使 OCR 引擎在應用于給定腳本時更加準确。因此,我們可能會使用 OSD 信息作為提高 OCR 準确性的前兆。

總結

在本教程中,您了解了光學字符識别 (OCR) 領域。根據我的經驗,OCR 表面上看起來很容易,但當您需要開發一個工作系統時,它絕對是一個具有挑戰性的領域。請記住,計算機視覺領域已經存在50 多年,但研究人員尚未創建高度準确的通用 OCR 系統。我們肯定離著名的雲服務提供商 API 越來越近,但我們還有很長的路要走。



取消回複發表評論:


立即定制視覺方案