如何利用OCR轉檔工具將掃描文件中的文字提取出來?

PDF Reader 整合光學文字辨識(OCR)技術,可辨識圖片和掃描的PDF文件中的文字內容,並將它們轉換為可搜尋內文和編輯的PDF文件。

banner-btmbanner-mac

利用光學文字辨識(OCR)工具進行PDF轉檔

透過 OCR 工具,你無須再重新設定排版格式或重新建立文件,PDF Reader 直接幫你從圖像和掃描文件內提取文字內容。你可以先掃描如雜誌、期刊或海報等紙本印刷書籍,並配合 OCR 文字辨識工具將掃描檔轉為可編輯的文件,你可接續運用在報告、論文或作業內容中。下列將帶你了解 PDF Reader 如何使用 OCR 技術將掃描檔轉換為可編輯的PDF文件。

Mac

如何在 Mac 上利用 OCR 辨識文字並轉為可搜尋內文的 PDF 文件

PDF Reader 中的 OCR 文字辨識功能幫你輕鬆辨識圖片中的文字訊息。您只需要匯入欲套用 OCR 轉檔工具的文件,PDF Reader 便可幫你處理後續所有步驟。

從掃描文件中提取文字:

  1. 打開PDF文件並點擊上方選項的OCR

Pdf_HowTo_OCRPDF_01

  1. 選擇欲執行OCR文字辨識的頁面範圍。

Pdf_HowTo_OCRPDF_02

  1. 您可以選擇由 PDF Reader 自動偵測文件內容使用的語言,或手動設定符合該文件所運用的文字語言。

Pdf_HowTo_OCRPDF_01

  1. 設定一目標資料夾存放轉檔後的文件,再選擇要以可搜尋內文的PDF或是以純文字格式匯出。

Pdf_HowTo_OCRPDF_04

  1. 點擊**確認(OK)**後,PDF Reader 將開始進行 OCR 轉檔。
<br>

從圖檔中提取文字:

  1. 進入首頁分頁後,再點擊圖片轉PDF的快捷入口。

Pdf_HowTo_ImagetoPDF_01

  1. 點擊新增檔案按鈕後,您可以選擇從Mac的Finder、相機或已連結的掃描器匯入圖片。

Pdf_HowTo_ImagetoPDF_02

  1. 匯入圖像後,您可以在輸出設定中勾選**合併全部(Merge All)**的選項,可將所有匯入的圖像合併成單一 PDF。同時,您也可以選擇直接將匯入的圖片直接添加到現有的PDF文件中。

Pdf_HowTo_ImagetoPDF_03

  1. 欲執行OCR,只需點擊啟用 OCR 的選項並設定圖像內文字的語言。

Pdf_HowTo_ImagetoPDF_05

  1. 點擊「另存為PDF(Save as PDF)」按鈕,PDF Reader 便會執行 OCR 轉檔將圖像轉為可搜尋文字內容的PDF文件。

OCR 的應用實例帶你了解運作方式

OCR 的功能用途主要將紙本印刷文件轉為可搜尋且編輯文本的文件。當利用 OCR 轉檔方式將掃描紙本轉換為數位化文件,可進一步再使用 Microsoft Office 和 Google Docs 等服務做進一步內容編輯。

省去耗時的人工步驟

無論再怎麼有經驗的人,手動輸入資料數據偶爾還是會有出錯的機率。如果僅是一個小錯誤,可能無傷大雅。但若錯誤的次數和數量過多話,除了讓人容易感到沮喪外,還有可能不小心引起財務上的損失。PDF Reader 搭配 OCR 的技術應用,幫你輕鬆建立可搜尋及編輯文字內容的文件,可減少重新建立檔案時的人為失誤!

讓紙本轉為可搜尋內文的檔案

印刷文件和經過掃描產生的電子檔案多無法搜尋內文或編輯,涵蓋大量的凍結且無法使用的文字資訊,也因此讓讀者很難有效地找到特定的字句或重要資訊。透過 OCR 轉檔工具,這些倍凍結的文字資訊皆可轉為可被讀取、搜尋的資料,幫你更能有效捕捉到檔案內的核心資訊,而這些文字資訊是可以被複製且貼至其他用途上。

在無紙化生活中仍條理分明

儘管許多企業單位都已逐步將收據檔案轉為數位化格式,但你仍有可能在銷售交易中收到紙本收據。若能將紙本收據掃描並以數位檔案進行保存,仍不失為一個聰明的作法。尤其, 一般組織單位內要進行核銷作業時仍需要提交收據資料,你可以利用 OCR 轉檔工具擷取出收據內的文字內容,讓你從過往的收據資料中,找到重要資訊或是用來申請保固維護的依據。

pdf

為您與您的團隊選擇最合適的PDF Reader