スキャンされたPDFをOCR

オンデバイスOCRを使ってスキャンされたPDF内のテキストを認識 — アップロードなし。

100%プライベート — ファイルがデバイスから外に出ることはありません

ここにファイルをドラッグ&ドロップ

またはクリックして選択 — ファイルはローカルで処理され、アップロードされることはありません

アップロードなしモニターライブ

ファイルのアップロード回数

0

デバイスから送信されたバイト数

0 B

確認済み — ファイルはこのデバイスから一度も外部に送信されていません。

ファイルを処理して、これらの値がゼロのままであることを確認してください。

PDFをOCRする方法

  1. 1

    スキャンされたPDFを開く

    ファイルをドロップします。ページはローカルで読み込まれ、アップロードされることはありません。

  2. 2

    認識を実行

    各ページがレンダリングされ、ブラウザ内のTesseract OCRエンジンによって読み取られます。

  3. 3

    テキストをコピーまたはダウンロード

    認識されたテキストを取得してコピーするか、.txtまたは.docxとしてダウンロードします。

スキャンされたドキュメントのためのオンデバイスOCR

PDFがテキストの画像にすぎない場合 — スキャン、写真、ファックス — コピーすべきテキストレイヤーがありません。OCR(光学文字認識)は画像から文字を読み取ります。pdfnouploadは、評価の高いオープンソースのOCRエンジンであるTesseractを、WebAssemblyを介して完全にブラウザ内で実行します。スキャンされた契約書や記録はローカルで認識され、決してアップロードされません。これはまさに機密文書に求められることです。

何を期待すべきかを知る

OCRは、まともな解像度で印刷されたテキストの、きれいでまっすぐなスキャンで最もよく機能します。手書き、低品質または傾いたスキャン、表、複数段組みのレイアウトは、エラーや順序の乱れを生じることがあります — これは私たちのものだけでなく、すべてのOCRに当てはまります。エンジンは一度ダウンロードされ、その後オフラインで動作します。OCRには時間がかかるため、特に大きなドキュメントでは、認識はプログレスバー付きでWeb Worker内で実行されます。

よくある質問

OCRのためにスキャンはアップロードされますか?+

いいえ。OCRはWebAssemblyを介してブラウザ内で動作します。DevTools → ネットワークでアップロードゼロを確認してください。

なぜOCRは他のツールより遅いのですか?+

画像から文字を認識するのは計算負荷が高い処理です。ワーカー内で実行されるため、ページは応答し続け、プログレスバーが表示されます。

どのくらい正確ですか?+

きれいに印刷されたテキストには非常に良好です。手書き、品質の悪いスキャン、表、複数段組みのページでは信頼性が下がります。