スキャンされたPDFをOCR
オンデバイスOCRを使ってスキャンされたPDF内のテキストを認識 — アップロードなし。
ここにファイルをドラッグ&ドロップ
またはクリックして選択 — ファイルはローカルで処理され、アップロードされることはありません
ファイルのアップロード回数
0
デバイスから送信されたバイト数
0 B
確認済み — ファイルはこのデバイスから一度も外部に送信されていません。
ファイルを処理して、これらの値がゼロのままであることを確認してください。
PDFをOCRする方法
- 1
スキャンされたPDFを開く
ファイルをドロップします。ページはローカルで読み込まれ、アップロードされることはありません。
- 2
認識を実行
各ページがレンダリングされ、ブラウザ内のTesseract OCRエンジンによって読み取られます。
- 3
テキストをコピーまたはダウンロード
認識されたテキストを取得してコピーするか、.txtまたは.docxとしてダウンロードします。
スキャンされたドキュメントのためのオンデバイスOCR
PDFがテキストの画像にすぎない場合 — スキャン、写真、ファックス — コピーすべきテキストレイヤーがありません。OCR(光学文字認識)は画像から文字を読み取ります。pdfnouploadは、評価の高いオープンソースのOCRエンジンであるTesseractを、WebAssemblyを介して完全にブラウザ内で実行します。スキャンされた契約書や記録はローカルで認識され、決してアップロードされません。これはまさに機密文書に求められることです。
何を期待すべきかを知る
OCRは、まともな解像度で印刷されたテキストの、きれいでまっすぐなスキャンで最もよく機能します。手書き、低品質または傾いたスキャン、表、複数段組みのレイアウトは、エラーや順序の乱れを生じることがあります — これは私たちのものだけでなく、すべてのOCRに当てはまります。エンジンは一度ダウンロードされ、その後オフラインで動作します。OCRには時間がかかるため、特に大きなドキュメントでは、認識はプログレスバー付きでWeb Worker内で実行されます。
よくある質問
OCRのためにスキャンはアップロードされますか?+
いいえ。OCRはWebAssemblyを介してブラウザ内で動作します。DevTools → ネットワークでアップロードゼロを確認してください。
なぜOCRは他のツールより遅いのですか?+
画像から文字を認識するのは計算負荷が高い処理です。ワーカー内で実行されるため、ページは応答し続け、プログレスバーが表示されます。
どのくらい正確ですか?+
きれいに印刷されたテキストには非常に良好です。手書き、品質の悪いスキャン、表、複数段組みのページでは信頼性が下がります。