スキャンされたPDFをOCR

オンデバイスOCRを使ってスキャンされたPDF内のテキストを認識 — アップロードなし。

100%プライベート — ファイルがデバイスから外に出ることはありません

ここにファイルをドラッグ＆ドロップ

またはクリックして選択 — ファイルはローカルで処理され、アップロードされることはありません

アップロードなしモニターライブ

ファイルのアップロード回数

送信されたファイルのバイト数

0 B

確認済み — ファイルはこのデバイスから一度も外部に送信されていません。

ファイルを処理して、これらの値がゼロのままであることを確認してください。

PDFをOCRする方法

1
スキャンされたPDFを開く
ファイルをドロップします。ページはローカルで読み込まれ、アップロードされることはありません。
2
認識を実行
各ページがレンダリングされ、ブラウザ内のTesseract OCRエンジンによって読み取られます。
3
テキストをコピーまたはダウンロード
認識されたテキストを取得してコピーするか、.txtまたは.docxとしてダウンロードします。

スキャンされたドキュメントのためのオンデバイスOCR

PDFがテキストの画像にすぎない場合 — スキャン、写真、ファックス — コピーすべきテキストレイヤーがありません。OCR（光学文字認識）は画像から文字を読み取ります。pdfnouploadは、評価の高いオープンソースのOCRエンジンであるTesseractを、WebAssemblyを介して完全にブラウザ内で実行します。スキャンされた契約書や記録はローカルで認識され、決してアップロードされません。これはまさに機密文書に求められることです。

何を期待すべきかを知る

OCRは、まともな解像度で印刷されたテキストの、きれいでまっすぐなスキャンで最もよく機能します。手書き、低品質または傾いたスキャン、表、複数段組みのレイアウトは、エラーや順序の乱れを生じることがあります — これは私たちのものだけでなく、すべてのOCRに当てはまります。エンジンは一度ダウンロードされ、その後オフラインで動作します。OCRには時間がかかるため、特に大きなドキュメントでは、認識はプログレスバー付きでWeb Worker内で実行されます。

よくある質問

OCRのためにスキャンはアップロードされますか？+

いいえ。OCRはWebAssemblyを介してブラウザ内で動作します。DevTools → ネットワークでアップロードゼロを確認してください。

なぜOCRは他のツールより遅いのですか？+

画像から文字を認識するのは計算負荷が高い処理です。ワーカー内で実行されるため、ページは応答し続け、プログレスバーが表示されます。

どのくらい正確ですか？+

きれいに印刷されたテキストには非常に良好です。手書き、品質の悪いスキャン、表、複数段組みのページでは信頼性が下がります。

PDFをテキストにテキストレイヤーを抽出 PDFをWordにPDFを.docxに変換

PDFをOCRする方法

スキャンされたPDFを開く

認識を実行

テキストをコピーまたはダウンロード

スキャンされたドキュメントのためのオンデバイスOCR

何を期待すべきかを知る

よくある質問

関連ツール