スキャンPDFをOCR（検索可能に）— アップロード不要

スキャンしたPDFは書類のように見えますが、コンピューターにとってはそれの写真にすぎません。画面上で文字が見えても、選択したり、語句を検索したり、一文をコピーしたりはできません。ファイルの中にテキストはまったくなく、文字の形に並んだピクセルしかないからです。OCR（光学文字認識）は、その隔たりを埋める技術です。画像を読み取り、文字を認識し、本物の機械可読なテキストを返してくれます。このガイドでは、OCRが正確にどう動くのか、なぜスキャンが通常のPDFとこれほど違う振る舞いをするのか、そして機微なスキャンを一度もデバイスの外へ出さずにブラウザ内で全工程を実行する方法を説明します。

スキャンしたPDFが本当は何なのか

紙の書類をスキャンしたとき — あるいはスマホで写真を撮って「PDFとして保存」したとき — スキャナーは画像を取り込みます。その画像はPDFコンテナに包まれ、ほかのPDFと同じように開きますが、中にはテキストレイヤーがありません。各ページが1枚の絵です。

だからこそ、スキャンしたPDFはワープロから書き出したものと比べてこれほど奇妙な振る舞いをします。

Ctrl+Fが何も見つけません — ページにはっきり見える語でも。
行をハイライトしてコピーできません — カーソルは画像全体を選ぶか、何も選ばないかです。
Wordやテキストへ変換すると空白か画像だけのファイルになります — 抽出すべきテキストがないからです。
ファイルはしばしば大きい — 画像は同等のテキストよりはるかに多くの容量を取るからです。

対照的に「ボーンデジタル」のPDFは、実際の文字に加えてそのフォントと位置を保存しています。その隠れたテキストレイヤーこそが、検索、選択、コピーを可能にしています。OCRの仕事は、スキャンのためにその欠けたレイヤーを作り直すことです。

OCRが実際に行うこと

光学文字認識は、ページの画像を分析し、どの形が文字、数字、句読点なのかを割り出します。内部では、エンジンは通常次のことを行います。

画像をきれいにする — コントラストを調整しノイズを取り除き、文字が背景から際立つようにします。
レイアウトを見つける — 行、語、そしてその間のスペースを検出します。
各字形を認識する — すべての文字の形を、訓練済みのモデルと照合します。
テキストを組み立てる — 認識した文字を語と行に綴じ直し、しばしば辞書チェックで惜しい誤りを直します。

結果は、画像に揃えられたテキストレイヤーです。それが存在すれば、次のことができます。

書類を任意の語や数字で検索する。
一節をそのまま選択してコピーする。
平坦な絵ではなく本物の語を含む、PDF→WordやPDF→テキスト変換に投入する。

その一つの工程が、引き出しいっぱいのスキャンを、検索可能で再利用できるアーカイブに変えます。

アップロードではなくローカルでOCRを実行する理由

スキャンした書類は、人々が持つ最も機微なものであることがよくあります。署名済み契約書、パスポートやID、確定申告書、銀行取引明細、医療記録、古い家族の手紙などです。それらはまさに、見知らぬ相手へ渡す前に二度考えるべきファイルです。

ほとんどのオンラインOCRサービスは、書類全体をアップロードすることを求め、それは彼らのサーバーで処理され、多くの場合、ほとんど誰も読まない規約のもとで一定期間保持されます。気軽なスキャンならそれで構わないかもしれません。離婚の和解書や運転免許証のコピーには、まさに間違ったトレードです。

ブラウザ内でOCRを実行すれば、そのリスクがなくなります。認識は、オープンソースのTesseractエンジンのWebAssemblyビルドを使ってローカルで行われます。これは数えきれないOCRプロジェクトを動かす定評あるエンジンと同じもので、すでに開いているページ上で動くようにコンパイルされています。あなたのスキャンは、自分のマシンで実行されるコードによって読み取られ、どこにも送られません。

それを鵜呑みにする必要はありません。DevToolsを開き（F12を押す）、Networkタブに切り替えて、ページにOCRを実行します。エンジンと言語データの読み込みは見えますが、あなたのPDFがアップロードされる様子は見えません。決してアップロードされないからです。同じチェックはサイトのすべてのツールで通用します。

ブラウザでPDFをOCRする方法

手順は意図的にシンプルです。

OCR PDFツールを開きます。
スキャンしたPDFを追加します。ドラッグして入れるか、デバイスから選びます。
求められたら書類の言語を選び、エンジンが正しいモデルを読み込めるようにします。
処理させます。認識はあなたのハードウェア上で動くので、時間はマシンとページ数によります。数ページなら速く、長いレポートなら時間がかかります。
認識されたテキストを直接使うか、次の工程のために書き出します。

作業がローカルなので、待ち行列も、サーバーが課すファイルサイズの上限も、アップロードの進捗バーもありません。あなた自身のCPUが認識を行うだけです。

最も正確な結果を得るためのコツ

OCRの精度は、エンジンよりも入力の質にはるかに依存します。きれいなスキャンは90パーセント台後半に達しますが、暗い場所でくしゃくしゃのスマホ写真だと、ほとんど使い物にならない結果になることもあります。いくつかの習慣で大きな差が出ます。

300 DPIでスキャンする。 これがテキストの最適点です。約200 DPIを下回ると文字がにじんで重なり、精度が急落します。300 DPIをはるかに超えても、認識を助けずファイルサイズが増えるだけです。
ページをまっすぐに保つ。 傾きは精度を最も損なう要因の一つです。スキャンが数度でも傾いていると、行がずれてエンジンが誤読します。OCRを実行する前に、曲がったページをまっすぐにするか回転させましょう。
コントラストを最大化する。 白地に鮮明な黒い文字が最も読みやすくなります。薄いコピー、灰色の背景、色付きの紙はいずれも精度を下げます。多くのスキャナーには、コントラストを自動的に高める「書類」または「テキスト」モードがあります。
平らにして均一に照らす。 スマホ撮影では、ページを平らに置き、影を避け、フレームをページで満たして、テキストをできるだけ大きく鮮明にします。
印刷された文字を優先する。 OCRは組版された文字向けに設計されています。手書き、装飾的なフォント、画像やスタンプの上に印刷された文字ははるかに難しく、修正が必要だと見込んでおくべきです。
正しい言語を選ぶ。 一致する言語モデル — アクセント付きや非ラテンのスクリプトには正しいもの — を読み込むと、結果が目に見えて良くなります。

現実的に期待すべき精度

OCRは優れていますが、魔法ではなく、ローカルでもクラウドでも完璧なエンジンはありません。通常の印刷テキストの、きれいで高コントラスト、300 DPIのスキャンなら、たまにすべるだけの非常に高い精度を期待できます。色あせたファックス、ぎっしり詰まった表、低解像度の写真では、誤りが増えます。

最も混同されやすいのは、似た形の文字です。数字の0と文字のO、1とlとI、5とS、8とBなどです。それが問題なのは、それらがまさに、あなたが最も気にするデータの中の文字だからです。

だからルールはシンプルです。本文の大部分は信頼しつつ、重要な数字は校正する — 日付、合計、口座番号、ID、参照コードなどです。重要な数値を2分チェックすることは、完璧な結果を当てにするよりはるかに価値があります。そしてOCRは計算負荷が高く、デバイス上で動くので、大きな書類は時間がかかります。その忍耐は、スキャンを非公開に保つための対価です。

OCRの後にすること

スキャンが本物のテキストレイヤーを持てば、それは普通の扱える書類になり、一連の次の工程が開かれます。

編集する。 Wordに変換して内容を作り変えたり、復元した手紙を更新したり、古いレポートをテンプレートとして再利用したりできます。
語だけを取り出す。 生のテキストだけが必要なら — メール、メモ、表計算に貼り付けるために — 完全な変換ではなくプレーンテキストを抽出します。
機微な詳細を取り除く。 名前、番号、住所が認識可能になったので、適切に墨消しできます。本物の墨消しは、覆うのではなく下にある内容を削除します。これはスキャンが検索可能になった途端に不可欠です。OCRがちょうど選択可能にしたテキストの上に置いた黒い四角は、即座に漏えいするからです。

言い換えれば、OCRが目的地であることは稀です。それは、画像として生まれた書類で、ほかのすべてのPDF作業を可能にする工程です。

言語についての注意

Tesseractは、非ラテンのスクリプトやアクセント付きの文字を含む長い言語のリストをサポートしており、ブラウザ内ツールは選んだ言語のモデルを読み込みます。正しいものを選ぶのは贅沢ではなく、利用できる最大の精度の梃子の一つです。フランス語やドイツ語のページに英語モデルをかけたり、キリル文字やギリシャ文字のテキストにラテンモデルをかけたりすると、予測どおりのちんぷんかんぷんが生まれます。書類が複数の言語を混ぜているなら、主要なもので認識し、残りを校正しましょう。モデルをページに合わせることが、きれいな出力と、迷子の記号だらけの書き起こしとの分かれ目です。

まとめ

OCRは、平坦なスキャンを本当に役立つ書類 — 検索可能、選択可能、変換や墨消しの準備が整ったもの — に変えるものです。そしてそこへ至るために、非公開の契約書、ID、医療書類をアップロードする理由はありません。きれいでまっすぐ、高コントラストなスキャンをツールに与え、正しい言語を選び、重要な数字を校正し、認識を自分のマシン上で動かしましょう。PDFにOCRを実行。完全にブラウザ内で、スキャンをあるべき場所にとどめましょう。