PDF OCR: 업로드 없이 스캔 PDF를 검색 가능하게 만들기

스캔 PDF는 문서처럼 보이지만, 컴퓨터에게는 그저 문서의 사진일 뿐입니다. 화면에서 단어는 보이지만 선택하거나, 문구를 검색하거나, 문장을 복사할 수는 없습니다 — 파일 안에 텍스트가 전혀 없고 글자 모양으로 배열된 픽셀만 있기 때문입니다. OCR(광학 문자 인식)은 그 간극을 메우는 기술입니다. 이미지를 읽어 문자를 인식하고, 진짜 기계가 읽을 수 있는 텍스트로 돌려줍니다. 이 글은 OCR이 정확히 어떻게 작동하는지, 스캔이 일반 PDF와 왜 그렇게 다르게 동작하는지, 그리고 민감한 스캔이 기기를 떠나지 않도록 전 과정을 브라우저에서 실행하는 방법을 설명합니다.

스캔 PDF가 실제로 무엇인가

종이 문서를 스캔하거나 — 휴대폰으로 찍어 "PDF로 저장"하면 — 스캐너는 이미지를 캡처합니다. 그 이미지가 PDF 컨테이너에 담겨 다른 PDF처럼 열리지만, 안에는 텍스트 레이어가 없습니다. 모든 페이지가 한 장의 그림입니다.

그래서 스캔 PDF는 워드프로세서에서 내보낸 것과 비교해 이상하게 동작합니다.

명백히 보이는 단어조차 Ctrl+F로 아무것도 찾지 못합니다.
한 줄을 끌어 강조할 수 없습니다 — 커서가 이미지 전체를 선택하거나 아무것도 못 합니다.
Word나 텍스트로 변환하면 빈 결과나 이미지뿐인 파일이 나옵니다 — 추출할 텍스트가 없으니까요.
파일이 종종 큽니다 — 이미지는 같은 텍스트보다 훨씬 많은 공간을 차지합니다.

반면 "디지털로 태어난" PDF는 실제 문자와 그 글꼴·위치를 저장합니다. 그 숨은 텍스트 레이어가 검색·선택·복사를 가능하게 합니다. OCR의 일은 스캔에서 사라진 그 레이어를 재현하는 것입니다.

OCR이 실제로 하는 일

광학 문자 인식은 페이지의 그림을 분석해 어떤 모양이 글자, 숫자, 문장부호인지 알아냅니다. 내부적으로 엔진은 보통 이렇게 합니다.

이미지를 정리 — 대비를 조정하고 잡음을 제거해 문자가 배경에서 도드라지게 합니다.
레이아웃을 찾기 — 줄, 단어, 그 사이 공백을 감지합니다.
각 글리프를 인식 — 모든 문자의 모양을 학습된 모델과 대조합니다.
텍스트를 조립 — 인식된 문자를 단어와 줄로 다시 엮으며, 흔히 사전 검사로 근접 오류를 바로잡습니다.

결과는 이미지에 정렬된 텍스트 레이어입니다. 그것이 생기면 이렇게 할 수 있습니다.

문서에서 어떤 단어나 숫자든 검색.
문단을 바로 선택·복사.
평면 그림이 아니라 진짜 단어를 담은 PDF→Word나 PDF→텍스트 변환에 투입.

그 한 단계가 스캔으로 가득한 서랍을 검색 가능하고 재사용 가능한 보관함으로 바꿉니다.

업로드 대신 OCR을 로컬에서 실행해야 하는 이유

스캔 문서는 사람들이 가진 가장 민감한 것인 경우가 잦습니다: 서명된 계약서, 여권과 신분증, 세금 신고서, 은행 명세서, 의료 기록, 오래된 가족 편지. 바로 낯선 곳에 넘기기 전에 한 번 더 생각해야 할 파일들이죠.

대부분의 온라인 OCR 서비스는 전체 문서를 서버로 업로드하라고 요구하며, 거기서 처리되고 많은 경우 거의 아무도 읽지 않는 약관에 따라 일정 기간 보관됩니다. 가벼운 스캔이라면 괜찮을 수 있습니다. 이혼 합의서나 운전면허증 사본이라면 정확히 잘못된 거래입니다.

OCR을 브라우저에서 실행하면 그 위험이 사라집니다. 인식은 오픈소스 Tesseract 엔진의 WebAssembly 빌드를 사용해 로컬에서 일어납니다 — 수많은 OCR 프로젝트를 구동하는 바로 그 평판 좋은 엔진을, 이미 열려 있는 페이지에서 실행되도록 컴파일한 것입니다. 당신의 스캔은 어디로도 보내지지 않고 자기 기기에서 실행되는 코드가 읽습니다.

그냥 믿을 필요도 없습니다. DevTools(F12)를 열고 Network 탭으로 전환한 뒤 한 페이지에 OCR을 돌리세요. 엔진과 언어 데이터가 로드되는 것은 보이지만 PDF가 업로드되는 모습은 보이지 않습니다 — 애초에 업로드하지 않으니까요. 같은 점검이 사이트의 모든 도구에 통합니다.

브라우저에서 PDF에 OCR 하는 방법

과정은 의도적으로 단순합니다.

PDF OCR 도구를 엽니다.
스캔 PDF를 추가합니다 — 끌어다 놓거나 기기에서 선택합니다.
엔진이 올바른 모델을 로드하도록 문서 언어를 묻는다면 선택합니다.
처리되게 둡니다. 인식이 당신의 하드웨어에서 돌아가므로 시간은 기기와 페이지 수에 달려 있습니다 — 몇 페이지는 빠르고 긴 보고서는 더 걸립니다.
인식된 텍스트를 바로 쓰거나 다음 단계로 내보냅니다.

작업이 로컬이라 대기열도, 서버가 강제하는 파일 크기 한도도, 업로드 진행 막대도 없습니다 — 그저 당신의 CPU가 인식을 수행할 뿐입니다.

가장 정확한 결과를 위한 팁

OCR 정확도는 엔진보다 입력 품질에 훨씬 더 좌우됩니다. 깨끗한 스캔은 90% 후반대에 이를 수 있고, 어두운 곳에서 구겨진 휴대폰 사진은 거의 못 쓸 수 있습니다. 몇 가지 습관이 큰 차이를 만듭니다.

300 DPI로 스캔하세요. 텍스트에 최적입니다. 약 200 DPI 아래면 문자가 뭉개지고 정확도가 급락하며, 300 DPI를 크게 넘으면 인식엔 도움 없이 파일 크기만 늘어납니다.
페이지를 똑바로. 기울기는 가장 큰 정확도 저해 요인입니다. 몇 도만 기울어도 줄이 어긋나 엔진이 잘못 읽습니다. OCR 전에 비뚤어진 페이지를 펴거나 회전하세요.
대비를 최대로. 흰 배경의 또렷한 검은 글자가 가장 잘 읽힙니다. 흐린 복사본, 회색 배경, 색지는 모두 정확도를 떨어뜨립니다. 많은 스캐너에 대비를 자동으로 높이는 "문서" 또는 "텍스트" 모드가 있습니다.
평평하게, 고르게 비추기. 휴대폰 촬영 시 페이지를 평평히 두고 그림자를 피하며 프레임을 페이지로 가득 채워 글자가 최대한 크고 선명하게 하세요.
인쇄된 글자를 우선. OCR은 조판된 문자를 위해 설계됐습니다. 손글씨, 장식 글꼴, 이미지나 도장 위에 인쇄된 텍스트는 훨씬 어려우니 교정이 필요하다고 예상하세요.
올바른 언어를 선택. 맞는 언어 모델 — 악센트나 비라틴 스크립트의 경우 정확한 것 — 을 로드하면 결과가 눈에 띄게 좋아집니다.

현실적으로 기대할 정확도

OCR은 훌륭하지만 마법은 아니며, 로컬이든 클라우드든 완벽한 엔진은 없습니다. 일반 인쇄 텍스트의 깨끗하고 대비 높은 300 DPI 스캔이면 가끔의 실수만 있는 매우 높은 정확도를 기대할 수 있습니다. 바랜 팩스, 빽빽한 표, 저해상도 사진에서는 오류가 늘어납니다.

가장 자주 혼동되는 문자는 닮은 것들입니다: 숫자 0과 글자 O, 1과 l과 I, 5와 S, 8과 B. 하필 당신이 가장 신경 쓰는 데이터의 문자들이라 문제입니다.

그래서 규칙은 단순합니다: 본문 대부분은 신뢰하되, 중요한 숫자는 교정하세요 — 날짜, 합계, 계좌번호, 신분증 번호, 참조 코드. 핵심 숫자를 2분 점검하는 것이 완벽한 결과를 가정하는 것보다 훨씬 가치 있습니다. 그리고 OCR은 계산 부하가 크고 기기에서 돌아가므로 큰 문서는 시간이 걸립니다. 그 인내가 스캔을 비공개로 지키는 대가입니다.

OCR 이후 할 일

스캔에 진짜 텍스트 레이어가 생기면 평범하고 다룰 수 있는 문서가 되며, 다음 단계의 세트가 열립니다.

편집하기. Word로 변환해 내용을 손보거나, 복원한 편지를 갱신하거나, 오래된 보고서를 템플릿으로 재사용하세요.
단어만 가져오기. 원문 텍스트만 필요하다면 — 이메일, 메모, 스프레드시트에 붙여넣기 — 전체 변환 대신 일반 텍스트를 추출하세요.
민감한 세부 제거. 이제 이름, 숫자, 주소가 인식되므로 제대로 가릴 수 있습니다. 진짜 가리기는 덮는 게 아니라 아래 내용을 삭제하는데, 이는 스캔이 검색 가능해진 뒤 필수입니다 — OCR이 막 선택 가능하게 만든 텍스트 위에 검은 상자만 얹으면 즉시 새어 나갑니다.

다시 말해 OCR은 목적지가 아니라, 이미지로 시작한 문서에서 다른 모든 PDF 작업을 가능하게 하는 단계입니다.

언어에 관한 참고

Tesseract는 비라틴 스크립트와 악센트 문자를 포함해 긴 언어 목록을 지원하며, 브라우저 내 도구는 선택한 언어의 모델을 로드합니다. 올바른 것을 고르는 일은 사치가 아니라 가장 큰 정확도 지렛대 중 하나입니다. 프랑스어나 독일어 페이지에 영어 모델을, 키릴이나 그리스어 텍스트에 라틴 모델을 돌리면 예측 가능한 헛소리가 나옵니다. 문서가 여러 언어를 섞었다면 주된 언어로 인식한 뒤 나머지를 교정하세요. 모델을 페이지에 맞추는 것이 깔끔한 출력과 엉뚱한 기호로 가득한 전사 사이의 차이입니다.

핵심 정리

OCR은 평면 스캔을 진정으로 유용한 문서 — 검색·선택 가능하고 변환·가리기 준비가 된 — 로 바꿉니다. 그러기 위해 비공개 계약서, 신분증, 의료 서류를 업로드할 이유는 없습니다. 깨끗하고 곧은 고대비 스캔을 도구에 주고, 올바른 언어를 고르고, 중요한 숫자를 교정하며, 인식은 자기 기기에서 돌게 하세요. PDF에 OCR을 실행하세요 — 완전히 브라우저 안에서, 스캔은 있어야 할 곳에 둔 채로.