기술 문서

Delphi에서 PDFium VCL을 사용하여 PDF 문서에서 텍스트 추출하기.

· PDF 프로그래밍

텍스트 추출은 가장 일반적인 PDF 처리 작업 중 하나입니다. 문서 검색 엔진, 데이터 마이닝 애플리케이션 또는 콘텐츠 관리 시스템을 구축하든, PDF 파일에서 텍스트를 추출하는 기능은 필수적입니다. 이 튜토리얼에서는 다음 내용을 다룹니다. 텍스트 추출 데모, PDFium VCL을 사용하여 PDF 문서에서 텍스트 콘텐츠를 추출하는 방법을 보여줍니다.

개요

텍스트 추출 데모는 PDF 문서의 모든 텍스트 콘텐츠를 추출하여 텍스트 파일에 저장하는 방법을 보여줍니다. 페이지 범위 선택, 단락 보존을 지원하며 특수 문자를 올바르게 처리합니다.

주요 기능

  • 전체 문서 추출 – 모든 페이지에서 텍스트를 한 번에 추출
  • 페이지 범위 선택 – 특정 페이지에서만 텍스트를 추출
  • 단락 감지 – 문단 구조를 문자 위치를 기준으로 유지합니다.
  • 특수 문자 처리. – 출력에서 NUL 문자를 제거하는 옵션.
  • 페이지 구분 기호. – 페이지 사이에 선택적으로 빈 줄을 추가합니다.
  • 진행 상황 추적 – 시각적 진행률 표시줄 및 상세 로깅.
  • UTF-8 출력. – 국제 문서에 적합한 올바르게 인코딩된 텍스트 출력.
  • 문자 단위 접근 – 개별 문자에 접근하여 고급 처리를 수행합니다.

PDFium DLL 요구 사항

PDFium VCL 애플리케이션을 실행하기 전에, PDFium DLL 파일이 설치되어 있는지 확인하십시오.

  • pdfium32.dll / pdfium64.dll – 표준 버전 (약 5-6 MB)
  • pdfium32v8.dll / pdfium64v8.dll – V8 JavaScript 엔진 포함 (약 23-27 MB)

설치: 실행 PDFiumVCL\DLLs\CopyDlls.bat 관리자 권한으로 실행하여 DLL 파일을 Windows 시스템 디렉터리에 자동으로 복사합니다.

기본 텍스트 추출

PDF 페이지에서 텍스트를 추출하는 가장 간단한 방법:

모든 페이지에서 추출

모든 페이지를 순회하여 전체 문서 텍스트를 추출합니다:

단락 구조를 유지하면서 텍스트 추출

단락 구조가 중요한 문서의 경우, 문자 위치 분석을 사용합니다.

추출된 텍스트 정리

NUL 문자를 제거하고 텍스트를 정규화합니다.

특정 영역에서 텍스트 추출

페이지의 사각형 영역에서 텍스트를 추출합니다.

문자 단위 접근

정확한 텍스트 분석을 위해 개별 문자에 접근합니다.

화면 위치에서의 문자 찾기

텍스트 선택 및 상호 작용에 유용합니다.

오류 처리 및 예외 상황 처리

성능 고려 사항

  • 페이지별로 텍스트를 추출하여 모든 내용을 메모리에 로드하지 않도록 합니다.
  • 대용량 문서의 경우 스트리밍 파일 출력을 사용합니다.
  • 호출 Application.ProcessMessages 반복문 내에서 UI 응답성을 유지합니다.
  • 여러 문서의 경우 일괄 처리 방식을 고려합니다.

결론

Extract Text 데모는 PDFium VCL을 사용하여 텍스트 추출을 간단하고 안정적으로 수행하는 방법을 보여줍니다. 기본 텍스트 추출 또는 고급 문단 인식 처리가 필요한 경우, 이 구성 요소는 필요한 모든 도구를 제공합니다.

문자 단위 접근 방식을 통해 정교한 텍스트 분석이 가능하며, 간단한 Text property 可以使用一行代码处理大多数常见用例。

开始构建 您的文本提取解决方案。 PDFium VCL 컴포넌트 오늘.