Техническая статья

Извлечение текста из PDF-документов с использованием PDFium VCL в Delphi.

Извлечение текста - одна из самых распространенных задач обработки PDF-файлов. Независимо от того, создаете ли вы поисковую систему документов, приложение для анализа данных или систему управления контентом, возможность извлечения текста из PDF-файлов является необходимой. Этот учебник охватывает Извлечение текста демонстрацию, которая показывает, как извлекать текстовое содержимое из PDF-документов с помощью PDFium VCL.

Обзор

Демонстрация "Извлечение текста" показывает, как извлечь все текстовое содержимое из PDF-документа и сохранить его в текстовый файл. Она поддерживает выбор диапазона страниц, сохранение абзацев и корректную обработку специальных символов.

Основные функции

  • Полное извлечение документа – Извлечение текста со всех страниц одновременно
  • Выбор диапазона страниц – Извлечение текста только с определенных страниц
  • Обнаружение абзацев Сохранение структуры абзацев на основе позиций символов.
  • Обработка специальных символов. Возможность удаления символов NUL из выходных данных.
  • Разделители страниц. Необязательные пустые строки между страницами.
  • Отслеживание прогресса. Визуальная индикация прогресса и подробное ведение журнала.
  • Вывод в кодировке UTF-8. Правильная кодировка текстового вывода для международных документов.
  • Доступ на уровне символов – Доступ к отдельным символам для расширенной обработки.

Требования к библиотеке PDFium DLL

Перед запуском любого приложения PDFium VCL, убедитесь, что файлы PDFium DLL установлены:

  • pdfium32.dll / pdfium64.dll – Стандартные версии (около 5-6 МБ)
  • pdfium32v8.dll / pdfium64v8.dll – С JavaScript-движком V8 (около 23-27 МБ)

Установка: Запуск PDFiumVCL\DLLs\CopyDlls.bat от имени администратора для автоматической копии DLL-файлов в системные каталоги Windows.

Базовая извлечение текста.

Самый простой способ извлечения текста со страницы PDF:

Извлечение из всех страниц.

Перебор всех страниц для извлечения полного текста документа:

Извлечение текста с сохранением структуры абзацев.

Для документов, где важна структура абзацев, используйте анализ положения символов:

Очистка извлеченного текста.

Удалите символы NUL и нормализуйте текст:

Извлечение текста из определенной области.

Извлеките текст из прямоугольной области страницы:

Доступ на уровне символов

Для точного анализа текста, получайте доступ к отдельным символам:

Поиск символа по координатам на экране

Полезно для выделения текста и взаимодействия:

Обработка ошибок и граничных случаев

Особенности производительности

  • Извлекайте текст страницу за страницей, а не загружайте все в память.
  • Используйте потоковую запись файлов для больших документов.
  • Вызов Application.ProcessMessages в циклах для обеспечения отзывчивости пользовательского интерфейса.
  • Рассмотрите возможность пакетной обработки для нескольких документов.

Заключение.

Демонстрация извлечения текста показывает, как PDFium VCL делает извлечение текста простым и надежным. Независимо от того, требуется ли вам простое извлечение текста или сложная обработка с учетом абзацев, компонент предоставляет все необходимые инструменты.

Доступ на уровне символов позволяет выполнять сложный анализ текста, в то время как простой Text property позволяет обрабатывать большинство распространенных сценариев использования всего одной строкой кода.

Начните создавать ваше решение для извлечения текста с помощью. Компонент PDFium VCL today.