html Wyodrębnianie tekstu z dokumentów PDF zawierających PDFium VCL w Delphi | losLab Software Development Blog

Artykuł techniczny

Wyodrębnianie tekstu z dokumentów PDF zawierających PDFium VCL w Delphi

· Programowanie PDF

Ekstrakcja tekstu jest jednym z najczęstszych zadań przetwarzania PDF. Niezależnie od tego, czy tworzysz wyszukiwarkę dokumentów, aplikację do eksploracji danych, czy system zarządzania treścią, możliwość wyodrębnienia tekstu z plików PDF jest niezbędna. W tym samouczku opisano Wyodrębnij tekst , które pokazuje, jak wyodrębnić treść tekstową z dokumentów PDF za pomocą PDFium VCL.

Przegląd

Demo wyodrębnienia tekstu demonstruje, jak wyodrębnić całą zawartość tekstową z dokumentu PDF i zapisać ją w pliku tekstowym. Obsługuje wybór zakresu stron, zachowanie akapitów i poprawnie obsługuje znaki specjalne.

Kluczowe funkcje

  • Pełna ekstrakcja dokumentów – Wyodrębnij tekst ze wszystkich stron jednocześnie
  • Wybór zakresu stron – Wyodrębnij tekst tylko z określonych stron
  • Wykrywanie akapitu – Zachowaj strukturę akapitu w oparciu o pozycje znaków
  • Obsługa znaków specjalnych – Opcja usuwania znaków NUL z wyjścia
  • Separatory stron – Opcjonalne puste linie pomiędzy stronami
  • Śledzenie postępu – Wizualny pasek postępu i szczegółowe rejestrowanie
  • Wyjście UTF-8 – Prawidłowo zakodowany tekst wyjściowy dla dokumentów międzynarodowych
  • Dostęp na poziomie znaku – Dostęp do poszczególnych znaków w celu zaawansowanego przetwarzania

PDFium Wymagania DLL

Przed uruchomieniem jakiejkolwiek aplikacji PDFium VCL upewnij się, że są zainstalowane pliki DLL PDFium:

  • pdfium32.dll / pdfium64.dll – Wersje standardowe (~5-6 MB)
  • pdfium32v8.dll / pdfium64v8.dll – Z silnikiem V8 JavaScript (~23-27 MB)

Instalacja: Uruchom PDFiumVCL\DLLs\CopyDlls.bat jako Administrator, aby automatycznie kopiować biblioteki DLL do katalogów systemu Windows.

Podstawowe wyodrębnianie tekstu

Najprostszy sposób wyodrębnienia tekstu ze strony PDF:

Wyodrębnianie ze wszystkich stron

Przejdź przez wszystkie strony w pętli, aby wyodrębnić pełny tekst dokumentu:

Wyodrębnianie tekstu z zachowaniem akapitu

W przypadku dokumentów, w których ważna jest struktura akapitów, użyj analizy pozycji znaków:

Czyszczenie wyodrębnionego tekstu

Usuń znaki NUL i znormalizuj tekst:

Wyodrębnianie tekstu z określonego regionu

Wyodrębnij tekst z prostokątnego obszaru strony:

Dostęp na poziomie znaku

Aby uzyskać precyzyjną analizę tekstu, uzyskaj dostęp do poszczególnych znaków:

Znajdowanie postaci w pozycji na ekranie

Przydatne przy zaznaczaniu tekstu i interakcji:

Obsługa błędów i przypadków Edge

Względy wydajności

  • Wyodrębnij tekst strona po stronie, zamiast ładować wszystko do pamięci
  • Użyj strumieniowego przesyłania plików wyjściowych w przypadku dużych dokumentów
  • Zadzwoń Application.ProcessMessages w pętlach w celu zapewnienia responsywności interfejsu użytkownika
  • Rozważ przetwarzanie wsadowe wielu dokumentów

Wniosek

Demo wyodrębnienia tekstu pokazuje, jak PDFium VCL sprawia, że ​​wyodrębnianie tekstu jest proste i niezawodne. Niezależnie od tego, czy potrzebujesz podstawowej ekstrakcji tekstu, czy zaawansowanego przetwarzania z uwzględnieniem akapitów, komponent zapewnia wszystkie potrzebne narzędzia.

Dostęp na poziomie znaków pozwala na zaawansowaną analizę tekstu, a jednocześnie jest prosty Text obsługuje najczęstsze przypadki użycia za pomocą jednej linii kodu.

Rozpocznij budowanie Twoje rozwiązanie do ekstrakcji tekstu PDFium VCL Komponent dzisiaj.