Fachartikel

Extrahieren von Text aus PDF-Dokumenten mit PDFium VCL in Delphi.

· PDF-Programmierung

Die Textextraktion ist eine der häufigsten Aufgaben bei der PDF-Verarbeitung. Ob Sie eine Dokumentensuchmaschine, eine Datenanalyseanwendung oder ein Content-Management-System entwickeln, die Fähigkeit, Text aus PDF-Dateien zu extrahieren, ist unerlässlich. Dieses Tutorial behandelt die Text extrahieren Demo, die zeigt, wie Textinhalte aus PDF-Dokumenten mit PDFium VCL extrahiert werden.

Überblick

Die Demo "Text extrahieren" demonstriert, wie alle Textinhalte aus einem PDF-Dokument extrahiert und in einer Textdatei gespeichert werden. Sie unterstützt die Auswahl von Seitenbereichen, die Beibehaltung von Absätzen und behandelt Sonderzeichen korrekt.

Hauptmerkmale

  • Vollständige Dokumentextraktion – Text aus allen Seiten gleichzeitig extrahieren
  • Seitenauswahl – Text nur aus bestimmten Seiten extrahieren
  • Absatzerkennung – Beibehaltung der Absatzstruktur basierend auf Zeichenpositionen.
  • Behandlung spezieller Zeichen. – Option zum Entfernen von NUL-Zeichen aus der Ausgabe.
  • Seitenumbrüche. – Optionale Leerzeilen zwischen Seiten.
  • Fortschrittsverfolgung – Visuelle Fortschrittsanzeige und detaillierte Protokollierung.
  • UTF-8-Ausgabe. – Korrekt kodierte Textausgabe für internationale Dokumente.
  • Zugriff auf Zeichenebene. – Zugriff auf einzelne Zeichen für erweiterte Verarbeitung.

PDFium-DLL-Anforderungen

Stellen Sie vor dem Ausführen einer PDFium VCL-Anwendung sicher, dass die PDFium DLL-Dateien installiert sind:

  • pdfium32.dll / pdfium64.dll – Standardversionen (~5-6 MB).
  • pdfium32v8.dll / pdfium64v8.dll – Mit V8 JavaScript-Engine (~23-27 MB).

Installation: Ausführen PDFiumVCL\DLLs\CopyDlls.bat als Administrator, um die DLLs automatisch in die Windows-Systemverzeichnisse zu kopieren.

Grundlegende Textextraktion.

Die einfachste Möglichkeit, Text aus einer PDF-Seite zu extrahieren:

Extrahieren aus allen Seiten.

Durchlaufen Sie alle Seiten, um den gesamten Dokumenttext zu extrahieren:

Textextraktion mit Absatzstruktur.

Für Dokumente, bei denen die Absatzstruktur wichtig ist, verwenden Sie die Analyse der Zeichenpositionen:

Textbereinigung.

Entfernen von NULL-Zeichen und Textnormalisierung:

Text extrahieren aus einem bestimmten Bereich.

Text aus einem rechteckigen Bereich der Seite extrahieren:

Zugriff auf Zeichenebene.

Für eine präzise Textanalyse, greifen Sie auf einzelne Zeichen zu:

Zeichen an Bildschirmposition finden.

Nützlich für Textauswahl und -interaktion:

Umgang mit Fehlern und Sonderfällen.

Leistungsüberlegungen

  • Extrahieren Sie Text seite für Seite, anstatt alles in den Speicher zu laden.
  • Verwenden Sie eine Streaming-Datei-Ausgabe für große Dokumente.
  • Rufen Sie Application.ProcessMessages in Schleifen auf, um die Reaktionsfähigkeit der Benutzeroberfläche zu gewährleisten.
  • Erwägen Sie eine Batch-Verarbeitung für mehrere Dokumente.

Abschluss

Die Extract Text-Demo zeigt, wie PDFium VCL die Textextraktion einfach und zuverlässig macht. Egal, ob Sie eine einfache Textextraktion oder eine erweiterte, absatzorientierte Verarbeitung benötigen, das Komponente bietet alle erforderlichen Tools.

Der zeichenweise Zugriff ermöglicht eine ausgefeilte Textanalyse, während die einfache Text property unterstützt die häufigsten Anwendungsfälle mit nur einer Codezeile.

Beginnen Sie mit dem Aufbau Ihrer Textextraktionslösung. PDFium VCL-Komponente heute.