Extrahieren von Text aus PDF-Dokumenten mit PDFium VCL in Delphi.

Die Textextraktion ist eine der häufigsten Aufgaben bei der PDF-Verarbeitung. Ob Sie eine Dokumentensuchmaschine, eine Datenanalyseanwendung oder ein Content-Management-System entwickeln, die Fähigkeit, Text aus PDF-Dateien zu extrahieren, ist unerlässlich. Dieses Tutorial behandelt die Text extrahieren Demo, die zeigt, wie Textinhalte aus PDF-Dokumenten mit PDFium VCL extrahiert werden.

Überblick

Die Demo "Text extrahieren" demonstriert, wie alle Textinhalte aus einem PDF-Dokument extrahiert und in einer Textdatei gespeichert werden. Sie unterstützt die Auswahl von Seitenbereichen, die Beibehaltung von Absätzen und behandelt Sonderzeichen korrekt.

Hauptmerkmale

Vollständige Dokumentextraktion – Text aus allen Seiten gleichzeitig extrahieren
Seitenauswahl – Text nur aus bestimmten Seiten extrahieren
Absatzerkennung – Beibehaltung der Absatzstruktur basierend auf Zeichenpositionen.
Behandlung spezieller Zeichen. – Option zum Entfernen von NUL-Zeichen aus der Ausgabe.
Seitenumbrüche. – Optionale Leerzeilen zwischen Seiten.
Fortschrittsverfolgung – Visuelle Fortschrittsanzeige und detaillierte Protokollierung.
UTF-8-Ausgabe. – Korrekt kodierte Textausgabe für internationale Dokumente.
Zugriff auf Zeichenebene. – Zugriff auf einzelne Zeichen für erweiterte Verarbeitung.

PDFium-DLL-Anforderungen

Stellen Sie vor dem Ausführen einer PDFium VCL-Anwendung sicher, dass die PDFium DLL-Dateien installiert sind:

pdfium32.dll / pdfium64.dll – Standardversionen (~5-6 MB).
pdfium32v8.dll / pdfium64v8.dll – Mit V8 JavaScript-Engine (~23-27 MB).

Installation: Ausführen PDFiumVCL\DLLs\CopyDlls.bat als Administrator, um die DLLs automatisch in die Windows-Systemverzeichnisse zu kopieren.

Grundlegende Textextraktion.

Die einfachste Möglichkeit, Text aus einer PDF-Seite zu extrahieren:

procedure ExtractSimpleText;

var

Pdf: TPdf;

PageText: string;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

// Extract text from page 1

Pdf.PageNumber := 1;

PageText := Pdf.Text;

// Use the extracted text

Memo1.Lines.Text := PageText;

finally

Pdf.Active := False;

Pdf.Free;

end;

Extrahieren aus allen Seiten.

Durchlaufen Sie alle Seiten, um den gesamten Dokumenttext zu extrahieren:

procedure TFormMain.ButtonExtractClick(Sender: TObject);

var

I, StartPage, EndPage: Integer;

PageText: string;

FileStream: TFileStream;

Text: UTF8String;

begin

Pdf.FileName := EditPdfFile.Text;

Pdf.PageNumber := 0;

Pdf.Active := True;

try

// Determine page range

if RadioButtonAllPages.Checked then

begin

StartPage := 1;

EndPage := Pdf.PageCount;

end

else

begin

StartPage := StrToInt(EditFromPage.Text);

EndPage := StrToInt(EditToPage.Text);

end;

// Create output file

FileStream := TFileStream.Create(EditOutputFile.Text, fmCreate);

try

for I := StartPage to EndPage do

begin

Pdf.PageNumber := I;

PageText := Pdf.Text;

// Convert to UTF-8 and write

Text := UTF8Encode(PageText);

if Length(Text) > 0 then

FileStream.WriteBuffer(Text[1], Length(Text));

// Add page separator if enabled

if CheckBoxPageSeparator.Checked and (I < EndPage) then

begin

Text := UTF8Encode(#13#10#13#10#13#10);

FileStream.WriteBuffer(Text[1], Length(Text));

end;

ProgressBar.Position := I - StartPage + 1;

Application.ProcessMessages;

end;

finally

FileStream.Free;

end;

finally

Pdf.Active := False;

end;

Textextraktion mit Absatzstruktur.

Für Dokumente, bei denen die Absatzstruktur wichtig ist, verwenden Sie die Analyse der Zeichenpositionen:

function ExtractTextWithParagraphs(Pdf: TPdf): string;

var

CharIndex: Integer;

CurrentChar: WideChar;

CurrentY, PrevY: Double;

LineHeight, YGap: Double;

ResultText, LineBuffer: string;

MinLineHeight: Double;

begin

ResultText := '';

LineBuffer := '';

PrevY := -1;

MinLineHeight := 999999;

// First pass: determine typical line height

for CharIndex := 0 to Pdf.CharacterCount - 1 do

begin

CurrentY := Pdf.CharacterOrigin[CharIndex].Y;

if PrevY >= 0 then

begin

YGap := Abs(CurrentY - PrevY);

if (YGap > 0) and (YGap < MinLineHeight) then

MinLineHeight := YGap;

end;

PrevY := CurrentY;

end;

LineHeight := MinLineHeight;

if LineHeight <= 0 then

LineHeight := 12; // Default fallback

// Second pass: build text with paragraph detection

PrevY := -1;

for CharIndex := 0 to Pdf.CharacterCount - 1 do

begin

CurrentChar := Pdf.Character[CharIndex];

CurrentY := Pdf.CharacterOrigin[CharIndex].Y;

// Skip NUL characters

if Ord(CurrentChar) = 0 then

Continue;

// Check for line break based on Y position change

if PrevY >= 0 then

begin

YGap := Abs(CurrentY - PrevY);

if YGap > LineHeight * 1.2 then

begin

// Add current line to result

if LineBuffer <> '' then

begin

ResultText := ResultText + LineBuffer + #13#10;

LineBuffer := '';

end;

// Check if this is a paragraph break (larger gap)

if YGap > LineHeight * 2.5 then

ResultText := ResultText + #13#10; // Extra line for paragraph

end;

LineBuffer := LineBuffer + CurrentChar;

PrevY := CurrentY;

end;

// Add final line

if LineBuffer <> '' then

ResultText := ResultText + LineBuffer;

Result := ResultText;

end;

Textbereinigung.

Entfernen von NULL-Zeichen und Textnormalisierung:

function CleanAndFormatText(const RawText: string): UTF8String;

var

I: Integer;

CleanText: string;

begin

CleanText := '';

for I := 1 to Length(RawText) do

begin

// Skip NUL characters but keep all other characters

if Ord(RawText[I]) <> 0 then

CleanText := CleanText + RawText[I];

end;

Result := UTF8Encode(CleanText);

end;

Text extrahieren aus einem bestimmten Bereich.

Text aus einem rechteckigen Bereich der Seite extrahieren:

procedure ExtractTextFromRegion;

var

Pdf: TPdf;

RegionText: string;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

Pdf.PageNumber := 1;

// Extract text from specific rectangle

// Parameters: Left, Top, Right, Bottom (in PDF coordinates)

RegionText := Pdf.TextInRectangle(100, 700, 500, 600);

ShowMessage('Text in region: ' + RegionText);

finally

Pdf.Active := False;

Pdf.Free;

end;

Zugriff auf Zeichenebene.

Für eine präzise Textanalyse, greifen Sie auf einzelne Zeichen zu:

procedure AnalyzeCharacters;

var

Pdf: TPdf;

I: Integer;

Char: WideChar;

Origin: TPdfPoint;

Rect: TPdfRectangle;

FontSize: Double;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

Pdf.PageNumber := 1;

// Access each character

for I := 0 to Pdf.CharacterCount - 1 do

begin

Char := Pdf.Character[I];

Origin := Pdf.CharacterOrigin[I];

Rect := Pdf.CharacterRectangle[I];

FontSize := Pdf.FontSize[I];

// Check character properties

if Pdf.CharacterGenerated[I] then

// Character was generated (e.g., hyphenation)

Continue;

if Pdf.CharacterMapError[I] then

// Character couldn't be mapped to Unicode

Continue;

// Process character with position and size info

Memo1.Lines.Add(Format('Char: %s at (%.2f, %.2f) size: %.2f',

[Char, Origin.X, Origin.Y, FontSize]));

end;

finally

Pdf.Active := False;

Pdf.Free;

end;

Zeichen an Bildschirmposition finden.

Nützlich für Textauswahl und -interaktion:

function GetCharacterAtPosition(Pdf: TPdf; X, Y: Double): Integer;

begin

// Get character index at position with tolerance

Result := Pdf.CharacterIndexAtPos(X, Y, 5.0, 5.0);

end;

Umgang mit Fehlern und Sonderfällen.

procedure TFormMain.SafeExtractText;

begin

try

Pdf.FileName := EditPdfFile.Text;

Pdf.PageNumber := 0;

Pdf.Active := True;

except

on E: Exception do

begin

LogMessage('Failed to load PDF: ' + E.Message);

Exit;

end;

try

for I := StartPage to EndPage do

begin

try

Pdf.PageNumber := I;

PageText := Pdf.Text;

// Process text...

except

on E: Exception do

begin

// Log error but continue with next page

LogMessage('Error on page ' + IntToStr(I) + ': ' + E.Message);

end;

finally

Pdf.Active := False;

end;

Leistungsüberlegungen

Extrahieren Sie Text seite für Seite, anstatt alles in den Speicher zu laden.
Verwenden Sie eine Streaming-Datei-Ausgabe für große Dokumente.
Rufen Sie Application.ProcessMessages in Schleifen auf, um die Reaktionsfähigkeit der Benutzeroberfläche zu gewährleisten.
Erwägen Sie eine Batch-Verarbeitung für mehrere Dokumente.

Abschluss

Die Extract Text-Demo zeigt, wie PDFium VCL die Textextraktion einfach und zuverlässig macht. Egal, ob Sie eine einfache Textextraktion oder eine erweiterte, absatzorientierte Verarbeitung benötigen, das Komponente bietet alle erforderlichen Tools.

Der zeichenweise Zugriff ermöglicht eine ausgefeilte Textanalyse, während die einfache Text property unterstützt die häufigsten Anwendungsfälle mit nur einer Codezeile.

Beginnen Sie mit dem Aufbau Ihrer Textextraktionslösung. PDFium VCL-Komponente heute.