Tekst extraheren uit PDF-documenten met PDFium VCL in Delphi

Tekstextractie is een van de meest voorkomende PDF-verwerkingstaken. Of u nu een documentzoekmachine, dataminingtoepassing of contentmanagementsysteem bouwt, de mogelijkheid om tekst uit PDF-bestanden te extraheren is essentieel. Deze tutorial behandelt de Tekst extraheren demo, die laat zien hoe u tekstinhoud uit PDF-documenten kunt extraheren met behulp van PDFium VCL.

Overzicht

De demo Tekst extraheren laat zien hoe u alle tekstinhoud uit een PDF-document kunt extraheren en in een tekstbestand kunt opslaan. Het ondersteunt de selectie van paginabereiken, het behoud van alinea's en verwerkt speciale tekens op de juiste manier.

Belangrijkste kenmerken

Volledige documentextractie – Extraheer tekst van alle pagina's tegelijk
Selectie van paginabereik – Extraheer alleen tekst van specifieke pagina's
Paragraafdetectie – Behoud de alineastructuur op basis van tekenposities
Speciale karakterverwerking – Optie om NUL-tekens uit de uitvoer te verwijderen
Paginascheidingstekens – Optionele witregels tussen pagina's
Voortgang volgen – Visuele voortgangsbalk en gedetailleerde logboekregistratie
UTF-8-uitvoer – Correct gecodeerde tekstuitvoer voor internationale documenten
Toegang op tekenniveau – Toegang tot individuele tekens voor geavanceerde verwerking

PDFium DLL-vereisten

Voordat u een PDFium VCL-toepassing uitvoert, moet u ervoor zorgen dat de PDFium DLL-bestanden zijn geïnstalleerd:

pdfium32.dll / pdfium64.dll – Standaardversies (~5-6 MB)
pdfium32v8.dll / pdfium64v8.dll – Met V8 JavaScript-engine (~23-27 MB)

Installatie: Loop PDFiumVCL\DLLs\CopyDlls.bat als beheerder om de DLL's automatisch naar Windows-systeemmappen te kopiëren.

Basistekstextractie

De eenvoudigste manier om tekst uit een PDF-pagina te extraheren:

procedure ExtractSimpleText;

var

Pdf: TPdf;

PageText: string;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

// Extract text from page 1

Pdf.PageNumber := 1;

PageText := Pdf.Text;

// Use the extracted text

Memo1.Lines.Text := PageText;

finally

Pdf.Active := False;

Pdf.Free;

end;

Extraheren uit alle pagina's

Loop door alle pagina's om de volledige documenttekst te extraheren:

procedure TFormMain.ButtonExtractClick(Sender: TObject);

var

I, StartPage, EndPage: Integer;

PageText: string;

FileStream: TFileStream;

Text: UTF8String;

begin

Pdf.FileName := EditPdfFile.Text;

Pdf.PageNumber := 0;

Pdf.Active := True;

try

// Determine page range

if RadioButtonAllPages.Checked then

begin

StartPage := 1;

EndPage := Pdf.PageCount;

end

else

begin

StartPage := StrToInt(EditFromPage.Text);

EndPage := StrToInt(EditToPage.Text);

end;

// Create output file

FileStream := TFileStream.Create(EditOutputFile.Text, fmCreate);

try

for I := StartPage to EndPage do

begin

Pdf.PageNumber := I;

PageText := Pdf.Text;

// Convert to UTF-8 and write

Text := UTF8Encode(PageText);

if Length(Text) > 0 then

FileStream.WriteBuffer(Text[1], Length(Text));

// Add page separator if enabled

if CheckBoxPageSeparator.Checked and (I < EndPage) then

begin

Text := UTF8Encode(#13#10#13#10#13#10);

FileStream.WriteBuffer(Text[1], Length(Text));

end;

ProgressBar.Position := I - StartPage + 1;

Application.ProcessMessages;

end;

finally

FileStream.Free;

end;

finally

Pdf.Active := False;

end;

Tekst extraheren met behoud van alinea's

Voor documenten waarbij de alineastructuur belangrijk is, gebruikt u tekenpositieanalyse:

function ExtractTextWithParagraphs(Pdf: TPdf): string;

var

CharIndex: Integer;

CurrentChar: WideChar;

CurrentY, PrevY: Double;

LineHeight, YGap: Double;

ResultText, LineBuffer: string;

MinLineHeight: Double;

begin

ResultText := '';

LineBuffer := '';

PrevY := -1;

MinLineHeight := 999999;

// First pass: determine typical line height

for CharIndex := 0 to Pdf.CharacterCount - 1 do

begin

CurrentY := Pdf.CharacterOrigin[CharIndex].Y;

if PrevY >= 0 then

begin

YGap := Abs(CurrentY - PrevY);

if (YGap > 0) and (YGap < MinLineHeight) then

MinLineHeight := YGap;

end;

PrevY := CurrentY;

end;

LineHeight := MinLineHeight;

if LineHeight <= 0 then

LineHeight := 12; // Default fallback

// Second pass: build text with paragraph detection

PrevY := -1;

for CharIndex := 0 to Pdf.CharacterCount - 1 do

begin

CurrentChar := Pdf.Character[CharIndex];

CurrentY := Pdf.CharacterOrigin[CharIndex].Y;

// Skip NUL characters

if Ord(CurrentChar) = 0 then

Continue;

// Check for line break based on Y position change

if PrevY >= 0 then

begin

YGap := Abs(CurrentY - PrevY);

if YGap > LineHeight * 1.2 then

begin

// Add current line to result

if LineBuffer <> '' then

begin

ResultText := ResultText + LineBuffer + #13#10;

LineBuffer := '';

end;

// Check if this is a paragraph break (larger gap)

if YGap > LineHeight * 2.5 then

ResultText := ResultText + #13#10; // Extra line for paragraph

end;

LineBuffer := LineBuffer + CurrentChar;

PrevY := CurrentY;

end;

// Add final line

if LineBuffer <> '' then

ResultText := ResultText + LineBuffer;

Result := ResultText;

end;

Geëxtraheerde tekst opschonen

Verwijder NUL-tekens en normaliseer de tekst:

function CleanAndFormatText(const RawText: string): UTF8String;

var

I: Integer;

CleanText: string;

begin

CleanText := '';

for I := 1 to Length(RawText) do

begin

// Skip NUL characters but keep all other characters

if Ord(RawText[I]) <> 0 then

CleanText := CleanText + RawText[I];

end;

Result := UTF8Encode(CleanText);

end;

Tekst uit een specifieke regio extraheren

Extraheer tekst uit een rechthoekig gebied van de pagina:

procedure ExtractTextFromRegion;

var

Pdf: TPdf;

RegionText: string;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

Pdf.PageNumber := 1;

// Extract text from specific rectangle

// Parameters: Left, Top, Right, Bottom (in PDF coordinates)

RegionText := Pdf.TextInRectangle(100, 700, 500, 600);

ShowMessage('Text in region: ' + RegionText);

finally

Pdf.Active := False;

Pdf.Free;

end;

Toegang op tekenniveau

Voor nauwkeurige tekstanalyse heeft u toegang tot individuele tekens:

procedure AnalyzeCharacters;

var

Pdf: TPdf;

I: Integer;

Char: WideChar;

Origin: TPdfPoint;

Rect: TPdfRectangle;

FontSize: Double;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

Pdf.PageNumber := 1;

// Access each character

for I := 0 to Pdf.CharacterCount - 1 do

begin

Char := Pdf.Character[I];

Origin := Pdf.CharacterOrigin[I];

Rect := Pdf.CharacterRectangle[I];

FontSize := Pdf.FontSize[I];

// Check character properties

if Pdf.CharacterGenerated[I] then

// Character was generated (e.g., hyphenation)

Continue;

if Pdf.CharacterMapError[I] then

// Character couldn't be mapped to Unicode

Continue;

// Process character with position and size info

Memo1.Lines.Add(Format('Char: %s at (%.2f, %.2f) size: %.2f',

[Char, Origin.X, Origin.Y, FontSize]));

end;

finally

Pdf.Active := False;

Pdf.Free;

end;

Karakter zoeken op schermpositie

Handig voor tekstselectie en interactie:

function GetCharacterAtPosition(Pdf: TPdf; X, Y: Double): Integer;

begin

// Get character index at position with tolerance

Result := Pdf.CharacterIndexAtPos(X, Y, 5.0, 5.0);

end;

Fouten en randgevallen afhandelen

procedure TFormMain.SafeExtractText;

begin

try

Pdf.FileName := EditPdfFile.Text;

Pdf.PageNumber := 0;

Pdf.Active := True;

except

on E: Exception do

begin

LogMessage('Failed to load PDF: ' + E.Message);

Exit;

end;

try

for I := StartPage to EndPage do

begin

try

Pdf.PageNumber := I;

PageText := Pdf.Text;

// Process text...

except

on E: Exception do

begin

// Log error but continue with next page

LogMessage('Error on page ' + IntToStr(I) + ': ' + E.Message);

end;

finally

Pdf.Active := False;

end;

Prestatieoverwegingen

Extraheer tekst pagina voor pagina in plaats van alles in het geheugen te laden
Gebruik streaming bestandsuitvoer voor grote documenten
Telefoongesprek Application.ProcessMessages in loops voor UI-responsiviteit
Overweeg batchverwerking voor meerdere documenten

Conclusie

De demo Tekst extraheren laat zien hoe PDFium VCL tekstextractie eenvoudig en betrouwbaar maakt. Of u nu eenvoudige tekstextractie of geavanceerde alineabewuste verwerking nodig heeft, de component biedt alle hulpmiddelen die u nodig heeft.

De toegang op tekenniveau maakt geavanceerde tekstanalyse mogelijk, terwijl het eenvoudig is Text property verwerkt de meest voorkomende gebruiksscenario's met één regel code.

Begin met bouwen uw oplossing voor tekstextractie met PDFium VCL-onderdeel Vandaag.