Technisch artikel

Tekst extraheren uit PDF-documenten met PDFium VCL in Delphi

· PDF-programmeren

Tekstextractie is een van de meest voorkomende PDF-verwerkingstaken. Of u nu een documentzoekmachine, dataminingtoepassing of contentmanagementsysteem bouwt, de mogelijkheid om tekst uit PDF-bestanden te extraheren is essentieel. Deze tutorial behandelt de Tekst extraheren demo, die laat zien hoe u tekstinhoud uit PDF-documenten kunt extraheren met behulp van PDFium VCL.

Overzicht

De demo Tekst extraheren laat zien hoe u alle tekstinhoud uit een PDF-document kunt extraheren en in een tekstbestand kunt opslaan. Het ondersteunt de selectie van paginabereiken, het behoud van alinea's en verwerkt speciale tekens op de juiste manier.

Belangrijkste kenmerken

  • Volledige documentextractie – Extraheer tekst van alle pagina's tegelijk
  • Selectie van paginabereik – Extraheer alleen tekst van specifieke pagina's
  • Paragraafdetectie – Behoud de alineastructuur op basis van tekenposities
  • Speciale karakterverwerking – Optie om NUL-tekens uit de uitvoer te verwijderen
  • Paginascheidingstekens – Optionele witregels tussen pagina's
  • Voortgang volgen – Visuele voortgangsbalk en gedetailleerde logboekregistratie
  • UTF-8-uitvoer – Correct gecodeerde tekstuitvoer voor internationale documenten
  • Toegang op tekenniveau – Toegang tot individuele tekens voor geavanceerde verwerking

PDFium DLL-vereisten

Voordat u een PDFium VCL-toepassing uitvoert, moet u ervoor zorgen dat de PDFium DLL-bestanden zijn geïnstalleerd:

  • pdfium32.dll / pdfium64.dll – Standaardversies (~5-6 MB)
  • pdfium32v8.dll / pdfium64v8.dll – Met V8 JavaScript-engine (~23-27 MB)

Installatie: Loop PDFiumVCL\DLLs\CopyDlls.bat als beheerder om de DLL's automatisch naar Windows-systeemmappen te kopiëren.

Basistekstextractie

De eenvoudigste manier om tekst uit een PDF-pagina te extraheren:

Extraheren uit alle pagina's

Loop door alle pagina's om de volledige documenttekst te extraheren:

Tekst extraheren met behoud van alinea's

Voor documenten waarbij de alineastructuur belangrijk is, gebruikt u tekenpositieanalyse:

Geëxtraheerde tekst opschonen

Verwijder NUL-tekens en normaliseer de tekst:

Tekst uit een specifieke regio extraheren

Extraheer tekst uit een rechthoekig gebied van de pagina:

Toegang op tekenniveau

Voor nauwkeurige tekstanalyse heeft u toegang tot individuele tekens:

Karakter zoeken op schermpositie

Handig voor tekstselectie en interactie:

Fouten en randgevallen afhandelen

Prestatieoverwegingen

  • Extraheer tekst pagina voor pagina in plaats van alles in het geheugen te laden
  • Gebruik streaming bestandsuitvoer voor grote documenten
  • Telefoongesprek Application.ProcessMessages in loops voor UI-responsiviteit
  • Overweeg batchverwerking voor meerdere documenten

Conclusie

De demo Tekst extraheren laat zien hoe PDFium VCL tekstextractie eenvoudig en betrouwbaar maakt. Of u nu eenvoudige tekstextractie of geavanceerde alineabewuste verwerking nodig heeft, de component biedt alle hulpmiddelen die u nodig heeft.

De toegang op tekenniveau maakt geavanceerde tekstanalyse mogelijk, terwijl het eenvoudig is Text property verwerkt de meest voorkomende gebruiksscenario's met één regel code.

Begin met bouwen uw oplossing voor tekstextractie met PDFium VCL-onderdeel Vandaag.