Teknisk artikel

Extrahera text från PDF-dokument med PDFium VCL i Delphi

· PDF-programmering

Textextraktion är en av de vanligaste PDF-bearbetningsuppgifterna. Oavsett om du bygger en dokumentsökmotor, ett datautvinningsprogram eller ett innehållshanteringssystem är möjligheten att extrahera text från PDF-filer avgörande. Denna handledning täcker Extrahera text demo, som visar hur man extraherar textinnehåll från PDF-dokument med PDFium VCL.

Översikt

Extrahera text-demon visar hur man extraherar allt textinnehåll från ett PDF-dokument och sparar det i en textfil. Den stöder val av sidintervall, styckebevarande och hanterar specialtecken på rätt sätt.

Nyckelfunktioner

  • Fullständig dokumentextraktion – Extrahera text från alla sidor samtidigt
  • Val av sidintervall – Extrahera endast text från specifika sidor
  • Paragrafdetektering – Bevara styckestruktur baserat på teckenpositioner
  • Specialkaraktärshantering – Möjlighet att ta bort NUL-tecken från utdata
  • Sidavskiljare – Valfria tomma rader mellan sidorna
  • Framstegsspårning – Visuell förloppsindikator och detaljerad loggning
  • UTF-8-utgång – Korrekt kodad textutmatning för internationella dokument
  • Tillgång på karaktärsnivå – Få tillgång till enskilda tecken för avancerad bearbetning

PDFium DLL-krav

Innan du kör ett PDFium VCL-program, se till att PDFium DLL-filerna är installerade:

  • pdfium32.dll / pdfium64.dll – Standardversioner (~5-6 MB)
  • pdfium32v8.dll / pdfium64v8.dll – Med V8 JavaScript-motor (~23-27 MB)

Installation: Kör PDFiumVCL\DLLs\CopyDlls.bat som administratör för att automatiskt kopiera DLL:erna till Windows systemkataloger.

Grundläggande textextraktion

Det enklaste sättet att extrahera text från en PDF-sida:

Extraherar från alla sidor

Bläddra igenom alla sidor för att extrahera hela dokumenttexten:

Extrahera text med styckebevarande

För dokument där styckestruktur är viktig, använd teckenpositionsanalys:

Rengöring extraherad text

Ta bort NUL-tecken och normalisera texten:

Extrahera text från en specifik region

Extrahera text från ett rektangulärt område på sidan:

Tillgång på karaktärsnivå

För exakt textanalys, få tillgång till enskilda tecken:

Hitta karaktär vid skärmposition

Användbart för textval och interaktion:

Hantering av fel och kantfall

Prestandaöverväganden

  • Extrahera text sida för sida istället för att ladda allt i minnet
  • Använd strömmande filutdata för stora dokument
  • Ring Application.ProcessMessages i loopar för gränssnittsrespons
  • Överväg batchbearbetning för flera dokument

Slutsats

Extract Text-demon visar hur PDFium VCL gör textextraktion enkel och pålitlig. Oavsett om du behöver grundläggande textextraktion eller avancerad styckemedveten bearbetning ger komponenten alla verktyg du behöver.

Tillgången på teckennivå möjliggör sofistikerad textanalys, medan den enkla Text egenskapen hanterar de vanligaste användningsfallen med en enda kodrad.

Börja bygga din textextraktionslösning med PDFium VCL-komponent idag.