Articolo tecnico

Estrazione di testo da documenti PDF con PDFium VCL in Delphi.

· Programmazione PDF

L'estrazione del testo è una delle attività più comuni nell'elaborazione di file PDF. Che tu stia sviluppando un motore di ricerca di documenti, un'applicazione di data mining o un sistema di gestione dei contenuti, la capacità di estrarre testo dai file PDF è essenziale. Questo tutorial copre la Estrazione del testo demo, che mostra come estrarre il contenuto testuale dai documenti PDF utilizzando PDFium VCL.

Panoramica

La demo di estrazione del testo dimostra come estrarre tutto il contenuto testuale da un documento PDF e salvarlo in un file di testo. Supporta la selezione dell'intervallo di pagine, la conservazione dei paragrafi e gestisce correttamente i caratteri speciali.

Caratteristiche Principali

  • Estrazione completa del documento – Estrai il testo da tutte le pagine contemporaneamente
  • Selezione dell'intervallo di pagine – Estrai il testo solo da pagine specifiche
  • Rilevamento dei paragrafi – Mantenere la struttura dei paragrafi in base alla posizione dei caratteri.
  • Gestione dei caratteri speciali. – Opzione per rimuovere i caratteri NUL dall'output.
  • Separatori di pagina. – Righe vuote opzionali tra le pagine.
  • Monitoraggio dei progressi. – Barra di avanzamento visiva e logging dettagliato.
  • Output UTF-8. – Testo di output codificato correttamente per documenti internazionali.
  • Accesso a livello di carattere – Accedi ai singoli caratteri per l'elaborazione avanzata.

Requisiti delle librerie DLL di PDFium

Prima di eseguire qualsiasi applicazione VCL di PDFium, assicurarsi che i file DLL di PDFium siano installati:

  • pdfium32.dll / pdfium64.dll – Versioni standard (~5-6 MB)
  • pdfium32v8.dll / pdfium64v8.dll – Con il motore JavaScript V8 (~23-27 MB)

Installazione: Esegui PDFiumVCL\DLLs\CopyDlls.bat come amministratore per copiare automaticamente i file DLL nelle directory di sistema di Windows.

Estrazione di testo di base.

Il modo più semplice per estrarre il testo da una pagina PDF:

Estrazione da tutte le pagine.

Scorre tutte le pagine per estrarre l'intero testo del documento:

Estrazione del testo preservando la struttura dei paragrafi.

Per documenti in cui la struttura dei paragrafi è importante, utilizzare l'analisi della posizione dei caratteri:

Pulizia del testo estratto.

Rimuovere i caratteri NUL e normalizzare il testo:

Estrazione del testo da una regione specifica.

Estrarre il testo da una regione rettangolare della pagina:

Accesso a livello di carattere

Per un'analisi precisa del testo, accedere ai singoli caratteri:

Trovare il carattere in una posizione sullo schermo

Utile per la selezione e l'interazione con il testo:

Gestione degli errori e dei casi limite

Considerazioni sulle prestazioni

  • Estrai il testo pagina per pagina invece di caricare tutto in memoria.
  • Utilizza l'output di file in streaming per documenti di grandi dimensioni.
  • Chiama Application.ProcessMessages all'interno dei loop per garantire la reattività dell'interfaccia utente.
  • Considera l'elaborazione batch per più documenti.

Conclusione.

La demo di estrazione del testo mostra come PDFium VCL rende l'estrazione del testo semplice e affidabile. Che tu abbia bisogno di una semplice estrazione di testo o di un'elaborazione avanzata consapevole dei paragrafi, il componente fornisce tutti gli strumenti necessari.

L'accesso a livello di carattere consente un'analisi sofisticata del testo, mentre la semplicità Text property 解决了大多数常见用例,只需一行代码。

开始构建 您的文本提取解决方案。 Componente PDFium VCL today.