HTML'si Delphi'de PDFium VCL ile PDF Belgelerinden Metin Çıkarma | losLab Software Development Blog

Teknik makale

Delphi'de PDFium VCL ile PDF Belgelerinden Metin Çıkarma

· PDF Programlama

Metin çıkarma, en yaygın PDF işleme görevlerinden biridir. İster bir belge arama motoru, ister veri madenciliği uygulaması veya içerik yönetim sistemi oluşturuyor olun, PDF dosyalarından metin çıkarma yeteneği çok önemlidir. Bu eğitim şunları kapsamaktadır: Metni Çıkart PDFium VCL kullanarak PDF belgelerinden metin içeriğinin nasıl çıkarılacağını gösteren demo.

Genel Bakış

Metin Çıkarma demosu, bir PDF belgesindeki tüm metin içeriğinin nasıl çıkarılacağını ve bir metin dosyasına nasıl kaydedileceğini gösterir. Sayfa aralığı seçimini, paragraf korumayı destekler ve özel karakterleri düzgün şekilde işler.

Temel Özellikler

  • Tam Belge Çıkarma – Tüm sayfalardan metni aynı anda çıkarın
  • Sayfa Aralığı Seçimi – Yalnızca belirli sayfalardan metin çıkar
  • Paragraf Algılama – Karakter konumlarına göre paragraf yapısını koru
  • Özel Karakter İşleme – NUL karakterlerini çıktıdan kaldırma seçeneği
  • Sayfa Ayırıcılar – Sayfalar arasında isteğe bağlı boş satırlar
  • İlerleme Takibi – Görsel ilerleme çubuğu ve ayrıntılı günlük kaydı
  • UTF-8 Çıkışı – Uluslararası belgeler için uygun şekilde kodlanmış metin çıktısı
  • Karakter Düzeyinde Erişim – Gelişmiş işleme için ayrı ayrı karakterlere erişin

PDFium DLL Gereksinimleri

Herhangi bir PDFium VCL uygulamasını çalıştırmadan önce PDFium DLL dosyalarının kurulu olduğundan emin olun:

  • pdfium32.dll / pdfium64.dll – Standart sürümler (~5-6 MB)
  • pdfium32v8.dll / pdfium64v8.dll – V8 JavaScript motoruyla (~23-27 MB)

Kurulum: Çalıştır DLL'leri otomatik olarak Windows sistem dizinlerine kopyalamak için Yönetici olarak PDFiumVCL\DLLs\CopyDlls.bat .

Temel Metin Çıkarma

Bir PDF sayfasından metin çıkarmanın en basit yolu:

Tüm Sayfalardan Çıkarılıyor

Belge metninin tamamını çıkarmak için tüm sayfalar arasında dolaşın:

Paragraf Korumayla Metin Çıkarma

Paragraf yapısının önemli olduğu belgeler için karakter konumu analizini kullanın:

Çıkarılan Metni Temizleme

NUL karakterleri kaldırın ve metni normalleştirin:

Belirli Bir Bölgeden Metin Çıkarma

Metni sayfanın dikdörtgen bir bölgesinden çıkarın:

Karakter Düzeyinde Erişim

Hassas metin analizi için tek tek karakterlere erişin:

Ekran Konumunda Karakter Bulma

Metin seçimi ve etkileşim için kullanışlıdır:

Hataları ve Uç Durumları Ele Alma

Performansla İlgili Hususlar

  • Her şeyi belleğe yüklemek yerine metni sayfa sayfa çıkartın
  • Büyük belgeler için akışlı dosya çıktısını kullan
  • Ara Kullanıcı arayüzü duyarlılığı için döngülerde Application.ProcessMessages
  • Birden fazla belge için toplu işlemeyi düşünün

Sonuç

Metin Çıkarma demosu, PDFium VCL'nin metin çıkarmayı nasıl basit ve güvenilir hale getirdiğini gösterir. İster temel metin çıkarmaya, ister gelişmiş paragraf bilinçli işlemeye ihtiyacınız olsun, bileşen ihtiyacınız olan tüm araçları sağlar.

Karakter düzeyindeki erişim karmaşık metin analizine olanak tanırken, basit erişim Text özelliği, en yaygın kullanım durumlarını tek bir kod satırıyla işler.

İnşa etmeye başla ile metin çıkarma çözümünüz PDFium VCL Bileşeni bugün.