Delphi の PDFium VCL を利用して PDF ドキュメントから画像を抽出する

PDFドキュメントには、多くの場合、貴重な画像（写真、図、グラフ、およびグラフィック）が含まれています。 画像の抽出 このデモでは、PDFium VCLを利用して、PDFドキュメントから埋め込まれたすべての画像を抽出し、それらの特性に基づいて最適な形式で保存する方法を示します。

概要

このデモでは、PDFページから埋め込まれた画像（ビットマップ）を抽出し、個別の画像ファイルとして保存します。画像プレビュー、形式の検出、および進捗状況の追跡機能付きのバッチ抽出が含まれています。

主な機能

すべての画像の抽出 – PDFからすべての埋め込み画像を抽出します。
ページ範囲の選択 – 特定のページのみから抽出します。
スマートフォーマット検出 – 画像の特性に基づいて、JPEG、PNG、またはBMPを自動的に選択
画像プレビュー – 保存する前に、抽出された画像のプレビューを表示
詳細情報 – サイズ、形式、およびファイルサイズを表示
バッチ処理 – 複数の画像を抽出（進捗状況を追跡）

PDFium DLL の要件

PDFium VCL アプリケーションを実行する前に、PDFium DLL ファイルがインストールされていることを確認してください。

pdfium32.dll / pdfium64.dll – 標準バージョン（約 5-6 MB）
pdfium32v8.dll / pdfium64v8.dll – V8 JavaScript エンジン付き（約 23-27 MB）

インストール: 実行 PDFiumVCL\DLLs\CopyDlls.bat 管理者権限で、DLLファイルをWindowsシステムディレクトリに自動的にコピーします。

基本的な画像抽出

埋め込み画像には、次のプロパティからアクセスできます。 Bitmap 和 BitmapCount プロパティ:

procedure ExtractImagesSimple;

var

Pdf: TPdf;

I, J: Integer;

Bitmap: TBitmap;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

// Loop through all pages

for I := 1 to Pdf.PageCount do

begin

Pdf.PageNumber := I;

// Loop through all images on this page

for J := 0 to Pdf.BitmapCount - 1 do

begin

Bitmap := Pdf.Bitmap[J];

try

// Save as BMP

Bitmap.SaveToFile(Format('Page%d_Image%d.bmp', [I, J + 1]));

finally

Bitmap.Free;

end;

finally

Pdf.Active := False;

Pdf.Free;

end;

形式検出を含む完全な抽出

デモプログラムでは、スマートな形式選択を実装しています。

procedure TFormMain.ButtonExtractClick(Sender: TObject);

var

I, J, StartPage, EndPage: Integer;

Bitmap: TBitmap;

FullFileName, DetectedFormat, ImageExtension: string;

ImageInfo: TImageInfo;

begin

FCancelled := False;

FProcessedImages := 0;

FTotalImages := 0;

ClearExtractedImages;

EnableControls(False);

try

Pdf.FileName := EditPdfFile.Text;

Pdf.PageNumber := 0;

Pdf.Active := True;

ParsePageRange(EditPageRange.Text, StartPage, EndPage);

if EndPage = -1 then

EndPage := Pdf.PageCount;

// Calculate total images for progress

for I := StartPage to EndPage do

begin

Pdf.PageNumber := I;

FTotalImages := FTotalImages + Pdf.BitmapCount;

end;

ProgressBar.Max := FTotalImages;

// Extract images

for I := StartPage to EndPage do

begin

if FCancelled then

Break;

Pdf.PageNumber := I;

for J := 0 to Pdf.BitmapCount - 1 do

begin

if FCancelled then

Break;

Bitmap := Pdf.Bitmap[J];

if Assigned(Bitmap) then

begin

try

// Detect optimal format

DetectedFormat := DetectImageFormat(Bitmap);

ImageExtension := GetExtensionForFormat(DetectedFormat);

FullFileName := Format('%s\Page%d_Image%d%s',

[FCurrentOutputDir, I, J + 1, ImageExtension]);

SaveBitmapInOptimalFormat(Bitmap, FullFileName);

// Store image info for preview

ImageInfo.FileName := FullFileName;

ImageInfo.PageNumber := I;

ImageInfo.ImageIndex := J + 1;

ImageInfo.Width := Bitmap.Width;

ImageInfo.Height := Bitmap.Height;

ImageInfo.Format := DetectedFormat;

ImageInfo.Bitmap := TBitmap.Create;

ImageInfo.Bitmap.Assign(Bitmap);

AddImageInfo(ImageInfo);

Inc(FProcessedImages);

ProgressBar.Position := FProcessedImages;

finally

Bitmap.Free;

end;

UpdateImageList;

finally

Pdf.Active := False;

EnableControls(True);

end;

スマートな形式検出

画像の特性に基づいて最適な形式を選択します。

function TFormMain.DetectImageFormat(ABitmap: TBitmap): string;

begin

// Check if image has transparency (alpha channel)

if ABitmap.PixelFormat = pf32bit then

begin

// PNG for transparency support

Result := 'PNG';

end

// Check if it's likely a photographic image

else if (ABitmap.Width * ABitmap.Height > 100000) and

(ABitmap.PixelFormat in [pf24bit, pf32bit]) then

begin

// Large, complex image - use JPEG for smaller file size

Result := 'JPEG';

end

else

begin

// Small or simple image - preserve quality with BMP

Result := 'BMP';

end;

function TFormMain.GetExtensionForFormat(const AFormat: string): string;

begin

case UpperCase(AFormat)[1] of

'J': Result := '.jpg';

'P': Result := '.png';

'B': Result := '.bmp';

else

Result := '.bmp';

end;

最適な形式で保存

procedure TFormMain.SaveBitmapInOptimalFormat(ABitmap: TBitmap;

const AFileName: string);

var

JpegImg: TJPEGImage;

FileExt: string;

begin

FileExt := UpperCase(ExtractFileExt(AFileName));

if FileExt = '.JPG' then

begin

// Save as JPEG with good quality

JpegImg := TJPEGImage.Create;

try

JpegImg.Assign(ABitmap);

JpegImg.CompressionQuality := 85; // Good quality/size balance

JpegImg.SaveToFile(AFileName);

finally

JpegImg.Free;

end;

end

else if FileExt = '.PNG' then

begin

// PNG would require additional library

// Fall back to BMP for compatibility

ABitmap.SaveToFile(ChangeFileExt(AFileName, '.bmp'));

end

else

begin

// BMP - lossless quality

ABitmap.SaveToFile(AFileName);

end;

TPdfImageクラスを利用して、生の画像データを処理します。

高度な利用例では、生の画像データにアクセスできます。

procedure ProcessRawImageData;

var

Pdf: TPdf;

I: Integer;

PdfImage: TPdfImage;

begin

Pdf := TPdf.Create(nil);

try

Pdf.FileName := 'document.pdf';

Pdf.Active := True;

Pdf.PageNumber := 1;

for I := 0 to Pdf.ImageCount - 1 do

begin

PdfImage := Pdf.Image[I];

// Access raw image properties

ShowMessage(Format('Image %d: %d x %d, %d bytes',

[I, PdfImage.Width, PdfImage.Height, Length(PdfImage.Data)]));

// PdfImage.Data contains raw pixel data

end;

finally

Pdf.Active := False;

Pdf.Free;

end;

画像情報の表示

procedure TFormMain.UpdatePreview(Index: Integer);

var

Info: TImageInfo;

begin

if (Index >= 0) and (Index < Length(FExtractedImages)) then

begin

Info := FExtractedImages[Index];

// Update preview

if Assigned(Info.Bitmap) then

ImagePreview.Picture.Assign(Info.Bitmap);

// Update info display

MemoInfo.Lines.Clear;

MemoInfo.Lines.Add('File: ' + ExtractFileName(Info.FileName));

MemoInfo.Lines.Add('Page: ' + IntToStr(Info.PageNumber));

MemoInfo.Lines.Add('Dimensions: ' + IntToStr(Info.Width) +

' x ' + IntToStr(Info.Height));

MemoInfo.Lines.Add('Format: ' + Info.Format);

if Info.Size > 0 then

MemoInfo.Lines.Add('Size: ' + FormatFloat('#,##0', Info.Size) + ' bytes');

end;

ページ範囲の解析。

procedure TFormMain.ParsePageRange(const ARange: string;

var AStartPage, AEndPage: Integer);

var

RangeStr: string;

DashPos: Integer;

begin

RangeStr := Trim(ARange);

AStartPage := 1;

AEndPage := -1; // -1 means extract to end

if (RangeStr = '') or (UpperCase(RangeStr) = 'ALL') then

Exit;

DashPos := Pos('-', RangeStr);

if DashPos > 0 then

begin

// Range format: start-end

AStartPage := StrToIntDef(Trim(Copy(RangeStr, 1, DashPos - 1)), 1);

AEndPage := StrToIntDef(Trim(Copy(RangeStr, DashPos + 1, Length(RangeStr))), -1);

end

else

begin

// Single page

AStartPage := StrToIntDef(RangeStr, 1);

AEndPage := AStartPage;

end;

抽出された画像のフォルダを開きます。

procedure TFormMain.ButtonOpenFolderClick(Sender: TObject);

begin

if DirectoryExists(FCurrentOutputDir) then

ShellExecute(Handle, 'open', PChar(FCurrentOutputDir), nil, nil, SW_SHOWNORMAL)

else

ShowMessage('Output directory does not exist.');

end;

利用例

デジタルアセットの抽出。 – マーケティング資料から写真やグラフィックを抽出します。
ドキュメントの変換。 – Web やその他の形式で利用する画像を準備します。
アーカイブ処理。 – スキャン済みドキュメントのアーカイブから画像を抽出します。
内容分析。 – 機械学習や分析に使用する画像を抽出します。

結論

Extract Images デモは、PDFium VCL を使用して PDF ドキュメントから埋め込み画像を簡単に抽出できることを示します。複雑な PDF 解析はコンポーネントが処理するため、抽出した画像をアプリケーションでどう活用するかに集中できます。

スマートな形式検出と組み合わせることで、用途に合わせて最適化された出力を作成する実用的な画像抽出ツールを構築できます。

詳しく見る。 PDFiumコンポーネント loslab.com で PDF ドキュメント内のコンテンツ活用を始めましょう。