מאמר טכני

מאמר טכני: Delphi PDF Text, Image, and Font Extraction with PDFlibPas בעברית

הגרסה המקומית הזו מתמקדת ב-Text, Image, and Font Extraction from PDF in Delphi with PDFlibPas ומשתמשת במאמר האנגלי המעודכן כבסיס טכני לצוותי Delphi, PDF ותוכנות מסמכים

הדף הופך את מאמר הבסיס המעודכן לנקודות בדיקה מעשיות עבור תכנון, יישום ואימות

מה סונכרן מהמאמר האנגלי

מאמר הבסיס באנגלית הורחב בהקשר יישומי, החלטות טכניות ודוגמאות קונקרטיות, ולכן דף זה מיועד לשמש מדריך עבודה ולא תקציר קצר

חלקים חשובים במאמר הבסיס המעודכן:

  • השתמשו תחילה בקובצי קלט קטנים שניתן לשחזר
  • השאירו ללא שינוי שמות מוצרים, API, קבצים וערכי literal
  • שמרו את פלט ה-validator ואת פרטי הגרסאות יחד עם קובץ הדוגמה שנוצר

בחירות מעשיות ביישום

התחילו מסוג הקובץ, הפלט הרצוי ומצב השגיאה שהמשתמש צריך לראות. לאחר מכן קשרו כל קריאת API לתוצאה ניתנת לבדיקה, כדי שאימות, רישום ותמיכה יוכלו לשחזר את תרחיש הלקוח

  • השתמשו תחילה בקובצי קלט קטנים שניתן לשחזר
  • השאירו ללא שינוי שמות מוצרים, API, קבצים וערכי literal
  • שמרו את פלט ה-validator ואת פרטי הגרסאות יחד עם קובץ הדוגמה שנוצר

קוד ונקודות API

דוגמאות הקוד נשמרות ללא שינוי כדי שמפתחים יוכלו להשוות אותן ישירות לפרויקטי Delphi, C++Builder ו-Lazarus/FPC

var
  Pdf: TPDFlib;
  Blocks, I: Integer;
begin
  Pdf := TPDFlib.Create;
  try
    if Pdf.LoadFromFile('contract.pdf', '') <> 1 then
      raise Exception.Create('load failed');
    Pdf.SelectPage(1);
    Blocks := Pdf.ExtractPageTextBlocks(0);
    for I := 0 to Pdf.GetTextBlockCount(Blocks) - 1 do
      Writeln(Format('%s  [%s %.1f pt at %.0f,%.0f]',
        [Pdf.GetTextBlockText(Blocks, I),
         Pdf.GetTextBlockFontName(Blocks, I),
         Pdf.GetTextBlockFontSize(Blocks, I),
         Pdf.GetTextBlockBound(Blocks, I, 0),
         Pdf.GetTextBlockBound(Blocks, I, 1)]));
    Pdf.ReleaseTextBlocks(Blocks);
  finally
    Pdf.Free;
  end;
end;
var
  ImgList, I: Integer;
begin
  Pdf.SelectPage(1);
  ImgList := Pdf.GetPageImageList(0);
  for I := 0 to Pdf.GetImageListCount(ImgList) - 1 do
  begin
    Writeln(Pdf.GetImageListItemFormatDesc(ImgList, I, 0));
    Pdf.SaveImageListItemDataToFile(ImgList, I, 0,
      Format('page1-img%.2d.bin', [I]));
  end;
  Pdf.ReleaseImageList(ImgList);
end;
var
  I: Integer;
begin
  Pdf.FindFonts;
  for I := 1 to Pdf.FontCount do        // font indexes start at 1, not 0
    if Pdf.SelectFont(Pdf.GetFontID(I)) = 1 then
      Writeln(Format('%s  type=%d  embedded=%d  subset=%d',
        [Pdf.FontName, Pdf.FontType,
         Pdf.GetFontIsEmbedded, Pdf.GetFontIsSubsetted]));
end;

בדיקה לפני פרסום

בדקו את קובץ הפלט באותם כלים שבהם ישתמש הלקוח או הארכיון. תעדו גרסת רכיב, נתוני בדיקה, גרסת validator ותוצאה נצפית כדי לעקוב במדויק אחר רגרסיה עתידית

הרחבה מעשית

במאמר הזה על עיבוד PDF ב-Delphi, הצפנה, חתימות, תצוגה, פריסה ואימות המטרה אינה רק לתאר מה הרכיב או הזרימה עושים, אלא להראות איך קוראים אותם בתוך עבודה אמיתית: מה בודקים תחילה, איזה מצב כשל צריך להישאר גלוי, ואיך מחברים את הקריאות כך שאפשר יהיה להריץ את אותו מסלול שוב מחר בלי לנחש מה השתנה

כשעובדים עם עיבוד PDF ב-Delphi, הצפנה, חתימות, תצוגה, פריסה ואימות, כדאי להתחיל מקלט קטן ושחזורי, להגדיר תוצאה צפויה אחת ברורה, ורק אחר כך לעבור לזרימה המלאה שבה גודל, תוכן, הרשאות או מבנה פנימי הופכים את הבדיקה לרגישה יותר. כך כל שינוי קטן נשאר ניתן להסבר ולא נעלם בתוך קובץ גדול או דוגמה חצי־מוכנה

  • בדקו קלט קטן ושחזורי לפני מעבר לקבצי ייצור
  • תעדו גרסאות רכיב, מנוע וכלי אימות יחד עם התוצאה
  • חזרו על אותו מסלול קריאה כדי לוודא שאין סטייה