技術文章

瞭解 PDF:通用文件格式

· PDF 結構

PDF – 改變一切的文件格式。

每天,數百萬人在不知不覺中開啟 PDF 檔案。但這種普及的格式徹底改變了我們共享文件的方式,確保您在螢幕上看到的內容與其他人看到的完全一致,無論他們使用的是位於紐約的 Windows 電腦還是位於東京的 Mac 電腦。

為什麼 PDF 征服了數字世界。

在 PDF 出現之前,共享文件是一場噩夢。向某人傳送 Word 文件,格式就會出現問題。傳送簡報,一半的字型會丟失。PDF 通過建立一種在任何地方都外觀相同的通用文件語言,解決了這個問題。

PDF 解決了的問題。

想象一下,只使用點陣圖影像來共享文件,每頁都會是一個巨大的影像檔案。雖然這可以保留外觀,但會建立巨大的檔案,這些檔案無法搜尋、縮放或編輯。PDF 找到了一個平衡點:在保持精確的視覺外觀的同時,保持結構、可搜尋性和合理的的檔案大小。

PDF 如何實現其魔力。

PDF 是一個。 頁面描述語言與儲存頁面圖片不同,它儲存了用於重新建立頁面的指令。 就像食譜一樣:與其給某人一張蛋糕的照片,不如給他們食譜,讓他們自己烘焙出完全相同的蛋糕。

這種方法允許 PDF 包含:

  • 嵌入字型的文本(確保外觀一致)
  • 完美縮放的向量圖形
  • 具有智慧壓縮的高質量影像
  • 互動元素,如超連結和表單
  • 後設資料,用於組織和搜尋

PDF的誕生:Adobe的革命性願景

在20世紀90年代初期,Adobe面臨一個問題。他們的PostScript語言非常適合列印,但對於螢幕顯示卻很糟糕——要檢視第50頁,必須先處理1-49頁。PDF應運而生,它是Adobe的解決方案:一種基於PostScript的格式,專為數字文件最佳化。

1993年,PDF 1.0釋出時,它包含兩個工具:Acrobat Distiller用於建立PDF檔案,以及Acrobat Reader用於檢視PDF檔案——兩者都是付費軟體。轉折點是美國稅務部門採用PDF格式用於稅務表格,併購買了許可證,允許免費下載Reader。這為廣泛採用打開了大門。

PDF的獨特之處

隨機訪問:瞬間跳轉到任何位置

與許多文件格式不同,PDF允許立即訪問任何頁面。無論您正在檢視第1頁還是第1000頁,載入時間都是相同的。這可以通過 線性化實現——組織檔案資料,使每個頁面的元件儲存在一起,從而使Web瀏覽器可以在下載整個檔案之前顯示頁面。

智慧檔案管理

PDF 包含兩個巧妙的功能,使其在實際應用中非常實用:

流式建立: PDF 檔案可以逐步建立,即使最終檔案超過可用記憶體。這允許在效能較低的硬體上建立大型文件。

增量更新: 編輯 PDF 時,更改會附加到檔案末尾,而不是重寫整個檔案。這使得儲存速度更快,並通過保留以前的版本實現撤消功能。

嵌入式字型:告別“我沒有這個字型”

PDF 檔案會嵌入其使用的字型,從而消除了文件外觀因缺少字型而不同的常見問題。該格式對此非常智慧——它僅包含實際使用的字元,以保持檔案大小可控,同時確保完美重現。

PDF 成為一個開放標準。

2008年,PDF 成為 ISO 標準 (ISO-32000-1:2008),擺脫了 Adobe 的專有控制。這使 PDF 成為真正的開放標準,鼓勵在各個行業和平臺上的更廣泛採用。

針對特定需求而設計的 PDF 格式。

PDF/A:為永存而設計。

檔案館、圖書館和政府機構需要確保文件在幾十年甚至幾個世紀內保持可訪問。PDF/A 通過嚴格的要求來滿足這一需求:

  • 所有字型必須嵌入。
  • 不允許使用加密或 JavaScript。
  • 僅使用裝置無關顏色。
  • 用於目錄化的必要後設資料。

PDF/X:印刷行業的完美標準。

商業印刷需要精確性。PDF/X 通過要求嵌入字型和影像、指定色彩配置檔案以及定義印刷邊界(出血、裁切和藝術盒),確保檔案可以直接用於印刷。

PDF 內部:隱藏的更多內容。

始終可搜尋的文本。

PDF 保持了視覺文本與底層字元程式碼之間的連線,從而支援搜尋、複製貼上和輔助功能。現代 PDF 甚至可以將邏輯閱讀順序與視覺佈局分離,從而更好地支援螢幕閱讀器和文本提取。

向量圖形:無限的可擴充套件性。

PDF 的圖形系統,繼承自 PostScript,使用數學描述形狀,而不是畫素。這意味著圖形可以從名片完美地擴充套件到廣告牌,而不會損失質量。

智慧影像處理.

PDF 支援各種影像格式和壓縮方法,自動選擇最適合每種影像型別的方案。照片可能使用 JPEG 壓縮,而線條圖則使用無損方法.

針對高階使用者的增強功能.

現代 PDF 可以包含:

  • 互動式表單: 可以在 PDF 中直接填寫稅務申報單、申請表和調查問卷.
  • 數字簽名: 具有法律效力的文件認證.
  • 三維內容: 嵌入式三維模型,用於技術文件
  • 多媒體: 影片、音訊和動畫(但會降低可移植性)
  • 可選內容: 可以開關的圖層

誰使用PDF以及原因

印刷行業

PDF取代PostScript,成為印刷行業的標準,因為它支援印表機所需的一切:精確的色彩規範、精確的尺寸、套印資訊以及解析度無關性。

數字出版與電子書。

出版商喜歡PDF,因為它在保留精確佈局的同時,支援現代功能,如超連結和書籤。帶標籤的PDF甚至可以根據不同的螢幕尺寸重排文本,從而在固定佈局和響應式設計之間架起橋樑。

表單與政府。

PDF表單無論是在電子裝置上填寫還是列印後手寫填寫,外觀都完全一致。這種靈活性使其非常適合正在從紙質流程向數字化流程轉型的組織。

長期歸檔。

通過PDF/A,組織可以確保文件在未來幾十年內仍然可以訪問。該格式將視覺保真度與可搜尋文本相結合,並支援針對不同內容型別的最佳壓縮。

PDF的演進:版本與版本。

PDF 自 1993 年以來一直在穩步發展,在新增新功能的同時,保持了向後相容性。

Version Year Key Features Added
1.0 1993 First release
1.1 1996 Encryption, hyperlinks, device-independent color
1.2 1996 Interactive forms, multimedia, Unicode support
1.3 2000 Digital signatures, annotations, logical structure
1.4 2001 Transparency, 128-bit encryption, tagged PDF
1.5 2003 Object streams, JPEG 2000, optional content
1.6 2004 3D content, AES encryption, OpenType fonts
1.7 2006 Extended forms, 256-bit encryption (later versions)

必備的 PDF 工具

閱覽器

  • Adobe Acrobat Reader: 官方閱覽器,提供完整的特性支援。
  • Preview (Mac): 快速、內建的閱覽器,支援大多數 PDF 功能。
  • 基於瀏覽器的閱覽器: 大多數現代瀏覽器可以直接顯示 PDF 檔案。

建立和處理工具。

  • QPDF: 一種保留內容且可以轉換 PDF 檔案的工具。
  • CPDF: 強大的、免費的命令列工具,用於處理 PDF 檔案。
  • PDFtk: 命令列工具,用於分割、合併和處理 PDF 檔案。
  • Ghostscript: 強大的開源工具包,用於PDF處理。
  • LibreOffice/Microsoft Office: 可以直接將文件匯出為PDF格式。

PDF的未來。

儘管PDF已經有30多年的歷史,但它仍在不斷發展。最近的進展重點在於可訪問性、移動友好功能以及與現代工作流程的更好整合。雖然像HTML5和響應式設計等較新的格式已經改變了網頁釋出,但PDF在需要精確的視覺保真度時仍然無與倫比。

從法律合同到科學論文,從電子書到稅務表格,PDF已成為需要看起來完全一致的文件的通用語言。這是對Adobe最初願景的證明:一種將紙張和螢幕視為平等的格式,確保您建立的內容是他人看到的完全一致。