המרת קבצי PDF לתצורה דיגיטלית

בסיס כל חוברת דיגיטלית מושתת על המרת קבצי PDF לפורמט דיגיטלי, המאפשר דפדוף בסגנון מגזין דיגיטלי, ספר דיגיטלי ועוד.
המערכת מאפשרת חיפוש מילה בתוך הטקסט, ומנוע החיפוש יודע לזהות טקסט ב-PDF

מה זה קובץ PDF

המרת קבצי PDF
המרת קבצי PDF

המרת קבצי PDF לתצורה דיגיטלית היא לב לבו של דיגיטלר. אז מה זה בכלל?
ובכן, PDF – Portable Document Format (בתרגום: פורמט המסמכים הניידים) עפ"י ויקיפדיה הוא הוא פורמט קובץ שפותח בשנות ה-90 זאת כדי להציג מסמכים, כולל עיצוב טקסט ותמונות, באופן שאינו תלוי כלל בתכנות יישומים, בחומרה ובמערכות הפעלה כלשהן.
מדובר בפורמט קובץ חופשי אשר הומצא על ידי חברת 'אדובי מערכות'  Adobe Systems וכיום מפותח על ידי 'ארגון התקינה הבינלאומי' International Organization for Standardization.

מטרת הפורמט הזה היא הצגה מדויקת של מסמכים ותוכן אחר, זאת ללא כל תלות בפלטפורמה.
כמו כן, התפישה שמסתתרת מאחורי פורמט ה־PDF היא של "דף וירטואלי" כך שמה שמוצג על המסך יתקבל בהדפסה בדיוק גדול.
שלא כפי שבמקרים רבים, בעיקר ב־HTML, בהן יש גרסאות נפרדות ושונות לתצוגה ולהדפסה.
כל קובץ PDF מכיל בעצם תיאור מלא של 'מסמך שטוח' שהוא בעל מבנה קבוע, כולל טקסטים, גופנים, וכן גרפיקה וקטורית, תמונות סריקה ועוד מידע שדרוש להצגתו.
PDF היה סטנדרטי כמו פורמט פתוח, ISO 32000, בשנת 2008, ואינו דורש כל תשלום ליישום שלה.

נעילת מסמכים

יתרון נוסף ודי משמעותי של פורמט ה-PDF הוא ביכולת של לנעול מסמכים – כך שלא ניתן יהיה לשנות אותם או להדפיס אותם.
בכך יש שמירה על זכויות יוצרים או אפשרות לסילוף התוכן.
כיום, קבצים מסוג PDF עשויים להכיל מגוון של תכנים, מלבד טקסט וגרפיקה שטוחים, כולל גם אפילו מיני אלמנטים של מבנה לוגי, או  אלמנטים אינטראקטיביים.
כמו למשל הערות ושדות טופס, שכבות, מדיה עשירה (כולל תוכן וידאו) וכן אובייקטים תלת-ממדיים שמשתמשים ב-U3D או PRC , וכן בפורמטים אחרים של נתונים.
המפרט של PDF מספק גם הצפנה וחתימות דיגיטליות, קבצים מצורפים ומטא נתונים.
זאת כדי לאפשר זרימות עבודה – כאלה שדורשות את התכונות שצוינו.

פופולרי ונפוץ


הפורמט הזה כיום הוא פופולרי ונפוץ מאוד, והוא מהווה כמעט תקן רשמי (דה-פקטו) להפצה של קבצי טקסט.
השימוש שבו נפוץ בציבור בכלל, ובכתבי עת מדעיים מקוונים בפרט.
כפי שכבר נאמר, לקבצים מסוג  PDF יכולות מגוונות ורבות.
זאת אפילו הרבה מעבר להצגה אלקטרונית של מסמכים.
בין היכולות הללו אפשר לציין  בעיקר – הוספה של שדות (כמו שדות טקסט), כפתורים, תפריטי גלילה ועוד.
לשדות הללו ניתן אף להצמיד פעולות של חישוב. השימוש ביכולת זו: בעיקר לטפסים אלקטרוניים/ דיגיטליים, אשר ניתנים למילוי ע"י המשתמש.

ההיסטוריה

מסתבר שמדובר בפורמט ותיק יחסית.
חברת אדובי עשתה את מפרט PDF זמין וללא כל תשלום כבר בשנת 1993.
בשנים הראשונות  לקיומו PDF היה פופולרי בעיקר בשולחנות עבודה workflows , והתחרה באותה תקופה מול מגוון גדול של פורמטים.
כמו למשל – DjVu , Common Ground Digital Paper, Farallon Replica ואפילו Adobe התחרה למעשה עם פורמט PostScript משלו.
PDF היה מה שנהוג לקרוא "פורמט קנייני" שנשלט על ידי חברת אדובי, עד שהוא שוחרר לאוויר העולם כ"סטנדרט פתוח" ביום 1 ביולי 2008, ופורסם על ידי הארגון הבינלאומי לתקינה.
זאת כמו למשל  ISO 32000-1: 2008, מפרט עבר ועדת ISO של מומחים מתנדבים בתעשייה.
ב-2008 פרסמה אדובי רישיון פטנטים ציבורי ל-ISO 32000-1 המעניק זכויות (ללא תמלוגים) עבור כל הפטנטים שבבעלות Adobe לביצוע, לשימוש, למכירה ולהפצה של יישומים שונים, שהם תואמי PDF.

JavaScript

המהדורה השישית של PDF שהפך ל-ISO 32000-1, כולל כמה וכמה טכנולוגיות קנייניות, שמוגדרות רק ע"י Adobe.
כמו Adobe XML Forms Architecture -XFA. ותוסף JavaScript ל- Acrobat, שאליהן מתייחסים ISO 32000-1 כ- "נורמטיבי וחיוני" ליישום מלא של מפרט ISO 32000-1.
(טכנולוגיות קנייניות אלה אינן מלוות בתקנות והמפרט שלהן מתפרסם אך ורק באתר של Adobe.)
רבים מהם אינם נתמכים גם על ידי יישומי צד שלישי פופולריים של PDF.

ראוי להדגיש שאדובי אימצה את שפת ה־JavaScript אשר במקור פותחה על ידי "נטסקייפ" ועוד הוסיפה פונקציות רבות שרלוונטיות  עבור ה־PDF.
שפה זו שמובנית בפורמט ה־PDF מאפשרת להגדיל את היכולות האינטראקטיביות והחישוביות.

עוד החליטה אדובי מערכות להעביר את פיתוח הפורמט לידי ארגון התקינה הבינלאומי והנציבות הבינלאומית לאלקטרוטכניקה.
ביום ה-1 ביולי 2008 פרסמה את הפורמט כסטנדרט ISO/IEC 32000-1:2008 ובכך בעצם הפך פורמט ה-PDF לחופשי באופן רשמי ואומץ בחום רב ע"י מיליונים ברחבי העולם.

המרת קבצי PDF

המהדורה הדיגיטלית / הקטלוג הדיגיטלי מבוססים למעשה על המרת קבצי PDF לתצורה דיגיטלית.
באופן זה הקבצים הללו הם הבסיס להמרה ואינם נזקקים לקורא PDF, שכן בשיטת ההמרה הנשענת על HTML5 (בניגוד לפלאש) ניתן לקרוא בקבצים ללא כל "קורא".
תוכן הטקסט בקבצי ה-PDF ניתן לזיהוי – הן ע"י פונקציית ה"חיפוש" המאתרת מילה מסוימת, או צירוף מילים המסתתרים בטקסט, והן ע"י רובוט החיפוש של מנועי החיפוש – כמו גוגל וכד'.