פורמטי קבצים¶
סקירה על פורמטים של קבצים¶
JSON¶
JSON הוא פורמט קבצים פשוט, קל מאוד לקריאה על-ידי כל שפת תכנות. בפשטות הכוונה, שקל יותר למחשבים לקרוא פורמט זה, מאשר אחרים, למשל, XML.
XML¶
XML הוא פורמט קבצים נפוץ מאוד בשימוש להחלפת מידע, משום שהוא נותן אפשרויות רבות לשמירה על מבנה המידע והצורה בה נבנים הקבצים שלו, והוא מאפשר למפתחים לכתוב חלקים מהמסמכים, בלי להפריע לקריאה שלהם.
RDF¶
RDF הוא פורמט המומלץ על-ידי ה-W3C (The World Wide Web Consortium). הוא מאפשר להציג מידע בצורה המקלה על שילוב מידע ממקורות רבים. מידע RDF יכול להיות מאוחסן בקבציXML ו-JSON, כמו גם אחרים. RDF מעודד את השימוש בכתובות אינטרנט (URL) כמזהים, המאפשרים דרך נוחה לחיבור בין מקורות :מונח:’מידע פתוח’ ברשת. RDF עדיין לא נפוץ מספיק, אבל הוא מקובל בקרב כמה יוזמות של מידע ממשלתי פתוח, כמו בבריטניה וספרד. ממציא האינטרנט, טים ברנרס-לי (Tim Berners-Lee) הציע לאחרונה תוכנית בת חמישה שלבים, הכוללת מידע RDF מקושר, כמטרה להשגה על-ידי יושמות מידע פתוח.
גיליונות נתונים¶
לרשויות רבות מידע, הניתן כקבצי אקסל. מידע זה יכול להיות מנוצל באופן מיידי, עם תיאורים מדוייקים על העמודות השונות.
למרות זאת, בכמה מקרים אפשר לעשות שימוש בפקודות מאקרו ובנוסחאות, על גיליונות אקסל המכילים מידע רב. מומלץ, לכן, לתעד את החישובים הללו בצמוד לגיליונות, כי אז הם יהיו יותר נגישים למשתמשים.
קבצי CSV¶
קבצי CSV יכולים להיות מאוד שימושיים, כי הם קומפקטים ולכן מתאימים להעברת מערכי מידע גדולים באותו המבנה. אלא שזהו פורמט כה מינימליסטי, שהמידע בו חסר משמעות ללא מסמכי הסבר, אחרת לא ניתן לנחש את ההבדל בין העמודות.. חשוב, לפיכך, בשימוש בפורמט CSV, שההסברים המצורפים על תוכן השדות יהיו מדוייקים
יותר מכך, חיוני שמבנה הקובץ יכובד, משום שאפילו השמטה של שדה בודד, עלולה להפריע לקריאה של כל שאר המידע בקובץ, בלי שום אפשרות לתקן זאת, כי לא ניתן לקבוע כיצד יתר המידע אמור להיות מפורש.
קבצי טקסט¶
מסמכים קלאסיים בפורמטים כמו וורד, ODF, OOXML או PDF, יכולים להיות יעילים לכמה סוגי מידע - למשל, רשימות דיוור די יציבות, או דומה לכך. ייתכן ויהיה זול יותר להצחג את המידע בפורמט המקורי שלו. הפורמט לא נותן שום תמיכה להשאיר את המבנה עקבי, כלומר, לרוב יהיה קשה להוסיף להם מידע באופן אוטומטי. השתמשו בתבניות (Templates) כבסיס למסמכים שיציגו מידע לשימוש חוזר, כך שלפחות יהיה ניתן למשוך מידע מהם.
זה יכול גם לתמוך בשימוש נוסף במידע לשימוש בסימני טיפוגרפיה, ככל שניתן, כך שמחשב יוכל להבחין בקלות רבה יותר בכותרות (מכל סוג) מתוך התוכן, וכן הלאה. מומלץ לא להציג קבצי וורד, אם המידע מצוי בפורמט אחר.
טקסט¶
קבצי טקסט (txt) נקראים בקלות על-יד מחשבים. הם בדרך לא כוללים מידע-על מבני, כלומר, מפתחים חייבים ליצור מנתח קובץ, שיפענח כל קובץ בנפרד.
כמה בעיות יכולות להיווצר מהעברת קבצי טקסט בין מערכות הפעלה שונות. ל”חלונות”, מחשבי מק ומחשבי יוניקס , דרכים שונות להודיע למחשב, שהטקסט הגיע לסוף השורה.
תמונה סרוקה¶
ככל הנראה הצורה הכי פחות מתאימה לרוב סוגי המידע, אבל גם TIFF וגם JPEG-2000 יכולות לפחות להכיל תיעוד על נושא התמונה - עד כדי תמונה של המסמך, עם כל הטקסט שלו. ייתכן ויהיה רלוונטי למידע התצוגה שלהן, כתמונות שלא נולדו בצורה אלקטרונית - דגומה מובהקת היא תקליטי אולד צ’רץ’ ושאר המידע הארכיוני - תמונה טובה מלא כלום.
פורמטים קנייניים¶
לכמה מערכות ייעודיות יש פורמטי מידע, שיכולים לשמור או לייצא נתונים. לפעמים מספיק לחשוף מידע בפורמט כזה, במיוחד אם צפוי ששימוש נוסף במידע יהיה במערכות דומות. תמיד חובה לציין איפה ניתן למצוא מדע נוסף על הפורמטים הקינייניים הללו, למשל על-ידי הוספת קישור לאתר הספק. באופן כללי, מומלץ להציג מידע בפורמטים לא קינייניים היכן שניתן.
HTML¶
כיום, מידע רב זמין באתרים מגוונים בפורמט HTML. זה יכול להיות מספיק, אם המידע יציב מאוד ומוגבל בהיקפו. לעיתים עדיף שהמידע יהיה בפורמט קל יותר להורדה ושינוי, כיוון שהפניה לדף אינטרנט זולה וקלה יותר, זו יכולה להיות נקודת התחלה טובה להצגת המידע.
טבלאות הן הדרך המועדפת לשמירת מידע בקבצי HTML. חשוב שכל שדות המידע יוצגו ויננתנו להם מספרים ייחודיים (ID) כדי להקל על מציאתם ועל עריכת שינויים בהם. יאהו פיתחה כלי, שיכול לדלות מידע מובנה מאתר אינטרנט (ראו (http://developer.yahoo.com/yql/)). כלים כאלה יכולים לעשות הרבה יותר עם המידע, אם הוא מתוייג בקפדנות.
פורמטי קבצים פתוחים¶
גם אם מידע ניתן כקובץ דיגיטלי מפורט, ייתכנו בעיות הקשורות לפורמט עצמו.
הפורמטים בהם מפורסם מידע - במילים אחרות, הבסיס הדיגיטלי המאחסן את המידע - יכולים להיות “פתוחים” או “סגורים”. פורמט פתוח הוא כזה, שהמפרט שלו פתוח לכל, ללא תשלום, כך שכל אחד יכול לעשות שימוש במפרט זה עם תוכנה משלו, בלי כל מגבלות על שימוש חוזר, המוטלות מתוך זכויות קניין אינטלקטואליות.
אם הקובץ הוא בפורמט “סגור”, זה מכיוון שהפורמט שלו הוא קנייני והמפרט שלו אינו ציבורי, או כי פורמט הקובץ הוא כן קנייני, אבל הדרישות שלו כן גלויות לציבור, שאז השימוש החוזר בו מוגבל. אם מידע משוחרר בפורמט סגור, זה יכול לגרום למכשולים קשים בשימוש חוזר במידע הנמצא בקובץ כזה, דבר המאלץ את אלה שרוצים להשתמש בו לקנות תוכנה הכרחית.
היתרון בפורמטי קבצים פתוחים, הוא שהם מאפשרים למפתחים לייצר חבילות תוכנה ושירותים רבים, העושים שימוש בפורמטים אלה. הדבר מביא לצמצום המכשולים לאחזור המידע שהם מכילים.
שימוש בפורמטים קנייניים, שהמפרטים שלהם לא מפורסמים, יוצר תלות בתוכנות צד שלישי, אוו בבעלי הרישיון על הפורמט. במקרה הגרוע ביותר, המשמעות היא, שהמידע יכול להיקרא רק על-ידי חבילות תוכנה, שיכולות להיות יקרות להחריד, או שאינן בשימוש עוד.
מנקודת המבט של :מונח:’מידע ממשלתי פתוח’, מידע צריך להיות משוחרר ב**פורמט הנקרא על-ידי מחשב.**
דוגמה: מידע תחבורתי בבריטניה¶
אנדרו ניקולסון (Andrew Nicolson) הוא מפתח תוכנה, שהיה מעורב במאבק מוצלח נגד בניית כביש חדש בבריטניה. אנדרו היה מעוניין להשתמש במידע על התחבורה, שנעשה בו שימוש כדי להצדיק את סלילת הכביש. הוא הצליח להשיג חלק מהמידע הרלוונטי באמצעות בקשות במסגרת חופש המידע, אבל המידע ניתן על-ידי הרשות המקומית בפורמט קנייני, שיכול היקרא רק על-ידי תוכנה של חברת Saturn, שמתמחה במודלי תנועה וחיזוי. מכיוון שאין גרסה של התוכנה שמאפשרת קריאה בלבד של קבצים, אנדרו וחבריו נאלצו לרכוש את התוכנה בסכום של 600 יורו, תוך קבלת הנחת סטודנט. חבילת התוכנה המלאה של תהוכנה עולה 15 אלף יורו, מחיר לא ריאלי לרוב האנשים.
למרות שאין חוק גישה למידע שמאפשר גישה למידע בפורמט פתוח, יוזמות מידע ממשלתי פתוח מתחילות להיות מגובות במסמכי מדיניות, שקובעים שמידע רשמי חייב להימסר בפורמט פתוח. ממשל אובמה היה זה שהתווה את חוק הזהב, עם הדירקטיבה לממשל םתוח, שאושרה בדצמבר 2009, ושקובעת ש:
“עד כמה שניתן ובכפוף למגבלות תקפות, גופים חייבים לפרסם מידע מקוון בפורמט פתוח, שניתן לאחזרו, להורידו, לאנדקס אותו ולמצוא אותו באמצעות מנועי החיפוש הפופולריים. פורמט פתוח הוא כזה, שאינו תלוי בפלטפורמה, קריא על-ידי מחשב וזמין לציבור ללא מגבלות שיכולות למנוע אחזור המידע.
כיצד נשתמש בפורמט הזה?¶
כשרשות חייבת לפרסם מידע חדש - מידע שלא פורסם קודם לכן - אתם צרכים לבחור את הפורמט שמאזן הכי טוב בין עלות להתאמה למטרה. עבור כל פורמט, יש כמה דברים שעליכם להיות מודעים אליהם ופרק זה מטרתו להסביר אותם.
פרק זה מתמקד בדרך לארגן את החומרים בצורה הטובה ביותר, שמחשבים יוכלו לגשת אליהם ישירות. עצות והדרכה על תכנות אתרים ופתרונות אינטרנט ניתן למצוא ברשת.
שירותי רשת¶
לגבי מידע שמשתנה בתכיפות, ושכל פול מוגבל בהיקפו, מאוד חשוב לחשוףף את המידע באמצעות שירותי רשת. ישנן כמה דרכים ליצור שירות רשת. כמה מהמוכרים יורת הם SOAP ו- REST. בעיקרון, SOAP עדיף, אבל בשניהם הפיתוח והשימוש קלים ולכן הם פופולריים.
בסיסי נתונים¶
כמו בשירותי רשת, בסיסי נתונים מאפשרים גישה ישירה ודינמית למידע. לבסיסי נתונים היתרון, שהם יכולים לאפשר למשתמשים להרכיב רק את המידע שמעניין אותם.
ישנם כמה נושאי אבטחה בקשר לאפשרות לשלוף מרחוק נתונים מבסיס הנתונים, והגישה לבסיס הנתונים יעילה רק אם מבנה הנתונים וחשיבות הטבלאות והשדות מתועדת היטב. לרוב, זה די פשוט וזול, ליצור שירותי רשת שמציגים מידע מבסיסי נתונים, דרך שעונה בקלות על בעיות האבטחה.