أرشفة الويب
أرشفة الويب هي عملية جمع أجزاء من الشبكة العالمية وضمان أن هذه المجموعه محفوظه في في أرشيف، مثل موقع أرشيف، للباحثين المستقبليين والمؤرخين والجمهور. نظرا للحجم الهائل للويب، أمناء أرشيف الويب عادة ما يستخدمون (WEB CRAWLERS) الزاحف على شبكة الإنترنت من اجل التجميع الآلي. أكبر منظمة لأرشفة الويب تستند إلى نهج الزحف (crawling approach) هوأرشيف الإنترنت والتي تسعى جاهدة للحفاظ على أرشيف ويب بأكمله. المكتبات الوطنية، الأرشيف الوطني ومختلف اتحادات المنظمات تشارك أيضا في أرشفة محتوى الويب الثقافي الهام. برمجيات وخدمات أرشفة الويب التجارية متوفره أيضا للمنظمات التي هي بحاجة لأرشفة المحتوى الخاص بهم على شبكة الإنترنت لأغراض قانونية أو تنظيمية.
جمع ويب
أمناء أرشفة الويب عموما يعملون أرشفة لكافة أنواع المحتوى على شبكة الإنترنت بما في ذلك أتش تي أم أل(HTML) صفحات الويب، وأوراق الأنماط (style sheets)، وجافا سكريبت (JavaScript)، والصور، والفيديو. كما أنهم يعملون ارشفه للبيانات الفوقية (metadata) عن الموارد التي جمعت مثل وقت الوصول، نوع الملف (MIME type)، وطول محتوى. هذه البيانات الفوقيه(metadata) مفيده في إنشاء الأصالة والمنبعيه للمجموعه المؤرشفة.
أساليب الجمع
التحصيل عن بعد
أكثر تقنيات أرشفة الويب شيوعا تستخدم الزاحف على شبكة الإنترنت(web crawlers) ليدير عملية جمع s. صفحات الويب بشكل آلي. زواحف الويب عادة تستعرض صفحات الويب بنفس الطريقة التي يمكن للمستخدمين مع متصفح الاطلاع على الويب، وبالتالي توفر طريقة بسيطة نسبيا للتحصيل عن بعد المحتوى على شبكة الإنترنت. أمثلة على زواحف الشبكه (web crawlers)التي يكثر استخدامها لأرشفة الويب تتضمن ما يلي :
بناء على الطلب
هناك العديد من الخدمات التي يمكن استخدامها لأرشفة موارد الويب (بناء غلى الطلب) عن طريق استخدام تقنيات الزحف على الشبكه :
- WebCite، خدمة خصيصا للعلماء من الكتاب ومحرري المجلات والناشرين بشكل دائم لأرشفة واسترجاع مراجع الإنترنت لما تم الاستشهاد به (Eysenbach وتروديل، 2005).
- ارشيف هو، خدمة الاشتراك، وتسمح لبناء المؤسسات، وإدارة وبحث أرشيف الويب الخاصة بها.
- ارشفة هانزو تعرض وتوفر أدوات وخدمات أرشفة الشبكة التجارية، وتنفيذ سياسة أرشفة لمحتويات الويب وتمكين الاكتشاف الإلكتروني، ودعم الدعاوى القضائية أو التوافق التنظيمي.
- BackupURL.com
- لقطات freezePAGE
أرشفة قاعدة البيانات
أرشفة قاعدة البيانات يشير إلى أساليب للأرشفة المحتوى الأساسي لقاعدة البيانات المنقاده لمواقع الويب. وعادة ما يتطلب استخراج محتوى قاعدة البيانات في مخطط قياسي، وغالبا باستخدام إكس إم إل(xml). متى ما خزنت في ذلك الشكل الموحد، المحتويات المؤرشفة من قواعد البيانات المتعددة ممكن تصبح متاحه باستخدام نظام وصول واحد. ويتمثل هذا النهج من قبل DeepArc وXinq الأدوات التي طورتها المكتبة الوطنية بفرنسا، والمكتبة الوطنية في أستراليا، على التوالي. DeepArc تمكن هيكل وبنية قاعدة بيانات ذات العلاقه ليتم تعيينها إلى مخطط XML، ويصدر المحتوى إلى وثيقة إكس إم إل(XML). Xinq بعد ذلك يسمح بأن يتم تسليم المحتوى عبر الإنترنت. على الرغم من أن التخطيط الأصلي وسلوك الموقع لا يمكن الحفاظ عليها تماما، Xinq تسمح للاستعلام والاسترجاع الوظيفي الأساسي ان يتم تكرارها.
أرشفة المعاملات
أرشفة المعاملات هي منهج الحدث المنقاد، والذي يجمع المعاملات الفعلية التي تجري بين خادم الويب ومستعرض ويب. هي في المقام الأول تستخدم كوسيلة للحفاظ على أدلة من المحتوى الذي كان في الواقع يستعرضه المستخدم في موقع معين، في تاريخ معين. هذه قد تكون ذات أهمية خاصة بالنسبة للمنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية والتنظيمية للكشف عن المعلومات والاحتفاظ بها.
وهناك نظام أرشفة معاملات عادة ما يعمل عن طريق اعتراض كل طلب http ل، واستجابة من، خادم الويب، يعمل على تصفية كل استجابة للقضاء على ازدواجية المحتوى، وبصورة دائمة تخزين الاستجابات بشكل bitstreams. وهناك نظام أرشفة معاملات يتطلب تثبيت برنامج على خادم الويب، وبالتالي لا يمكن استخدامها لجمع المحتوى من موقع بعيد.
أمثلة لبرمجيات أرشفة المعاملات التجارية وتشمل :
الصعوبات والقيود
الزواحف
محفوظات الويب التي تعتمد على الزحف على شبكة الإنترنت، باعتبارها الوسيلة الرئيسية لتجميع الويب تتأثر بصعوبات الزحف على شبكة الإنترنت :
- في بروتوكول استبعاد الروبوت ممكن ان يطلب من الزواحف عدم الوصول لأجزاء من موقع على شبكة الإنترنت. بعض الأرشيفات على شبكة الإنترنت قد تتجاهل الطلب وتزحف على تلك الأجزاء على أية حال.
- أجزاء كبيرة من موقع على شبكة الإنترنت قد تكون مخبأة في أعماق الإنترنت. على سبيل المثال، صفحة النتائج وراء نموذج ويب يكمن في الوبب العميق لأن الزاحف لا يمكنه تتبع ارتباط لصفحة النتائج.
- بعض خوادم الشبكة قد ترجع صفحة مختلفة لالزاحف على شبكة الإنترنت عن التي سترجع لطلب المتصفح العادي. هذا ما يحدث عادة لخداع محركات البحث إلى إرسال المزيد من الحركة على شبكة الإنترنت.
- فخ الزاحف (على سبيل المثال، التقويمات) قد يتسبب الزاحف بتحميل عدد لانهائي من الصفحات، إذا الزواحف عادة ما يتم تكوينها للحد من عدد الصفحات الديناميكية التي تزحف.
الويب كبير جدا لدرجة أن الزحف على جزء كبير منه يأخذ ويستهلك كمية كبيرة من الموارد التقنية. الويب آخذ في التغير بسرعة لدرجة ان اجزاء من موقع على شبكة الإنترنت قد تتغير قبل أن ينتهي الزاحف من الزحف إليه.
قيود عامة
ليس فقط على محفوظات شبكة الإنترنت التعامل مع التحديات التقنية ولكن يجب لحفظها على شبكة الإنترنت، بل يجب أن يتعامل مع قوانين الملكية الفكرية. بيتر ليمان (2002) تنص على أنه "على الرغم من أن الشبكة هي شعبيا يعتبر موردا المجال العام، فإنه من حق المؤلف الطبعة، وبالتالي فإن المحفوظات لا تملك الحق القانوني لنسخ ويب". ومع ذلك المكتبات الوطنية في العديد من البلدان لديها حق قانوني في نسخ أجزاء من الشبكة تحت امتدادا للإيداع القانوني.
بعض محفوظات خاصة غير ربحية على شبكة الإنترنت التي يتم توفيرها للعامة مثل WebCite أرشيف الإنترنت أو السماح لمالكي المحتوى لإخفاء أو إزالة المحتويات المؤرشفة أنهم لا يريدون الجمهور في الحصول على. أرشيف الإنترنت الأخرى هي فقط يمكن الوصول إليها من بعض المواقع أو تنظيم الاستخدام. WebCite كما يستشهد على أسئلة متكررة مؤخرا دعوى قضائية ضد آلية التخزين المؤقت، الذي فاز مجموعات.
جوانب تنظيم الويب
تنظيم على شبكة الإنترنت، مثل أي تنظيم رقمي، وينطوي على :
- جمع أصول ويب قابلة للتحقق
- توفير أصول الويب البحث والاسترجاع
- التصديق على درجة الجدارة والنزاهة لمحتوى المجموعه
- الدلالية وجودي الاستمرارية والقابلية للمقارنة لجمع المحتوى
وبالتالي، يجب أن يكون إلى جانب مناقشة أساليب تجمع الويب ،تلك من توفير إمكانية الوصول، وإصدار الشهادات، وتنظيم ستدرج. هناك مجموعة من الأدوات الشعبية التي تتناول هذه الخطوات التنظيم :
وهناك دعوى من أدوات تنظيم لويب الدولية للإنترنت عن طريق المحافظة على الإتحاد :
- Heritrix -- الموقع الرسمي -- جمع أصول ويب
- NutchWAX -- بحث مجموعات ارشيف الويب
- ايباك (المصدر المفتوح آلة ايباك) -- بحث وتصفح مجموعات ارشيف الإنترنت باستخدام NutchWax
- على شبكة الإنترنت أداة أمينة -- اختيار وإدارة كوكتيل الشبكة
أدوات أخرى مفتوحة المصدر لمعالجة محفوظات الويب :
- WARC أدوات -- لخلق، والقراءة، وتحليل والتلاعب، بمحفوظات الويب برمجيا
- أدوات البحث -- لفهرسة والبحث عن النص الكامل والبيانات الوصفية داخل أرشيف الإنترنت
المراجع
- Brown, A. (2006). Archiving Websites: a practical guide for information management professionals. London: Facet Publishing. ISBN 1-85604-553-6.
- Brügger, N. (2005). Archiving Websites. General Considerations and Strategies. Aarhus: The Centre for Internet Research. ISBN 87-990507-0-6. [١].
- Day, M. (2003). "Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives". Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461–472.
- Eysenbach, G. and Trudel, M. (2005). "Going, going, still there: using the WebCite service to permanently archive cited web pages". Journal of Medical Internet Research 7 (5): e60. doi: .
- Fitch, Kent(2003). "Web site archiving — an approach to recording every materially different response produced by a website".Ausweb 03.
- Lyman, P. (2002). "Archiving the World Wide Web". Building a National Strategy for Preservation: Issues in Digital Media Archiving.
- Masanès, J. (ed.) (2006). Web Archiving. Berlin: Springer-Verlag. ISBN 3-540-23338-5.
أنظر أيضاً
- الأرشيف
- موقع الأرشيف
- الحفظ الرقمي
- Heritrix
- أرشيف الإنترنت
- مكتبة الكونغرس مشروع المكتبة الرقمية
- البنية الأساسية للمعلومات الرقمية الوطنية والحفاظ على برنامج
- أرشيف البندور
- البرتغالية أرشيف ويب
- مشروع منيرفا
- اتحاد أرشفة web المملكة المتحدة
- الزحف على شبكة الإنترنت
- WebCite
- قطعة أثرية افتراضية
وصلات خارجية
- المحافظة على الإتحاد الدولي للإنترنت (IIPC) -- الإتحاد الدولي الذي تتمثل مهمته في الحصول على والحفاظ على، وإتاحة المعرفة والمعلومات من الإنترنت للأجيال المقبلة
- ورشة عمل أارشفة الويب الدولية (IWAW) -- حلقة العمل السنوية التي تركز على أرشفة الويب
- مكتبة الكونغرس، المجموعات الرقمية والبرامج
- المكتبة الوطنية لاستراليا، والحفاظ على الوصول إلى المعلومات الرقمية (بادي)
- مكتبة الكونغرس، والتقاط ويب
- ببليوغرافيا أرشفة الويب -- قائمة مطولة لموارد أرشفة الويب
- قائمة مناقشة أشفة الويب -- المستخدمة لمناقشة الجوانب التقنية والقانونية والتنظيمية لأرشفة الويب
- WebArchivist -- الباحثون الذين يعملون مع العلماء وأمناء المكتبات والمحفوظات والمهتمين في المحافظة على موارد الشبكة وتحليلها.
- جوليان Masanès، المكتبة الوطنية الفرنسية -- نحو مستمر على شبكة الإنترنت أرشفة
- مقارنة بين خدمات الويب أرشفة
- سوات --أداة أرشفة الويب الحيويه. وإثبات صحة الفكرة القائلة بأن برنامج أرشفة صفحات الويب عن طريق الحصاد أو التجصيل عن بعد لجميع الملفات وأخذ لقطات من كل صفحة. جميع البيانات الوصفية يتم حفظها في أكس أم أل (ميتس، PREMIS، وزارة الدفاع وADDML).
cs:Archivace internetu de:Web-Archivierung Web archiving]] fr:Archivage du Web id:Pengarsipan web ja:ウェブアーカイブ pt:Arquivo da Web ru:Архивирование веб-сайтов