أرشفة الويب

وصلة "Web Archive" تحول إلى هنا. لأجل the Safari format of the same name, انظر webarchive.لأجل the KDE format, انظر KDE WAR (file format).

أرشفة الويب هي عملية جمع أجزاء من الشبكة العالمية وضمان أن هذه المجموعه محفوظه في في أرشيف، مثل موقع أرشيف، للباحثين المستقبليين والمؤرخين والجمهور. نظرا للحجم الهائل للويب، أمناء أرشيف الويب عادة ما يستخدمون (WEB CRAWLERS) الزاحف على شبكة الإنترنت من اجل التجميع الآلي. أكبر منظمة لأرشفة الويب تستند إلى نهج الزحف (crawling approach) هوأرشيف الإنترنت والتي تسعى جاهدة للحفاظ على أرشيف ويب بأكمله. المكتبات الوطنية، الأرشيف الوطني ومختلف اتحادات المنظمات تشارك أيضا في أرشفة محتوى الويب الثقافي الهام. برمجيات وخدمات أرشفة الويب التجارية متوفره أيضا للمنظمات التي هي بحاجة لأرشفة المحتوى الخاص بهم على شبكة الإنترنت لأغراض قانونية أو تنظيمية.

جمع ويب

أمناء أرشفة الويب عموما يعملون أرشفة لكافة أنواع المحتوى على شبكة الإنترنت بما في ذلك أتش تي أم أل(HTML) صفحات الويب، وأوراق الأنماط (style sheets)، وجافا سكريبت (JavaScript)، والصور، والفيديو. كما أنهم يعملون ارشفه للبيانات الفوقية (metadata) عن الموارد التي جمعت مثل وقت الوصول، نوع الملف (MIME type)، وطول محتوى. هذه البيانات الفوقيه(metadata) مفيده في إنشاء الأصالة والمنبعيه للمجموعه المؤرشفة.

أساليب الجمع

التحصيل عن بعد

أكثر تقنيات أرشفة الويب شيوعا تستخدم الزاحف على شبكة الإنترنت(web crawlers) ليدير عملية جمع s. صفحات الويب بشكل آلي. زواحف الويب عادة تستعرض صفحات الويب بنفس الطريقة التي يمكن للمستخدمين مع متصفح الاطلاع على الويب، وبالتالي توفر طريقة بسيطة نسبيا للتحصيل عن بعد المحتوى على شبكة الإنترنت. أمثلة على زواحف الشبكه (web crawlers)التي يكثر استخدامها لأرشفة الويب تتضمن ما يلي :

بناء على الطلب

هناك العديد من الخدمات التي يمكن استخدامها لأرشفة موارد الويب (بناء غلى الطلب) عن طريق استخدام تقنيات الزحف على الشبكه :

  • WebCite، خدمة خصيصا للعلماء من الكتاب ومحرري المجلات والناشرين بشكل دائم لأرشفة واسترجاع مراجع الإنترنت لما تم الاستشهاد به (Eysenbach وتروديل، 2005).
  • ارشيف هو، خدمة الاشتراك، وتسمح لبناء المؤسسات، وإدارة وبحث أرشيف الويب الخاصة بها.
  • ارشفة هانزو تعرض وتوفر أدوات وخدمات أرشفة الشبكة التجارية، وتنفيذ سياسة أرشفة لمحتويات الويب وتمكين الاكتشاف الإلكتروني، ودعم الدعاوى القضائية أو التوافق التنظيمي.
  • BackupURL.com
  • لقطات freezePAGE

أرشفة قاعدة البيانات

أرشفة قاعدة البيانات يشير إلى أساليب للأرشفة المحتوى الأساسي لقاعدة البيانات المنقاده لمواقع الويب. وعادة ما يتطلب استخراج محتوى قاعدة البيانات في مخطط قياسي، وغالبا باستخدام إكس إم إل(xml). متى ما خزنت في ذلك الشكل الموحد، المحتويات المؤرشفة من قواعد البيانات المتعددة ممكن تصبح متاحه باستخدام نظام وصول واحد. ويتمثل هذا النهج من قبل DeepArc وXinq الأدوات التي طورتها المكتبة الوطنية بفرنسا، والمكتبة الوطنية في أستراليا، على التوالي. DeepArc تمكن هيكل وبنية قاعدة بيانات ذات العلاقه ليتم تعيينها إلى مخطط XML، ويصدر المحتوى إلى وثيقة إكس إم إل(XML). Xinq بعد ذلك يسمح بأن يتم تسليم المحتوى عبر الإنترنت. على الرغم من أن التخطيط الأصلي وسلوك الموقع لا يمكن الحفاظ عليها تماما، Xinq تسمح للاستعلام والاسترجاع الوظيفي الأساسي ان يتم تكرارها.

أرشفة المعاملات

أرشفة المعاملات هي منهج الحدث المنقاد، والذي يجمع المعاملات الفعلية التي تجري بين خادم الويب ومستعرض ويب. هي في المقام الأول تستخدم كوسيلة للحفاظ على أدلة من المحتوى الذي كان في الواقع يستعرضه المستخدم في موقع معين، في تاريخ معين. هذه قد تكون ذات أهمية خاصة بالنسبة للمنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية والتنظيمية للكشف عن المعلومات والاحتفاظ بها.

وهناك نظام أرشفة معاملات عادة ما يعمل عن طريق اعتراض كل طلب http ل، واستجابة من، خادم الويب، يعمل على تصفية كل استجابة للقضاء على ازدواجية المحتوى، وبصورة دائمة تخزين الاستجابات بشكل bitstreams. وهناك نظام أرشفة معاملات يتطلب تثبيت برنامج على خادم الويب، وبالتالي لا يمكن استخدامها لجمع المحتوى من موقع بعيد.

أمثلة لبرمجيات أرشفة المعاملات التجارية وتشمل :

الصعوبات والقيود

الزواحف

محفوظات الويب التي تعتمد على الزحف على شبكة الإنترنت، باعتبارها الوسيلة الرئيسية لتجميع الويب تتأثر بصعوبات الزحف على شبكة الإنترنت :

  • في بروتوكول استبعاد الروبوت ممكن ان يطلب من الزواحف عدم الوصول لأجزاء من موقع على شبكة الإنترنت. بعض الأرشيفات على شبكة الإنترنت قد تتجاهل الطلب وتزحف على تلك الأجزاء على أية حال.
  • أجزاء كبيرة من موقع على شبكة الإنترنت قد تكون مخبأة في أعماق الإنترنت. على سبيل المثال، صفحة النتائج وراء نموذج ويب يكمن في الوبب العميق لأن الزاحف لا يمكنه تتبع ارتباط لصفحة النتائج.
  • بعض خوادم الشبكة قد ترجع صفحة مختلفة لالزاحف على شبكة الإنترنت عن التي سترجع لطلب المتصفح العادي. هذا ما يحدث عادة لخداع محركات البحث إلى إرسال المزيد من الحركة على شبكة الإنترنت.
  • فخ الزاحف (على سبيل المثال، التقويمات) قد يتسبب الزاحف بتحميل عدد لانهائي من الصفحات، إذا الزواحف عادة ما يتم تكوينها للحد من عدد الصفحات الديناميكية التي تزحف.

الويب كبير جدا لدرجة أن الزحف على جزء كبير منه يأخذ ويستهلك كمية كبيرة من الموارد التقنية. الويب آخذ في التغير بسرعة لدرجة ان اجزاء من موقع على شبكة الإنترنت قد تتغير قبل أن ينتهي الزاحف من الزحف إليه.

قيود عامة

ليس فقط على محفوظات شبكة الإنترنت التعامل مع التحديات التقنية ولكن يجب لحفظها على شبكة الإنترنت، بل يجب أن يتعامل مع قوانين الملكية الفكرية. بيتر ليمان (2002) تنص على أنه "على الرغم من أن الشبكة هي شعبيا يعتبر موردا المجال العام، فإنه من حق المؤلف الطبعة، وبالتالي فإن المحفوظات لا تملك الحق القانوني لنسخ ويب". ومع ذلك المكتبات الوطنية في العديد من البلدان لديها حق قانوني في نسخ أجزاء من الشبكة تحت امتدادا للإيداع القانوني.

بعض محفوظات خاصة غير ربحية على شبكة الإنترنت التي يتم توفيرها للعامة مثل WebCite أرشيف الإنترنت أو السماح لمالكي المحتوى لإخفاء أو إزالة المحتويات المؤرشفة أنهم لا يريدون الجمهور في الحصول على. أرشيف الإنترنت الأخرى هي فقط يمكن الوصول إليها من بعض المواقع أو تنظيم الاستخدام. WebCite كما يستشهد على أسئلة متكررة مؤخرا دعوى قضائية ضد آلية التخزين المؤقت، الذي فاز مجموعات.

جوانب تنظيم الويب

تنظيم على شبكة الإنترنت، مثل أي تنظيم رقمي، وينطوي على :

  • جمع أصول ويب قابلة للتحقق
  • توفير أصول الويب البحث والاسترجاع
  • التصديق على درجة الجدارة والنزاهة لمحتوى المجموعه
  • الدلالية وجودي الاستمرارية والقابلية للمقارنة لجمع المحتوى

وبالتالي، يجب أن يكون إلى جانب مناقشة أساليب تجمع الويب ،تلك من توفير إمكانية الوصول، وإصدار الشهادات، وتنظيم ستدرج. هناك مجموعة من الأدوات الشعبية التي تتناول هذه الخطوات التنظيم :

وهناك دعوى من أدوات تنظيم لويب الدولية للإنترنت عن طريق المحافظة على الإتحاد :

أدوات أخرى مفتوحة المصدر لمعالجة محفوظات الويب :

  • WARC أدوات -- لخلق، والقراءة، وتحليل والتلاعب، بمحفوظات الويب برمجيا
  • أدوات البحث -- لفهرسة والبحث عن النص الكامل والبيانات الوصفية داخل أرشيف الإنترنت

المراجع

أنظر أيضاً

وصلات خارجية

cs:Archivace internetu de:Web-Archivierung Web archiving]] fr:Archivage du Web id:Pengarsipan web ja:ウェブアーカイブ pt:Arquivo da Web ru:Архивирование веб-сайтов