مرئية المستودعات الرقمية على الويب ومحركات بحث Google (توصيات Google Scholar لفائدة المستودعات التي تستخدم نظام DSpace, Eprints, Digital Commons)

مقدمة

يشير كل من Enrique Orduña-Male، و Emilio Delgado López-Cózar، أن وجود وإبراز المستودعات على الويب (وخاصة في محركات البحث مثل Google و Google Scholar) ضرورية للتأكد من أن المحتوى المضاف يجعل الوصول الحر فعالا لفائدة الباحثين، ومع ذلك، فإن هناك تركيز كبير على إنشاء المستودعات وتصميمها ونشرها، لدعم مفهوم “الوصول الحر” بشكل عام باعتباره مركز ثقله، متناسين أن المنتج هو، في نهاية الأمر، “موقع ويب”، ولذلك، ينبغي توخي الحذر في جميع الجوانب المتعلقة بإمكانية التنقل وسهولة الاستخدام والرؤية في محركات البحث، فعادة ما يتم التغاضي عن كل هذه الجوانب حيث يتم تكليفها بالكامل تقريبًا بالبرنامج المستخدم لإدارة المستودع، والتي لا يكون إعدادها عادة هو الأنسب لاستخدام موقع الويب.

طريقة تكشيف المستودعات الرقمية بمحرك بحث Google:

يستخدم الباحث العلمي من Google برنامجًا آليًا، يُعرف باسم “prasers”، لتحديد البيانات الببليوغرافية للأوراق العلمية، بالإضافة إلى المراجع المتضمنة في البحث، حيث يؤدي التحديد غير الصحيح للبيانات أو المراجع إلى تكشيف سيئ للمستودع الرقمي، كما قد لا يتم تكشيف بعض البحوث إطلاقا، وقد يتم تضمين بعضها بأسماء أو عناوين مؤلفين غير صحيحة، وقد يحتل البعض مرتبة أقل في نتائج البحث، لأن بياناتهم الببليوغرافية (غير الصحيحة) لن تتطابق مع الأخرى (الصحيحة)، ولتجنب مثل هذه المشاكل، يجب ضبط البيانات الببليوغرافية والمراجع بطريقة يمكن لبرنامج “المحلل اللغوي” الآلي معالجتها. كما يستخدم الباحث العلمي من Google برنامجًا آليًا آخرا، يُعرف باسم “الروبوتات” أو “برامج الزحف” لجلب الملفات وتضمينها في نتائج البحث، ويعمل بشكل مشابه لمحرك Google العادي، ولهذا يحتاج موقع الويب أو المستودع إلى التنظيم بطريقة تجعل من الممكن “الزحف” إليه، كما يجب أن تكون برامج الزحف التلقائية قادرة على اكتشاف وجلب عناوين URL لجميع المواد المدرجة بالمستودع، بالإضافة إلى تحديث محتواها بشكل دوري.ولتسهيل علمية زحف البرامج إلى المستودع يجب ضبط النقاط الأربع التالية:

أ. أشكال الملفات File formats :

يجب أن تكون الملفات إما بتنسيق HTML أو بتنسيق PDF، كما يجب أن تحتوي ملفات PDF على نص يمكن البحث فيه، كما يجب ألا يتجاوز حجم كل ملف 5 ميغا بايت، أما لتكشيف الملفات الأكبر حجمًا، أو لتكشيف الصور الممسوحة ضوئيًا للصفحات التي تتطلب التعرف الضوئي على الحروف يجب تحميلها على خدمة بحث الكتب من Google.

ب. واجهة التصفح Browse interface :

تعد واجهة التصفح ضرورية لروبوتات البحث لاكتشاف عناوين URL، حيث أن هناك عدة طرق شائعة لتنظيم المستودع والتي تسهل على روبوتات البحث العثور على جميع المواد وتكشيفها، فإذا كان المستودع يستضيف مجموعة صغيرة من المنشورات، مثل البحوث التي كتبها مؤلف واحد أو مؤلفين، حيث يوصى بإدراج جميع المقالات في صفحة HTML واحدة، مثل www.example.edu/~professor/publications.html، وتضمين روابط لنصها الكامل بتنسيق PDF. إذا كان المستودع يحتوي على آلاف الأوراق أو أكثر، فإن أفضل طريقة للتأكد من تكشيفها جميعًا بواسطة روبوتات البحث هي توفير طريقة لإدراجها حسب تاريخ النشر أو تاريخ إدخال المواد، مثل التصفح حسب المؤلف أو بالكلمة الرئيسية.

ج. توفر الموقع Website availability :

يقوم Google بإحالة المستخدمين إلى المستودع لقراءة المحتوى، فيجب أن تكون صفحات المستودع متاحة لكل من المستخدمين وبرامج الزحف في جميع الأوقات، حيث ستقوم روبوتات البحث بزيارة صفحات الويب بشكل دوري من أجل الحصول على التحديثات، وكذلك للتأكد من أن عناوين URL لا تزال متاحة. إذا كانت روبوتات البحث غير قادرة على جلب صفحات الويب من الموقع، على سبيل المثال، بسبب أخطاء الخادم أو التهيئة الخاطئة أو الاستجابة البطيئة للغاية من المستودع، فقد يتم استبعاد بعض المواد أو كلها من Google و Google Scholar.

د. بروتوكول استبعاد الروبوتات Robots exclusion protocol :

إذا كان المستودع الرقمي يستخدم ملف robots.txt، على سبيل المثال، www.example.com/robots.txt، فيجب ألا يمنع روبوتات بحث Google من الوصول إلى المقالات أو عناوين الــ URL الخاصة بالتصفح، على العكس من ذلك، يجب أن يمنع الروبوتات من الوصول إلى المساحات الكبيرة التي يتم إنشاؤها ديناميكيًا والتي لا تفيد في اكتشاف المحتوى.

توصيات الباحث العلمي من Google للمستودعات الرقمية:

يواجه الباحث العلمي من Google صعوبة في تكشيف محتويات المستودعات المؤسسية، و يفترض المؤلفون أن السبب هو أن معظم المستودعات تستخدم خطة دبلن كور لوصف المحتويات، والتي لا تستطيع التعبير عن البيانات الوصفية للأوراق الأكاديمية بشكل مناسب، وقد قدم الباحث العلمي من Google جملة من التوصيات للمستودعات من أجل استخدام مخططات البيانات الوصفية لخطة دبلن كور، حيث أن المستودعات التي تستخدم مخططات البيانات الوصفية الموصى بها من طرف GS والتي يعبر عنها بتنسيق HTML شهدت معدلات تكشيف أعلى بشكل ملحوظ.

يستخدم الباحث العلمي من Google عمليات آلية للتكشيف الجيد للمستودع، حيث تحتاج روبوتات محرك البحث إلى القدرة على الوصول بسرعة إلى جميع المقالات باتباع الروابط من الصفحة الرئيسية ويجب أن يكون قادرا على التعرف على البيانات الببليوغرافية للمواد المدرجة بالمستودع، فإذا لم تتمكن برامج الروبوت من العثور على عنوان URL لمقالة أو تعذر جلبها، فلا يمكن تكشيف المواد في فهرس الباحث العلمي، علاوة على ذلك، إذا لم تتمكن الروبوتات من تحديد البيانات الوصفية الصحيحة للمقالة، فقد لا يتمكن من تحديد الاقتباسات من المقالة، والتي بدورها ستؤثر على ترتيبها وظهورها.

نظام Eprints :

المستودعات التي تستخدم Eprints الإصدار 3.0 أو إصدار لاحق منظمة بشكل جيد للفهرسة – يمكن لروبوتات محرك البحث الوصول بسرعة إلى جميع المقالات، فإذا كانت المؤسسة تستخدم إصدارًا من Eprints أقدم من 3.0 (مايو 2007)، فيوصى بشدة بالترقية إلى أحدث إصدار.

نظام DSpace:

الإصدارات القديمة من مستودعات الدي سبيس لديها بعض المشاكل المتعلقة بالتكشيف، حيث قام المبرمجون المسؤولون على نظام Dspace بإجراء العديد من التحسينات التي تم تضمينها في الإصدارات الأخيرة، فإذا كانت المؤسسة تستخدم إصدار DSpace أقدم من 1.7 (ديسمبر 2010)، فيوصي بشدة أن تقوم بالترقية إلى أحدث إصدار من DSpace.

نظام Digital Commons :

المستودعات التي تستخدم برمجية Digital Commons منظمة بشكل جيد للتكشيف، حيث يمكن لروبوتات محرك البحث الوصول بسرعة إلى جميع المقالات باتباع روابط HTML وصفحات المقالات الفردية التي تتضمن البيانات الببليوغرافية بطريقة يمكن قراءتها آليًا وتكشيفها.

ويمكن الاستفادة من أدوات وتقارير Search Console المقدمة من Google في حساب عدد الزيارات إلى المستودع الرقمي وتقدير مستوى أدائه وحلّ مشاكله وتحقيق أفضل مستوى ظهور له ضمن نتائج “بحث Google”. كما يمكن تلقّي تنبيهات بالبريد الإلكتروني عند رصد Google لمشاكل المستودع الرقمي، ومعرفة عناوين URL المتأثرة بهذه المشاكل، حيث توفّر أداة فحص عنوان URL معلومات مفصّلة عن الزحف إلى الصفحات وفهرستها وعرضها من فهرس Google مباشرة.

المراجع :

Arlitsch, K. and O’Brien, P.S. (2012), “Invisible institutional repositories: Addressing the low indexing ratios of IRs in Google Scholar”, Library Hi Tech, Vol. 30 No. 1, pp. 60-81. https://doi.org/10.1108/07378831211213210

Orduña-Malea, E., Delgado López-Cózar, E. The dark side of open access in Google and Google Scholar: the case of Latin-American repositories. Scientometrics 102, 829–846 (2015). https://doi.org/10.1007/s11192-014-1369-5

مرئية المستودعات الرقمية على الويب ومحركات بحث Google (توصيات Google Scholar لفائدة المستودعات التي تستخدم نظام DSpace, Eprints, Digital Commons)

فكرتين عن“مرئية المستودعات الرقمية على الويب ومحركات بحث Google (توصيات Google Scholar لفائدة المستودعات التي تستخدم نظام DSpace, Eprints, Digital Commons)”

اترك تعليقاً إلغاء الرد