أداة جديدة.. لجمع المعلومات من الإنترنت وتحليلها

المكتبة البريطانية توظف نسخة تجريبية منها بتطبيقات الجداول الحسابية

TT

تتوفر كميات كبيرة من المعلومات مجانا على الشبكة التي قد تشكل كنزا ثمينا للكثير من الأعمال والشركات شرط معرفة كيفية استخدامها بصورة فعالة، إذ بمقدور الشركة على سبيل المثال تمشيط المعلومات من مكتب البراءات والعلامات التجارية والسجلات الخاصة بالمحاكم قبل الدخول إلى شركة أخرى للتأكد ما إذا كانت ملكيتها الفكرية مقيدة بأي إجراء قانوني. وعلى الصعيد العملي فإن الدخول إلى خضم المعلومات يستغرق وقتا وجهدا حتى يجري إدارة كل ذلك بشكل جيد.

وتأمل «آي بي إم» أن تساعد الأداة الجديدة التي تدعى «بيغ شيتس» BigSheets المستخدمين على تحليل معطيات الشبكة بصورة أكثر سهولة. فقد طورت الشركة نسخة تجريبية من البرنامج هذا للمكتبة البريطانية.

ويقول رود سميث نائب رئيس تقنيات الإنترنت الجديدة في «آي بي إم» في حديث لمجلة «تكنولوجي ريفيو» الإلكترونية، إن «قدرة أي مستخدم على القيام بالتحليلات التي تحلو له شرعت تظهر».

توظيف الجداول الحسابية

* وقد شيدت «بيغ شيتس» على رأس جزء آخر من برنامج يدعى «هادووب» Hadoop الذي هو منصة مفتوحة المصدر لمعالجة كميات كبيرة من معلومات الشبكة عن طريق تجزئة الأعمال وتسليمها إلى مجموعة عنقودية من الكومبيوترات المختلفة. وغالبا ما تستخدم «هادووب» لتحليل كميات كبيرة من معلومات الشبكة غير القائمة على بنيان أو تركيب واضح.

وتستخدم «بيغ شيتس» «هادووب» للزحف على صفحات الشبكة والتعرف عليها لاستخلاص اصطلاحات تشكل مفاتيح إضافة للمعلومات الأخرى المفيدة. وتقوم «بيغ شيتس» بتنظيم هذه المعلومات على صفحات الجداول الحسابية (سبريدشيت) الواسعة جدا بحيث يمكن للمستخدمين تحليلها باستخدام نوع من العدد والأدوات والمرافق الكبيرة الموجودة على برنامج «سبريدشيت» الموجود بدوره على سطح المكتب. ولكن وخلافا لـ«سبريدشيت» العادية، لا يوجد أي حدود لحجم هذه الصفحات التي يجري إنتاجها عن طريق «بيغ شيتس».

ولاستخدام هذه الصفحات يقوم المستخدم بتوجيه أداة إلى مجموعة من عناوين الإنترنت URLs، أو إلى مخزن من المعلومات. ويمكن استخدام قوائم من الاصطلاحات لتنظيم المعلومات في صفوف أو جداول. وهذه يمكن تعديلها لاحقا.

ويقول سميث إن «آي بي إم» اختارت «سبريدشيت» كنموذج لتنظيم المعلومات والمعطيات نظرا إلى أن غالبية المستخدمين يألفون مثل هذا البرنامج. وإذا رغب المستخدمون عرض المعلومات، أو تقديمها بهيئة أكثر تعقيدا، تعمل الأداة مع أداة «آي بي إم» لإظهارها إلى العيان بشكل مرئي، وهي أداة تسمى «ماني آيز» Many Eyes، إضافة إلى برنامج آخر لإظهارها إلى العيان أيضا.

ولـ«بيغ شيتس»، «مستوى من التكامل الذي لم أشهد له نظيرا بعد»، كما يقول بين لوريكا كبير المحللين في مجموعة البحث في شركة «أو ريلي ميديا»، وهي شركة للنشر التقني.

رصد المعلومات

* ويضيف لوريكا أنه على الصعيد التقليدي فقد قامت الشركات بتجزئة المهام التي تقوم بها «بيغ شيتس» إلى ثلاث مهام منفصلة، وهي الزحف عبر الشبكة، وتحليل المعلومات، وكشفها للعيان. ولكون «بيغ شيتس» مشيدة على «هادووب» المصمم أساسا للعمل على كميات كبيرة من المعطيات، فإن الحجم ليس بمشكلة بالنسبة إلى «بيغ شيتس».

لكنه يحذر من أن «بيغ شيتس» لا تزال في مراحلها الأولية، وبحاجة إلى اختبارها مع المعلومات والبيانات الأخرى. ولأنه يجري تطوير هذه التقنية بالاشتراك مع شركاء معينين لـ«آي بي إم»، فإنه ليس من الواضح كم هو من السهل على شركة الشروع في استخدامها، كما يقول. فتركيب مجموعة من «هادووب» قد يكون عملا متطلبا، وإذا كان لم يجر تجهيز «بيغ شيتس» جيدا، فقد تجد الشركات نفسها بحاجة إلى جيش من المستشارين لتمهيد الطريق أمام هذه الأداة.

أرشفة الإنترنت

* وكان الاختبار الأول لـ«بيغ شيتس» في المكتبة البريطانية التي كانت تسعى منذ عام 2004 إلى تأسيس أرشيف لمواقع الشبكة في بريطانيا التي يناهز عددها 8 ملايين. إذ تقوم المكتبة في أوقات منتظمة بالتقاط لقطات سريعة لصفحات الشبكة وتحويلها إلى نمط خاص بالملفات المؤرشفة وتخزينها. لكن البحث وتحليل هذه المعطيات هو تحد آخر، وهنا يأتي دور «بيغ شيتس».

ففي أقل من 8 ساعات، يقول سميث، إن فريقه استطاع جمع 4.5 تيرابايت من الملفات الأرشيفية ومعالجتها باستخدام مجموعة «هادووب» المؤلفة من 4 آلات. وعن طريق الإرشاد والتوجيه من قبل باحثي المكتبة البريطانية استخدم الفريق «بيغ شيتس» لاستخلاص الكلمات المفتاحية، والمعلومات المتعلقة بالمؤلفين، والمعلومات الأخرى عن المعلومات الموجودة على صفحات الشبكة، من دون أي تركيب أو بنيان قائم أو راسخ.

وتمكن باحثو المكتبة البريطانية من تعديل أنواع هذه المعلومات التي حازت على إعجابهم في سياق اليوم الأول بالتركيز أكثر على الذين ألفوا صفحات أكثر مما قصدوا في البداية. وقدم أسلوب الكشف العلني، أو التبيان بشكل مرئي، مجالات حدس وتبصر جديدة، ومثال على ذلك فإنه عن طريق استخدام العنونة السحابية، اكتشف الباحثون أن اسم ألستير كامبل الكاتب والشخصية السياسية البريطانية غالبا ما تكون تهجئته خطأ، مما أظهر للعيان عددا كبيرا من السجلات التي لها علاقة بهذا الأمر، التي يمكن غض النظر عنها سهوا بسهولة.

ويقول إيتان أدار الأستاذ المساعد للمعلومات وعلوم الكومبيوتر بجامعة ميشيغان الذي يقوم بأبحاث حول نظم الإنترنت ومعاييرها، والبحث في النصوص، والمرئيات والكشف العلني، إن الأداة هذه قد يكون لها وقع كبير. «فعلى الرغم من أن محتويات المكتبة البريطانية تبدو محصورة ببضع لقطات سريعة لكل صفحة، فإن ذلك يترجم إلى طن من المعلومات والبيانات».

وكان أدار قد صمم أداته الخاصة به التي دعاها «زيوتروب» لتحليل كيفية تغير صفحات الشبكة عبر الزمن. فـ«بيغ شيتس» من شأنها أن تجلب نظرة جديدة، كما يقول، عن طريق مقارنة المعلومات المستمدة من الكثير من الصفحات المختلفة، والأخرى التي يجري جمعها عبر الزمن. وأضاف أن التبيان أو الكشف المرئي الفعال «هو أمر حاسم يتيح للمستخدمين استيعاب الكميات الكبيرة من المعلومات بسرعة». والمهم أنه بعد إجراء المزيد من الاختبارات تأمل «آي بي إم» في تضمين «بيغ شيتس» في المنتجات والخدمات الحالية.