محركات بحث «ارتقائية» تستخلص المعلومات من مئات الملايين من صفحات الإنترنت

ترصد الروابط الأساسية بين الكلمات

TT

قام باحثون أميركيون في جامعة واشنطن في سياتل، بتطوير برنامج لمحرك بحث يمكنه سحب معلومات وحقائق من أكثر من 500 مليون صفحة على شبكة الإنترنت. وتقوم هذه الأداة باستخلاص المعلومات من مليارات الخطوط من النصوص عن طريق تحليل العلاقات والروابط الأساسية بين الكلمات.

ويقول بعض الخبراء إن هذا النوع من «الاستخلاص الأوتوماتيكي للمعلومات» سيشكل، ربما، الأساس للجيل المقبل الأكثر ذكاء للبحث عن طريق الشبكة، بحيث يجري جمع كنوز المعلومات أولا، ومن ثم توحيدها بصورة ذكية.

ويمثل مشروع جامعة واشنطن توجها لتضخيم تقنية حالية موجودة تدعى «تيكست رنر» TextRunner على صعيد عدد الصفحات ونطاق الموضوعات التي يمكنها أن تحللها.

وأهمية «تيكست رنر» أنها «ارتقائية، لأنه لا يوجد إشراف أو سيطرة عليها»، كما يقول بيتر نورفغ مدير قسم الأبحاث في «غوغل» الذي تبرع بقاعدة المعلومات الخاصة بصفحات شبكة الإنترنت، التي قامت «تيكست رنر» بتحليلها. «والأخيرة بإمكانها اكتشاف واستيعاب ملايين من أوجه العلاقة والارتباط، لا واحدا منها في كل مرة، إذ لا يوجد مع هذه التقنية عامل أو تدخل بشري، بل تقوم التقنية بإيجاد أوجه العلاقة والارتباط بنفسها»، كما نقلت عنه مجلة «تكنولوجي ريفيو» التي يصدرها معهد ماساشوستس للتكنولوجيا.

ويوضح نورفغ أن التقنيات السابقة تطلبت كثيرا من الإرشاد والتوجيه من قبل المبرمجين. ومثال على ذلك، للعثور على أسماء أشخاص الذين هم في مرتبة، أو منصب كبار المديرين التنفيذيين ضمن ملايين الصفحات من الوثائق والمستندات.. عليك أن تدرب البرنامج عن طريق إضافة أمثلة أخرى مثل: «إن عمل ستيف هو المدير التنفيذي في شركة (أبل)، وشيريل ساندبيرغ هو المدير التنفيذي في (فيس بوك). ويضيف نورفغ أن «غوغل» تقوم بعمل مماثل، وهي تستخدم مثل هذه التقنية ضمن أطر أخرى محددة.

استخلاص أوتوماتيكي لكن تقنية «تيكست رنر» تتخلص من هذا العمل اليدوي بحيث يمكن للمستخدم مثلا إدخال عبارة «التخلص من البكتيريا وقتلها» ليقوم المحرك بالبحث عن الصفحات التي تقدم نظرة بأن «الكلورين يقتل البكتريا،» أو «الأشعة فوق البنفسجية تقتل البكتريا»، أو «الحرارة تقتل البكتريا»، وهي نتائج تدعى «ثلاثية»، وتقدم وسائل للحصول على نظرة مسبقة على النصوص قبل زيارتها على صفحات مواقعها التي أتت منها أصلا. والبرنامج هذا له واجهة استخدام بسيطة، وليس موجها للبحث العام من قبل الجمهور، بل لعرض الاستخلاص الأوتوماتيكي للمعلومات من 500 مليون صفحة من صفحات الإنترنت، كما يقول أورين إتزيوني عالم الكومبيوتر في جامعة واشنطن: «فالذي نعرضه هو قدرة البرنامج على تحقيق استيعاب أولي للنص على نطاق لم يسبق له مثيل من قبل». وتخدم تقنية «تيكست رنر» كنقطة ابتدائية لتشييد استقراءات، أو استنتاجات منطقية من الاستفهامات اللغوية الطبيعية، وهذه ما يعمل عليه حاليا فريق البحث. ولإعطاء مثال بسيط: إذا ما عثر «تيكست رنر» على صفحة على الشبكة تقول: «اللبائن هي من كائنات الدم الحار»، وصفحة أخرى تقول «الكلاب هي من اللبائن»، يقوم محرك للاستقراء المنطقي بتوفير معلومات تقول إن الكلاب ربما هي من ذوات الدم الحار.

وهذا عمل تناظري تشابهي لتقنية طورت من قبل «باورسيت» التي حصلت عليها «مايكروسوفت» العام الماضي. وكانت «باورسيت» قبل حصول «مايكروسوفت» بقليل على هذه التقنية قد كشفت النقاب عن أداة محصورة مهمتها في استخلاص الحقائق والمعلومات من نحو مليوني صفحة من «ويكيبيديا». وتقوم تقنية «تيكست رنر» بالتعامل مع صفحات «ويكيبيديا»، إضافة إلى النصوص الاعتباطية من أي صفحة، بما فيها مواقع المدونات، وكتالوغات المنتجات، والمقالات الصحافية، والأكثر من ذلك بكثير.

«ومثل هذا العمل أخذ يحرز تقدما كبيرا على صعيد التعامل مع مثل هذه المهمات» كما يقول جون كلاينبيرغ عالم الكومبيوتر في جامعة كورنيل الذي كان يتابع أبحاث جامعة واشنطن. وأضاف أن مثل هذا العمل يعكس الاتجاه نحو تصميم عدد وأدوات للبحث التي تقوم بشكل نشط بالجمع بين الأجزاء المعلوماتية التي تعثر عليها في الشبكة وتحويلها إلى تركيب كبير.