«غوغل» تطرح أداة «ريفاين» المتطورة.. لتنقيح البيانات

تسهل تحليل و«تنظيف» كميات ضخمة من الأخطاء في وقت قصير.. وتربط معلومات الإنترنت بقيم جداول المستخدم

TT

أطلقت «غوغل»، مؤخرا، الإصدار الجديد لأداة «غوغل ريفاين» Google Refine المجانية (كان يطلق على هذه الأداة اسم «فريبيس غريدووركس» Freebase Gridworks في السابق)، التي تساعد المستخدم على تحليل وتعديل و«تنظيف» مجموعات القيم الموجودة في الجداول الخاصة بأعماله أو مهامه، أو لمن يريد إجراء الأبحاث في قيم الجداول ومعرفة معانيها ونزعاتها، أو الأخطاء الموجودة فيها، بالإضافة إلى القدرة على ربط محتوى المستخدم بمعلومات من الإنترنت.

ويتم تثبيت الأداة على كومبيوتر المستخدم، أي أنه لا توجد مخاوف من تحميل المعلومات المهمة أو السرية إلى أجهزة خادمة في الإنترنت، وهي تقدم مجموعة من الخصائص تستطيع القيام بمهمات مختلفة، مثل عرض القيم المتكررة على شكل مجموعات يمكن للمستخدم البحث في محتواها وتعديل عشرات آلاف التكرارات منها بعملية واحدة فقط. وكمثال على ذلك، يمكن لباحث في تعداد سكان مدن العالم أن يعثر على بيانات من مصادر مختلفة ويقوم بتجميعها في جدول واحد، لكن الوحدات لن تكون في تناسق تام؛ نظرا لاختلاف المصادر، مثل ظهور قيم «300 ألف» و«300 أ» و«300000» و«0.3» (إن كانت الوحدة مليونا)، أو مجرد «3» (إن كانت الوحدة مائة ألف).

ولا تنحصر مشاكل القيم في الأرقام، بل يمكن أن تتعداها إلى الكلمات، مثل وجود اختصارات عشوائية أو فراغات (مقصودة أو غير مقصودة) قبل أو بعد الكلمة أو بين أحرفها أو اختلافات في بعض أحرف الأسماء المترجمة، مثل «شيكاغو» و «شكاغو» و«شيكاجو» و «USA» و«U.S.A.» و«United States»، وغيرها من الحالات الأخرى.

بيانات ضخمة

* وعلى الرغم من أن هذه المشكلة قديمة، فإن حلولها غالبا ما كانت تكتب خصيصا لحالة واحدة، وتتطلب كتابة معادلات رياضية برمجية ليست بسيطة لمن ليس لديهم خلفية تقنية. وعلى الرغم من قدرة برامج مشهورة على تعديل قيم المجموعات (مثل «مايكروسوفت إكسيل» و«أوبن أوفيس كالك»)، فإن غالبية هذه البرامج ليست مصممة للتعامل مع عمليات التعديل على مجموعات ضخمة من البيانات، ولا تقدم وسائل مبسطة للمستخدم غير التقني، وقد تتطلب وقتا كبيرا لإتمام المطلوب منها في حال كان حجم البيانات ضخما، وهي لا توفر آليات سهلة ومتطورة لإلغاء عملية تعديل ما أو تطبيقها على جداول أخرى شبيهة، مثل جدول خاص بعام 2009 وآخر لعام 2010، على خلاف الأداة الجديدة. وتعرض الأداة تسلسل العمليات التي طلبها المستخدم، ويمكنه إلغاء أي عملية بسهولة تامة، في حال اكتشف أنه قام بها عن طريق الخطأ.

هذا، وتسمح الأداة أيضا باستخدام لغة التعابير (Expression Language) لتحليل البيانات، واستخدام المرشحات لعزل بعض مجموعات القيم لتحليلها بشكل منفرد وتعديلها من خلال سلسلة عمليات خاصة بتلك المجموعة. ويمكن للمستخدم أيضا أن ينظر إلى قيم المجموعة من بعيد لمراقبة القيم الغريبة، وعرضها على شكل رسومات بيانية مبسطة وعرض قيم محددة باختيار مجالها من الرسم البياني، مثل وجود قيمة 13 لعقد ما؛ حيث إن هذه القيمة منخفضة جدا لأي عقد إن كانت بالوحدة المفردة للعملة، وقد تكون 13 ألفا أو مليونا أو مليارا، ليصبح بالإمكان تصحيح القيم غير المنطقية في سياق القيم الأخرى.

وتستطيع الأداة قراءة المعلومات من الملفات النصية التي تفصل بين القيم باستخدام الفاصلة، وحفظ القيم النهائية على شكل جداول بلغة «إتش تي إم إل» أو أشكال أخرى مختلفة، وهي تستطيع التعامل مع مئات الآلاف من القيم لكل مجموعة، وفقا لسعة ذاكرة كومبيوتر المستخدم، بالإضافة إلى القدرة على ربط القيم بقواعد بيانات مختلفة، وحتى قواعد البيانات الموجودة في الإنترنت (مثل قاعدة «فري بيس» http:// www.freebase.com التي تقدم قواعد بيانات مختلفة، مثل الموسيقى والأفلام والمواقع والتلفزيون والتقنيات والكتب والأعمال والحكومات والرياضة والنقل والعلوم والفنون، وغيرها، أو موقع «داتا.غوف» http://www.data.gov) وربطها بنظام «خدمات الإنترنت» Web Services.

خدمات الإنترنت

* وبالنسبة لخدمات الإنترنت، فيمكن استخدامها ودمج القيم في عناوين الروابط URL للحصول على رابط جديد مهم، يمكن البحث فيه عن قيمة ما وحفظها في قاعدة البيانات، مثل وجود جمل كثيرة من لغات مختلفة لا يعرفها المستخدم في جدول ما؛ حيث يمكن استخدام خدمة التعرف على لغة النص من «غوغل» وحفظ اسم اللغة بعد معرفتها على شكل قيمة في عمود جديد في جدول العمل، هذا ويمكن أيضا ربط القيم بقاعدة بيانات «فري بيس» المذكورة والنقر على خيار «التوافق» Reconcile واختيار قاعدة البيانات من الإنترنت، لتقوم الأداة بمحاولة التعرف التلقائي على معاني القيم.

وكمثال على ذلك يمكن أن يكون لدى المستخدم جدول بأسماء الأفلام السينمائية وتقييم الآخرين لها. ويمكن تطوير هذا الجدول بربطه مع قاعدة بيانات الأفلام في «فري بيس»، وإضافة المزيد من المعلومات إلى الجدول، مثل أسماء الممثلين والمخرج وعام العرض، مع القدرة على ربط اسم الفيلم بموقعه، وغير ذلك من المزايا المتطورة، وخلال دقائق معدودة فقط. ويمكن، مثلا، حفظ قيم خطوط الطول والعرض باستخدام خدمة تحول العناوين إلى المواقع الجغرافية، وبسهولة كبيرة. تجدر الإشارة إلى أن استخدام الروابط وخدمات الإنترنت له مزايا متقدمة وقد تتطلب بعض الدراية التقنية.

وتقدم أداة «غوغل ريفاين» الكثير من المزايا الإضافية التي يمكن التعرف عليها بتجربة الأداة المجانية التي يبلغ حجمها نحو 31 ميغابايت. ويمكن تحميل الأداة على الأجهزة التي تعمل بنظم التشغيل «ويندوز» أو «ماك» أو «لينوكس» من موقع http://code.google.com/p/google/refine/wiki/Downloads?tm=2.