الانفجار المعلوماتي.. كيف تدير الكميات الهائلة من البيانات؟

مكتبة الكونغرس الأميركي و«أمازون» تشكلان أفضل الأمثلة

TT

إن كنت تعتقد أن نظم تخزين المعلومات في مراكز البيانات الخاصة بك هي خارج نطاق السيطرة، فتصور أنك تمتلك 449 مليار مادة أو بند في قاعدة معلوماتك، أو أن تضيف 40 تيرابايت (تيرابايت تساوي 1012 بايت أي ألف غيغابايت) من البيانات الجديدة عليها كل أسبوع. وتشمل التحديات التي تواجه إدارة الكميات الهائلة من البيانات على مهمات تخزين ملفات كبيرة، وفتح أرشيفات طويلة الأمد، وطبعا إمكانية الوصول إلى هذه البيانات.

وعلى الرغم من أن إدارة البيانات كانت دائما المهمة الرئيسية لشركات تقنيات المعلومات، فإن الفورة الجنونية الحالية قد أخذت نشاط السوق إلى مستويات جديدة تماما، وفقا إلى ريتشارد وينتر المحلل في «وينتركورب كونسلتنغ سيرفيزيز» المؤسسة التي تدرس اتجاهات الأحجام الكبيرة من البيانات.

وتظهر المنتجات الجديدة بشكل منتظم من الشركات الراسخة القدم والناشئة على حد سواء، التي تعمل في مختلف المجالات. لذلك «فنحن نملك منتجات تقوم بتحريك البيانات ونقلها، ونسخها، وتحليلها بشكل فوري وسريع»، كما يقول وينتر، لذا فإن العمل جار على قدم وساق لمواجهة ومعالجة الأحجام الكبيرة من المعلومات التي تفرزها الشبكات الاجتماعية. ونظم الاستشعار، والدوائر الطبية وأجهزتها، وغيرها من مصادر المعلومات الجديدة التي تتوسع باستمرار.

* مكتبة الكونغرس

* وتطلب الأمر بالنسبة إلى «أمازون دوت كوم»، و«نيالسين»، و«مازدا»، ومكتبة الكونغرس، اعتماد أساليب جديدة ومبتكرة لمعالجة مليارات المعلومات والوسائط المخزنة، وتبويبها وتصنيفها، بغية استرجاعها والتنقيب عنها بسرعة، مع استئصال النواقص والأخطاء.

وتقوم مكتبة الكونغرس الأميركي بمعالجة 2.5 بيتابايت (بيتابايت تساوي 1015 بايت، أي ألف تيرابايت) من المعلومات والبيانات سنويا، التي تصل إلى كميات أسبوعية هائلة تصل إلى 400 تيرابايت. ويقدر توماس يوكيل رئيس مجموعة هندسة نظم المشاريع في المكتبة المذكورة أن عبء حمل هذه البيانات سيتضاعف أربع مرات في الأعوام القليلة المقبلة مع استمرارها في قيامها بعملها المزدوج، ألا وهو تقديم المعلومات للمؤرخين، وبالتالي حفظها في جميع أشكالها.

وتقوم المكتبة بتخزين المعلومات في 15 إلى 18 ألف قرص موصولة إلى 600 خادم موجودة في مركزين للبيانات. ويجري تخزين نحو 90 في المائة من البيانات، أو أكثر من 3 بيتابايت في شبكة منطقة خاصة بالحفظ والتخزين «سان SAN» موصولة جميعها بالألياف البصرية، في حين يجري تخزين الباقي في أقراص تخزين موصولة بالشبكة.

ويقول غريك شولتز المحلل في «ستوريج آي أو» للاستشارات في حديث نقلته مجلة «كومبيوتر وورلد»، أن مكتبة الكونغرس تمثل نموذجا لعمليات الحفظ والتخزين. وهي فريدة بحجم ما تستطيع تخزينه، خاصة على صعيد تصنيفها إلى مخزونات صوتية وسمعية قديمة، وتسجيلات، وفيديوهات، وصور، وملفات، فضلا عن أصناف الوسائط المتعددة جميعها.

وتستخدم المكتبة نظامين منفصلين كأفضل إجراء لحفظ البيانات، الأول عبارة عن مكتبة أشرطة كبيرة الحجم تتضمن ستة آلاف فتحة تشغيل للشرائط، وتستخدم نظام «آي بي إم جنرال باراليل فايل سيستم» GPFS. ويستخدم نظام الملفات هذا مبدءا شبيها بعلامات تعريف الصور الذي تعتمده «فليكر دوت كوم»، بحيث يجري ترميز الخوارزميات التي من شأنها جعل البيانات سهلة على المعالجة والاسترجاع بسرعة.

وثمة أرشيف إضافي يحتوي على نحو 9500 فتحة تشغيل للشرائط يتألف من مكتبات شرائط «أوراكل/ صن» التي تستخدم نظام «صن كويك فايل سيستم» QFS، بالإضافة إلى مكتبات شرائط «أوركل إس إل 8550». والنظام الثاني هو إرسال كل أرشيف إلى عملية حفظ طويلة الأمد يمكن استعادتها فورا للتحقق من صحة البيانات قبل تخزينها ثانية.

وتتضمن المكتبة اليوم نحو 500 مليون مادة في قاعدة المعلومات الواحدة، لكن يوكيل يتوقع تنامي هذا الرقم إلى خمسة مليارات بند. وللاستعداد لهذه الزيادة، شرع فريق يوكيل بإعادة التفكير في نظم جديدة للملفات يمكنها من التعامل مع العديد من المواد. وتقول جيني روث محللة الحفظ والتخزين في «غارتنر»، إن عملية زيادة التخزين بشكل صحيح أمر مهم. فعندما يرتفع تخزين البيانات عن حجم 10 بيتابايت، فإن الوقت المطلوب، والكلفة الإضافية لدعم هذه الملفات والتعامل معها، يرتفعان إلى العنان أيضا. وأحد المساعي لتذليل المشكلة هو الإبقاء على البنية الأساسية في مكان رئيسي للقيام بالتعامل مع غالبية عملية الاستيعاب هذه، مع الإبقاء على مرفق ثانوي طويل الأمد للتخزين الأرشيفي.

* تجربة «أمازون»

* وكانت «أمازون دوت كوم» عملاقة التجارة الإلكترونية التي غامرت في الدخول إلى الخدمات السحابية قد أصبحت بسرعة من كبريات الشركات الحافظة والمخزنة للبيانات في العالم إلى تربو على 450 مليار مادة مخزنة في السحاب لأغراضها الخاصة، ولأغراض زبائنها أيضا. ويعني هذا حسب أيسا هنري، نائبة رئيس الخدمات التخزينية في «أمازون ويب سيرفيسيز»، وجود 1500 مادة أو بند لكل شخص في الولايات المتحدة، باستثناء البنود الأخرى للأشخاص خارجها. وبعض بنود المحتويات هذه الموجودة في قاعدة البيانات ضخمة جدا يصل إلى 5 تيرابايت للواحد منها، ويمكنه أن يشكل قاعدة بيانات بحد ذاته. وتتوقع هنري أن تبلغ أحجام بنود المحتويات هذه 500 تيرابايت للواحد منها، بحلول عام 2016.

وأضافت أن السر يكمن في التعامل مع البيانات الكبيرة هذه في تجزئتها إلى قطع في عملية تدعى الموازاة. فبالنسبة إلى خدمة التخزين السحابي العام «إس3» تستخدم «أمازون» رمزها الخاص لتجزئة الملفات إلى أقسام، سعة كل منها 1000 ميغابايت. وهذا إجراء شائع، لكن الذي يجعل مسعى «أمازون» هذا فريدا من نوعه، هو أن عملية تجزئة الملفات وفصلها تتم في الزمن الحقيقي.

وتشكل الملفات الفاسدة تحديا آخر يتوجب على مديري التخزين مواجهتها لدى التعامل مع الكميات الكبيرة من البيانات. وغالبية الشركات لا تقلقها ملفات فاسدة بين الحين والآخر. ولكن عندما تكون مالكا لـ449 مليار بند، فإنه حتى القليل من هذه الملفات يشكل تحديا كبيرا على صعيد التخزين.

وتؤكد هنري أن متطلبات تخزين البيانات في «أمازون» مقرر لها أن تنمو بشكل كبير مع قيام زبائنها بحفظ المزيد من بياناتهم في نظم «إس3» الخاصة بها. ومثال على ذلك قيام بعضهم بتخزين بيانات كبيرة الحجم عن التسلسل الوراثي في جينوم (الأطلس الوراثي) لبعض الحيوانات في خدماتها السحابية. ومع تنامي عمليات التخزين هذه، باتت «أمازون مستعدة لإضافة نقاط وعقد تخزينية جديدة بسرعة، لمواجهة المتطلبات المستجدة وفقا لهنري.

* تجربة «مازدا»

* وتدير شركة «مازدا موتور كورب» للسيارات بموظفيها الـ800 في الولايات المتحدة نحو 90 تيرابايت من المعلومات المخزنة. ويقول باري بليكلي مهندس البنية الأساسية لعمليات الشركة في أميركا الشمالية إن الموظفين، ونحو 900 عميل، ينتجون كميات متزايدة من الملفات، والمواد التسويقية، وقواعد البيانات، وغيرها.

وقد قامت الشركة بالتخزين الافتراضي لكل الأشياء، ومن بينها البيانات المخزنة، وهي تستخدم عددا وأدوات لهذا الغرض من «كومبيلانت»، التي باتت الآن جزءا من «ديل»، و«ديل باور فولت NX3100» كنظام «سان» خاص بها، بالإضافة إلى نظم «في إم واير» لاستضافة الخوادم الافتراضية. ويجري ترحيل البيانات القديمة بسرعة إلى الأشرطة، لأن 80 في المائة من بيانات «مازدا» المخزنة تصبح قديمة خلال شهور، مما يعني أن أحجاما ضخمة من البيانات لا يجري الدخول إليها بتاتا، وفقا إلى بلايكلي، أحد موظفي «مازدا» في قسم تقنيات المعلومات.

ولاستيعاب مثل أنماط الاستخدام هذه، يجري التخزين الافتراضي بتركيب طبقي، أي بمستويات متعددة، بحيث تقوم أقراص سريعة بالحالة الصلبة، متصلة بقنوات من الألياف الضوئية (فايبر شانيل) بالتحول إلى المستوى، أو الطبقة الأولى بحيث تتولج 20 في المائة من احتياجات ومتطلبات الشركة من البيانات. وتجري أرشفة بقية البيانات في الأقراص البطيئة التي تعمل بسرعة 15 ألف دورة في الدقيقة على نظام «فايبر شانيل»، التي تشكل الطبقة الثانية. أما الطبقة الثالثة التي تعمل أقراصها بسرعة 7200 دورة بالدقيقة فمتصلة تسلسليا بنظام SCSI المستخدم لأغراض البث السريع للبيانات.

ويقول بلايكلي إن «مازدا» شرعت في وضع القليل من البيانات على الأشرطة، أي نحو 17 تيرابايت حاليا، في نطاق سعيها المستمر في عملية التخزين الافتراضي.

وتقوم شركة «نيالسن» المتخصصة بالمعايير والتصنيف التي تساعد في تقرير مدى طول البث الحي على الأثير بالنسبة إلى البرامج التلفزيونية، بتحليل عدد المشاهدين في نحو 20 ألف منزل، وتعقب البرامج الوطنية في نحو 24 ألف منزل، بحيث يجري وضع المعايير والتصنيفات حول عدد المشاهدين، مع تحليل عوامل الجودة، ووضعها في خدمة الزبائن خلال 24 ساعة بعد بث هذه البرامج.

وفي هذا الصدد يقول سكوت براون نائب رئيس الشركة، إن المعلومات يجري جمعها في مرفق مركزي للتحليل في ولاية فلوريدا، بحيث يتم تخزين نحو 20 تيرابايت في هذه الولاية، وفي ولاية أخرى هي أوهايو. وتستخدم الشركة لهذه الغاية نظم «سان» الفائقة السرعة، والتخزين الملحق بالشبكات.