النصوص تشرح ما تعرضه الصور

تطبيقات مطورة لشرح لقطات كاميرات المراقبة والاستطلاع وتفسيرها

TT

طور باحثون أميركيون نموذجا أوليا لنظام كومبيوتري مخصص للتدقيق في الصور، يقوم بتوليد وصف حي بالنصوص لما يجري عرضه من تلك الصور، وذلك عبر تغذية من كاميرا خاصة بالمراقبة والاستطلاع. وعلى الرغم من أن النظام ليس جاهزا بعد للاستخدام التجاري، فإنه يبرهن كيف أن بمقدور برنامج كومبيوتري تسهيل مهمة البحث عبر مجموعات الصور، أو الفيديو. وقد جرى تطوير النظام هذا من قبل باحثين في جامعة كاليفورنيا في لوس أنجليس بالتعاون مع شركة «أوبجيكت فيديو أوف ريستون» في ولاية فيرجينيا.

يقول سونغ - شن زهو كبير الباحثين وأستاذ الإحصاء وعلوم الكومبيوتر في الجامعة: «يمكننا أن نرى بوجود (يوتيوب) ومصادر الفيديو الأخرى النامية حولنا، بأن القدرة على البحث في مقاطع الصور المرئية، لا تزال مشكلة كبيرة». وكان زهو وزميلاه بالجامعة بنيامين ياو، وهايفينغ غونغ قد طوروا هذا النظام الجديد الذي يدعى «آي 2 تي» I2T، التي تعني بالإنجليزية «من الصورة Image إلى النصText»، لتغيير الوضع الحالي.

* من الصورة إلى النص

* ويقوم هذا الابتكار الجديد بوضع سلسلة من برمجيات خاصة بالصور والرسوم في الكومبيوتر في نظام يحول الصور، أو الفيديوهات إلى مدخلات للحصول على ملخصات لما تمثله. «وهذا ما يتيح البحث فيه عن طريق استخدام بحث نصي بسيط، مما يعني أنه صديق جدا للبشر في سهولة الاستخدام»، وفقا لما نقلته مجلة «تكنولوجي ريفيو» عن زهو.

وقام فريق البحث هذا بتطبيق البرنامج على شريط مصور خاص بنظم المراقبة والاستطلاع بالتعاون مع من واي لي من «أوبجيكت فيديو» لإظهار قوة «آي 2 تي». ويشير زهو إلى أن النظم الشبيهة له قد تساعد في حل مشكلة وجود الكثير من كاميرات الكشف والاستطلاع في الشوارع، وفي المعدات العسكرية على سبيل المثال، مع إبقاء العدد المحدود للأشخاص العاملين مع هذه الكاميرات، على حاله.

ويقوم الجزء الأول من «آي 2 تي»، وهو محلل للصور، بترجمتها وتجزئتها، مما يعني إزالة خلفيتها، والأشياء الأخرى كالسيارات والأشجار والأشخاص. ويمكن تحليل بعض الأجسام أكثر، كإزالة أطراف الشخص، أو إطارات السيارة والإبقاء على الباقي.

الخطوة التالية هي تحديد معنى مجموعة الأشكال هذه، وهو أهم جزء بالنظام، كما يشرح زهو قائلا إن هذه المعرفة تتأتى عن طريق الذكاء البشري. وكان زهو قد أسس في عام 2005 معهد «لوتس هيل»، وهو مؤسسة غير ربحية في إيزوهو بالصين، مع بعض الدعم من الحكومة الصينية، حيث جند لهذه الغاية نحو 20 خريجا من كلية الفنون المحلية للعمل دواما كاملا لدعم مكتبة كاملة من الصور بالرتوش والحواشي لمساعدة النظم الكومبيوترية المرئية. وكانت النتيجة وضع قاعدة معلومات تتضمن أكثر من مليوني صورة تحتوي على أجسام جرى التعرف عليها وتصنيفها إلى أكثر من 500 فئة.

ولضمان قيام العاملين بوضع رتوش الصور على أكمل وجه بالأسلوب الاعتيادي، قامت البرمجيات بمساعدتهم في عملهم هذا. وكانت تستخدم لهذه الغاية الرموز الكومبيوترية التي كانت تستفيد من البيانات النهائية لاختيار أشكال الأجسام المهمة، لكي يقوم الشخص بتصنيفها، مع اقتراح أسلوب تصنيفها وفقا للبيانات السابقة.

* تصنيف الصور

* ويجري تصنيف الأجسام داخل الصور في مجموعة من الفئات، وفقا لقاعدة معلومات «ورلد نيت» التابعة لجامعة برنستون التي تقوم بتنظيم الكلمات الإنجليزية في مجموعات وفقا لمعانيها. «وحالما يجري تحليل الصورة وترجمتها، عن طريق استخدام النظام الذي يضم المعنى أيضا، فإن نسخها باللغة الطبيعية لا يعد صعبا»، على حد قول زهو الذي يوفر بعض البيانات مجانا للباحثين الآخرين.

ونظام معالجة الفيديو يستخدم أيضا الرموز الكومبيوترية التي يمكنها نسخ حركة الأجسام في إطارات متعاقبة. فهو يولد جملا مثل «القارب رقم 1 يتبع القارب رقم 2 بين 35:23 و37:23» درجة، أو «القارب رقم 3 يقترب من الحد البحري عند 40:01». ويضيف زهو: «في بعض الأحيان بإمكانه أن يجري مقاربة شبيهة لجسم لم يجر إدخاله في أحد المشاهد، كأن يقول على سبيل المثال: إنها من المحتمل السيارة المعنية ذاتها مرة أخرى». «كما يمكنه تعريف (أحداث افتراضية) للمساعدة في وصف أحداث معينة مثل تجاوز سيارة لإشارة المرور الحمراء».

وعلى الرغم من أن النظام يظهر أنه خطوة رائدة إلى الإمام لما يدعوه زهو «الرؤية الكبيرة في علوم الكومبيوتر» فإنه لا يزال غير جاهز للاستخدام التجاري. فمعالجة شريط صور مراقبة هي عملية سهلة نسبيا بالنسبة إلى البرنامج، نظرا إلى أن الكاميرا وخلفية المشاهد هي ساكنة. لكن «آي 2 تي» ليس قادرا بعد على التعرف على الأجسام، أو المواقف المتنوعة، كما يفعل الإنسان. فإذا تركته وسط مجموعة من الصور العشوائية، أو أشرطة الفيديو الموجودة على الشبكة مثلا، فإنه سيعاني كثيرا لكي يقوم بمهمته.

* تطويرات مقبلة

* لكن تحسين معرفة النظام في كيفية تمييز الأجسام والمشاهد عن طريق إضافة صور أخرى إلى ما هو موجود في معهد «لوتس هيل» للتدريب قد يساعد أيضا، وفقا إلى زهو.

ويقول زيو كيم الباحث في جامعة كاليفورنيا في بيركلي الذي قام بأبحاث تتعلق باستخدام مرئيات الكومبيوتر للمساعدة في مراقبة حركة المرور «إن نظام (آي 2 تي) الذي هو أساس نموذج المراقبة والاستطلاع، هو أداة قوية وعمل جيد، حتى ولو لم يستطع مقاربة الأداء البشري».

ويضيف كيم أن تحليل الصور وترجمتها بشكل أفضل لهما علاقة وثيقة وسديدة بالذكاء الصناعي من كل الأنواع. «فهناك الكثير من الإمكانات لمحلل جيد للصور مثلا لأن يسمح للشخص الضرير فهم واستيعاب صورة على الشبكة».

ويرى كيم استخدامات أخرى لتوليد النصوص من الفيديو، مشيرا إلى إمكانية وضعه في خدمة تركيب الكلام الصناعي. «وقد يساعد مثلا إذا كان أحدهم يقود سيارة، وأراد أن يعرف ما الذي تشاهده كاميرا المراقبة». لكن البشر هم مخلوقات ترى، كما يضيف، وفي حالات كثيرة، قد يفضلون التعبير بأنفسهم عما يدور بالاستعانة بالصور والفيديو لا غيرها.