ما بعد تقنيات التعرف على الصوت... كومبيوتر يستطيع قراءة الشفتين

«آي بي إم» و«إنتل» يطوران نظما لمتابعة حركات الشفتين تعزز برامج التعرف على الأصوات

TT

تطورت الكومبيوترات الشخصية كثيرا خلال العقود الماضية، لكن وسيلة اتصال المستخدم معها لم تتغير، إذ لا تزال عملية الطباعة على لوحة المفاتيح او التحكم بالفأرة لادخال البيانات او الاوامر، أكثر الوسائل شيوعا.

وبينما تتعب الطباعة على لوحة المفاتيح اليدين، وتربط المستخدم بلوحة المفاتيح، فإن برامج التعرف على الاصوات وعلى نطق الانسان توفر بعض الراحة، إذ انها تفيد في إملاء الرسائل والوثائق في المكاتب مثلا. ولكن هذه البرامج لا تعمل جيدا في الأماكن التي تسودها الضوضاء مثل السيارات أو محطات القطار، أو قرب آلات النقد. إذ يحدث ان تخطئ هذه البرامج حتى في أفضل الظروف.

* قراءة الشفتين

* ولكن تعليم الكومبيوتر على فن قراءة الشفتين قد يزيد من دقة برامج التعرف على النطق. ويعتمد المستمع عادة على حركات الفم ليفهم الفرق ما بين كلمات مثل «موسوم» و«وموصوم». وإذا كان يمكن إضافة مثل هذه الفروق لقاعدة بيانات مختزنة في الكومبيوتر، بواسطة كاميرات رخيصة ومعالجات قوية، فقد تعمل برامج التعرف على النطق بشكل أفضل بكثير حتى في الأماكن العالية الضجيج.

ويعمل علماء في مختبرات «آي بي إم» وفي «إنتل» في كاليفورنيا والصين، وفي مختبرات أخرى، على تطوير نظم رقمية لقراءة الشفتين، لتحسين دقة برامج التعرف على النطق.

وقضى الدكتور تشالباتي نيتي، وهو عالم مسؤول في مختبرات آي بي إم، السنوات الأربع الماضية في دراسة سبل تحسين أداء برامج التعرف على النطق باستخدام الكاميرات. وتبدأ العملية بجعل الكومبيوتر والكاميرا يبحثان عن موقع الشخص المتكلم. ثم يبحثان عن نقاط على الجلد، ثم وبالاعتماد على نماذج احصائية رياضية، يرصدان اي منطقة تشابه شكل الوجه. ثم وما ان يظهر الوجه حتى يجري البحث عن منطقة الفم، خصوصا زاويتيه ومركزه.

وإذا نظرت الكاميرا على الفم فقط، فقد تميز بين 12 إلى 14 صوتا فقط. ولذلك تم توسيع نطاق الكاميرا لرصد أنواع أخرى من الحركة، مثل حركات الفك الأسفل واللسان والأسنان.

وباستخدام كاميرات كومبيوتر رخيصة تم تجربة النظام عدة مرات. وعندما أدخل الضجيج في الخلفية، نجح تحليل الصوت والصورة، مبينا تحسنا بنسبة 100 في المائة في الدقة مقارنة مع الصوت لوحده.

ومع أن هذه النتائج كانت ممتازة لكن المختبر لا يمثل البيئة الحقيقية، فالعديد من النظم التي تستخدم الكاميرات والتي تعمل جيدا في بيئة المختبر المحكمة، تفشل عندما تجرب في السيارة، حيث تكون الإضاءة غير منتظمة، أو عندما يبعد المستخدم وجهه عن الكاميرا.

ولمعالجة هذه الظروف قام الدكتور نيتي بتقديم عدة حلول، أحدها «سماعة فيديو» تضم كاميرا صغيرة على الذراع تظل تواجه الوجه. وتدرس «آي بي إم» أيضا استخدام مصادر تبعث أشعة تحت حمراء، توجه على منطقة الفم لتوفير «إضاءة» منتظمة. ويمكن لهذه السماعات أن تفيد اولئك الذين يعملون في مجالات ملء الاستمارات أو ادخال المعلومات باستخدام برامج التعرف على النطق.

ومن الحلول الأخرى لظروف الضوء المتغيرة، نظام تغذية رجعية يتخذ قرارا حول نسبة الاعتماد الموثوق على المصدرين (الصوتي والمرئي). وعندما يبعد المتكلم وجهه عن الميكروفون مثلا، تقل الثقة بالبيانات المدخلة ولذلك يتجاهل النظام المعلومات المرئية اي المصورة، ويعتمد فقط على المعلومات الصوتية. ويهدف النظام عموما الى عدم الاعتماد على المعلومات الصوتية، لوحدها أو المصورة لوحدها.

وفي شركة «إنتل» طور العلماء برامج تضم التحليل الصوتي والمرئي، ثم طرحوا البرنامج للاستخدام العام كجزء من «مكتبة رؤية الشركة للمصدر المفتوح». ويعمل النظام على معالجة العلامات المصورة والصوتية ودمجها، ثم تحليلها معاً. ويمكن للنظام أن يتعرف على أربع من خمس كلمات في البيئات العالية الضجيج. وأمكن استخدام النظام في اللغة الصينية بالإضافة للغة الإنجليزية.

ويعمل أجيلوس كاتسجيلوس وهو أستاذ بهندسة الكهرباء والكومبيوتر في جامعة نورثويسترن، على تطوير نظام صوتي مرئي للتعرف على النطق. ويقول انه يمكن لنظام مثل هذا أن يستخدم لأغراض الأمن، حيث يمكنه أن يميز الشخص المستقيم عن الشخص المحتال.

* خدمة «نيويورك تايمز» ـ خاص بـ«الشرق الأوسط»