تقنيات حديثة للتعرف على الكلام.. في الهواتف الذكية

تناسب بيئة الأجهزة الجوالة أكثر من الكومبيوترات

تطبيقات التعرف على الصوت في الكومبيوترات
TT

كثير من الأطفال ربما كانوا يتخيلون، عند لهوهم مع أصدقائهم، ومشاهدتهم لمسلسل «ستار تريك» التلفزيوني، التقنيات التي سوف تشكل جزءا من ابتكارات العالم الحقيقي خلال فترة حياتهم. وكان الاحتمال الأقوى هو ظهور الكومبيوتر الذي يتلقى أوامره بالصوت، وكذلك جهاز المترجم الشامل.

وعندما وصلت تقنية التعرف على النطق إلى الكومبيوتر المكتبي بدا الأمر هائلا. لكن بالنسبة إلى غالبية الناس لم تكن بديلة عن لوحة المفاتيح والماوس. لكن يبدو ذلك مختلفا اليوم، إذ يجري وضع هذه التقنية في بيئة جديدة تماما، ألا وهي الهواتف، ووجودها هناك يدفع باستخدامها وتطويرها إلى اتجاهات لم تكن لتستخدم، لو اقتصر الأمر فقط على الكومبيوتر المكتبي.

* لمحة تاريخية

* ظهرت تقنية التعرف على الكلام كابتكار بدائي في الخمسينات كنوع من حب الاستطلاع. وفي أوائل الستينات كان بمقدور جهاز «شوبوكس» Shoebox من «آي بي إم» التعرف على 16 كلمة منطوقة، وبالتالي الاستجابة إلى طلبات حسابية رياضية بسيطة مثل: ما هو «ناتج ثلاثة زائد أربعة»؟.

وكان «دراغون ديكتايت» DragonDictate من «دراغون سيستمس» ربما أول برنامج للتعرف على الكلام في أجهزة الكومبيوتر «بي سي». وكان قد أطلق في أوائل الثمانينات للكومبيوترات العاملة على نظام تشغيل DOS. وكان بمقدوره التعرف على كلمات مفردة يجري نطقها كلمة كلمة في كل مرة. لكن هذا البرنامج تطور عبر الزمن، ليتحول منتجا باسم «دراغون ناتشورالي سبيكينغ» بمقدوره نسخ نص منطوق بصوت وسرعة الحديث العادي.

غير أن التعرف على الكلام في كومبيوتر سطح المكتب كان له جانبان من المحدودية في العمل: الأول، أنه لكي يعمل البرنامج بدرجة عالية من الدقة كان على المستخدم تدريبه للتعرف على النمط الكلامي الخاص بذلك المستخدم. أما المحدودية الثانية فكانت انتشار لوحات المفاتيح وتفوقها على ما عداها. فقد كانت غالبية الناس قد اعتادت على الطباعة، وليس على الحديث والكلام. ويتفق على هذا الأمر أبهي ريل كبير مديري الإنتاج في فريق «تيل مي» التابع لـ«مايكروسوفت»، وهو مجموعة مسؤولة عن تطوير تقنيات التعرف على الكلام التي تناسب بيئات متعددة.

* تطبيقات جوالة

* ويشير ريب إلى أن هناك أمرين تحتاجهما العمليات الكومبيوترية التي تدار بالكلام لكي يتم اعتمادها وانتشارها على نطاق واسع، وهما: عندما يكون استخدام الكلام هو الأفضل، وعندما تتوفر البيئة التي يكون الكلام فيها هو السيد الوحيد. ومن هذه البيئات الهواتف الجوالة.

ويوضح مات ريفيز نائب رئيس إدارة المنتجات والتسويق في شركة «نوانس» الفرق بين بيئة الكومبيوتر المكتبي، والبيئة الجوالة لمجلة «كومبيوتر وورلد» على الشكل التالي: أن «بيئة الكومبيوتر هي ثابتة تركز فقط على الاستخدامات المكتبية، وبذلك فإن النطق أو الكلام يتبع سير العمل كدعم التطبيقات المكتبية، وتصفح الشبكة، والاتصالات، وغيرها. أما في البيئة الجوالة، فإن الكلام موجه أكثر لدعم تشكيلة من السيناريوهات الحياتية ونسق المعيشة، مثل رحلات رجال الأعمال المسافرين، واللهو في الخارج، وتحرير اليدين أثناء قيادة السيارة».

ويتفق مع هذا الأمر تيونغ نجويين المحلل في «غارتنر» بالقول إن الصوت هو أكثر منطقية في السياق التجوالي. ويضيف «إن أهمية التعرف على الأصوات في الأجهزة المحمولة هي كبيرة جدا، فهي تضيف أسلوبا حدسيا صديقا للبيئة»، خاصة لدى استخدام أجهزة ذات شاشات صغيرة بلوحات مفاتيحها التي تعمل باللمس، بحيث يسهل إدخال البيانات والتعليمات صوتيا.

* التعرف على الصوت

* تعمل تقنية التعرف على الأصوات عن طريق صنع نماذج إحصائية للغة المنطوقة. وهي تتطلب قدرا كبيرا من التخزين لكي تكون عملية، وعليها أن تغطي كل الأصوات الأساسية للغة، أي الصوتيات الخاصة بكل الكلمات، والأساليب المختلفة لربطها بعضها ببعض، كما يقول أمير ماين مدير المنتجات في «غوغل». وعلاوة على كل ذلك فهنالك اللهجات المختلفة، والفوارق في العمر والجنس، وطريقة النطق واللفظ بين منطقة وأخرى، واختيار الكلمات، وهلم جرا.

ويلاحظ ماين أن النموذج الإحصائي في الأبحاث الصوتية الخاصة بـ«غوغل» يتطلب ثلاثة عناصر هي نماذج سمعية، ونماذج لغوية، ومعجم. ويجري إنتاج النموذج السمعي عن طريق أخذ تسجيلات صوتية للكلام مع نسخ ومدونات عما قيل، واستخدام الاثنين لإنتاج ما يمثل الأصوات التي هي المكونات الأساسية لكل كلمات أي لغة.

وينطوي النموذج اللغوي هذا على معرفة أي الكلمات التي يحتمل أن تتبع كلمات أخرى، واستخدامها كأسلوب لتحسين دقة التعرف عليها. فكلمة «إمباير» مثلا تتبعها عادة كلمة «ستايت» إشارة للبناية الشهيرة في نيويورك، أو كلمة «سترايك» في «إمباير سترايك باك» في إشارة إلى الفيلم الشهير، وهكذا.

ولأن الأجهزة الجوالة تملك جزءا قليلا من قدرة التخزين والمعالجة التي يملكها الكومبيوتر المكتبي، لذلك فإن معالجة الكلام قد أخذت فترة طويلة قبل أن يظهر على الهاتف، وبشكل بدائي جدا. ومع تزايد قوة الذاكرة والمعالجة في الهواتف، ازدادت قدرة التعرف على الكلام. فجهاز سامسونغ SCH - p - 207 الذي أطلق في عام 2005 بثمن 99 دولارا أضاف مزية إملاء الكلام إلى النص، وطلب أرقام الهواتف الأخرى عبر الصوت. لكن الجيل الحالي من الهواتف الذكية تتمتع بذاكرة تبلغ مئات الميغابايتات، بل وحتى غيغابايت عن طريق التخزين بذاكرة «فلاش» وبات الأمر أكثر سهولة.

التقدم الأخر الحاصل هو في سرعة الشبكات، وخاصة اللاسلكية منها، بحيث أضحى بالإمكان تخفيف عبء العمل عن طريق كومبيوتر خادم بعيد. ويوضح ماين كيف أن هذا الأمر ساعد في التطبيقات الصوتية لـ«غوغل». «فلكون أن جميع الأعمال الثقيلة على صعيد المعالجة باتت تجري على الشبكة (بواسطة خوادم غوغل)، فإن مسألة القيود أو المحدودية في القدرة الكومبيوترية للأجهزة المحمولة باليد، باتت أكثر كفاءة»، على حد قوله.

* تطبيقات اليوم

* لقد باتت تقنية التعرف على الأصوات في هواتف اليوم أكثر اتساعا من طلب الأرقام فقط. ويشير نجويين إلى أن تطبيقات اليوم التي تتعرف على الكلام تقوم بالعمل المناسب خاصة بالنسبة إلى أجهزة الهاتف الأكثر تطورا وذكاء. ومن هذه التطبيقات «محرك البحث الصوتي من غوغل» Google Voice Search. فهو لا يتعرف على السؤال فحسب، بل يقوم أيضا بسحب كل المعلومات المتعلقة به من هاتفك، ومن الشبكة أيضا. لكن من المشكلات التي تعترض تطبيقات التعرف على الأصوات هو وجود الضجيج والأصوات الخارجية التي تؤثر على مستخدمي الأجهزة الجوالة أكثر بكثير من الأجهزة المكتبية.

وقطعت مسألة الإملاء شوطا طويلا منذ طرح هاتف «سامسونغ» عام 2005. فتطبيق «دراغون ديكتيشن» Dragon Dictation في هاتف «آي فون» يتيح لمستخدمه إملاء كل النصوص من المذكرات، إلى البريد الإلكتروني، إلى تحديثات «تويتر». ويقوم تطبيق «دراغون فور إي ميل» Dragon for Email بالأمر ذاته بالنسبة إلى هاتف «بلاك بيري». أما بالنسبة إلى هواتف «أندرويد» فتقوم «نيوانس» بتقديم التطبيق «فليكس تي9» FlexT9 الذي يتيح أيضا القيام بمهام كثيرة عن طريق الصوت، منها إرسال الرسائل النصية القصيرة.

وأما بالنسبة إلى الترجمة من نص إلى نص، فقد أصبحت متوفرة منذ سنوات، لكن هذا لا يعني أن ترجمة الأحاديث مباشرة أضحت متوفرة، ومع هذا فيبدو أنها أصبحت قريبة. وعلى سبيل المثال هنالك تطبيق «جيبيكو» Jibbigo لهاتف «آي فون» الذي يترجم الكلمات والعبارات والجمل البسيطة المعقولة متيحا لفريقين التحدث إلى بعضهما البعض بالتناوب.

* مستقبل التقنيات

* قم بسؤال أي شخص معني بتقنيات هندسة الكلام عن الخطوة الكبيرة التالية ليقول لك إنها تتمثل في المعالجة الطبيعية للغة. والمقصود هنا قيام الأجهزة بفهم واستيعاب ما تقصده، وليس ما تقوله فقط، بحيث يتحدث المستخدم بما يريد، من دون تقييده بالطريقة التي ينبغي أن يقولها. وتنطوي هذه التقنية على الحوار المحكي الذي يحمل في طياته تحديا مزدوجا: الأول ضرورة التعرف على الكلمات، والثاني ضرورة استخلاص المعنى المرجو منها. وقد بات التحدي الأول سهلا، أما الثاني فلا يزال مراوغا، مما يعني عدم التأكد من النجاح. لكن «مايكروسوفت» تعتقد أن الخدمات الإضافية التي يقدمها هاتف اليوم قد تعزز المعالجة الطبيعية للغة، بحيث يمكنك التخطيط لعشاء وعرض سينمائي لشخصين عن طريق تجزئة هذا العمل، بغية استخدام البيانات من مصادر مختلفة كالتقويم اليومي، وأسعار المطاعم ومكانها، والأفلام المعروضة حاليا في الصالات وغيرها من المعلومات. وأخيرا بقي أمر آخر في عهدة المستقبل، وهو قيام تقنية التعرف على الأصوات بتحسين الألعاب، مما سيضفي نكهة وبعدا جديدين عليها.