تقنية التعرف على الكلام.. عقود من التطويرات المبتكرة

من التعرف على الأرقام إلى رصد أصوات شتى اللغات البشرية

TT

تأثر الكثير من الناس بعمل نظام «سيري» الذي قدمه هاتف «آي فون 4 إس» من «آبل»، وأخذوا يتساءلون عن بدايات ظهور تقنية التعرف على الكلام المعقدة التي ترجع إلى الخمسينات من القرن الماضي.

إن النظر في تاريخ تطوير تقنية التعرف على الكلام يشبه النظر إلى طفل ينمو، إذ تقدمت تلك التقنية من مرحلة التعرف على مقاطع لفظية إلى بناء مفردات لآلاف من الكلمات وصولا إلى الرد على الأسئلة بإجابات سريعة، تماما كما يفعل نظام «سيري»، المساعد شديد الذكاء الذي تقدمه شركة «آبل».

ويدفعنا الاستماع إلى نظام «سيري»، وحس الدعابة الذي يمتلكه، إلى أن نتساءل كيف تطورت تقنية التعرف على الكلام على مر السنين. وقد ألقت مجلة «بي سي وورلد» الإلكترونية نظرة على التطورات التي حدثت في العقود الماضية والتي مكّنت الناس من التحكم في الأجهزة باستخدام أصواتهم فقط.

* مرحلة البداية

* كان أول نظام للتعرف على الكلام يتمكن من فهم الأرقام فقط. وهذا يوضح مدى صعوبة وتعقيد اللغة البشرية، مما يجعلنا نشعر أن المبتكرين والمهندسين ركزوا أولا على الأرقام. وفي الخمسينات قامت مختبرات بيل عام 1952 بتصميم نظام «أودري»، الذي تعرف على الأرقام التي نطقها شخص واحد. وبعد عشر سنوات عرضت شركة «آي بي إم» جهاز «شو بوكس» في المعرض العالمي عام 1962، وكان هذا الجهاز يتمكن من فهم ست عشرة كلمة منطوقة باللغة الإنجليزية.

كما قامت مختبرات في الولايات المتحدة واليابان وإنجلترا والاتحاد السوفياتي السابق بتطوير جهاز آخر مخصص للتعرف على الأصوات المنطوقة، كذلك تطورت تقنية التعرف على الكلام لتتضمن الأصوات الأربعة المتحركة والأصوات التسعة الساكنة.

وقد لا تبدو تلك الجهود كبيرة للغاية، إلا أن هذه الجهود الأولى تعد بداية مثيرة للإعجاب، ولا سيما عندما نضع في اعتبارنا كيف كانت الكومبيوترات البدائية في ذلك الوقت.

* انطلاقة السبعينات خطت تقنية التعرف على الكلام خطوات واسعة في السبعينات، وذلك بفضل اهتمام وتمويل وزارة الدفاع الأميركية، حيث كان البرنامج البحثي للتعرف على الكلام الذي يسمى «دودز داربا»، الذي تم تقديمه من عام 1971 وحتى 1976، واحدا من أكبر الأجهزة من نوعها في تاريخ التعرف على الكلام، ومن بين الأشياء الأخرى التي كانت مسؤولة عن إطلاق نظام فهم الكلام الذي يطلق عليه اسم «هاربي» الذي قامت جامعة كارنيغي ميلون بتصنيعه. وكان «هاربي» يتمكن من فهم 1011 كلمة، وهي تقريبا المفردات التي يستخدمها طفل في الثالثة من عمره. وكان «هاربي» مميزا للغاية لأنه قدم معالجة بحثية أخرى أكثر كفاءة، تدعى بحث «بيم»، الذي يقدم شبكة محدودة للجمل المحتملة في الدولة، حسبما جاء في كتاب «قراءات في تقنية التعرف على الكلام» الذي ألفه أليكس ويبل وكاي فو لي. (وترتبط قصة التعرف على الكلام ارتباطا وثيقا بالتطورات التي يشهدها نظام البحث والتكنولوجيا، وذلك كما أثبت انضمام «غوغل» إلى تقنية التعرف على الكلام على الهاتف الجوال قبل بضع سنوات).

كما شهدت السبعينات أيضا نقاط تحول هامة في تقنية التعرف على الكلام، بما في ذلك تأسيس أول شركة تجارية تستخدم تقنية التعرف على الكلام، وهي شركة «ثريس هولد تكنولوجي»، علاوة على قيام «بيل لابوراتوريز» بتقديم نظام يمكنه التعرف على أصوات مجموعة متنوعة من الأشخاص.

التنبؤ بمغزى الأصوات على مدار العقد التالي وبفضل الأساليب الجديدة لفهم ما يقوله الناس، قفز عدد مفردات التعرف على الكلام من مئات الكلمات إلى آلاف الكلمات، كما كان هناك إمكانية التعرف على عدد لا نهائي من الكلمات. وكان أحد الأسباب الهامة وراء ذلك هو وجود طريقة إحصائية جديدة تعرف باسم «نظام ماركوف المخفي». وبدلا من استخدام نماذج معينة للكلمات والبحث عن نماذج أصوات، وضعت شركة «إتش إم إم» في اعتبارها إمكانية تحول الأصوات غير المعروفة إلى كلمات. وتم تطبيق هذا الأساس خلال العقدين التاليين كما يرد في كتاب «التعرف الآلي على الكلمات - تاريخ موجز عن تطور تلك التقنية»، الذي ألفه بي جوانغ ولورانس رابينير.

وبدأت تقنية التعرف على الكلام، مجهزة بتلك المجموعة الممتدة من المفردات، تسلك طريقها نحو التطبيقات التجارية للأعمال والقطاعات المتخصصة مثل الاستخدام الطبي. كما بدأت تستخدم في المنزل أيضا في شكل الدمية جولي التي قامت شركة «وورلدز أوف واندر» بتصنيعها عام 1987، وهي دمية يستطيع الأطفال أن يقوموا بتدريبها على الاستجابة لأصواتهم (وأخيرا تمكنوا من صناعة الدمية التي يمكنها فهمك).

ورغم ذلك، وما إذا كان برنامج التعرف على الكلام في هذا الوقت يستطيع أن يتعرف على 1000 كلمة، كما فعل برنامج تحويل النص إلى كلام، أو ما إذا كان يتمكن من دعم 5000 كلمة، كما فعل نظام «اي بي إم»، فقد ظل هناك عقبة شديدة الأهمية هي أن تلك البرامج تتمكن من استيعاب الكلام المنفصل وحسب، لذا فقد كان عليك أن تفصل بين الكلمات بعضها وبعض.

* تقنية التعرف الآلي

* في التسعينات ظهرت الكومبيوترات التي تحتوي على معالجات أكثر سرعة، وأصبح برنامج التعرف على الكلام متاحا للأشخاص العاديين.

وفي عام 1990 أطلقت شركة «دراغون» أول منتج للتعرف على كلام المستهلك، وهو «دراغون ديكتيت»، بسعر عالٍ جدا هو 9000 دولار. وبعد سبع سنوات، أطلقت برنامج «دراغون ناتشيورالي سبيكينغ». واستطاع هذا التطبيق أن يتعرف على الكلام المتواصل، لذا كان يمكنك أن تتحدث بصورة طبيعية نحو 100 كلمة لكل دقيقة. ورغم ذلك كان عليك أن تقوم بتدريب البرنامج لمدة 45 دقيقة، كما كان البرنامج يباع بمبلغ باهظ هو 695 دولارا.

وظهر أول جهاز جوال للتعرف على الصوت، وهو جهاز «فال» من «بيل ساوث»، عام 1996، وكان جهاز «فال» بنظام تفاعلي للتعرف على الصوت عن طريق الاتصال، وكان من المفترض أن يقدم لك معلومات معتمدة على ما قلته على الهاتف. ومهّد «فال» الطريق أمام جميع القوائم الصوتية النشطة غير الدقيقة التي كان من الممكن أن تزعج المتصلين على مدار الأعوام الخمسة عشر التالية وما بعدها.

* القرن الحادي والعشرون

* بحلول عام 2001، وصلت كومبيوترات التعرف على الكلام إلى القمة بدقة بلغت 80 في المائة، وبحلول نهاية العقد، بدا أن تطور تلك التقنية قد أصابه الجمود. لقد أبلت نظم التعرف على الكلام بلاء حسنا عندما كان عالم اللغة محدودا، غير أنها كانت في مرحلة «التخمين» بمساعدة النماذج الإحصائية، والكلمات متشابهة الأصوات. واستمر عالم اللغات المعروفة في النمو في الوقت مع تطور الإنترنت.

هل كنت تعلم أن نظام التعرف على الكلام والأوامر الصوتية كانت مدمجة في ويندوز «فيستا» ونظام التشغيل «ماك أوس إكس»؟ لم يكن الكثير من مستخدمي الكومبيوتر على علم أن تلك المميزات موجودة بالفعل. وكان نظام التعرف على الكلام والأوامر الصوتية لنظام «أوس إكس» شيقا للغاية، غير أنه لم يكن دقيقا أو سهل الاستخدام مثل لوحة المفاتيح والفأرة.

* تطبيقات «غوغل» الصوتية

* لقد بدأ تطور تقنية التعرف على الأصوات يتضح من خلال حدث بارز هو ظهور تطبيق البحث الصوتي لـ«غوغل» على جهاز الـ«آي فون» (Google Voice Search app for the iPhone). وكان تأثير تطبيق «غوغل» هذا شديد الأهمية لسببين، السبب الأول هو أن أجهزة الهاتف الجوال وغيرها من الهواتف الجوالة تعد وسائل مثالية للتعرف على الكلام، حيث إن الرغبة في استبدال لوحات المفاتيح الصغيرة التي تكون بجانب الشاشة تعد حافزا لتطوير طرق إدخال بديلة. أما السبب الثاني فيتمثل في أن «غوغل» لديها القدرة على استخدام معالجة تطبيقاتها في مراكز بيانات السحابة، حيث تقوم باستغلال كل تلك القوة الحسابية لعمل تحليل البيانات الواسع المدى والضروري لعمل توافق بين كلمات المستخدم والعدد الهائل من نماذج الكلام الإنساني التي يقوم بتجميعها.

باختصار، إن أهم شيء في التعرف على الكلام هو مدى توافر البيانات، والقدرة على معالجتها بكفاءة. وتقوم تطبيقات «غوغل» بإضافة بيانات من مليارات العمليات البحثية، التي تقوم بها، إلى عمليات التحليل وذلك للتمكن من التنبؤ بشكل أفضل عن الذي يمكن أن تقوله.

وفي عام 2010 قامت «غوغل» بإضافة «التعرف الشخصي» للبحث الصوتي على الهواتف التي تعمل بنظام «أندرويد»، وبهذا يتمكن البرنامج من تسجيل عمليات البحث الصوتي للمستخدمين وعمل نماذج كلام أكثر دقة. وقامت الشركة أيضا بإضافة البحث الصوتي على متصفح «كروم» في منتصف عام 2011. هل تذكرون كيف بدأ الأمر بـ10 إلى 100 كلمة، ثم أصبح عدة آلاف بعد ذلك؟ ويقوم نظام البحث الصوتي باللغة الإنجليزية التابع لـ«غوغل» بدمج 230 مليار كلمة من طلبات البحث الفعلية الخاصة بالمستخدم.

* نظام «سيري»

* والآن ظهر نظام «سيري» (Siri)، وهو يشبه نظام البحث الصوتي لـ«غوغل»، حيث يقوم على المعالجة التي تعتمد على السحابة (جهاز خادم يتم الوصول إليه عن طريق الإنترنت)، التي تقوم باستخدام ما تعلمه عنك لتخرج ردا متصلا بالسياق، وتقوم بالاستجابة إلى المدخلات الصوتية الخاصة بك. كما يشير إليها ديفيد داو الخبير في الكومبيوتر الآلي: «إن الأمر ليس ممتعا فقط لكنه مضحك أيضا، فعندما تسأل نظام (سيري) عن معنى الحياة، يقول لك (42) أو إن (جميع الأدلة حتى الآن تشير إلى الشوكولاته). وإذا ما قلت له إنك تريد أن تخبئ شيئا ما، فسوف يتطوع بذكر المستودعات ومصانع المعادن المجاورة». وقد تحولت تقنية التعرف على الكلام من كونها خدمة إلى وسيلة ترفيه.

* الكلام الشائع والدقيق إن الانفجار الذي شهدته تطبيقات التعرف على الأصوات يوضح أن وقت التعرف على الأصوات قد حان، وأنك تستطيع أن تتنبأ بظهور المزيد والمزيد من التطبيقات في المستقبل. ولن تسمح لك تلك التطبيقات بالتحكم في جهاز الكومبيوتر الشخصي الخاص بك من خلال الصوت أو تحويل الصوت إلى نص وحسب، بل ستقوم أيضا بدعم الكثير من اللغات، وستعرض عليك أصوات لمجموعة متنوعة من الأشخاص لتقوم بالاختيار من بينها، وتقوم بدمجها في كل جزء من أجهزة الهاتف الجوال الخاص بك (أي أنها ستتغلب على عيوب نظام «سيري»). كذلك ستتحسن جودة تطبيقات التعرف على الكلام. على سبيل المثال، تستطيع سماعات الأذن سماعك وفهمك، حتى إذا كان هناك ضوضاء بجوارك.

وبينما يبدأ كل شخص في التكيف مع التحدث بصوت مرتفع في أجهزة الهاتف الجوال الخاصة بهم، فمن المحتمل أن تمتد تقنية التعرف على الكلام نحو أنواع أخرى من الأجهزة. وليس من الصعب أن نتخيل المستقبل القريب حيث نتمكن من طلب القهوة من عمال الكافيتريا الموجودين في مكاتبنا والتحدث إلى الطابعات، بل ومن الممكن أن نأمر الأنوار أن تنطفئ.