عزل الضجيج عن كلام الإنسان في التطبيقات الذكية
المقالة 3\1
مقدّمة
لطالما كان تسخير الآلة في خدمة الانسان أمرًا مغريًا، فاستطاعة الآلة عالية جدًا، أما استطاعة الانسان فمحدودة؛ ولذلك انصبّت جهود الدول والعلماء في البحث عن طريقة للتواصل مع الآلة ونقل الخبرة البشرية إليها، ثمّ أثمرت تلك الجهود أخيرًا آلاتٍ تسير وتطير وتسبح وتلتقط الصور وتصدر الأصوات و… إلخ، وفي عصر المعلوماتيّة ذهبنا أبعد من ذلك، فصارت لدينا آلات تفهم الصورة والنصوص والأصوات، وهذه الأخيرة هي التي تعنينا في هذا البحث.
الإشارة الكلامية
تحمل الإشارة الكلاميّة معلومتين هامّتين هما: (هوية المتحدّث = من القائل) و(محتوى الكلام = ماذا يقول) (Haridas, Marimuthu, & Sivakumar, 2018)، ومن خلال هاتين المعلومتين نستطيع بناء الكثير من الأنظمة والتطبيقات، فيمكننا مثلًا تطوير أنظمة آمنة تميّز المستخدم من صوته ولا يمكن اختراقها من قبل الأشخاص غير المخوّلين، ويمكننا أيضًا تطوير محرّكات بحث صوتية ولن نكون مجبرين على كتابة النصوص التي نرغب بالبحث عنها! وكذلك نستطيع تطوير أنظمة وألعاب تعلّم الأطفال والأجانب كيفيّة نطق مفردات اللغة بشكل صحيح (Chavan & Gawande, 2015)، إلى غير ذلك من التطبيقات.
أثر الضجيج على الإشارة الكلامية
ومع التطوّر الكبير الذي حصل في مجال فهم الإشارة الصوتية آليًا إلّا أن كثيرًا من التحدّيات لا تزال حاضرة بقوّة، وأشهر هذه التحدّيات هي الظروف البيئية السيئة التي تلوّث الإشارة الكلاميّة وتشوّهها فتزيد من صعوبة فهمها على الآلة.
تكمن الفجوة المعرفيّة عندنا اليوم في أننا لا نفهم كيف يستطيع الدماغ تمييز الكلام في ظروف من الضجيج الصعب، وما هو التمثيل الوسيط بين مرحلتي استقبال الإشارة الصوتية عند العصب السمعي ووصولها إلى الدماغ، وترجمتها.
أمثلة عملية
إن مهمّة نظام تمييز الكلام الأساسية هي تحويل الأصوات المسموعة إلى كلمات مكتوبة. وتم إجراء الكثير من التجارب لدراسة تأثير الضجيج على الإشارة الكلامية. ففي تجربة (Lockwood & Boudy, 1991) تمّ تشغيل نظام تمييز كلام بلغت دقّته 100% في سيارة مغلقة النوافذ تسير بسرعة 90كم/ساعة، فانخفضت دقّة التمييز إلى 30%. وفي تجربة (Das, Bakis, Nádas, Nahamoo, & Picheny, 1993) انخفض أداء النظام من 99% إلى 50% عند تجريبه في كافيتيريا؛ أي أن الضجيج يخرّب الإشارة الكلامية تمامًا ويجعل من نظام تمييز الكلام بلا فائدة. ولذلك تمّ عقد المؤتمرات العلمية والتحدّيات البحثية مثل (تحديCHiME وتحدي REVERB لمعالجة أثر الصدى التخريبي) لتحفيز البحث في سبيل معالجة هذه المشكلة.
الضجيج
الضجيج هو إشارة غير مرغوبة تتطفّل على إشارة مرغوبة! لا نعني بهذا الوصف أنّ إشارة الضجيج هي إشارة غير مفيدة مطلقًا، فهي بحدّ ذاتها تحمل معلومات مفيدة عن المنبع الذي صدرت منه؛ فمثلًا يدلّنا الضجيج المولد عن محرّك السيارة على حالة المحرّك وسرعته وكفائته في العمل!
نواجه مشكلتين عند التعامل مع إشارة بها ضجيج هما:
1- التقاط الكلام (signal detection): عند وجود ضجيج علينا أن نفصل إشارة الكلام عن إشارة الضجيج
2- تموضع الكلام(signal allocation): عند غياب الضجيج ووجود متكلّم آخر، في هذه الحالة تعتبر الإشارة كلها مفيدة؛ ولكننا نريد عزل إشارة متكلّم بعينه عن غيره.
وتجدر الإشارة إلى أن الضجيج يتغيّر في نفس البيئة إذا تغيّرت المسافة بين إصدار الإشارة، ووصولها إلى النظام.
في المقالة القادمة
نتحدّث بتفصيل أكثر عن بعض تقنيات تحسين الإشارة Speech Enhancement وبالتحديد تقنيات طرح الطيف (Spectral Subtraction) وتقنيات فصل الضجيج في المجالين الزمني والترددي.
المراجع:
Chavan، K.، & Gawande، U. (2015). Speech recognition in noisy environment، issues and challenges: A review. In Soft-Computing and Networks Security (ICSNS)، 2015 International Conference (pp. 1-5). IEEE.
Das، S.، Bakis، R.، Nádas، A.، Nahamoo، D.، & Picheny، M. (1993). Influence of background noise and microphone on the performance of the IBM TANGORA speech recognition system. In Acoustics، Speech، and Signal Processing، 1993. ICASSP-93; IEEE International Conference (pp. 71-74). IEEE.