تحويل النص المكتوب إلى صوت (تركيب الكلام آليًا).
• مقدمة:
تتيح معظم تطبيقات الترجمة (القواميس الإلكترونية) اليوم إمكانيّة نطق الكلمة التي يُبحث عن ترجمتها بصوتٍ بشري تقريبًا؛ فكيف تعمل هذه التطبيقات؟ هل يا ترى يحضر شخص أو مجموعة أشخاص للنّطق بكلّ كلمة وحفظها في ملف صوتي خاص بهدف استخدامها لاحقًا عند الطلب؟ هل هذه الآلية التي يستخدمها تطبيق (Google Play Books) في قراءة آلاف الكتب الصوتية الموجودة فيه؟ هيهات، بالتأكيد لا. .
نقوم في هذه المقالة بتقديم شرح مبسّط عن تقنية تحويل النصوص إلى أصوات (Test-To-Speech ) أو: (TTS) اختصارًا. ويمكنكم تجريب هذه التقنية على الويب -online- باللغة العربية في هذا الموقع (https://www.ispeech.org/text.to.speech
).
• التمثيل الفونيمي (الصوتيمي):
تُكتب الكلمة بأبجديّة صوتيّة كما تنطق، وهذه الأبجدية الصوتيّة موحّدة يمكن تحويل الكلامات المكتوبة بأي لغة بشريّة إليها؛ فعلى سبيل المثال:
however= haʊˈevəʳ
next = nekst
ولذلك تعتبر تمثيلًا وسيطًا بين اللغات المعروفة -عالية المستوى- والإشارة الرقمية.
• خطوات بناء نظام تحويل النص إلى صوت:
1- تسجيل الأصوات: يقرأ فيها أشخاص نصوصًا مختلفة لفترات طويلة، حيث تحتوي هذه النصوص على كل الأصوات التي يمكن ورودها عند تتالي الأحرف في اللغة.
2- تُقطّع هذه التسجيلات إلى مقاطع صوتية صغيرة جدًا -من رتبة (20) ميلي ثانية- وتخزينها في قاعدة بيانات.
• مثال:
لنفرض أنّ كلمات: (impossible, president, detective) استخدمت في مرحلة تسجيل المقاطع الصوتية الممكن ظهورها في اللغة الإنكليزيّة، فكلمة (impossible) -مثلًا- قُطّعت إلى (imp) و(possi) و(ible).
الآن نريد تشغيل النظام ولفظ كلمة (impressive).
يحدث ذلك من خلال خوارزميّة تحلل الكلمة المطلوب لفظها إلى مقاطع صوتية، واستدعاء هذه المقاطع من قاعدة البيانات:
سحب المقطع (imp) من كلمة: imp)ossible)
وسحب المقطع (res) من كلمة: p(res)edent,
وسحب المقطع (ive) من كلمة: detect(ive).
وبتجميع هذه المقاطع تتكوّن الكلمة: (impressive).
• البنية العامة لأنظمة تحويل النصوص إلى كلام:
يتكون كل نظام (TTS) من جزئين:
جزء أمامي (front-end)، وآخر خلفي (back-end).
يحدث في الجزء الأمامي تحليل النّص (text analysis) وذلك من خلال:
1- القيام بمعالجة أوليّة (pre-processing): كتحويل الأرقام إلى نص أبجدي (تحويل 3 إلى three).
2- تحويل النص إلى الأبجدية الصوتية (التمثيل الفونيمي الذي تحدّثنا عنه للتّو).
3- استخراج معلومات عن التنغيم: فإذا انتهى النّص -مثلًا- بإشارة استفهام (؟).. سينعكس هذا على خصائص الإشارة الكلامية (مدة وتردد نطق بعض مناطق الإشارة) ليُلفظ النص بصيغة سؤال، وكذلك إذا انتهى النص بإشارة تعجّب (!).
أي: إنّ نتائج هذه المرحلة هي: التمثيل الفونيمي للنّص + معلومات عن التنغيم بهدف إضفاء الصفة الطبيعية البشريّة للصوت الذي سيُولّد.
أما الجزء الخلفي (back-end)، ففيه يحدث تركيب الكلام فعليًا وتوليد الإشارة الكلاميّة (waveform generation) من خلال استبدال النص الفونيمي بالمقاطع الصوتية المخزّنة مسبقًا.
• دمج (TTS) مع (OCR!):
استُخدِمَتْ تقنيّة تحويل النصوص إلى كلام (TTS) في تطبيقات تساعد المكفوفين والأطفال الذين يعانون من مشاكل في قراءة النصوص؛ ولكن ماذا لو كانت النصوص موجودة في صورة (image)؟ هل يمكن قراءة هذه النصوص؟
هنا يُستعان بتقنية التعرف الضوئي على الحروف (Optical character recognition)، أو اختصارًا: (OCR)؛ حيث يقوم نظام (OCR) بتمييز النصوص المصوّرة وتحويلها إلى نصوص مكتوبة، ثم يقوم نظام (TTS) بتحويل هذه النصوص إلى أصوات.
• التحدّيات التي تواجه أنظمة تحويل النص إلى كلام:
1- يقوم النظام بلفظ نفس الكلمة بنفس الطريقة كل مرّة، ولكن في الحقيقة قد يختلف اللفظ الصوتي للكلمة المكتوبة بحسب السياق الذي وردت فيه.
2- التنغيم وإضفاء الصفة الطبيعيّة على الصوت والتغطية على الطبيعة الآلية.
3- تخفيف أثر الأصوات الإضافية الناشئة عن توصيل المقاطع الصوتية الصغيرة لتشكيل الكلمة المراد نطقها.
• ملاحظات:
1- نستخدم مصطلح “تركيب الكلام” (speech synthesis) عند الحديث عن توليد الصوت آليًا بكفّ النظر عن وجود نصّ مكتوب قبلًا، كما في تطبيقات مثل: (Google Maps) حيث تُقدّم إرشادات صوتية للوصول إلى الوجهة المرغوبة أثناء القيادة، وهذه تقنية تركيب الكلام.
أي: إنّ (TTS) تعتبر حالة خاصّة من (Speech Synthesis).
ويوصف القسم الثاني في نظام (TTS) بأنه: مركّب كلام (Speech Synthesizer).
2- يُدرس تحليل النصوص في علم معالجة اللغات الطبيعية (Natural language processing)، بينما يُدرس توليد الإشارة الكلاميّة (waveform generation) في علم معالجة الإشارة الرقمية (Digital signal processing).
3- تعتمد جودة الصوت الناتج على ظروف تسجيل المقاطع الصوتية.
4- في بعض التطبيقات يمكن زيادة سرعة النطق أو تبطيئها.
5- تعتبر القدرة على التنغيم معيارًا يستخدم لتقييم أنظمة تركيب الكلام المختلفة.
• خلاصة:
1- تعتبر تقنية تحويل النص إلى كلام (Text2Speech) آليًا من أهم تطبيقات الذكاء الاصطناعي، وتستخدم على نطاق واسع في المجالات التعليمية والخدَمية.
2- لا تزال هناك الكثير من التحدّيات على طريق تطوير هذه الأنظمة، وخصوصًا في اللغة العربية.
المراجع
(2011). Speech synthesis techniques. A survey
(2012). Design and implementation of text to speech conversion for visually impaired people