المساعدات الرقمية الذكية Smart phone Assistants
Google assistant, SIRI, Cortana and Alexa
?مقدمة
إذا كنت لا تعرف عائلة المساعدات الرقمية الذكية، مثل: (Siri)، و(Alexa)، و(Cortant)، و(Google Assistant) فلا بدّ أنك سمعت بها، ولكن هل سمعت بمشروع (Duplex) الذي أعلنت عنه جوجل (Google) في مؤتمر I/O العام الماضي؟ وماذا تعرف عن شبكة (WaveNet) وعن استخدامها في هذا المشروع؟ وإذا كنت ممن يحب إجراء محادثة صوتية مع مساعد جوجل فما رأيك أن تسأله هذا ??السؤال:
– Ok google
– How many devices are “Google Assistant” installed on?
ولا بدّ من أن فضولك بعد معرفة الجواب سيدفعك أكثر لقراءة هذا المقال (مع العلم أنه في العام 2017 كان عدد الأجهزة المزودة ب (Google Assistant) حوالي 400 مليون جهاز! تابع معنا..
مقارنة بين (Siri)، و(Alexa)، و(Cortant)، و(Google Assistant)
??من حيث الشركة المصنعة:
(Siri)، و(Alexa)، و(Cortant)، و(Google Assistant)مساعد Google Assistant طورته شركة جوجل (مدمج في أجهزة الأندرويد)
1- مساعد Siri من آبل (مدمج في أجهزة ال iPhone وال iPad)
2- مساعد Alexa من أمازون (يستخدم كثيراً في أجهزة HTC و Huawei)
3- مساعد Cortana من مايكروسوفت (على أجهزة ويندوز).
ملحوظة: بعض هذه الأنظمة متوفر كتطبيق مستقل ويمكن تنصيبه على الأجهزة في مختلف الأنظمة كأي تطبيق آخر؛ مما يعني أنه يمكنكم مثلاً تنصيب مساعد Cortana المطور من مايكروسوفت على نظام أندرويد من متجر جوجل بلاي.
??من حيث كون المساعد (شخصياً):
يتفوق (Google Assistant) و (Alexa) على (Siri) في هذه النقطة؛ ف(Siri) تعد مساعداً عاماً Pure و ليس شخصياً Personal، والسبب في هذا هو أنّ (Siri) لا تجمع البيانات عن المستخدم في حين أن Google تقوم بجمع بيانات المستخدم من تطبيقات Google المدمجة في أنظمة الموبايل: مثل، Clock، وCalendar وContacts وغيرها.. وكذلك (Alexa) تقوم بجمع البيانات عن المستخدم من طلباته التي يجريها على موقع أمازون، فتقوم بتمييز ميوله وتصنيفه في مجموعات (عناقيد) المستخدمين الآخرين في حين أن SIRI لا تجمع أي بيانات عن مستخدمها.
?مشروع دوبلكس Duplex
أعلنت جوجل في مؤتمر I/O 2018 عن إطلاق نسخة تجريبية من نظامها الجديد المسمّى (Duplex) على أجهزة (google Pixel) . وفي هذا المؤتمر تم عرض تجربة لنظام (Duplex) يقوم فيها النظام بإجراء المفاوضات نيابة عن المستخدم ومن دون أن يشعر الطرف الآخر (موظف المطعم أو الفندق) بأنه يتكلّم مع آلة! ففي التجربة الأولى قام نظام (Duplex) بإجراء محادثة مع صالون حلاقة نسائي لحجز موعد وتم ذلك بنجاح مبهر، وكذلك تم عرض مكالمة قام فيها (Duplex) بالتفاوض مع موظف في مطعم لحجز طاولة لأربعة أشخاص في تاريخ محدد (فيديو التجارب موجود في التعليقات).
ويستمد النظام الجديد قوته من خوارزميات التعلم العميق الجديدة، مثل: خوارزمية WaveNet (شبكة عصبونية عميقة تستخدم لتوليد الكلام Speech Synthesis، تم تطويرها من قبل شركة (DeepMind) البريطانية مع خوارزميات معالجة speech disfluency من خلال وضع كلمات مالئة للفراغات (Filler words) مثل Hmm (امم) لمحاكاة طريقة كلام البشر مما يجعل الطرف الآخر يستبعد بشدة كونه يتكلّم مع نظام آلي، ويراعي (Duplex) مسألة التنغيم Intonation في الكلام لجعله يبدو أكثر طبيعية! وقيل في المؤتمر أن هذا النظام ستتوفر فيه 6 أصوات مختلفة (ذكور وإناث) وأحد هذه الأصوات هو صوت مغنٍّ أمريكي اسمه (جون ليجند) تمّ تدريب شبكة wavenet على عينات كافية من صوته.
وعليه تم طرح الكثير من التساؤلات، مثل:
1- من المسؤول الحقيقي عن المكالمات التي يجريها المساعد الرقمي؟ مع العلم أن بعض الشركات قد ترفع دعاوى قانونية على المستخدم في حال ثبت كون التفاوض بين موظف الشركة جرى مع نظام آلي وليس مع مستخدم حقيقي!
2- هل تقوم جوجل بسحب أصوات المستخدمين بدون إذنهم لتدريب أنظمة الذكاء الاصطناعي لديها؟ أثير الكثير من التساؤلات عن مدى استخدام جوجل لبيانات المستخدمين وخاصة تلك التي نتركها على الانترنت كإيميل Gmail، وطلبات محرك البحث والسبب في هذا هو:
3- أن جوجل أعلنت في مؤتمر 2018 عن قرب إطلاقها لخدمة غريبة نوعاً ما؛ حيث يقوم المساعد الرقمي باقتراح نشاطات معينة للمستخدم توافق ما كان يفعله هو في مثل هذه الأوقات من اليوم والشهر والعام! ما رأيك بالخروج إلى حديقة كذا؟ ويمكنك أن تطلب منه أن يقوم بإصدار تقرير عن ملخص ما حصل معك في يومك هذا!
?الأساس النظري
تعد معالجة اللغات الطبيعية Natural Language Processing مظلة كبرى يندرج تحتها الكثير من التقنيات والأنظمة المختصة بمعالجة النصوص المكتوبة أو الأصوات المسموعة، مثل: أنظمة تحويل النصوص إلى كلام TTS (Text to Speech)، وأنظمة تحويل الأصوات إلى نصوص STT، وأنظمة الترجمة الآلية (Machine Translation)، ومحركات البحث (Search Engines) أو- وبعبارة أكثر دقة- أنظمة استرجاع البيانات (Information Retrival) وغير ذلك الكثير، وعندما يحدث دمجٌ لهذه الأنظمة بعضها مع بعض سنحصل على نظام ذكي ومميز كما في المساعدات الرقمية الذكية (personal digital assistant).
في هذه الأنظمة (المساعدات الذكية) يتم دمج مكونات كبرى هي (TTS وSTT وIR التي ذكرناها للتو) بالإضافة إلى نظام أساسي هو نظام إدارة المحادثة (Dialog management system)، وبشكل عام فإن آلية العمل كالتالي:
1- يتم استقبال الإشارة الكلامية عن طريق حساس صوت (عند إصدار الأمر الصوتي voice command المطلوب مثل ok google أو Hey Siri).
2- تحويل الإشارة الصوتية إلى كلام (Speech2Text).
3- تحديد الكلمات المفتاحية (keywords) في نص الطلبية (query) والنظر فيما إذا كان النظام الداخلي قادرًا على تقديم الإجابة الصحيحة أم لا، فإذا لم يكن قادرًا فإنه يستعين بالخدمة السحابية (تحتاج إلى انترنت)، وفي الحقيقة يتم إرسال الطلبية مباشرة إلى سيرفرات الشركة عند توفر الانترنت سواء كان النظام المدمج في الجهاز قادرًا على خدمة المستخدم أو لا.
4- تمرير النص إلى الأنظمة المعنية (Translation، Search Engine) ونظام إدارة الحوار DMS.
5- تحويل نص الجواب إلى إشارة صوتية (يتم هذا عند الحاجة إليه، وإلا فقد يتم عرض النتائج نصوصًا أو صفحةً من محرك البحث بدون صوت).
وأهم ما يميّز مساعد جوجل GA عن غيره هو استخدامه لخوارزميات (coordination reduction) التي تسمح للنظام بتقسيم الطلبية الكبيرة إلى طلبيات صغيرة، ومن ثم تقديم إجابة شاملة للطلبية الأصلية، ولتبسيط الموضوع؛ لنفرض أن الطلبية هي « كيف سيكون الطقس مساء الغد في دمشق والقاهرة؟ » فيتم تجزئة الطلبية إلى (الطقس في دمشق) و(الطقس في القاهرة) ليكون الجواب الكامل هو دمجَ الجوابين معًا، وتعرف هذه المعمارية باسم multi-agent architecture.
?معلومات لطيفة?:
1- في حادثة طريفة من نوعها قامت إحدى الشركات باستغلال مساعد جوجل للترويج لأحد منتجاتها وذلك من خلال إعلان يقوم فيه الممثل بنطق الأمر (ok google) ومن ثمّ يطلب الممثل من مساعده الرقمي البحث عن منتج الشركة؛ ومن ثم .. هل يمكنك عزيزي القارئ أن تكتب لنا في التعليقات أين تكمن الخدعة في هذا الإعلان؟
2- تم إجراء مقابلة طويلة بين نظامي Alexa (من أمازون) ونظام Cortana (من مايكروسوفت) لتبادل الميزات وتدريب الخوارزميات الذكية (تطبيقاً لحكمة« إذا أعطيتك تفاحة وأخذت منك تفاحة يبقى مع كل واحد منا تفاحة» ولكن إذا أعطيتك فكرة وأخذت منك فكرة يصبح مع كل واحد منا فكرتان ).
3- بعض الفنادق وشركات خطوط طيران تعاقدت مع جوجل لتدريب أنظمة (chatbots) خاصة بها لتلبية طلبات الزبائن كحجز غرفة في فندق أو كرت سفر.
4- تقدم أمازون واجهة تخاطب برمجية (API) للمبرمجين للاستفادة من قدرات نظام (Alexa) في بناء أنظمتها الخاصة.
5- أعلنت شركة (Apple) عام 1987 قبل إصدار أول مساعد عن رؤية مستقبلية لنظام المساعد الذكي في فيديو عدّته في وقته ضربًا من الجنون (رابط الفيديو في التعليقات) وذلك قبل إصدار أول نسخة من (Siri) ب 23 عامًا!.
6- تعمل جوجل على تطوير نظام مفسر Interpreter يدعم 27 لغة مختلفة، يمكنك أن تقول للمساعد عبارة: “Ok Google, be my French interpreter” ليبدأ النظام بالتواصل معك باللغة الفرنسية.
ختامًا، لا تنسوا تجربة ما طلبناه منكم في بداية المقال وإخبارَنا بالجواب في التعليقات دمتم بخير.
المراجع:
[Milhorat, P., Schlogl, S., Chollet, G., Boudy, J., Esposito, A., & Pelosi, G. (2014, March). Building the next generation of personal digital assistants. In Advanced Technologies for Signal and Image Processing (ATSIP), 2014 1st International Conference on (pp. 458-463). IEEE.]
رابط
روابط الفيديوهات:
1- تجربة مساعد duplex (التفاوض مع صالون الحلاقة والمطعم)
2- فيديو رؤية آبل Apple لمستقبل المساعدات الرقمية