هوش مصنوعی برای اکثر ما واژه‌ای آشناست اما استفادهٔ گسترده از آن در صنایع مختلف باعث شده خیلی از کاربردهای نوظهور آن برایمان کمتر شناخته شده باشد. ما قبلاً در تک‌ویژن دربارهٔ هوش مصنوعی صحبت کرده‌ایم و اطلاعاتی از کاربردها و اندازهٔ بازار آن ارائه داده‌ایم. در این نوشته قصد داریم به موضوع جذاب هوش مصنوعی سخنگو (Conversational AI) بپردازیم.

هوش مصنوعی سخنگو چیست و چه انواعی دارد؟

در ساده‌ترین تعریف، هر ماشین یا نرم‌افزاری که انسان بتواند با آن حرف بزند یک هوش مصنوعی سخنگوست. اولین نرم‌افزاری که با استفاده از هوش مصنوعی قادر به تشخیص گفتار انسانی بود، در سال ۱۹۶۶ در MIT ساخته شد و «الیزا» (ELIZA) نام گرفت. در گذر زمان تلاش‌های متعدد دیگری برای تقویت قابلیت درک ماشین‌ها انجام شد تا اینکه در سال ۲۰۱۰ شرکت اپل نرم‌افزار «سیری» (SIRI) را برای گوشی‌های هوشمند آیفون عرضه کرد. از آن سال به بعد جهش‌های فراوانی در استفاده از هوش مصنوعی برای تعامل خودکار با کاربر رخ داد و کاربرد این نرم‌افزارها به سرعت فراگیر شد.

فرض کنید می‌خواهید از نتیجهٔ یک مسابقهٔ فوتبال که چند ساعت پیش تمام شده باخبر شوید. راه اول این است که از طریق سایت‌های خبری یا جست‌و‌جو در اینترنت نتیجه را بفهمید. راه دیگر این است که از دستیار مجازی (Virtual Assistant) خود که احتمالا روی گوشی هوشمند شما وجود دارد بپرسید. دستیار مجازی یا صوتی در واقع یک نرم‌افزار است که از فناوری‌های مختلفی از جمله هوش مصنوعی استفاده می‌کند تا حرف شما را بفهمد، کاری را که از آن خواستید، اگر بتواند، انجام دهد و در آخر نتیجه را به شما بگوید. تا امروز شرکت‌های بسیاری اقدام به تولید دستیارهای مجازی کرده‌اند. از میان شرکت‌های معروف‌تر می‌توان گوگل، اپل، مایکروسافت و آمازون را نام برد که هر کدام سرمایه‌گذاریه‌های میلیارد دلاری روی این فناوری انجام داده‌اند.

نوع دیگری از هوش مصنوعی سخنگو نیز وجود دارد که نسبت به دستیار صوتی قدیمی‌تر است و به نوعی پدر آن به حساب می‌آید و با نام چت‌بات (Chatbot) یا ربات نوشتاری شناخته می‌شود. در چت‌بات نیز همان فناوری‌های اصلی هوش مصنوعی برای تشخیص زبان انسان استفاده شده است با این تفاوت که کاربر بجای صحبت کردن باید خواسته یا سؤال خود را تایپ کند. ممکن است تصور کنیم چون این فناوری نسبت به دستیار صوتی قدیمی‌تر است پس احتمالاً به زودی منسوخ خواهد شد. با اینکه این برداشت در مورد تعدادی از نرم‌افزارهای قدیمی‌تر درست است اما در خصوص فناوری چت‌بات‌ها صادق نیست. باید در نظر داشت که بدلیل تفاوت در ورودی این دو نوع نرم‌افزار (صوت یا متن) کاربردپذیری آن‌ها نیز در صنایع و وضعیت‌های مختلف فرق می‌کند و نمی‌توان صوتی یا متنی بودن را مزیتی قطعی به حساب آورد. برای درک بهتر این تفاوت، به آماری که مؤسسهٔ Capgemini در سال ۲۰۱۹ منتشر کرده توجه کنید:

نمودار بالایی درصد سازمان‌هایی را نشان می‌دهد که دستیار صوتی را در سطح سازمان یا برای تعامل با مشتری بکارگیری کرده اند. حدود نیمی از صنعت خودرو و یک‌چهارم صنعت خرده فروشی از دستیارهای صوتی استفاده کرده‌اند. در نمودار پایین درصد سازمان‌هایی که از چت‌بات‌ها بهره گرفته‌اند آمده است. در اینجا صنعت مالی در جای اول ایستاده است! اگر کمی دقت کنیم متوجه می‌شویم که وقتی در حال رانندگی هستیم اصلاً تمایل نداریم چیزی تایپ کنیم یا مثلاً مقصدی را در سیستم راهبری خودرو وارد کنیم. این کار حتی احتمال تصادف را افزایش می‌دهد! در عوض ترجیح می‌دهیم با صحبت کردن با دستیار صوتی خودرو تعامل کنیم. در سوی دیگر هنگام انجام مراودات مالی، به طور ناخودآگاه محتاط‌تر می‌شویم و استفاده از متن را به صوت ترجیح می‌دهیم؛ شاید به این دلیل که اگر شک داشته باشیم می‌توانیم متن را چندبار بخوانیم و احتمال اشتباه کردن پایین‌تر می‌آید. در ادامه با انواع کاربردهای هوش مصنوعی سخنگو در صنایع مختلف آشنا می‌شویم.

هوش مصنوعی سخنگو چه قابلیت‌هایی دارد؟

در اینجا به قابلیت‌ها، مزیت‌ها و به طور کلی چیزهایی می‌پردازیم که توسط هوش مصنوعی سخنگو بهتر، آسان‌تر، سریع‌تر و با هزینهٔ کمتر انجام می‌شوند:

۱. اولین و رایج‌ترین کمکی که یک دستیار صوتی هوشمند به شما می‌کند این است که مقداری از بار مشغلهٔ روزمره را به دوش می‌کشد! تولد همسرتان را فراموش می‌کنید؟ به حافظهٔ دستیار خود اعتماد کنید؛ همیشه بخاطر دارد. فردا باران می‌آید یا نه؟ دستیارتان وضعیت هوا را به شما می‌گوید. برای انتخاب بلیت هواپیما مردد هستید؟ هوش دستیار شما به اندازه‌ای هست که پایین‌ترین قیمت را بیابد.

۲. روی گوشی همراه شما حتماً تعداد زیادی نرم‌افزار مختلف نصب شده که استفاده از همهٔ آن‌ها کار راحتی نیست. حالا فرض کنید همهٔ آن‌ها نوتیفیکیشن مخصوص به خود را داشته باشند! دستیار مجازی شما می‌توانند نقش یک نرم‌افزار همه‌کاره را ایفا کند و کاربری‌های مختلف بقیهٔ برنامه‌های شما را همگرا کند. در آینده این قابلیت دستیارها بسیار کاربردی‌تر می‌شود و تا حدی پیشرفت خواهد کرد که نرم‌افزارهای جدید مورد نیازتان را حتی یک بار هم باز نمی‌کنید!

۳. شرکت‌های خدماتی و خرده‌فروشی بسیاری همین الان از هوش مصنوعی برای تعامل با کاربرانشان استفاده می‌کنند. یکی از کاربردهای اصلی هوش مصنوعی سخنگو و به خصوص چت‌بات‌ها حمایت از مشتریان کسب‌و‌کارهاست. مراکز تماس کوچکتر می‌شوند و ارتباط اول مشتری با هوش مصنوعی خواهد بود. مثلاً می‌خواهید سفارش خود را دیرتر دریافت کنید یا اینکه کالایی را کم یا زیاد کنید؛ کافی‌است خواستهٔ خود را به چت‌بات بگویید تا انجام شود. در مواقع ضروری که خود هوش مصنوعی تشخیص بدهد، یا شما درخواست کنید، قابلیت اتصال به اپراتور نیز وجود دارد. نگران نباشید!

۴. هوش مصنوعی در پاسخگویی به مشتریان، صبورترین و دقیق‌ترین کارمند شماست که بدون خستگی در تمام روزها و ساعت‌ها به مشتریان خدمات می‌دهد! این قابلیت بسیار مهم باعث شده است که شرکت‌ها به استفاده از هوش مصنوعی سخنگو تمایل شدیدی نشان دهند.

۵. قابلیت مهم بعدی مقیاس‌پذیری (Scalability) فوق‌العادهٔ آن است که به کسب‌وکارها کمک می‌کند خیلی سریع رشد کنند و دغدغهٔ کمتری در بخش ارتباط با مشتری (CRM) داشته باشند.

۶. مزیت دیگر هوش مصنوعی، یادگیری مداوم است. اصولاً علت اصلی با «هوش» بودن یک نرم‌افزار این است که به مرور زمان از ورودی‌های مختلف کاربر یاد می‌گیرد و می‌تواند در تعامل‌های آینده با دیگر کاربران از یافته‌های قبلی استفاده کند. برای مثال نرم‌افزار مورد استفاده در یک فروشگاه اینترنتی، طی پاسخ دادن به درخواست‌های مکرر مشتری‌ها، متوجه شده است در ساعت‌های خاصی از شبانه‌روز خرید کالاهای تند مصرف (FMCG) افزایش قابل توجهی دارد. به همین دلیل در آن بازهٔ زمانی به بازدیدکنندگان پیشنهادهایی از این نوع کالاها ارائه می‌کند. این مثال نمونه‌ای از کاربرد هوش مصنوعی در استفاده از داده و تصمیم‌گیری داده‌محور است.

۷. یکی دیگر از کاربردهای هوش مصنوعی سخنگو را می‌توان کمک به افراد با محدودیت‌های جسمانی برای دسترسی آسان‌تر به محتوای اینترنتی دانست: مثلاً امکان تسهیل دسترسی افراد نابینا یا با بینایی خیلی ضعیف به نوشته‌های وب‌سایت‌ها یا ترجمهٔ همزمان محتوا برای کسانی که زبان دیگری دارند.

نرم‌افزارهای هوش مصنوعی سخنگو چطور کار می‌کنند؟

یک دستیار صوتی یا چت‌بات برای اینکه بتواند خواستهٔ ما را انجام دهد باید ابتدا زبان انسان را بفهمد، سپس بر اساس المان‌هایی که در ورودی تشخیص داده پردازشی انجام دهد و در نهایت نتیجه را دوباره به زبان انسان منتقل کند.

برای این کار در مرحلهٔ اول، نرم‌افزار باید بتواند منظور انسان را بفهمد. چالش اولی که با آن روبه‌رو هستیم تبدیل صدای انسان به چیزی است که ماشین بفهمد. این کار توسط فناوری «تشخیص خودکار گفتار» یا Automatic Speech Recognition (ASR) امکان‌پذیر است. با این فناوری می‌توان سیگنال‌های صوتی صحبت انسان‌ها را به داده‌های قابل پردازش برای ماشین تبدیل کرد. اما واضح است که زبان ما با زبان ماشین به کلی متفاوت است. در این‌جا شاخهٔ بسیار گستردهٔ دیگری از هوش مصنوعی به کمک ما می‌آید که با نام «پردازش زبان طبیعی» یا Natural Language Processing (NLP) شناخته می‌شود. با استفاده از تکنیک‌های NLP یک نرم‌افزار می‌توانند اجزای سازندهٔ زبان انسان را تشخیص دهد و از هم تفکیک کند و قطعات کلیدی یک جمله را پیدا کند. مثلاً در جملهٔ «لطفاً فردا شب دو بلیت در سینما آزادی برای سانس ساعت ۲۰ رزرو کن.» قطعات کلیدی قابل تشخیص برای ماشین این کلمات هستند: فردا شب، دو، بلیت، سینما آزادی، ساعت ۲۰.

مرحلهٔ بعد، پردازش اطلاعات مرحلهٔ اول است. در اینجا اتفاقات بسیار زیاد و پیچیده‌ای در نرم‌افزار می‌افتد که وارد جزئیات آن نمی‌شویم اما بطور خلاصه بگوییم که این پردازش‌ها ممکن است در سطوح مختلفی انجام شوند. مثلاً در نرم‌افزارهای ساده‌تر، برنامه‌نویس حالت‌های ممکن اطلاعات ورودی را از قبل مشخص کرده و نتایج و کارهایی که نرم‌افزار باید انجام دهد را نیز تعیین کرده است. در این وضعیت خبری از هوش مصنوعی به معنای امروزی آن نیست. اما در نرم‌افزارهای پیچیده‌تر تصمیم‌گیری‌ها به عهدهٔ خود نرم‌افزار گذاشته شده است. در این‌جا فناوری‌های دیگری از جمله یادگیری ماشین (Machine Learning) و یادگیری عمیق (Deep Learning) وارد می‌شوند و قابلیت یادگیری هوش مصنوعی که قبلاً ذکر کردیم کاملاً خودنمایی می‌کند.

در انتها نرم‌افزار نتیجهٔ کاری را که انجام داده یا حتی نتوانسته انجام دهد به کاربر اعلام می‌کند. برای این کار باز هم از NLP استفاده می‌شود با این تفاوت که این دفعه خروجی نرم‌افزار باید یک جملهٔ انسانی باشد. در مورد دستیار صوتی، خروجی تولید شده باید خوانده شود که این کار با موتورهای تبدیل نوشتار به گفتار (Text To Speech) انجام می‌شود.

استفاده از هوش مصنوعی سخنگو در جهان چقدر رایج است؟

با توجه آمار مؤسسهٔ Capgemini که در سال ۲۰۱۹ منتشر شده بیش از نیمی از افراد در آمریکا و اروپا حداقل یکبار از انواع هوش مصنوعی سخنگو مثل دستیار صوتی یا چت‌بات استفاده کرده‌اند. پاسخ به پرسش اصلی با نگاهی به نمودار زیر تا حدی روشن می‌شود:

این نمودار مقایسه‌ای در یک بازهٔ زمانی ۱۸ ماهه بین کاربران هوش مصنوعی سخنگو در سه پلتفرم گوشی هوشمند، بلندگوهای هوشمند و دیگر وسایل هوشمند خانگی است. برای آشنایی با بلندگوهای هوشمند مثل «اکو» شرکت آمازون (Amazon Echo)، پیشنهاد می‌کنیم این ویدئو را ببینید. دور از انتظار نیست که در این بازهٔ زمانی استفاده از فناوری هوش مصنوعی سخنگو افزایش یافته باشد. نکتهٔ قابل تأمل این است که بیشترین استفاده از پلتفرم گوشی‌های هوشمند بوده است که دلیل آن را می‌توان در دسترسی بسیار گسترده به این ابزار ارتباطی جست‌و‌جو کرد.

شاید این پرسش مطرح شود که نسبت این آمار با ایران چیست؟ این را می‌دانیم که مانند بسیاری از زمینه‌های نوظهور دیگر، آماری از کاربری این فناوری در ایران موجود نیست اما بیایید به آمار موجود در مورد  ضریب نفوذ گوشی هوشمند در ایران رجوع کنیم. طبق آمار سال ۹۸ وزارت صمت ضریب نفوذ گوشی هوشمند در ایران حدود ۵۴ درصد بوده است که نسبت به سال قبل بیش از ۵۰ درصد رشد داشته است! ضریب نفوذ اینترنت پهن‌باند نیز بیش از ۹۴ درصد بوده است. شاید نتوان در مورد کاربری دستیارهای هوشمند در ایران اظهار نظر کرد اما چون بیش از نیمی از جمعیت کشور دارای گوشی هوشمند هستند، می‌توان گفت که ظرفیت بالقوهٔ وسیعی برای این کاربری در کشور موجود است. فقط کافی‌ست به گوشی هوشمند خود سری بزنید!

نگرانی‌ها و مسیر آینده

از همان سال ۱۹۵۰ که تست تورینگ متولد شد این نگرانی بوجود آمد که آیا در آینده هوش مصنوعی بر بشر غلبه خواهد کرد؟ جدا از اینکه بعضی از فیلم‌ها و کتاب‌های علمی-تخیلی چقدر به واقعیت نزدیک خواهند شد، تعدادی از نگرانی‌ها کاملاً جدی و واقعی هستند.

در مورد هوش مصنوعی سخنگو همیشه این چالش وجود خواهد داشت که چه مقدار از اطلاعات شخصی ما در اختیار نرم‌افزار قرار می‌گیرد؟ اگر بخواهیم دسترسی به این اطلاعات را محدود کنیم عملاً بهینه‌سازی هوش مصنوعی را متوقف کرده‌ایم. آیا حاضریم در ازای علکرد سریع‌تر دستیار صوتی خود، اطلاعاتی را در سروری ذخیره کنیم که کنترل آن از اختیار ما خارج است؟ قابلیت شخصی‌سازی بسیار بالای این نرم‌افزارها که در آینده نیز بیشتر خواهد شد باعث می‌شود که کوچکترین جزئیات ارتباط ما با هوش مصنوعی ضبط شده و در حافظه نگهداری شود.

چالش دیگر احساسی است که ما در مواجهه با هوش مصنوعی داریم. همه می‌دانیم که روبه‌روی ما انسان نیست و یک ماشین است. نرم‌افزاری است که هر چقدر هم تلاش کند از خودمانی‌ترین اصطلاحات و شوخی‌ها استفاده کند، باز «مصنوعی» است و حرفی که می‌زند از سر احساس یا عقل نیست؛ رشته‌ای از کاراکترهاست که برای خود نرم‌افزار هیچ معنایی ندارد و آن‌ها را صرفا برای برقراری ارتباط با انسان تولید می‌کند. مسأبهٔ شخصیت‌بخشی به روبات (Personification of Bot) به عنوان یک روند در زمینهٔ هوش مصنوعی سخنگو شناخته شده است و تا حالا تلاش‌های مختلفی برای القای شخصیت به دستیارهای صوتی و چت‌بات‌ها صورت گرفته است. این تلاش‌ها به طور ویژه در «الکسا»، دستیار صوتی شرکت آمازون، و پاسخ‌هایی که به سؤالات بنیادین هستی می‌دهد مشهود است. برای اینکه یک تصویر آخرالزمانی از این نگرانی بدست بیاورید دیدن فیلم “Her” پیشنهاد می‌شود!

چالش بعدی که در تمام زمینه‌های هوش مصنوعی مطرح است این است که آیا با گسترش این ابر-فناوری شغل‌های زیادی از بین می‌رود؟ آیا کارکنان یک مرکز تماس با یک هوش مصنوعی سخنگو جایگزین می‌شوند؟ پاسخ دم‌دستی به این پرسش‌ها این است که بله شغل‌هایی از بین می‌روند اما از سوی دیگر شغل‌های جدیدی برای طراحی و سامان‌دهی این فناوری جدید ایجاد خواهند شد.

استفاده از هوش مصنوعی سخنگو روز به روز درحال گسترش است و یکی از دلایل اصلی این روند، افزایش ضریب نفوذ گوشی‌های هوشمند در جهان است. گسترش استفاده از این فناوری باعث افزایش اندازهٔ بازار آن نیز می‌شود بطوریکه پیش‌بینی می‌شود بازار حدود ۵ میلیارد دلاری آن در سال ۲۰۲۰ به حدود ۱۴ میلیارد دلار در سال ۲۰۲۵ برسد. فناوری‌های هوش مصنوعی سخنگو یکی از بازیگران اصلی در سال‌های آینده خواهند بود.

اپلیکیشن ها و برنامه های هوش مصنوعی سخن گو

در پایین لیستی از برنامه ها برای شما آماده کرده ایم که امکان هم صحبتی با شما را دارند .

replika : یک ربات سخنگوی روان شناس

دانلود از گوگل پلی

google assistant

بصورت پیشفرض در گوشی های اندرویدی هست

AI Recognize Robot‏

با قابلیت تشخیص اشیا

دانلود از گوگل پلی

منابع

[1] https://www.ibm.com/cloud/learn/conversational-ai

[2] https://www.automat.ai/resources/what-is-conversational-ai/

[3] https://www.artificial-solutions.com/chatbots

[4] https://blog.kore.ai/conversational-ai-top-20-trends-for-2020

[5] Capgemini Research Institute, Smart Talk Report, 2019