فهرست مطالب:
- مرحله 1: ReSpeaker USB 4-Mic Array
- مرحله 2: کتابخانه های مورد نیاز را نصب کنید
- مرحله 3: تبدیل متن به گفتار در Python With Pyttsx3 Library
- مرحله 4: همه چیز را کنار هم قرار دهید: ایجاد تشخیص گفتار با پایتون با استفاده از API تشخیص گفتار Google و کتابخانه Pyttsx3
تصویری: تشخیص گفتار با استفاده از Google Speech API و پایتون: 4 مرحله
2024 نویسنده: John Day | [email protected]. آخرین اصلاح شده: 2024-01-30 08:54
تشخیص گفتار
تشخیص گفتار بخشی از پردازش زبان طبیعی است که زیر شاخه ای از هوش مصنوعی است. به بیان ساده ، تشخیص گفتار توانایی یک نرم افزار رایانه ای در شناسایی کلمات و عبارات در زبان گفتاری و تبدیل آنها به متن قابل خواندن برای انسان است. این برنامه در چندین برنامه مانند سیستم های دستیار صوتی ، اتوماسیون خانگی ، چت بات های مبتنی بر صدا ، ربات تعامل صوتی ، هوش مصنوعی و غیره استفاده می شود.
API های متفاوتی (رابط برنامه نویسی برنامه) برای تشخیص گفتار وجود دارد. آنها خدمات را به صورت رایگان یا پولی ارائه می دهند. اینها هستند:
- CMU Sphinx
- تشخیص گفتار گوگل
- Google Cloud Speech API
- ویت.ای
- تشخیص صدای مایکروسافت بینگ
- Houndify API
- IBM Speech To Text
- تشخیص کلمه داغ Snowboy
ما در اینجا از Google Speech Recognition استفاده می کنیم ، زیرا به هیچ کلید API نیاز ندارد. این آموزش قصد دارد مقدمه ای در مورد نحوه استفاده از کتابخانه تشخیص گفتار Google در پایتون با کمک میکروفون خارجی مانند ReSpeaker USB 4-Mic Array از Seeed Studio ارائه دهد. اگرچه استفاده از میکروفون خارجی اجباری نیست ، حتی میکروفون داخلی لپ تاپ نیز می تواند مورد استفاده قرار گیرد.
مرحله 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic یک دستگاه چهار میکروفونی است که برای هوش مصنوعی و برنامه های صوتی طراحی شده است و توسط Seeed Studio توسعه یافته است. دارای 4 میکروفون با کارایی بالا و همه جهته طراحی شده برای بلند کردن صدای شما از هر نقطه از اتاق و 12 نشانگر LED قابل برنامه ریزی RGB. میکروفون USB ReSpeaker از سیستم عامل های لینوکس ، macOS و ویندوز پشتیبانی می کند. جزئیات را میشود در اینجا پیدا کرد.
میکروفون USB ReSpeaker در بسته بندی خوبی قرار دارد که شامل موارد زیر است:
- راهنمای کاربر
- آرایه میکروفون USB ReSpeaker
- کابل میکرو USB به USB
بنابراین ما آماده شروع کار هستیم.
مرحله 2: کتابخانه های مورد نیاز را نصب کنید
برای این آموزش ، فرض می کنم از پایتون 3.x استفاده می کنید.
بیایید کتابخانه ها را نصب کنیم:
pip3 SpeechRecognition را نصب کنید
برای macOS ، ابتدا باید PortAudio را با Homebrew نصب کنید و سپس PyAudio را با pip3 نصب کنید:
portaudio را نصب کنید
دستور زیر را برای نصب pyaudio اجرا می کنیم
pip3 pyaudio را نصب کنید
برای لینوکس ، می توانید PyAudio را با apt نصب کنید:
sudo apt-get python-pyaudio python3-pyaudio را نصب کنید
برای Windows ، می توانید PyAudio را با pip نصب کنید:
pip نصب pyaudio
یک فایل پایتون جدید ایجاد کنید
nano get_index.py
کد زیر را در get_index.py بچسبانید:
واردات پیودو
p = pyaudio. PyAudio () اطلاعات = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') برای i در محدوده (0، numdevices): if (p.get_device_info_by_host_api_device_index (0، i).get ('maxInput '))> 0: print ("شناسه دستگاه ورودی" ، i ، " -" ، p.get_device_info_by_host_api_device_index (0 ، i).get (' name '))
دستور زیر را اجرا کنید:
python3 get_index.py
در مورد من ، فرمان خروجی زیر را به صفحه نمایش می دهد:
شناسه دستگاه ورودی 1 - ReSpeaker 4 Mic Array (UAC1.0)
شناسه دستگاه ورودی 2 - میکروفون MacBook Air
بر اساس انتخاب خود در قطعه کد زیر ، device_index را به شماره فهرست تغییر دهید.
وارد کردن تشخیص_گفتار به عنوان sr
r = sr. Recognizer () speech = sr. Microphone (device_index = 1) با گفتار به عنوان منبع: چاپ ("چیزی بگو! …") صدا = r.adjust_for_ambient_noise (منبع) صدا = r. گوش دادن (منبع) try: recog = r.recognize_google (audio، language = 'en-US') print ("شما گفتید:" + recog) به جز sr. UnknownValueError: print ("تشخیص گفتار Google نمی توانست صدا را درک کند") به جز sr. RequestError به عنوان e: print ("نمی توان نتایج را از سرویس تشخیص گفتار Google درخواست کرد ؛ {0}". قالب (ه))
فهرست دستگاه 1 انتخاب شد زیرا ReSpeaker 4 Mic Array به عنوان منبع اصلی خواهد بود.
مرحله 3: تبدیل متن به گفتار در Python With Pyttsx3 Library
چندین API برای تبدیل متن به گفتار در پایتون موجود است. یکی از این API ها pyttsx3 است که به نظر من بهترین بسته متن به گفتار موجود است. این بسته در ویندوز ، مک و لینوکس کار می کند. برای مشاهده نحوه انجام این کار ، اسناد رسمی را بررسی کنید.
برای نصب بسته ، از pip استفاده کنید.
pip نصب pyttsx3
اگر در ویندوز هستید ، به یک بسته اضافی نیاز دارید ، pypiwin32 که برای دسترسی به API گفتاری بومی ویندوز به آن نیاز دارد.
pip را نصب کنید pypiwin32
در زیر قطعه کد متن به گفتار با استفاده از pyttsx3 است:
واردات pyttsx3
موتور = pyttsx3.init ()
engine.setProperty ("نرخ" ، 150) # درصد سرعت
engine.setProperty ("حجم" ، 0.9) # جلد 0-1
engine.say ("سلام ، جهان!")
engine.runAndWait ()
مرحله 4: همه چیز را کنار هم قرار دهید: ایجاد تشخیص گفتار با پایتون با استفاده از API تشخیص گفتار Google و کتابخانه Pyttsx3
کد زیر مسئول تشخیص گفتار انسان با استفاده از Google Speech Recognition و تبدیل متن به گفتار با استفاده از کتابخانه pyttsx3 است.
وارد کردن تشخیص_گفتار به عنوان sr
واردات موتور pyttsx3 = pyttsx3.init () engine.setProperty ('rate'، 200) engine.setProperty ('volume'، 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) با گفتار به عنوان منبع: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio، language = 'en-US') print ("شما گفتید:" + recog) engine.say (" شما گفتید: " + recog) engine.runAndWait () به جز sr. UnknownValueError: engine.say (" تشخیص گفتار Google نمی توانست صدا را درک کند ") engine.runAndWait () به جز sr. RequestError به عنوان e: engine.say (" نمی توان درخواست نتایج از سرویس تشخیص گفتار Google ؛ {0} ". format (e)) engine.runAndWait ()
خروجی را در ترمینال چاپ می کند. همچنین ، به گفتار نیز تبدیل می شود.
گفتید: لندن پایتخت بریتانیای کبیر است
امیدوارم اکنون درک بهتری از نحوه عملکرد تشخیص گفتار به طور کلی و مهمتر از همه ، نحوه پیاده سازی آن با استفاده از Google Speech Recognition API با پایتون داشته باشید.
اگر س questionsال یا بازخوردی دارید؟ زیر نظر بگذارید. گوش به زنگ باشید!
توصیه شده:
تشخیص گفتار با آردوینو (بلوتوث + LCD + اندروید): 6 مرحله
تشخیص گفتار با آردوینو (بلوتوث + LCD + اندروید): در این پروژه ، ما قصد داریم تشخیص گفتار را با آردوینو ، ماژول بلوتوث (HC-05) و LCD انجام دهیم. بیایید دستگاه تشخیص گفتار خود را بسازیم
تشخیص رنگ در پایتون با استفاده از OpenCV: 8 مرحله
تشخیص رنگ در پایتون با استفاده از OpenCV: سلام! این دستورالعمل برای راهنمایی نحوه استخراج یک رنگ خاص از یک تصویر در پایتون با استفاده از کتابخانه openCV استفاده می شود. اگر تازه با این تکنیک آشنا شدید ، نگران نباشید ، در پایان این راهنما می توانید رنگ دلخواه خود را برنامه ریزی کنید
تشخیص و تشخیص چهره - Arduino Face ID با استفاده از OpenCV Python و Arduino .: 6 مرحله
تشخیص و تشخیص چهره | شناسه صورت آردوینو با استفاده از OpenCV پایتون و آردوینو.: تشخیص چهره AK ID چهره یکی از مهمترین ویژگی های تلفن های همراه امروزه است. بنابراین ، من یک سوال داشتم & quot؛ آیا می توانم برای پروژه آردوینو خود شناسه چهره داشته باشم & quot؛ و پاسخ بله است … سفر من به شرح زیر آغاز شد: مرحله 1: دسترسی به ما
نظارت بر شتاب با استفاده از Raspberry Pi و AIS328DQTR با استفاده از پایتون: 6 مرحله
نظارت بر شتاب با استفاده از Raspberry Pi و AIS328DQTR با استفاده از پایتون: طبق برخی قوانین فیزیک ، فکر می کنم شتاب محدود است.- تری ریلی یوزپلنگ هنگام تعقیب از شتاب شگفت انگیز و تغییرات سریع در سرعت استفاده می کند. سریع ترین موجودی که هر چند وقت یکبار به ساحل می رسد از سرعت بالای خود برای صید شکار استفاده می کند
تشخیص دهنده گفتار: 12 مرحله
تشخیص دهنده گفتار: سلام به همگی ………. این دومین دستورالعمل من است که در حال ارسال آن هستم. بنابراین به همه خوش آمدید ….. در این دستورالعمل می خواهم به شما نحوه ساخت تشخیص دهنده صدا را آموزش دهم با استفاده از یک برد آردوینو. بنابراین من فکر می کنم شما تجربه ای با آردوینو گراز دارید