فهرست مطالب:

تشخیص گفتار با استفاده از Google Speech API و پایتون: 4 مرحله
تشخیص گفتار با استفاده از Google Speech API و پایتون: 4 مرحله

تصویری: تشخیص گفتار با استفاده از Google Speech API و پایتون: 4 مرحله

تصویری: تشخیص گفتار با استفاده از Google Speech API و پایتون: 4 مرحله
تصویری: ساخت دستیار صوتی با پایتون | 6 - ابزار متن به صدا و کار با صداها 2024, جولای
Anonim
تشخیص گفتار با استفاده از Google Speech API و پایتون
تشخیص گفتار با استفاده از Google Speech API و پایتون

تشخیص گفتار

تشخیص گفتار بخشی از پردازش زبان طبیعی است که زیر شاخه ای از هوش مصنوعی است. به بیان ساده ، تشخیص گفتار توانایی یک نرم افزار رایانه ای در شناسایی کلمات و عبارات در زبان گفتاری و تبدیل آنها به متن قابل خواندن برای انسان است. این برنامه در چندین برنامه مانند سیستم های دستیار صوتی ، اتوماسیون خانگی ، چت بات های مبتنی بر صدا ، ربات تعامل صوتی ، هوش مصنوعی و غیره استفاده می شود.

API های متفاوتی (رابط برنامه نویسی برنامه) برای تشخیص گفتار وجود دارد. آنها خدمات را به صورت رایگان یا پولی ارائه می دهند. اینها هستند:

  • CMU Sphinx
  • تشخیص گفتار گوگل
  • Google Cloud Speech API
  • ویت.ای
  • تشخیص صدای مایکروسافت بینگ
  • Houndify API
  • IBM Speech To Text
  • تشخیص کلمه داغ Snowboy

ما در اینجا از Google Speech Recognition استفاده می کنیم ، زیرا به هیچ کلید API نیاز ندارد. این آموزش قصد دارد مقدمه ای در مورد نحوه استفاده از کتابخانه تشخیص گفتار Google در پایتون با کمک میکروفون خارجی مانند ReSpeaker USB 4-Mic Array از Seeed Studio ارائه دهد. اگرچه استفاده از میکروفون خارجی اجباری نیست ، حتی میکروفون داخلی لپ تاپ نیز می تواند مورد استفاده قرار گیرد.

مرحله 1: ReSpeaker USB 4-Mic Array

آرایه ReSpeaker USB 4-Mic
آرایه ReSpeaker USB 4-Mic
آرایه ReSpeaker USB 4-Mic
آرایه ReSpeaker USB 4-Mic
آرایه ReSpeaker USB 4-Mic
آرایه ReSpeaker USB 4-Mic

ReSpeaker USB Mic یک دستگاه چهار میکروفونی است که برای هوش مصنوعی و برنامه های صوتی طراحی شده است و توسط Seeed Studio توسعه یافته است. دارای 4 میکروفون با کارایی بالا و همه جهته طراحی شده برای بلند کردن صدای شما از هر نقطه از اتاق و 12 نشانگر LED قابل برنامه ریزی RGB. میکروفون USB ReSpeaker از سیستم عامل های لینوکس ، macOS و ویندوز پشتیبانی می کند. جزئیات را میشود در اینجا پیدا کرد.

میکروفون USB ReSpeaker در بسته بندی خوبی قرار دارد که شامل موارد زیر است:

  • راهنمای کاربر
  • آرایه میکروفون USB ReSpeaker
  • کابل میکرو USB به USB

بنابراین ما آماده شروع کار هستیم.

مرحله 2: کتابخانه های مورد نیاز را نصب کنید

برای این آموزش ، فرض می کنم از پایتون 3.x استفاده می کنید.

بیایید کتابخانه ها را نصب کنیم:

pip3 SpeechRecognition را نصب کنید

برای macOS ، ابتدا باید PortAudio را با Homebrew نصب کنید و سپس PyAudio را با pip3 نصب کنید:

portaudio را نصب کنید

دستور زیر را برای نصب pyaudio اجرا می کنیم

pip3 pyaudio را نصب کنید

برای لینوکس ، می توانید PyAudio را با apt نصب کنید:

sudo apt-get python-pyaudio python3-pyaudio را نصب کنید

برای Windows ، می توانید PyAudio را با pip نصب کنید:

pip نصب pyaudio

یک فایل پایتون جدید ایجاد کنید

nano get_index.py

کد زیر را در get_index.py بچسبانید:

واردات پیودو

p = pyaudio. PyAudio () اطلاعات = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') برای i در محدوده (0، numdevices): if (p.get_device_info_by_host_api_device_index (0، i).get ('maxInput '))> 0: print ("شناسه دستگاه ورودی" ، i ، " -" ، p.get_device_info_by_host_api_device_index (0 ، i).get (' name '))

دستور زیر را اجرا کنید:

python3 get_index.py

در مورد من ، فرمان خروجی زیر را به صفحه نمایش می دهد:

شناسه دستگاه ورودی 1 - ReSpeaker 4 Mic Array (UAC1.0)

شناسه دستگاه ورودی 2 - میکروفون MacBook Air

بر اساس انتخاب خود در قطعه کد زیر ، device_index را به شماره فهرست تغییر دهید.

وارد کردن تشخیص_گفتار به عنوان sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) با گفتار به عنوان منبع: چاپ ("چیزی بگو! …") صدا = r.adjust_for_ambient_noise (منبع) صدا = r. گوش دادن (منبع) try: recog = r.recognize_google (audio، language = 'en-US') print ("شما گفتید:" + recog) به جز sr. UnknownValueError: print ("تشخیص گفتار Google نمی توانست صدا را درک کند") به جز sr. RequestError به عنوان e: print ("نمی توان نتایج را از سرویس تشخیص گفتار Google درخواست کرد ؛ {0}". قالب (ه))

فهرست دستگاه 1 انتخاب شد زیرا ReSpeaker 4 Mic Array به عنوان منبع اصلی خواهد بود.

مرحله 3: تبدیل متن به گفتار در Python With Pyttsx3 Library

چندین API برای تبدیل متن به گفتار در پایتون موجود است. یکی از این API ها pyttsx3 است که به نظر من بهترین بسته متن به گفتار موجود است. این بسته در ویندوز ، مک و لینوکس کار می کند. برای مشاهده نحوه انجام این کار ، اسناد رسمی را بررسی کنید.

برای نصب بسته ، از pip استفاده کنید.

pip نصب pyttsx3

اگر در ویندوز هستید ، به یک بسته اضافی نیاز دارید ، pypiwin32 که برای دسترسی به API گفتاری بومی ویندوز به آن نیاز دارد.

pip را نصب کنید pypiwin32

در زیر قطعه کد متن به گفتار با استفاده از pyttsx3 است:

واردات pyttsx3

موتور = pyttsx3.init ()

engine.setProperty ("نرخ" ، 150) # درصد سرعت

engine.setProperty ("حجم" ، 0.9) # جلد 0-1

engine.say ("سلام ، جهان!")

engine.runAndWait ()

مرحله 4: همه چیز را کنار هم قرار دهید: ایجاد تشخیص گفتار با پایتون با استفاده از API تشخیص گفتار Google و کتابخانه Pyttsx3

کد زیر مسئول تشخیص گفتار انسان با استفاده از Google Speech Recognition و تبدیل متن به گفتار با استفاده از کتابخانه pyttsx3 است.

وارد کردن تشخیص_گفتار به عنوان sr

واردات موتور pyttsx3 = pyttsx3.init () engine.setProperty ('rate'، 200) engine.setProperty ('volume'، 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) با گفتار به عنوان منبع: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio، language = 'en-US') print ("شما گفتید:" + recog) engine.say (" شما گفتید: " + recog) engine.runAndWait () به جز sr. UnknownValueError: engine.say (" تشخیص گفتار Google نمی توانست صدا را درک کند ") engine.runAndWait () به جز sr. RequestError به عنوان e: engine.say (" نمی توان درخواست نتایج از سرویس تشخیص گفتار Google ؛ {0} ". format (e)) engine.runAndWait ()

خروجی را در ترمینال چاپ می کند. همچنین ، به گفتار نیز تبدیل می شود.

گفتید: لندن پایتخت بریتانیای کبیر است

امیدوارم اکنون درک بهتری از نحوه عملکرد تشخیص گفتار به طور کلی و مهمتر از همه ، نحوه پیاده سازی آن با استفاده از Google Speech Recognition API با پایتون داشته باشید.

اگر س questionsال یا بازخوردی دارید؟ زیر نظر بگذارید. گوش به زنگ باشید!

توصیه شده: