یادگیری مدل‌های صدا (متن به گفتار، گفتار به متن)

1. مروری بر مدل‌های گفتار

1.1. معرفی مدل‌های متن به گفتار و گفتار به متن اوپن‌آی

مدل متن به گفتار (TTS)

مدل TTS اوپن‌آی قادر است اطلاعات متنی را به خروجی گفتار تبدیل کند. این فرآیند شامل تجزیه و تحلیل متن، استفاده از الگوریتم‌های سنتز گفتار و تنظیمات کیفیت صدا می‌شود. این مدل امکان می‌دهد تا رایانه بتواند هر نوع متنی را بخواند و محتوا را قابل فهم و دسترس‌پذیرتر کند. تکنولوژی TTS برای افراد با نابینایی بصری، رانندگان یا هر کسی که ترجیح می‌دهد اطلاعات را از طریق گوش دادن دریافت کند، بسیار مهم است.

مدل گفتار به متن (STT)

متناظر با TTS، مدل STT قادر است اطلاعات گفتار را به متن تبدیل کند. زمانی که ورودی صوتی اصلی پردازش می‌شود، سیستم STT ابتدا تشخیص گفتار را انجام می‌دهد، سپس استخراج ویژگی‌ها را انجام می‌دهد. سپس سیگنال صوتی را با استفاده از مدل‌های صوتی و زبانی به واژگان نگاشت می‌دهد و در نهایت خروجی متنی تولید می‌کند. تکنولوژی STT به طور گسترده در شناسایی گفتار، ترجمه جلسات و تولید زیرنویس در زمان واقعی استفاده می‌شود.

1.2. سناریوهای کاربرد

خواندن وبلاگ به صورت شفاهی
تولید گفتار چندزبانه

3. API متن به گفتار

3.1. شروع سریع

در این بخش، نحوه تبدیل سریع متن به گفتار با استفاده از دستور curl و یک کلاینت پایتون نشان داده خواهد شد. برای تولید فایل‌های گفتاری، شما به عنوان یک توسعه‌دهنده یا کاربر غیر فنی، می‌توانید به سادگی با ارسال یک درخواست API فایل‌های گفتاری تولید کنید.

ارسال درخواست با استفاده از Curl

برای تولید گفتار با استفاده از ابزار خط فرمان curl، مراحل زیر را دنبال کنید:

اطمینان حاصل کنید که curl در سیستم شما نصب شده باشد و شما یک کلید API معتبر اوپن‌آی داشته باشید.
از دستور curl زیر برای تبدیل متن به گفتار استفاده کنید:

curl https://api.openai.com/v1/audio/speech \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "امروز یک روز عالی برای ساخت محصولاتی است که مردم دوست دارند!",
    "voice": "alloy"
  }' \
  --output speech.mp3

در دستور فوق، $OPENAI_API_KEY نمایانگر کلید API شماست، فیلد input متنی است که می‌خواهید تبدیل کنید، فیلد model مدل صدایی است که می‌خواهید استفاده کنید و پارامتر voice صدا را انتخاب می‌کند. در اینجا، ما برای صدای مصنوعی فلزی alloy را انتخاب کرده‌ایم. گزینه --output نام و فرمت فایل خروجی را مشخص می‌کند.

استفاده از کلاینت پایتون

اگر تمایل دارید از زبان برنامه‌نویسی پایتون استفاده کنید، می‌توانید از مثال کد زیر استفاده کنید:

from openai import OpenAI

client = OpenAI()

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="امروز یک روز عالی برای ساخت محصولاتی است که مردم دوست دارند!"
)

response.stream_to_file("output.mp3")

در این برش کد، ابتدا کتابخانه openai را وارد می‌کنیم و یک نمونه از کلاینت OpenAI ایجاد می‌کنیم. سپس از متد audio.speech.create برای ارسال یک درخواست استفاده می‌کنیم و مدل، صدا و متن مورد تبدیل را مشخص می‌کنیم. در آخر از متد stream_to_file برای ذخیره جریان گفتار تولیدی به یک فایل استفاده می‌کنیم.

3.2. انتخاب کیفیت صدا و صدای مناسب

انتخاب صحیح کیفیت صوتی و صدا برای پروژه شما یک گام حیاتی در تضمین بهترین تجربه کاربر است. API ما دو گزینه برای مدل‌های کیفیت صوتی ارائه می‌دهد: tts-1 و tts-1-hd.

tts-1: دارای تاخیر کمتر، مناسب برای برنامه‌های زمان واقعی، اما با کیفیت صوتی نسبتاً پایین‌تر.
tts-1-hd: خروجی صوتی با کیفیت بالاتر را ارائه می‌دهد و برای نیازهای تولید گفتار با کیفیت بالا و غیر زمان واقعی مناسب است.

به علاوه، API متن به گفتار اوپن‌آی گزینه‌های صدای مختلفی را ارائه می‌دهد:

Alloy
Echo
Fable
Onyx
Nova
Shimmer

به منظور انتخاب صدا مناسب، شما می‌توانید نمونه‌های صدای مختلف را تست کرده و بر اساس نیازهای پروژه و مخاطبان هدف، صدای مناسب را انتخاب کنید. عواملی مانند سبک صحبت، نرخ گفتار و تلفظ را در نظر بگیرید تا صدایی را بیابید که احساسات و حرفه‌ایت خوبی را انتقال دهد.

3.3. فرمت‌های خروجی و زبان‌های پشتیبانی شده

API متن به گفتار اوپن‌آی به طور پیش‌فرض از فرمت خروجی MP3 استفاده می‌کند اما از فرمت‌های صوتی مختلف دیگری نیز پشتیبانی می‌کند:

Opus: مناسب برای استریمینگ اینترنتی و ارتباطات با تاخیر کم.
AAC: برای فشرده‌سازی صوتی دیجیتال، ترجیحاً توسط پلتفرم‌هایی مانند یوتیوب، اندروید و iOS استفاده می‌شود.
FLAC: فرمت فشرده‌سازی صوتی بی‌تلفات که توسط اهالی علاقه‌مند به صدا برای بایگانی بکار می‌رود.

در حوزه پشتیبانی از زبان، API اوپن‌آی از مدل Whisper پیروی می‌کند و انواع گسترده‌ای از زبان‌ها را برای پشتیبانی از زبان‌های ملی فراهم می‌کند.

3.4. قابلیت استریم صوتی به صورت زمان واقعی

برای برآورده کردن نیازهای برنامه‌های زمان واقعی، API ما پشتیبانی از استریم صوتی به صورت زمان واقعی فراهم می‌کند. در زیر یک مثال Python برای پیاده‌سازی استریم صوتی به صورت زمان واقعی آمده است:

from openai import OpenAI

client = OpenAI()

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="سلام دنیا! این یک آزمون استریمینگ است.",
)

response.stream_to_file("output.mp3")

4. API تبدیل گفتار به متن

4.1. شروع سریع

در این بخش، عمدتاً قابلیت‌های API OpenAI برای تبدیل گفتار به متن را معرفی می‌کنیم.

ابتدا، شما نیازمند داشتن یک کلید API معتبر OpenAI و آماده‌سازی یک فایل صوتی هستید.

می‌توانید از دستور curl برای ارسال یک درخواست POST حاوی فایل صوتی استفاده کنید. کلید API خود را جایگزین OPENAI_API_KEY کنید و مسیر صحیح فایل را تنظیم کنید.

curl --request POST \
  --url https://api.openai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer OPENAI_API_KEY' \
  --header 'Content-Type: multipart/form-data' \
  --form file=@/path/to/your/audio/file.mp3 \
  --form model=whisper-1

بعد از اجرای دستور فوق، یک پاسخ به‌صورت JSON حاوی اطلاعات متن تبدیل شده ارائه می‌شود.

به عنوان مثال:

{
  "text": "تصور کنید بی‌تردیدترین ایده‌ای را که تا به حال داشته‌اید و به دنبال بزرگ‌شدن آن در مقیاسی 100 یا 1,000 برابری هستید،..."
}

4.2. فرمت‌های فایل پشتیبانی شده و اندازه‌ها

این API از انواع مختلف فرمت‌های رایج فایل صوتی برای برآورده کردن نیازهای مختلف در صحنه‌های مختلف پشتیبانی می‌کند. فرمت‌های پشتیبانی شده شامل اما به آن محدود نمی‌شود: mp3، mp4، mpeg، mpga، m4a، wav، webm و غیره. این امکان را فراهم می‌کند تا کاربران به راحتی فایل‌های صوتی از منابع مختلف را پردازش کنند.

در مورد اندازه فایل، API فعلی دارای یک محدودیت حجم حداکثر 25 مگابایت است. این بدان معنی است که اگر فایل صوتی شما بیشتر از 25 مگابایت باشد، نیاز خواهید داشت آن را به چند بخش کوچک‌تر از 25 مگابایت تقسیم کنید یا از یک فرمت فشرده‌سازی موثرتر استفاده کنید. به عنوان مثال، فرمت‌های mp3 و opus معمولاً فشرده‌سازی موثری فراهم می‌کنند که باعث کاهش اندازه فایل بدون فداکاری زیادی از کیفیت صوت می‌شود.

اگر با یک فایل بزرگتر از 25 مگابایت مواجه شدید، می‌توانید راهبردهای استفاده از کتابخانه PyDub در Python را در نظر بگیرید تا فایل صوتی خود را به بخش‌های کوچکتر تقسیم کنید:

from pydub import AudioSegment

audio_file = AudioSegment.from_file("your_large_audio_file.mp3")

interval = 10 * 60 * 1000  # 10 دقیقه

chunks = make_chunks(audio_file, interval)

for i, chunk in enumerate(chunks):
    chunk_name = f"audio_chunk{i}.mp3"
    chunk.export(chunk_name, format="mp3")

در کد فوق، تابع make_chunks یک فایل صوتی بزرگ را به چندین بخش با فواصل زمانی 10 دقیقه‌ای تقسیم می‌کند. این بخش‌ها همگی طبق محدودیت اندازه فایل مورد نیاز توسط API هستند و می‌توانند به‌صورت جداگانه به API OpenAI برای تبدیل ارسال شوند.

لطفاً توجه داشته باشید که با وجود اینکه PyDub به ما راهی آسان برای دسترسی به فایل‌های صوتی فراهم می‌کند، همچنان توصیه می‌شود تا هنگام استفاده از آن، به امنیت و پایداری نرم افزارهای شخص ثالث توجه ویژه شود. OpenAI هیچ گونه تضمینی برای نرم افزارهای شخص ثالث ارائه نمی‌دهد.