کلمه جو
صفحه اصلی

تشخیص صدا

دانشنامه عمومی

تشخیص صدا یا شناسایی گوینده (به انگلیسی: Speaker Recognition یا Speaker Identification) یکی از مسائل علوم رایانه و هوش مصنوعی است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است.
بازشناسی گفتار
یکی از اصلی ترین ابزارهای ریاضی برای حل این مسئله مدل های پنهان مارکوف یا به اختصار م.پ.م هستند.
برای حل این مسئله با استفاده از روش فوق، مدل های آماری ابتدا باید مورد آموزش قرار بگیرند. بدین منظور ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش می شود. داده های پردازش شده که در حقیقیت مجموعه عظیمی از اعداد می باشند، متناوباً مورد استفاده قرار می گیرند تا م.پ.م برای هر گوینده به دست آید. در حقیقت م.پ.م ها مانند یک ماشین عمل می کنند که ورودی آن ها یک سری داده است و خروجی شان یک عدد برای هر مجموعه ای از داده ها، به این صورت که آن عدد نشان دهنده اختلاف داده های ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م، در هر تناوب داده ها به م.پ.م داده می شود و پارامترهای م.پ.م ذره ای تغییر داده می شود تا عدد خروجی (که نشان دهنده اختلاف داده ها با م.پ.م است) کوچک تر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام می گیرد و نهایتاً به حداقل شدن عدد خروجی می انجامد از یک روش ریاضی به نام Expectation Maximization استفاده می شود.
در نهایت بعد از آموزش این مدل ها که با استفاده از صدای مرجع انجام شده، می توان برای آزمایش سامانه صدای یکی از افرادی که قبلاً از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.م ها داد. م.پ.م ای که کوچک ترین عدد را تولید می کند به عنوان فرد شناسایی شده در نظر گرفته می شود.

دانشنامه آزاد فارسی

تشخیص صدا (voice recognition)
قابلیتی که یک رایانه توسط آن قادر به فهم عبارت های گفتاری فردی است که می خواهد فرامینو داده هارا به صورت صحبت با رایانه وارد نماید. سیستم هایی تولید شده اند که قابلیت تشخیص لغاتی خاص از سوی افراد خاص را دارند. اما تولید سیستمی که بتواند با الگوهای گفتاری، تلفظ ها و انواع روش هایی که برطبق آن ها بتوان یک درخواست یا یک عبارت را ایجاد نمود، خیلی مشکل است اگرچه پیشرفت هایی در این زمینه صورت گرفته است. این عبارت، Speech recognition نیز نامیده می شود.


کلمات دیگر: