تشخیص صدا

تشخیص صدا یا شناسایی گوینده (به انگلیسی: Speaker Recognition یا Speaker Identification) یکی از مسائل علوم رایانه و هوش مصنوعی است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است.
بازشناسی گفتار
یکی از اصلی ترین ابزارهای ریاضی برای حل این مسئله مدل های پنهان مارکوف یا به اختصار م.پ.م هستند.
برای حل این مسئله با استفاده از روش فوق، مدل های آماری ابتدا باید مورد آموزش قرار بگیرند. بدین منظور ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش می شود. داده های پردازش شده که در حقیقیت مجموعه عظیمی از اعداد می باشند، متناوباً مورد استفاده قرار می گیرند تا م.پ.م برای هر گوینده به دست آید. در حقیقت م.پ.م ها مانند یک ماشین عمل می کنند که ورودی آن ها یک سری داده است و خروجی شان یک عدد برای هر مجموعه ای از داده ها، به این صورت که آن عدد نشان دهنده اختلاف داده های ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م، در هر تناوب داده ها به م.پ.م داده می شود و پارامترهای م.پ.م ذره ای تغییر داده می شود تا عدد خروجی (که نشان دهنده اختلاف داده ها با م.پ.م است) کوچک تر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام می گیرد و نهایتاً به حداقل شدن عدد خروجی می انجامد از یک روش ریاضی به نام Expectation Maximization استفاده می شود.
در نهایت بعد از آموزش این مدل ها که با استفاده از صدای مرجع انجام شده، می توان برای آزمایش سامانه صدای یکی از افرادی که قبلاً از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.م ها داد. م.پ.م ای که کوچک ترین عدد را تولید می کند به عنوان فرد شناسایی شده در نظر گرفته می شود.

wiki: تشخیص صدا

دانشنامه عمومی

دانشنامه آزاد فارسی