message=A beszédfelismerő rendszerek alapvető feladata, hogy a beszédjelet a számítógép, illetve a felhasználó által értelmezhető alakra, például írott szöveggé alakítsák. A beszédjel bonyolult, összetett időfüggvény, így az analízise is komplex eljárást igényel. A mai beszédfelismerési stratégiák összehasonlításon alapulnak. A feladat megoldásának komplexitása sok esetben azt igényli, hogy modellezzük a jelenségeket.
Az általános beszédfelismerő rendszer tartalmaz egy előfeldolgozónak is nevezett jelfeldolgozó egységet, mely a folyamatos beszédjelből a gép számára értelmezhető jellemző vektorokat állít elő, egy mintaillesztő egységet, mely a jellemző vektorokat összeveti a tárolt mintákkal, beszédmodellekkel. A modellek beszédadatbázisok alapján kerülnek betanításra.
A beszédjelek, mivel számítógépes adatfeldolgozásról van szó, digitalizált jelet jelentenek.
A mintavételi frekvencia tipikusan 8-22 kHz között változik. Telefonos alkalmazások esetén a 8 kHz tipikus, míg tiszta zajmentes esetben 20-22 kHz is használatos.
A jelfeldolgozó egység a digitalizált jelet 10-30 ms hosszú keretekre bontja. Ezután az adott keretnyi jelnek meghatározza a rövid idejű spektrumát, majd ezen további transzformációkat hajt végre. Ma általánosan használt az MFCC-eljárás (mel frekvenciás kepsztrális komponens), mely egy érzeti (mel) skála alapú feldolgozás. A jelfeldolgozás eredménye keretenként egy úgynevezett jellemző vektor, amely általában 10-40 dimenziójú.
A mintaillesztés során az egyes keretekhez tartozó jellemző vektorokat kell összevetni a tárolt mintákkal. Egy-egy keret nagyon rövid idejű, meghallgatva általában nem is meghatározható, hogy milyen beszédhanghoz tartozik. A feladat tehát az, hogy vektorról vektorra meghatározzuk, hogy ez a keret melyik tárolt beszédelemhez hasonlít a leginkább. Ezek a beszédelemek lehetnek a beszédhangok vagy nagyobb egységek. A hosszabb elemek előnye, hogy könnyebb a tanító adatbázist szegmentálni, hisz egyetlen hangot megtalálni mindig nehezebb, mint egy szót. Hosszabb egységek használata esetén az illesztés is pontosabb lehet, így a felismerés is pontosabb lesz. Ezen modellek ellen szól, hogy a tárolt elemek száma igen nagy kell hogy legyen. Beszédhangokból néhányszor tíz elegendő, míg szavak esetén magyar nyelvű diktáló rendszerhez százmilliós nagyságrendű szókészletre lenne szükség. A tanító mintát is ezzel arányban kell növelni. Természetesen általános feladat megvalósítására a szómodellek nem használhatók, ehhez hangmodelleket, vagy elegendő tanító minta esetén környezetfüggő hangmodelleket szokás alkalmazni.
A mintaillesztési eljárásokat két csoportba lehet osztani.
Egyszerűbb, tipikusan beszélőfüggő feladatok megoldására alkalmasak a minta alapú eljárások, mint például a dinamikus idővetemítés. Ezek az eljárások a felismeréshez egy-egy referenciamintát tárolnak, és ezzel hasonlítják össze a beérkező vektorsorozatot. A mintaillesztéses eljárások hatékonyan, akár egyetlen mintával is betaníthatók. A gyakorlatban a mintaillesztés alapegysége a szó, vagy ennél hosszabb egység (rövid mondat). Ez kisszótáras felismerést tesz lehetővé. A minta alapján dolgozó eljárások hátránya, hogy nem elég robosztusak, ezért beszélőfüggetlen felismerő rendszerekben nem is használatosak.
Komolyabb beszédfelismerési feladatok esetén statisztikai alapú algoritmusok, pl. rejtett Markov-modellek használata az elterjedt. Ezek az eljárások nagy mennyiségű tanító minta alapján a jellemző vektorok statisztikai jellemzőit becslik, és ez alapján egy valószínűségi modellt határoznak meg. Így az egyes vektorokról eldönthető, hogy milyen valószínűséggel tartoznak az egyes modellekhez, és a legvalószínűbb kerül kiválasztásra. Mivel nagy mennyiségű tanító mintára van szükség, a rövidebb illesztési egységek az elterjedtek: tipikusan a beszédhangok, esetleg a környezetfüggő beszédhangok.