message=A statisztikus eljárások közös tulajdonsága, hogy valamilyen akusztikus modellt használnak. Az ilyen modellben az akusztikus információ tárolása és felhasználása hatékonyabban valósul meg, mint a minta alapú módszernél. A statisztikai alapú eljárások a gyakorlatban jobban teljesítenek, mint a minta alapúak, ennek ára a modellparaméterek becsléséhez szükséges nagyobb adatbázis elkészítése és a nagyobb számításigény. Ábrán mutatjuk be, hogy a bejövő címkézett beszédjelből hogyan határozzuk meg a modellparamétereket.
A modellek nem konkrét beszédmintából számolt jellemző vektorsorozatokat tárolnak, hanem azoknak statisztikai leírását. Az egyes beszédhangokat állapotokra bontjuk, tipikusan háromra. Az egyes állapotokhoz tartozó jellemző vektorokat több dimenziós Gauss-eloszlások keverékével jellemezzük. Ezen eloszlások pontos becsléséhez hatalmas mennyiségű adatra van szükség. Amennyiben ismertek a Gauss-eloszlás paraméterei, akkor minden egyes jellemző vektornál megállapítható, hogy milyen valószínűséggel illeszkedik az egyes modellekhez. Az egyes állapotokhoz az eloszlások mellett ún. élvalószínűségeket is definiálunk, melyek az adott állapotban a továbblépés, illetve a helybenmaradás (nincs továbblépés) valószínűségét adják meg.
A Markov-láncokat gyakran használják valamilyen fizikai folyamat modellezésére, ahol különböző megfigyelések alapján kell szimulálni, modellezni a folyamatot. Ha a megfigyelés egyértelműen azonosítja, hogy a folyamat milyen állapotban van, akkor a használt modellt megfigyelhető Markov-modellnek vagy egyszerűen Markov-láncnak nevezzük. Számos folyamat létezik (ilyen a beszéd is) viszont, melyekre ugyan az állapotok jól definiálhatók, rájuk a megfigyelések alapján mégsem következtethetünk egyértelműen, ezeket modellezzük rejtett Markov-modellekkel.
Az ábrán a Markov-modellek alkalmazását mutatjuk be. A szavak beszédhangok sorozataként állnak elő. Minden beszédhang több állapotból áll, tipikusan háromból. A közöttük lévő élek határozzák meg, hogy az adott állapotból mely következő állapotokba lehet lépni. A modell betanítása során az élekhez élvalószínűségek rendelhetőek, melyek a helyben maradás, illetve továbblépés valószínűségét határozzák meg. Az egyes állapotok tartalmazzák az akusztikus modellek készítése során becsült Gauss-eloszlások paramétereit. A mintaillesztő eljárás ezen modellekhez illeszti a bejövő jellemzővektor sorozatot. Az egyes állapotokhoz statisztikai alapú akusztikus modelleket rendelünk. Egy jellemző vektorhoz minden állapot megad egy pozitív feltételes valószínűséget, tehát nem tudjuk egyértelműen, hogy melyik állapothoz tartozik az adott jellemző vektor. Természetesen a sok esetben ezek a feltételes valószínűségek igen alacsonyak, hisz pl. t beszédhangból származó kerethez az a hang modellje nyilván kis valószínűséget rendel, de egy másik zöngétlen zárhang, pl. a k modellje már releváns valószínűséget adhat. Optimális előfeldolgozás esetén nem lennének átfedések az egyes hangokhoz tartozó realizációk között, és ebben az esetben egyértelműen meghatározható lenne a jellemző vektor alapján az állapot. Sajnos ilyen módszer azonban egyenlőre nem ismeretes.
HMM-ek esetén egy irányított gráf írja le az egyes felismerendő szavakat. Ezen gráf csomópontjaiban találhatóak az akusztikus modellek, ahogy azt a megelőző ábrán láthattuk. A felismerendő vektorsorozatot ezekhez a modellekhez kell illeszteni. A Viterbi-algoritmus végzi el a keretek állapotokkal történő összerendelését úgy, hogy az együttes feltételes valószínűség maximális legyen (maximum likelihood döntést hoz).
A Viterbi-algoritmus a DTW-hez asonlóan a dinamikus programozásra épül. Egy T x N-es rácsban kell a (0,0) pontból a (T,N) pontba eljutni. A lehetséges átmeneteket az ábrán a függőleges tengely mentén feltüntetett állapotgráf definiálja. Minden ütemben az időtengelyen egyet jobbra lépünk, és megvizsgáljuk, hogy az adott pontokba hogyan lehet eljutni a legvalószínűbb úton.
Ehhez nyilván kell tartani az előző időponthoz tartozó valószínűségeket, és ezekből kell tovább lépni egy indukciós algoritmussal. Minden állapotban megvizsgáljuk, hogy melyik az az előző ütembeli állapot, amelynek a tárolt "legjobb út valószínűsége" az átmeneti valószínűséggel súlyozva a legnagyobb, vagyis honnan lehet a legkisebb veszteséggel ide jutni. Ezt az értéket meg kell szorozni az aktuális megfigyelés feltételes valószínűségével, azaz azzal a valószínűséggel, mely megadja, hogy az adott jellemző vektor mennyire valószínű az adott állapotban. Így megkapjuk az aktuális ütemben minden állapothoz a legjobb út valószínűségét. Az utolsó ütemben a végállapothoz tartozó valószínűség jelenti az adott bemondásnak az állapotgéphez illeszkedő feltételes valószínűségét. Amennyiben minden egyes ütemben eltároljuk az állapotokhoz, hogy melyik állapotból jutottunk oda, akkor az utolsó állapotból visszafejthető, hogy milyen úton, milyen állapotokon keresztül jutottunk el az elsőtől az utolsóig. Ez egyben a modellek és a jellemző vektorok közötti időillesztést is megadja.