message=Akusztikus modellnek nevezzük az osztályozás során a referenciát, azaz a mintát vagy modellt, amivel összehasonlítjuk a bemenő beszédjelet, vagyis amihez illesztünk. A minta alapú osztályozásnál a felismerendő jellemző vektorokat a tárolt jellemző vektor sorozatokhoz illesztjük. A statisztikai alapú feldolgozás során az illesztés hangmodellekhez történik. Egyfajta egyszerű, bár nem túl hatékony általános modell például a beszédhangok első, illetve második formánsfrekvenciáinak eloszlásai. Ebben az esetben a jellemző vektor az F1, F2 dimenziót tartalmazza. Látható, hogy az egyes hangokhoz tartozó területek átfedik egymást, ami nehézzé teszi a tökéletes illesztést, tehát ez nem egy hatékony modell.
Akusztikus modellek esetén először ki kell választani, hogy mik legyenek a jellemző vektorok, amivel dolgozunk. Ma jellemzően a rövid idejű Fourier-spektrum alapján számított, úgynevezett mel frekvenciás szűrősorok, illetve azok transzformáltjai használatosak. Akkor igazán sikeres egy ilyen eljárás, ha az egyes beszédhangokhoz tartozó paraméterhalmazok, tehát a különböző hangok között nincs átfedés. Ezt a beszéd természetéből adódóan csak elméletileg lehet elvárni, tehát nincs univerzális megoldás. A bemutatott ábrán látható, hogy az első, illetve második formáns frekvenciája alapján, például a magánhangzók között jelentős átfedés van, tehát ezek önmagukban nem alkalmasak akusztikus modellek készítésére. A környezeti zajok tekintetében adott jellemzőkkel eredményesebb a felismerés, másokkal viszont gyengébb. Ez a beszélőktől is függ.
A jellemző vektorok kiválasztása komoly elméleti probléma. Ezt követi hasonló nagyságrendű gyakorlati probléma, az akusztikus modellek elkészítése. Ez hatalmas mennyiségű tanító mintát igényel, mivel az egyes hangok akusztikus realizációja igen sok paramétertől függ, többek között a személytől, a környezettől, sőt a szövegkörnyezettől is.
Az ember ugyanazt a beszédhangot - adott határon belül - különböző módokon ejti. Ez nyelv és beszélőfüggő. Különbözik az ejtés hossza, dinamikája és a spektrális tartalma is. A hangok egymásra hatása belső elváltozásokat okoz a hangokon belül. A beszédhang hangátmeneti szakaszai az egyik hangból a másikba való átmenet során ugyanazon beszédhang esetén is különböznek. A Békéscsaba szó kiejtési példáján is megfigyelhető az é és a hangok közötti különbség. Ezt figyelembe kell venni a beszédfelismerő tervezésénél. A magyar beszéd felismeréséhez elemi egységként közel 70 hangból álló rendszer elegendő. Környezetfüggő modell használata esetén 70x70x70, azaz 343 000 belső felismerési modellt kell meghatározni és elkészíteni.
A környezetfüggő modell lényege, hogy figyelembe veszi a hangok egymásra hatását. Kisebb-nagyobb mértékben minden hang függ a megelőző és a hozzá kapcsolódó hangtól. Ezen környezeti hatások figyelembe vételére vezették be az egyelemű (monophone) modellek helyett a környezetfüggő, úgynevezett háromelemű (triphone) hangmodellek alkalmazását. Egy triphone például: tak, ami egy olyan a hangot jelöl, amelyik előtt t, utána pedig k hang áll. A modell tehát figyelembe veszi a koartikulációs hatást is. Ez a megoldás azonban jelentős növekedést jelent egyrészről a tanító minták számában, másrészről a program erőforrásigényét tekintve is. Mivel a tanító hangadatbázis elkészítése nagyon idő- és költségigényes, ezért az adatbázis elkészítése után határozható csak meg, hogy triphone vagy monophone modellt alkalmazunk az adott feladat megoldására. Kis mennyiségű tanító adat esetén általában nem célszerű triphone modelleket alkalmazni, mivel azok túl pontatlanok lennének.
A beszédfelismerést nehezíti, ha nem csak egy felhasználó beszédét, hanem sok ember hangját kell felismerni. Ekkor beszélőfüggetlen felismerésre kell tervezni a rendszert, amihez beszélőfüggetlen akusztikus modellekre van szükség. Mint már láttuk, egyetlen beszélőnél is nagy a hangok variáltsága, több beszélő esetén ez pedig még nagyobb. A Győr szó példáján jól látható, hogy ugyanazon szó különböző emberek kiejtésében mennyire eltérő akusztikai szerkezetet mutat.
A beszélőfüggetlen modellek készítésére több módszer létezik. A legegyszerűbb, mikor a tanító adatbázis nagy számú (néhány ezer) beszélő hangját tartalmazza. Ekkor jó hatásfokkal lehet a beszédfelismerést elvégezni rátanítás nélkül is. Például telefonos alkalmazásoknál ilyen rendszerekre van szükség, mivel bárki felhívhatja (lásd a városnév-felismerésre adott alkalmazási példát). Amennyiben ez nem áll rendelkezésre, akkor az adott felhasználó hangjához minden esetben hozzá kell igazítani a rendszerbe beépített akusztikus modelleket. Az adaptáció után a rendszer beszélőfüggővé válik, csak az adott személy hangjára fog megfelelő hatásfokú beszédfelismerést biztosítani. A beszélőfüggő és beszélőfüggetlen megoldások mellett a beszélőhöz adaptálódó rendszer is külön kategóriának tekinthető.