message=A gépi beszédfeldolgozó eljárások, különösen a beszéd felismerési, beszélő azonosítási és felismerési eljárások lényegében két jól elkülöníthető elméleti alapra épülnek. Az egyik a szabálybázisú megközelítés (kognitív módszer), a másik a statisztikai elméleti alapú feldolgozás (információelméleti megközelítés). Szabálybázis alapon működnek pl. a különböző szakértői rendszerek. Statisztikai alapú feldolgozást használnak a "rejtett Markov-model" ("Hidden Markov Model: HMM"), vagy neurális hálózatok (Neural Network NN) használatával megvalósuló felismerők.
A mai, a gyakorlatban megvalósuló sikeres beszélő és beszédfelismerő rendszerek statisztikai alapokon működnek.
A beszéd természetére jellemző a fizikai paraméterek nagymértékű variáltsága beszélők között, egy beszélőn belül, továbbá az akusztikai környezet függvényében is. Jól használható adatbázis ezt a nagyfokú variáltságot kell, hogy tükrözze, így sok dimenziójú kell legyen.
Egy pontos statisztikai alapú paraméterbecslési lépés végrehajtásához (betanítási lépés) nagyszámú minta alapján történő betanítás szükséges. E minták gyűjteményei - a szükséges jegyzetekkel, címkézésekkel és átírásokkal ellátva képezik az adatbázist.
Az adatbázisoknak tartalmazni kell azokat a megfigyeléseket, amelyek a paraméterbecsléshez szükségesek, tehát mindazokat a mintákat, amelyek egységesen lefedik a beszéd (és a környezeti zajok) variáltságát.
Mind a beszéd felismerési és beszélő azonosítási, felismerési eljárásoknál a betanítás adatbázisok segítségével hajtandó végre. Ezért nőtt meg az utóbbi években a jelentőségük. Óriási pénzeket költ ma a világ adatbázisokra. A soknyelvű Európa igen nagy feladat előtt áll, hiszen minden nemzet a saját nyelvén akar bekapcsolódni a nemzetközi kommunikációba, tehát nyelvenként kell sokfajta feladatra alkalmas adatbázisokat létrehozni.
Nem biztos, hogy a mai statisztikai megközelítések nyújtják a legmegfelelőbb megoldást a gépi beszédfelismerésre, de hogy igen költségesek, az bizonyos.