message=
A digitalizált beszédmintákat rövid (kb. 10-30 ms hosszú), 25-75 százalékban átlapolódó szakaszokra, úgynevezett keretekre kell bontani.
A jellemző vektorok számításának alapja általában a jel keretenkénti, rövid idejű spektruma, ezért a következő lépésben a keretek diszkrét Fouier-transzformációját kell kiszámítani.
A kepsztrum együtthatókat a beszédjel logaritmikus teljesítményspektrumának inverz Fourier-transzformáltjaként határozhatjuk meg. Lehetőség van továbbá a spektrum lineáris frekvenciafelosztását az emberi fülnek megfelelően nemlineáris mel-skálára transzformálni. A mel-skála durván 1 kHz alatt lineáris, felette pedig exponenciális frekvenciafelosztást jelent. Amennyiben a kepsztrumszámítást a mel-skálájú szűrősor által adott paraméterhalmazon végezzük el, akkor kapjuk az MFCC együtthatókat. Természetesen az MFCC csupán egy a sokféle előfeldolgozási eljárás közül, de manapság ez az egyik legelterjedtebb.
A beszédfelismerő rendszerek hatékonyságát nagyban megnöveli, ha a jellemző vektorok időbeni változását is figyelembe vesszük. Az úgynevezett delta paramétereket az adott keretet megelőző, illetve követő néhány kerethez tartozó jellemző vektor differenciájaként határozzuk meg. A delta-delta paraméterek pedig a delta paraméterekből kerülnek számításra, hasonló módon. Ezen paraméterek kedvező hatása a beszédjel időbeli korreláltságával magyarázható.