message=A minta alapú osztályozás legegyszerűbb, bár csak elméleti jelentőséggel bíró formája a lineáris idővetemítés. Az idővetemítésre azért van szükség, mert az élő beszédben ugyanazt a hangsort a beszélők különböző időszerkezettel realizálják. A felismerés során ugyanazt a hangsorozatot közös időtengelyre kell vetíteni (a rövidebbeket nyújtani, a hosszabbakat zsugorítani), hogy az összehasonlítás elvégezhető legyen.
Az ábra a felismerendő és a tárolt referencia-vektorsorozat közös időtengelyre nyújtását mutatja be. Az átló menti lineáris nyújtás a beszédben meglévő relatív időkülönbségek miatt nem használható, helyette a dinamikus programozáson alapuló dinamikus idővetemítést (DTW=dynamic time warping) használják.
A DTW algoritmusa egy N vektorból álló referenciasorozatot és egy M hosszúságú felismerendő vektorsorozatot illeszt egymáshoz. Az illesztés során a (0,0) kezdőpontból a (N,M) végpontba kell eljutni. Közben az útvonalkereső algoritmus lépésenként haladva a mintákat (vektorokat) egymással összehasonlítja, és a távolság minimalizálására törekszik. Az eljárás során a felismerendő sorozatot minden referenciamintával össze kell hasonlítani, és a legkisebb távolságú elem lesz a felismerés eredménye.
Az algoritmushoz különböző lokális feltételeket kell rendelni, ezek szabályozzák az adott pontból való továbblépést. Nem léphetünk például visszafelé, hisz nem beszélünk visszafelé. Egyszerre legfeljebb egy (esetleg két) vektort hagyhatunk ki bármely tengelyen, illetve legfeljebb kétszer (háromszor) maradhat ugyanabban a pontban, mivel a gyakorlatban a sebességkülönbség 2-3 szoros lehet. Ezen feltételekből következik, hogy a bemutatott ábrán jelzett rombuszból nem léphet ki az eljárás.
A rendszer robosztusságát több tanító mintával lehet növelni. Ilyenkor egy azonos szóhoz több különböző referenciát tárolunk el (pl. ugyanaz a beszélő többször mondja be, vagy több beszélő egyszer), és a rendszer több referencia közül választ a mintaillesztés során. A tanító minták átlagolására is lehetőség van a vetemítő út mentén.
A dinamikus idővetemítés tipikusan beszélőfüggő, néhány szó felismerésére alkalmas alkalmazásoknál használatos, mint például egy mobiltelefon hangtárcsázója.