text=Nagyobb, vagy módosítható szótár, illetve több beszélő esetén rejtett Markov-modelleket használunk. A szótár a felismerendő szavakat tartalmazza. Minden szóhoz meg kell adni, hogy milyen beszédhangok sorozataként áll elő. Ezekhez a beszédhangokhoz akusztikus modellt kell betanítani. A felismerő (Viterbi) algoritmus kiválasztja, hogy az elhangzott szó milyen állapotsorozathoz, és ezzel milyen szóhoz tartozik a legnagyobb valószínűséggel.