message=A szólisták növelésének vannak korlátai: egyrészről a rendszer sebessége, másrészt pedig a kézben tarthatósága miatt. Nyelvi modellek bevezetésével ez a probléma hatékonyan kezelhető. Egyetlen nagy szólista helyett több kisebb részszótárt kell létrehozni, és ezeket egy hálózatba foglalni. A nyelvi hálózat nagyon bonyolult is lehet, viszont a részszótárak összmérete ezáltal töredéke lesz az ekvivalens nagy szótárénak.
A számfelismerésre két lehetséges megközelítést mutatunk be. Ha egy olyan beszédfelismerőt akarunk tervezni, amelyik százig minden számot felismer, azt meg lehet oldani a számok szótárba rendezésével. Ehhez száz elemet kell tárolni a szótárban. Hatékonyabb megoldás 40 elemmel dolgozni, és emellett magasabb szintű nyelvi modellt bevezetni. Amennyiben egymillióig kell felismerni a számokat, akkor a szótár mérete tízezerszeresére nőne, míg a nyelvi modell alapú megközelítés esetén csupán néhány elemmel bővül a szótár (száz, ezer, millió), valamint az ábrán látható nyelvtant kell bővíteni.
A sok párhuzamos élet tartalmazó gráf helyettesíthető egy bonyolultabb szerkezetű, de lényegesen kisebb méretű gráffal, ami ugyanazokat a számokat generálja. Ilyen helyettesítő gráf elkészítése egyszerűbb esetben nem igényel nagy befektetést, akár manuálisan is elvégezhető.
Természetesen a nyelvi modell bevezetése esetén is szükség van szólistákra a modell alszótáraiban. A bemutatott mindkét megoldás 1 és 99 közötti számokat képes felismerni. Kapcsolt szavas felismerőnél a szótár 20 százalékra csökken, ami durván ötszörös sebességnövekedést jelent. Az egy és egymilliói közötti számok felismerése esetén a szólista alapú megoldás megvalósíthatatlanul lassú, nagy számításigényű, míg a nyelvi modell alapú felismerés valós időben megoldható. A Viterbi-algoritmus univerzális megoldást jelent abban az értelemben, hogy a gráf bonyolultságától függetlenül megtalálja a legvalószínűbb utat, tehát kapcsolt szavas felismeréshez nincs szükség új útvonalkereső módszer bevezetésére.
A nyelvi modellt külön kell választani a szótártól. A szótár tartalmazza a nyelvi modellben használt legkisebb egységek (szavak, morfémák) beszédhangszintű átiratát, míg a nyelvi modell ezek lehetséges kapcsolatát írja le. A szótárban általában a feladathoz illeszkedő szavakat szokás feltüntetni. A magyar beszédre készítendő felismerőnél hamar beleütközünk a ragozás okozta problémába. Nem célszerű egy-egy szó összes (akár tízezer) ragozott alakját felsorolni a szótárban, célszerűbb azt a nyelvi modellbe illeszteni.
Ragozási hálózatok megvalósítására elfogadott technológia a bigramm-modellek alkalmazása, amikor két halmazt képzünk, a szótövek és a toldalékok halmazát. A két részhalmaz között teljes párosítást hajtunk végre, de az egyes élekhez súlyokat rendelünk, melyeket szövegadatbázisok alapján kell becsülni. A valóságban nem létező szótő-toldalék párok így nulla súllyal lesznek összerendelve. Azon párok, melyek nem fordulnak elő a tanító szövegben szintén nulla súlyt kapnak, noha nem azok. Ennek elkerülése érdekében úgynevezett simító eljárások alkalmazhatók, melyek azonban nem tudnak különbséget tenni a hibás és a hiányzó párok között, így minden párosítás, bár eltérő valószínűséggel, de megengedett lesz. Az igazi megoldást az explicit ragozási információ modellbe építése jelentheti.