text=A szövegfelolvasás megvalósításához két jól elkülönült adatkezelést kell megvalósítani. Az első a bejövő szöveg feldolgozása, adatszintű előkészítése a szintézishez. A második a szintézis megvalósítása, a beszéd létrehozása. A modulrendszerű felépítéssel el lehet elérni azt, hogy a különböző feldolgozási szintek helyes működését külön-külön is, csoportosítva is és teljes egészében is ellenőrizni lehet a fejlesztés során.
A szövegelőkészítésnek különböző mélységű szintjei vannak. A legkézenfekvőbb, hogy értelmezni kell a szöveg minden elemét. A szavak esetében ez nem igényel bonyolult rendszert. Az olyan karakter sorozatoknál azonban, amelyek nem tekinthetők nyelvi értelemben vett szónak, meg kell fejteni a karaktersorozat jelentését, majd értelmes szavak sorozatává kell átalakítani. Ide tartoznak a rövidítések, a betűszók, a nevek kiejtése, a szövegbe írt számok stb. A bejövő szöveg átalakítása után a kapott eredmény csak betűket tartalmaz. A feldolgozás következő szintje a prozódiai előrejelzés. Ez annyit jelent, hogy a szövegbe bejelöljük, hogy milyen dallamot, ritmust, hangsúlyt kaphat az adott szó, a szövegrész, a mondat.
A prozódiát előrejelző jelek meghatározásához csak a bemenő szöveg áll rendelkezésre. A szövegelemzés szintje határozza meg, hogy mennyire pontosan lehet a mondatdallamot, a hangsúlyozást, a beszédsebesség esetleges változását meghatározni.
A következő feldolgozási lépésben a szöveget hangkódokká alakítjuk. Ennek végeredménye a hangzó forma adatszintű megvalósítása. Az adatokat egy speciális mátrixban összegezzük. Ez a mátrix képviseli a kapcsolódási felületet a tényeleges beszédszintetizátorral, amelyik az adatokból előállítja a beszédet.