message=A digitális beszédfeldolgozás már önálló tudományterület, amelynek számos ága alakult ki. Ebben a fejezetben csak a beszédszintézishez és a beszédfelismeréshez kidolgozott legfontosabb módszereket tárgyaljuk vázlatosan. Ezeetk a módszereket többnyire a beszéd tömörítésére, valamint az egyes prozódiai jellemzők (dallam, ritmus) kinyerésére és mesterséges megvalósítására használják.
A digitális jelfeldolgozás első lépcsője az analóg jelek digitalizálása. Ha a folytonos analóg jelből megfelelő időnként mintát veszünk, akkor diszkrét idejű jelet, illetve jelsorozatot kapunk. A mintavételezésnél a mintavételi időpontok azonos To idővel követik egymást. Ennek a mintavételi időköznek a reciproka adja a mintavételi frekvenciát. A mintavételezett jelet ezután amplitúdója szerint véges számú diszkrét intervallumra (lépcsőkre) osztjuk. Ezt a műveletet amplitúdókvantálásnak nevezzük. Kvantálás után már nem fordul elő végtelen sok függvényérték, hanem csak az amplitúdólépcsők számával megegyező véges számú. Az amplitúdókvantálás során keletkező jelfüggvény diszkrét értékű és diszkrét idejű, amelynek független változója a kvantálandó, függő változója pedig a kvantált mennyiség. A digitális mintavételezés következtében véges méretű diszkrét adatszavak keletkeznek. Tehát a folytonos analóg jelet diszkrét adatok sorozatává alakítjuk át. A diszkrét adatsorozatot digitális jel formájában továbbíthatjuk, számítógépen tárolhatjuk, feldolgozhatjuk, módosíthatjuk, illetve ismét analóg jellé alakíthatjuk át.
A digitalizált jelre alkalmazhatunk különböző jelfeldolgozási eljárásokat. Ezeknek célja az lehet, hogy a beszédjel bizonyos paramétereit megváltoztassák (pl. hangidőtartam, dallammenet, formánsmenet), esetleg az, hogy tömörebben tárolják a jelet, illetve más ábrázolási formákba transzformálják át. A jelfeldolgozás során a beszédjel torzul. A jelfeldolgozási módszer akkor jó, ha ez a torzulás a visszaállított beszédjel minőségén nem vehető észre.
A digitalizált jelet a Fourier-transzformáció módszerével felbonthatjuk a jelet felépítő spektrális összetevőkre. Az eljárás során úgynevezett ablakfüggvényt vetítenek az analizálandó jelrészletre, és az analízist az ablakban levő jelszakaszra végzik el. Elméletileg sokféle formájú ablakfüggvény képzelhető el, a gyakorlatban a Hamming és a Hanning ablakokat lehet a legoptimálisabban használni a beszédjel digitális feldolgozásában. Ezen ablakok egy harang alakú görbéhez hasonlítanak. A haranggörbe maximumát kell az analizálandó jelszakasz közepére helyezni, a lecsengő szakaszok pedig ettől a ponttól jobbra, illetve balra helyezkednek el.
A gyakorlatban a jelanalízist a diszkrét Fourier-transzformációval (DFT) lehet elvégezni. A DFT-vel egyenértékű, de lényegesen kisebb műveletszámmal dolgozó algoritmus a gyors Fourier-transzformáció (Fast-Fourier-Transformation=FFT). Az FFT matematikai tartalmát tekintve nem önálló transzformáció, hanem olyan különleges algoritmus, amely a műveleteket ügyes csoportosítással, egyszerűsítések segítségével hajtja végre.br>A digitális beszédfeldolgozás egyik célterülete a beszéd zöngés és zöngétlen jelrészleteinek szétválasztása, illetve a zöngés részeken a periódusok megjelölése. Mindkettő a további jelfeldolgozási eljárások egyik alapja. Amennyiben az FFT-számítást más eljárásokkal kombináljuk, akkor jó hatásfokú zöngés-zöngétlen detektort, valamint hatásos periódusjelzőt készíthetünk.
A digitális jelfeldolgozás másik fontos eljárása a lineáris predikció (LPC). Ez annak a megfigyelésnek a matematikai formában való leírása, hogy bizonyos időben lejátszódó jelenség a jel korábbi időpillanataiban tapasztalt értékeiből megbecsülhető. Lineáris a predikció, ha a becslés a becsléshez felhasznált értékek lineáris függvénye. Tehát az LPC segítségével valamely mintát a korábbi minták alapján meghatározhatunk. Mivel az artikulációs mozgások viszonylag lassúak, az LPC-analízis alkalmazható a beszédre. Az LPC alkalmazhatósága a beszédtömörítésben, beszédszintézisben, beszédfelismerésben és a beszédanalízisben már bebizonyosodott. Az LPC-vel meghatározható az artikulációs csatorna átviteli karakterisztikája is.
A hullámforma összefűzéses eljárás térhódítása szükségessé tette olyan algoritmusok kidolgozását, amelyekkel adott hullámformára meg lehet valósítani a beszéd dallam- és hangidőtartam-változtatását úgy, hogy az eredeti hangszín nem változik. Erre alkalmas többek között a zöngeszinkron átlapolásos összeadás (PSOLA - Pitch Synchronous Overlap Add) eljárása. Ennek lényege, hogy rövid (célszerűen egy periódusnyi) hullámforma-szegmenseket elemzünk úgy, hogy a beszédjel zöngés szakaszában minden hangperiódusra átlapolt ablakfüggvényt fektetünk, majd ezt a hangszakaszt spektrálisan jellemezzük. Ezután ezeket a kiablakolt jelrészleteket egymásra csúsztatjuk és összeadjuk. Így, a zöngés hangszakaszok periódusainak az időtartamát, tehát az alapfrekvenciát változtathatjuk meg, vagyis a beszédjel dallamát valósíthatjuk meg jelfeldolgozás segítségével. A zöngeszinkron feldolgozásból adódik, hogy az eljárással a beszédhangok időtartamát is változtathatjuk (bizonyos korlátok mellett).
A PSOLA eljárás alkalmazásának két fontos kritériuma van.
Az első, hogy a beszédjelet el kell látni zöngeszinkron jelekkel, vagyis minden hangperiódusban ki kell jelölni a periodicitást mutató jelzőt (markert). Ezt célszerű a periódus legnagyobb energiájú pontjára tenni.
A második, az ablak alakjának és hosszának optimális meghatározása. Az időfüggvényen végzett PSOLA-transzformáció esetén ("Time Domain", azaz TD-PSOLA) két periódusnyi hosszú (Hamming, illetve Hanning) ablakot célszerű alkalmazni, ami egy haranggörbéhez hasonlítható.
Az ablakfüggvény maximumát a vizsgált hangperiódus maximális amplitúdójú részére kell beállítani, a lecsengő részek végei ettől jobbra, illetve balra egy-egy periódusnyi időtpontra esnek. Ez a kijelölési forma azt biztosítja, hogy az egyes ablakolt jelrészek között mindig lesz átlapolás. Ha ezt az ablakolást minden hangperiódusra elvégezzük, akkor olyan adatsorozatot kapunk, amelyben minden ablakra elvégzett analízis egy-egy hangperiódust képvisel. Ha ezeket összeadjuk (az idő tengelyen változatlan periodicitással), akkor visszakapjuk az eredeti időfüggvényt. Ha az ablakokat időben például közelebb csúsztatjuk egymáshoz az összeadás előtt (közelebb hozzuk egymáshoz a maximum értékeket és ezzel a periódusidő csökken, tehát emelkedik az alapfrekvencia), akkor a végeredményként kapott időfüggvényben a hangszínezet nem változik (a formánsstruktúra ugyanaz marad, mint az eredeti jelben), a hangmagasság azonban magasabb lesz, mint a kiinduló jelben. Ugyanígy, ha távolítjuk egymástól az ablakokat és úgy adjuk össze őket, a beszédjel alapfrekvenciája mélyebb lesz. Az eljárásból adódik a korlát is: az alapfrekvenciát maximum kétszeresére, illetve a felére lehet erősebb torzítás nélkül megváltoztatni.