message=A kiejtett beszédjelben a belső időszerkezet dinamikusan változik. Ez a változás két szintre vonatkoztatható, a beszéd tempójára (ami a beszédjel egészét érinti), illetve a beszédhangok szintjén végbemenő változásokra (ami a beszédjel egyes részeire, általában a szó, a szótag szintjére vonatkozik). Ha mesterségesen akarjuk befolyásolni a beszédtempót , illetve egyes beszédhangok hosszát (például egy beszédszintetizátor beszédének természetesebb hangzású beállítására, vagy pszichológiai kísérletekhez készített speciális beszédstimulusokban), akkor ezt általánosságban hangperiódus(ok), hangrészlet(ek) betoldásával (lassítás), illetve kivágásával (gyorsítás) tehetjük meg. A kérdés csupán az, hogy mely hangperiódusokat, illetve hangrészleteket válasszuk ki ehhez a művelethez, hogy a beszédjel torzulása minél kisebb legyen. Az általános, jelfeldolgozási megoldásokban nemigen veszik figyelembe a beszédhangok frekvenciaszerkezetét, a hangok egymásrahatását, hanem egységes matematikai módszerrel határozzák meg a betoldandó, illetve kivágandó beszédrészleteket (esetleg periódusokat). Itt olyan eljárást mutatunk be, amelyik jelfeldolgozás nélkül, a beszédjel közvetlen időfüggvényén alkalmazható. Az eljárás fonetikai indíttatású, figyelembe veszi a beszédhangok belső akusztikai szerkezetét, amikor a hanghosszításhoz, hangrövidítéshez a periódusokat, hangrészeket kijelöli.
A beszédjelen végzendő hangnyújtás, illetve hangrövidítés megoldását több tényező határozza meg. A legfontosabbak a következők:
(a) a hangperiódusok hossza (milyen határok között mozog a hangperiódusok hossza, vagyis mennyi az alapfrekvencia, a hangfekvés és a hangterjedelem),
(b) milyen terjedelmű a feldolgozandó egység (hang, szó, több szó, mondat stb.),
(c) milyen a beszédhangok akusztikai szerkezete és az hogyan változik az időben.
a) A hangperiódus hossza és a beszédhang időtartama között szoros kapcsolat van. A hangidőtartamokat a nyelvi norma határozza meg és ez azt is jelenti, hogy például egy adott zöngés hangban lehet, hogy 4-5, de lehet, hogy 6-10 hangperiódus lesz attól függően, hogy férfi vagy nő, esetleg gyermek ejtette-e. Nyilvánvaló tehát, hogy a hangnyújtás, illetve időtartamcsökkentés ponosabban elvégezhető azokban a zöngés hangokban, ahol több periódusból áll egy hang, mint ott ahol ugyanaz a hang (például ugyanazon mondat egy adott hangja férfi, illetve női ejtésben) kevesebb periódusból áll. Tehát a hangfekvés befolyásolja a feldolgozás pontosságát.
(b) Minél nagyobb egységen végezzük el a módosítást, annál pontosabb eredményt várhatunk. Ha például százalékosan akarjuk megadni a lassítás, vagy gyorsítás mértékét, akkor más léptékkel lehet azt megadni, ha például egy 5 periódusból álló zöngés beszédhangra adjuk meg és mással, ha egy teljes mondatra. Az első esetben a hang nyújtása, rövidítése a cél, a másodikban pedig beszédtempó módosítása. Az első esetben a legkisebb lépés kb. 20 százalék lehet (mivel az 5 periódus képviseli a 100 százalékot), az utóbbiban akár 5 százalék is, mivel a mondat egészére vonatkozó időtartamváltoztatás során korrigálni lehet a hangok szintjén fellépő eltéréseket. A beszédtempó változatása esetén, ha 50 százalékkal akarjuk megnyújtani az elhangzott szöveg időtartamát, akkor lehet, hogy az egyik hangot csak 40 százalékkal tudtuk megnyújtani, de ugyanakkor lesznek olyan hangok amelyekben már az 50 százalék helyett 60 százaléknyit tudunk nyújtani és így a hiba kiegyenlíthető. Elképzelhető tehát, hogy például egy bemondott 3 perces anyagot 3,5 percessé lehet nyújtani és ezt pontosan lehet végrehajtani.
c) A beszédhangok megvalósulása a beszélés során nem szeparáltan történik, hanem folyamat jellegű. A hangok kapcsolódnak egymáshoz és így minden hang tartalmaz ilyen vagy olyan mértékben hangátmeneti részt is. Mivel a beszédjel hangjainak az akusztikus képe az artikuláció során alakul ki, a beszéd spektrális képe folyamatosan változik (a formánsok mozognak). Minden hangkapcsolódási helyzetre más és más formánsmozgás érvényes és ez nyelvfüggő. A formánsmozgások és azok jellege (kis, illetve nagy változás, felfelé, illetve lefelé stb.) a hang oszcillografikus időfüggvényében nemigen láthatók. Ezért nem lehet a hangrövidítéshez, illetve a hangnyújtáshoz olyan megoldást alkalmazni, hogy tetszőleges helyen periódusokat kihagyunk hangból, illetve beszúrunk a hangba. Ha ugyanis ezt tesszük, akkor ezzel megtörhetjük a formánsmenetek folytonosságát és ez hangtozuláshoz vezet. Ezért a hangrövidítésekre és hanghosszításokra fonetikai alapú algoritmust kell készíteni.
Az időtartam módosításának megadása
Az időtartam módosítását százalékban a legcélszerűbb megadni. Ez viszont nem azt jelenti, hogy tetszőleges százalék értékekkel meg is lehet valósítani a változtatást. A ténylegesen megvalósított százalék érték lényegesen eltérhet a megadottól. Ennek az eltérésnek az az oka, hogy az időtartam módosítás függ a periódusidőtől, valamint a hang hosszától. Ez annyit jelent, hogy, ha például egy magánhhangzó 9 periódusból áll és 50 százalékkal kell megnyújtani, akkor az elméletileg 4,5 periódus betoldását jelenti, a gyakorlban viszont 4 periódus beszúrását végezzük el. A priódusok ismétlését célszerű lineárisan elosztani a hang hossza mentén. Ez annyit jelent, hogy, a nyújtáshoz elsőnek a 2. periódust ismételjük meg, a másodiknak az eredeti 4. periódust ismételjük, a harmadik ponton az eredeti 6.-at ismételjük, a negyediknek pedig az eredeti 8. periódust ismételjük meg. A fentiek szerint végrehajtott nyújtás a valóságban csak 44 százalékos lesz a megadott 50 százalékkal szemben.
A formánsmozgások figyelembevétele
1. A magánhangzókban végbemenő formánsmozgások igen változatosak lehetnek attól függően, hogy a magánhangzó milyen hangkörnyezetben van. Ezeknek a formánsmozgásoknak a megtartása csak úgy lehetséges, ha arányos elosztásban határozzuk meg az időtartammódosítás végrehajtásának helyeit a hangon belül. Az arányos elosztást a CVC, VV és VVV hangkapcsolatokban szereplő magánhangzóknál, az á, a, o, ó, u, ú, ü, ű, i, í, é, ö, ő, e hangoknál, valamint a j, l mássalhangzóknál célszerű alkalmazni.
Példaként láthatók az anya szó hangspektrogramjai a normál, majd a megnyújtott változatra. Az képeken látható, hogy a formánsmozgások megtartották eredeti formájukat, tehát a hang akusztikai szerkezete nem torzult a lassítás miatt.
2. A mássalhangzók többségénél a megoldás bonyolultabb, főleg azoknál amelyekben nincsenek periodikus részek. Ezekben a mássalhangzókban ki kell jelölni olyan időosztást (lehetőleg sűrűbb időtartammal, mint amilyenek a zöngés részekben voltak), amilyen pontossággal meg akarjuk valósítani a nyújtást, illetve rövidítést. A nem zöngés mássalhangzóknál tehát pontosabb feldolgozást lehet biztosítani, mint a zöngéseknél. A mássalhangzókat a feldolgozás szempontjából alosztályokra bontva tárgyaljuk.
2.1 A zárhangoknál ( b, p, d, t, g, k, gy, ty, ny ), valamint a zárrés hangok esetében ( dz, c, dzs, cs ) a hangot két részre kell bontani a feldolgozáshoz: a zárra és az azt követő zárfeloldódási részre. Ezeknél a hangoknál a zár elötti hangrész (néma fázis, illetve zönge) közepénél lehet a kívánt nyújtást, illetve rövidítést elvégezni (tehát nem szükséges az arányos elosztás elvét követni) a hang időtartamát. Ez annyit jelent, hogy például hangnyújtáshoz innen kell kiemelni (zönge esetében) egy periódust, illetve (zöngétlen hang esetében) egy időegységnyi szakaszt által meghatározott részt és ezt kell bemásolni a nyújtáshoz annyiszor, ahányszor a nyújtás megvalósításához szükséges. A rövidítésnél innen kell egy, vagy több periódust (meghatározott hangrészt) kivágni. A zárfeloldódási hangrészhez nem szabad nyúlni.
2.2 A nazális hangoknál ( m,n ) és az ( f, v, z, zs ) réshangoknál a hang közepén kell a módosítást megvalósítani a 2.1 pont szerint. Erre az ad lehetőséget, hogy ezen hangok akusztikai szerkezete nem változik jelentősen a hangkörnyezettől függően.
2.3 Az s, sz réshangoknál -- mivel ezek akusztikai szerkezete változik a környező hangok függvényében célszerű az 1. pont szerinti egyenletes elosztású nyújtást, illetve rövidítést alkalmazni.
2.3 A j hang magánhangzóként viselkedik, ezért itt is az 1. pont szabálya szerint kell az időtartammódosítást elvégezni.
2.4 Az l hangban a módosítást szintén a hang közepén (2.2 pont) kell megvalósítani.
2.5 Az r hangnál egyedi megoldással lehet csak eredményt elérni. A hosszításhoz a pedületet (ami általában egy-periódus) kell megismételni, a rövidítéshez pedig a perdületnek az időtartamát kell csökkenteni a megadott százaléknak megfelelően.
A hangrövidítés, illetve hangnyújtás megvalósítási lépései
1. Megmérjük az adott hang hosszát
2. Meghatározzuk a módosítás mértékét (hány periódust, időszegmenst kell beszúrni, illetve kivenni)
3. Végrehajtjuk a módosítást a fenti algoritmus szerint.