message=
A beszédszintézishez készített adatbázison olyan adatbázist értünk, amelyik azokat az építőelemeket tartalmazza, amelyeket a gépi beszédelőállítás során használunk fel a beszédjel felépítéséhez. Tehát ez a beszédadatbázis tartalmazza a szintetizálandó beszédjel létrehozásához szükséges hullámforma jelrészleteket. Az ilyen adatbázis -- a szintézis és az alkalmazás fajtájától függően -- lehet nagyon egyszerű is és lehet nagyon bonyolult. A felépített beszéd minősége alapvetően függ az adatbázisban elhelyezett jelrészletek minőségétől. Az alábbiakban összefoglaljuk, hogy milyen fonetikai szempontokat célszerű figyelembe venni a beszédadatbázisok tervezésénél, készítésénél. A megállapításainkat csak emberi beszéd alapú, hullámforma elemekre tesszük, nem foglalkozunk a formáns alapú beszédadatbázisok problémakörével.
1. A beszédadatbázisok fajtái
Alapvetően háromféle adatbázissal foglalkozunk, az első, amelyik egyedi beszédelemeket tartalmaz, a második az úgynevezett diádos felépítésű elemeket tartalmazó, amelyben két hang kapcsolódása jelent egy-egy elemet, a harmadik a triádos (két fél mássalhangzó és a közöttük lévő teljes magánhangzó) és esetlegesen a triádnál is hosszabb elemek találhatók. A beszédadatbázis elkészítése minden esetben adott (előre megtervezett) szöveg felolvasásával és hangrögzítéssel történik. Az így kapott beszédjelből készítik el az adatbázis elemeket.
Egyedi beszédelemek
Ilyen elemeket olyan adatbázisoknál alkalmaznak, amelyek úgynevezett kötött szótáras rendszereket szolgálnak ki (hangposta, telebank, menetrendi tájékoztató stb.). Az elemek száma az ilyen adatbázisokban az alkalmazástól függően lehet nagyon kevés és lehet pár ezer is. Az egyedi beszédelemek megtervezése és elkészítése kis elemszám estén viszonylag egyszerű, azonban az elemszám növekedésével egyre bonyolultabbá válik. Az 50 elemnél többet tartalmazó kötött szótáras rendszerek (pl. hangposta) beszédelemeinek jó minőségű elkészítése már igen gondos tervezést, precíz hangfelvételt, körültekintő akusztikai feldolgozást, csiszolást kíván.
Előnyök: az ilyen adatbázisok előnyös tulajdonsága, hogy az üzenetek nagyon jó minőségben szólalhatnak meg, kis elemszám esetén az elkészítésük nem kíván fonetikai szakértelmet.
Hátrányok: nagyobb elemszám esetén fonetikai, beszédakusztikai szakismeretek szükségesek a tervezéshez. Ellenkező esetben az adatbázis elemeiből elkészített beszédüzenet kifejezetten rossz hangminőségű is lehet.
Diád elemek
A kizárólag diádos elemeket (két félhang) tartalmazó adatbázisok általában a kötetlenül beszélő, úgynevezett szövegfelolvasó rendszerekben használatosak. Ezekre az adatbázisokra az jellemző, hogy a bennük eltárolt beszédjel elemeket úgy alakítják ki, hogy a beszédhangokból két hang kapcsolódását tárolják el, ezt is úgy, hogy az elemhatárokat a két hang közepén jelölik ki. Az ilyen elemek tehát két félhangot tartalmaznak. A báb hangsort tehát a #b, bá, áb, b# elemekből lehet felépíteni (a # jel a csend szakaszt jelöli). Az elemek száma az ilyen adatbázisokban általában ezres nagyságrendű. Ez a szám a nyelvtől, azon belül pedig a szintézishez meghatározott beszédhangok számától függ. A szintézishez meghatározandó beszédhangok száma nem egyértelmű, a tervező döntésétől is függ. Vegyük például a magyar beszédet. Egyértelmű, hogy a magánhangzók száma 9 is lehet ( á, a, o, u, ü, i, é, ö, e ), de lehet 14 is, ha az előbbiekhez hozzávesszük az ó, ú, ű, í, ő hangokat is. Ugyanis nem feltétlenül szükséges, hogy a hosszú magánhangzókat külön hangként kezeljük, azok előállíthatók a rövid párjuk felhasználásával nyújtással is, csak kissé szokatlanabb hangminőséggel. Ez azonban a megértést nem befolyásolja. A magánhangzók listáját még tovább bővíthetjük azok nazalizált változataival, amelyek bizonyos hangkapcsolatokban ( ank, enk, onk, ing, eng, áng stb.) törvényszerűen kialakulnak. A mássalhangzók tekintetében is többnyire egyértelmű, hogy mely hangoknak kell szerepelni a beszédhangok listájában, de lehetnek olyanok is amelyeket csak például egy igen igényes, kifogástalan beszédminőséget megcélzó rendszerben kell felvenni a listára. Ilyen például az n speciális változata, amely például az ng, nk hangkapcsolatok hatására jön létre ( ing, engem, fánk, fiúnk, tönk, ankét stb.) de ilyenek a dz, dzs hangok is, vagy a j hang zöngétlen változata (kapj, lépj, lopj).
Előnyök: a diádos adatbázissal gondos tervezés és sok akusztikai csiszolás (az elemek egymással való kapcsolódási pontjainak precíz akusztikai illesztése) esetén alapvetően jó minőségű beszédet lehet előállítani. Ezt alátámasztja az is, hogy a világon általánosan használt ez a technológia.
Hátrányok: az adatbázis elkészítése igen munkaigényes. A hangfelvétel szövegének megtervezése és magának a hangfelvételnek az elkészítése gondos előkészítést, jól felkészült bemondót és beszédtechnológiai tervezésben jártas szakembert igényel. A digitális feldolgozáshoz bonyolult fejlesztői és vizuális megjelenítő rendszer szükséges, ami kereskedelmi forgalomban nem kapható. Akusztikai szempontból hátrány, hogy az adatbázis szerkezetéből adódóan a magánhangzók közepén vágási pontok vannak. Ez egyrészről azt eredményezi, hogy a formánsmenetek a magánhangzóban a vágási pontnál megtörhetnek, tehát a spektrális folyamatosság nincs biztosítva, másrészről a magánhangzóban megvalósított alapfrekvencia a két félmagánhangzóban lényegesen (5-15 Hz-cel) is eltérhet. Mindkét tényező enyhe torzítást eredményez a hangban, ami a beszéd tiszta hangzását rontja. Ezen hátrányok enyhítésére speciális simító algoritmusokat kell kidolgozni. Mindezek ellenére a diádos adatbázissal működő beszédelőállító rendszerek hangja tartalmaz torzításokat, ami azt eredményezi, hogy a hang nem teljesen tiszta, hanem alatta sustorgásra emlékeztető mellékzörejek is vannak.
Triád elemek
A triádos elemeket tartalmazó adatbázisokat a kifejezetten jó minőségű, mondhatnánk, hogy professzionális szöveg-beszéd átalakítókban alkalmazzák. Ezekben a triádos elemeken kívül diádos elemeket is alkalmaznak.Az eldöntendő kérdés ezeknek a tervezésénél az, hogy mely hangcsoportokat tároljanak diádos és melyeket triádos formában. A Profivox szövegfelolvasó rendszerre kidolgozott magyar beszédadatbázisban a CC, VV, CV és VC elemek diádos, a CVC, elemek triádos, formában vannak tárolva. Az ilyen adatbázisoknál az elemszám ugrásszerűen megnövekszik, hiszen a diádos elemeken felül még el kell készíteni a triádos felépítésű elemeket is, vagyis a CVC struktúrát minden hangkapcsolatra vonatkoztatni kell. Például a C1-V-C kapcsolatokat nézve (ahol a C1 például a b hang, C pedig a p, d, t, l stb. hang) egyértelmű, hogy a C1-gyel minden VC kapcsolódást létre kell hozni az adatbázisban.
Példa:
báp, bap, bop, bóp, bup, búp, büp, bűp, bip, bíp, bép, böp, bőp, bep,
bád, bad, bod, bód, bud, búd, büd, bűd, bid, bíd, béd, böd, bőd, bed
Ez azt jelenti, hogy az ezres nagyságrendű diádelemeken felül még több ezer triád elemet is el kell készíteni.
Előnyök: a kevert szerkezetű adatbázis alkalmazásával igen jó minőségű, professzionális beszédelőállítót lehet készíteni. A magánhangzók formánsmenetei nem törnek meg, a folyamatos spektrális változás biztosított a magánhangzóban, és az alaphangban sincs törés, így a diádos adatstruktúrából adódó torzítások jelentősen csökkenthetők, ami - összehasonlítva a diádos adatbázisból készített beszéddel - határozottan tisztább hangot eredményez.
Hátrányok: a kevert adatbázis elkészítése sokkal munkaigényesebb, mint a diádosé, speciális fejlesztői és vizuális megjelenítő rendszert igényel. Memóriaigénye igen nagy (30-40 Mbyte).