message=A beszédfelismerésben a statisztikai eljárások alkalmazása robbanásszerű fejlődést indított meg. 1976-ban az IBM-nél sikerrel alkalmazták a rejtett Markov-modell elnevezésű statisztikai eljárást (Hidden Markov Model: HMM), amely kisebb nagyobb változtatásokkal igen gyorsan elterjedt a beszédkutatók körében az egész világon. A neurális hálók osztályozása szintén statisztikai alapokon működik. A statisztikai felismerők betanításához nagyméretű, jól kiválasztott adathalmaz szükséges.
A gyakorlatban az adatbázisok tervezésénél figyelembe kell venni, hogy az adatbázis létrehozása nem más, mint a véletlenszerű folyamat egyes megvalósulásainak (realizációinak) összegyűjtése.
A fentiek alapján látható, hogy a paraméterbecslés pontossága, tehát a felismerés jósága lényegében a betanításhoz használt adatbázis jóságán is múlik, vagyis azon, hogy az adatbázis elemei helyesen legyenek kiválasztva, egy-egy elemből megfelelő darabszámú reprezentáns legyen, az elemek minősége megfeleljen az előírásoknak stb..
A mai felismerőket csak egy meghatározott szűk felhasználási területre tudják tervezni. Például olyan beszédfelismerő, amely csak egy adott nyelven, telefonon keresztül bemondott számok,illetve néhány szó felismerésére alkalmas, nem ismer fel mondatokat. Az úgynevezett. diktáló rendszereket folyamatos beszéd felismerésére tervezik. Ezek a megadott nyelven, jól meghatározott témakörön belül, de kizárólag csak a felhasználó hangjára való betanítás után működnek elfogadható pontossággal. A diktáló rendszerek csak csendes (szobai) környezetben működnek jól.
Azok a felismerők, amelyeket zajtalan környezetre terveztek, nem működnek zajos körülmények között. Az utcazajban működő felismerő rosszul működik, ha például személygépkocsiban kívánják használni. A beszédfelismerő rendszerek tehát csak azokat a mintákat képesek felismerni, amelyekre előzőleg betanították.
A beszéd-adatbázisokat elsősorban a gépi a beszédfelismerésben használják. Széles felhasználói terület még az automatikus beszédszintézis, kódolás, elemzés, beszédazonosítás, nyelvazonosítás. Mindezen területek nagyméretű adatbázisokat igényelnek. A beszéd-adatbázisok nemcsak betanításra használatosak, hanem tesztelésre is, hiszen segítségükkel, mivel rögzített, állandó anyaguk van, a mérések megismételhetők.
Az utóbbi évtizedekben igen sok adatbázist készítettek a világon. Célszerű lenne a beszédadatbázisok létrehozására egy egységes szabványeljárást kidolgozni, de ennek komoly akadálya van. A felhasználási területek szélesek, a nyelvi sajátosságok különbözőek, a nemzeti érdekek erősek, így igen nehéz egységes szabványt kidolgozni és elfogadtatni mind az adatbázisok létrehozására, mind az értékelési eljárásokra.
TIMIT, ATIS adatbázisok
Amerikában a TIMIT és az ATIS a legjelentősebb - gépi beszédfelismerés céljára létrehozott adatbázisok, amelyek amerikai angol nyelven akusztikai modellek felépítésére alkalmasak. A TIMIT adatbázis személyfüggetlen fonetikai beszédfelismerők betanítására és tesztelésére szolgál. Szómodellek felépítésére alkalmatlan, mivel szűkített szótárkészletet használ, fonetikailag gazdag mondatai viszont kiválóan alkalmasak beszédhang-modellek létrehozására. Az adatbázis egy része betanításra, másik része tesztelésre ad lehetőséget. ATIS (Air Travel Information System) repülőtéri információval kapcsolatos szótárkészleten alapuló adatbázis. Minden elem spontán társalgással, illetve olvasva, hivatali körülmények között került rögzítésre.
EUROM, BABEL
Az EUROM és a BABEL egységes szabályrendszer alapján elkészített soknyelvű európai adatbázisok. Az EUROM gyakorlatilag az összes nyugat-európai nyelvre elkészült adatbázis. A BABEL program keretén belül 5 közép-és kelet-európai nyelv beszédadatbázisa készült el, ezek a nyelvek: bolgár, észt, magyar, lengyel és román. Célja egy közös, egységes elvek alapján felépített nagyméretű beszédadatbázis létrehozása a beszédakusztikával, fonetikával, digitális jelfeldolgozással, valamint nyelvészettel foglalkozó európai szakemberek munkájának segítésére. Az adatbázisok kevesebb számú bemondóval készültek, viszont az összeállított szöveg viszonylag hosszú. Létrehozásánál az volt a cél, hogy jó alapanyagot teremtsenek fonetikai kutatásokhoz: a hangkörnyezetnek, a hang helyzetének, a különböző szupraszegmentális jegyeknek stb. a hatása jól vizsgálható legyen. A speciális paragrafusszöveg miatt a fonetikai alapkutatások mellett, a hanganyag a beszédfelismerési kutatásoknak is alapot tud biztosítani.
Magyar BABEL adatbázis
A magyar BABEL adatbázis a hivatalos magyar köznyelvet reprezentáló rendezett hanganyag, amely hangkapcsolatokat, szavakat, számokat, 5 mondatos bekezdéseket tartalmaz, valamint 120 bekezdés fonetikai szinten címkézett és szegmentált anyagát.
Az adatbázis erősen zajcsökkentett környezetben felvett olvasott szöveg, ez az ún. tiszta olvasott beszéd, melyet 60 személlyel, 30 férfivel és 30 nővel rögzítettünk kor és foglalkozás szerint széles eloszlásban. A teljes hanganyag 1,8 GB terjedelmű, amelyet 3 CD-n rögzítettek.
Az adatbázis összetétele
Az adatbázis tartalma és formája az ESPRIT programban kialakított SAM szabályokat követi.
Az adatbázis szövegkészlete 3 részből áll:
- rövid bekezdések, amelyek egyenként 5 tematikailag összefüggő mondatot tartalmaznak;
- kiválasztott számok 0-9999-ig;
- szisztematikusan megszerkesztett CVC hangkapcsolatok különállóan és mondatba szerkesztve.
A beszélők kiválasztása
A jelen adatbázis, a magyar köznyelvet reprezentálja, tehát a különböző dialektusok nincsenek benne képviselve, de a magyar köznyelvi beszéd olyan széles variációit rögzítettük, amely az adott körülmények között lehetséges volt. Az olvasásnál az egyetlen kritérium az volt, hogy pontosan azt kell felolvasni, ami le van írva. A beszélők Budapesten élő és dolgozó férfiak és nők voltak, 14-69 éves kor között.
Szegmentálás és címkézés
Az anyagban összesen 120 paragrafus került fonetikai szintű szegmentálásra és címkézésre. Kézi szegmentálással, a beszéd időfüggvényében, bejelöltük a fizikailag megfigyelhető hangok határait, és beírtuk a megfelelő helyre a címkéket, audio-vizuális fonetikai átírással. A fonetikai átírás a SAMPA készlet segítségével készült.
SpeechDat telefonbeszéd- adatbázisok
A SpeechDat adatbázisok európai, soknyelvű telefonbeszéd-adatbázisok, amelyek egységes specifikáció alapján készültek a legtöbb európai nyelvre.
Számos különböző típusú, telefonon keresztül működő beszédfelismerő betanítására és tesztelésére adnak lehetőséget. Ezek az izoláltszavas rendszerek, szókereső és azonosító rendszerek, dialógusrendszerek, valamint szótárfüggetlen rendszerek, amelyeknél a felismerés a szónál kisebb felismerési egységek modellezésén alapul. Az összeállított szöveganyag a sokfeladatos elvárásoknak megfelelően igen sokrétű. Tartalmaz: parancsszavakat, számjegy-sorozatokat, telefonszámot, hitelkártyaszámot, PIN kódot, spontán dátumot, relatív dátumot, parancsszavas kifejezést, számjegyet, betűzött spontán vezetéknevet, betűzött városnevet, betűzött szót, pénzmennyiséget (forint/euro), természetes számot, spontán vezetéknevet, spontán városnevet, cégnevet, vezeték- és keresztnevet, igen/nem kérdést igen/nem válasszal, fonetikailag gazdag mondatot.
A telefonbeszéd-adatbázis specifikációja az MLAP LRE-63343 SPEECHDAT (M) EU projekt javaslata alapján készült. Ez biztosítja azt, hogy a különböző nyelvű adatbázisok igen hasonlóak, egységes alapot képviselve, ugyanazt a beszédtechnológiai fejlesztési lehetőséget nyújtsák a feldolgozott nyelvhez.
SPEECHDAT-E magyarnyelvű telefonbeszéd-adatbázis
A magyar SPEECHDAT E adatbázis 1000 vezetékes telefonon keresztül bemondott szövegből áll. A magyar szöveganyag az egységes elvek szerint a magyar nyelv sajátosságainak megfelelően lett összeállítva, különös gondot fordítva a fonetikailag gazdag mondatokra.
SPECO gyermekbeszéd-adatbázis
Az adatbázis csendes helyiségben 5-10 éves gyermekek által bemondott szótagokat, szavakat, mondatokat tartalmaz. A fonetikai, beszédfelismerési kutatásokhoz (hangkörnyezet, hanghelyzet, különböző szupraszegmentális jegyek stb. vizsgálata) biztosít megfelelő hanganyagot .
Az adatbázis nagy részében átlagos köznyelvi olvasott gyermekbeszéd van rögzítve csendes körülmények között. Kisebb részben pösze és különböző súlyosságú hallássérült gyermekek beszédét tartalmazza.