message=A felvételi körülmények pontos leírása lényeges része az adatbázisnak. Itt a következőket kell figyelembe venni:
1. A felvétel körülményei
a mikrofonok száma
a mikrofon műszaki paraméterei
a környezet: stúdió, süketszoba, iroda stb.
a felvétel ellenőrzésének módszere
a mintavételezés paraméterei
2. A rögzítendő adatbázis mérete többféle lehet.
2.1 Kevés beszélő hangjából készített adatbázis: többnyire beszédszintézis fejlesztéshez lehet használni. Lényeges jellemzője, hogy az adott nyelv minden hangját és hangkapcsolatát tartalmazza. A bemondást rendszerint szakértő irányításával végzik.
2.2 Adatbázis közepes számú beszélővel: a beszédfelismerésénél használt modell paraméterek becslésére szolgál. Éppen ezért ezekben az adatbázisokban hosszú és változatos szövegeket olvasnak fel a bemondók. Általában csendes helyiségekben történik a felvétel. A beszélők száma ötvennél kisebb.
2.3 Adatbázis sok beszélővel: ezek az adatbázisok a beszélő-független beszédfelismerők betanítására szolgálnak. A felvételre kerülő anyagban a beszédstílus és a rögzítési körülmények nagy variáltsága szükséges.
3. Szociolingvisztikai jellemzők
Ebbe a csoportba tartoznak azok az adatok, amelyek főleg a bemondó személyek jellemzésére szolgálnak. Ilyen szempontok például, hogy a bemondó férf vagy nő, hogy dohányzik-e, anyanyelvű-e stb. Jelölni kell továbbá, hogy tájszólások vannak-e rögzítve az adatbázisban és, hogy milyen a koreloszlás a bemondók között. A rögzített hullámformához rendszerint hozzárendelik a beszédhangokat jelölő szimbólumokat. Ennek egy formája, hogy a folyamatos beszédet, például beszédhang egységekben kvantálják, bejelölik a beszédhangok elejét és végét, valamint beírják az adott beszédhanghoz tartozó írásos szimbólumokat. Ezek a szimbólumok lehetnek egy adott nyelv betűi, de ha az adatbázis nemzetközi célra készül, akkor célszerű nemzetközi jelölésrendszert használni, hogy a külföldi szakemberek is pontosan tudják milyen hangok sorozatáról van szó. A beszédhangok általános, nyelvfüggetlen jelölésére alakították ki a nemzetközi fonetikai ABC-t (IPA jelek). Ebben például a rövid hangok hosszú párjait úgy ábrázolják, hogy a hang jele után kettőspontot tesznek (o, o:). A fonetikai elemkészlet csak a beszédhangokra ad egyértelmű jelölési formát, a beszéd egyéb paramétereire (dallam, tempó stb.) nem. A speciális célra készített adatbázisokban más szempontok is meghatározhatják, hogy milyen jelölési formát alkalmaznak a beszédjel mellett. Ilyen lehet például a beszédszintézishez készített adatbázisoknál az egy hang = egy karakter elv alkalmazása. Ilyen megoldást dolgoztak ki a magyarra a Profivox szövegfelolvasó adatbázisára (például á=A: ; o=o ; ü= U ; ű=U: stb.)