s2=A beszédadatbázisokban a beszédjelen kívül a rögzített nyelvi tartalom, annak komplexsége, illetve célzott szerkezete hordozza a fontos információt. A beszéd digitális tárolása mellett tehát a nyelvi információt is rögzíteni kell. Ezért a beszédjel legalapvetőbb jellemzéséhez, a hullámforma mellett, az ahhoz tartozó ortografikus karaktereket is rögzítik. Az adatbázisban való szegmentálás és címkézés szerves részét képezi továbbá, hogy a különböző, nem beszéd eredetű részeket is jelölik. Ezek olyan zajok, amelyek egy része a beszélő személytől származhat (ilyen a köhögés, a nyelés, a különböző szájmozgásból adódó zaj). A másik kategóriába tartoznak a környezeti zajok (járműzaj, székcsikorgás stb.) Ezek jelölését vagy a szöveganyagban, vagy magában az időfüggvényben végzik el. Ez a művelet egyfajta címkézésnek is tekinthető. A címkézés bonyolult feladat, általában manuálisan végzik. A címkéző szakember munkáját speciális szoftverek segíthetik.