En canvi, en el marc de la fonètica i de les tecnologies de la parla, el tractament dels corpus orals es porta a terme a partir del senyal sonor, ja que lobjectiu és obtenir informació fonètica o desenvolupar aplicaciones relacionades amb la síntesi, el reconeixement o el diàleg. La representació simbòlica es sol fer mitjançant un alfabet fonètic emprat per a letiquetat del senyal, tot i que es crea també una representació ortogràfica.
Aquests dues tradicions pel que fa a la constitució i explotació de corpus orals han estat relativament allunyades durant un cert temps. Tot i així, existeixen una sèrie de factors que fan preveure una convergència gradual, entre els quals cal esmentar la necessitat de corpus en transcripció ortogràfica en el camp de les tecnologies de la parla imprescindibles per a la creació de models de llenguatge en el reconeixement o per a lavaluació de mòduls lingüístics en la conversió de text a parla i el reconeixement del caràcter essencial del senyal sonor en el camp de la lingüística de corpus (Llisterri, 1996).
Pel que fa a les tecnologies de la parla, un corpus oral és necessari per a lextracció dunitats fonètiques, per a la modelització de la concatenació dunitats, de la prosòdia, del locutor o de lestil, en el desenvolupament daplicacions de conversió de text a parla. En el reconeixement, un corpus oral és una eina fonamental per a lextracció dunitats de reconeixement, per a la modelitzaciò del parlant i de lentorn i per a la constitució de models de llenguatge i també de lèxics. El disseny dun sistema de diàleg requereix igualment corpus orals que recullin interaccions persona-persona o persona-màquina per tal de modelitzar la tasca o les estratègies dels usuaris.
Pel que fa a les característiques lingüístiques, es consideren sovint els estils de parla, entesos com una sèrie de dimensions relacionades amb lespontaneïtat, la formalitat i el grau de preparació o planificació del discurs oral.
El contingut lingüístic dels corpus orals emprats en fonètica i en tecnologies de la parla abasta des dels sons aïllats fins al discurs espontani, incloent elements específics com ara els logatoms (mots sense sentit però fonològicament ben formats) o les frases marc (frases destructura controlada en la qual sinsereixen els elements que sanalitzaran, conegudes també com a frases portadores). Els corpus emprats en el desenvolupament daplicacions en tecnologies de la parla poden incloure frases fonèticament equilibrades o fonèticament riques, dígits, nombres connectats, seqüències alfanumèriques, lletres i paraules dites lletra per lletra, dates i hores, antropònims, topònims i mots relacionats amb laplicació.
També sol ésser habitual en el tipus de corpus al qual ens estem referint controlar i documentar les característiques dels parlants, entre les que es distingeixen les que són relativament estables com les de tipus fisiològic i anatòmic o les relacionades amb la procedència geogràfica i el perfil sociolingüístic de les transitòries, com poden ser les alternacions de laparell fonador o les condicions físiques generals. Determinats tipus de corpus requereixen informació addicional com lestat emotiu, el grau destrés, la caracterització de patologies de la parla, lestil utilitzat pel locutor, etc.
Aquest tipus de corpus presenta també trets específics pel que fa al nombre de parlants; típicament, un corpus per a la recerca en fonètica o per al desenvolupament de sistemes de síntesi es constitueix amb un nombre de parlants que oscil·la entre un i cinc; el desenvolupament de sistemes de reconeixement o determinats tipus dinvestigació fonètica requereixen corpus que poden arribar als cinquanta parlants, mentre que lentrenament i la verificiació de sistemes de reconeixement independent del locutor inclouen un nombre de locutors superior a cinquanta (Gibbon et al., 1998ª).
Ladquisició del senyal sonor es realitza, en general, en entorns acústicament controlats cambra anecoica o sala insonoritzada tot i que es pot dur a terme en entorns naturals amb les dificultats per a lanàlisi acústica que això comporta o aprofitant les emissions dels mitjans de comunicació. El desenvolupament dalgunes aplicacions requereix lenregistrament per telèfon o la introducció de soroll de fons (efecte Lombard). Existeixen, a més, tècniques específiques per a ladquisió de determinats tipus de corpus com la "tasca del mapa" o el "protocol del Mag dOz", aquest darrer utilitzat en la recollida dinteraccions simulades entre un usuari i un sistema de diàleg. Altres menes de corpus es recullen mitjançant la lectura de textos o realitzant entrevistes més o menys dirigides i amb diferents graus de familiaritat entre lentrevistador i lentrevistat.
La transcripció i lanotació són elements essencials en qualsevol corpus oral, i poden realitzar-se en diferents nivells: ortogràfic, fonèmic o fonològic (transcripció ampla, sistemàtica o fonotípica), al·lofònic (transcripció sistemàtica), fonètic (transcripció estreta) o prosòdic (Llisterri, 1997). Letiquetat i lalineació entesa como la sincronització temporal entre el senyal sonor i la transcripció ortogràfica i fonètica són dues operacions associades a letiquetat.
Existeixen diverses propostes de nivells detiquetat, entre les quals pot destacar-se la dEAGLES (Gibbon et al., 1998ª); en aquesta proposta es distingeix un nivell ortogràfic, un nivell de formes canòniques (citation form, corresponent a la forma de pronúncia aïllada dels mots en estil acurat), un nivell de transcripció ampla o fonotípica (en el que sinclouen els fenòmens predictibles propis de la fonètica sintàctica), un nivell de transcripció estreta amb la representació al·lofònica de les realitzacions fonètiques dels parlans, un nivell acústic-fonètic (en el qual es reflecteixen els trets fonètics acústics dels elements observables en una representació de lona sonora) i un nivell físic, en el qual es consideren paràmetres acústics o articulatoris.
El primer component dAlbayzín és un corpus fonètic dissenyat per a recollir un ampli marge de variabilitat fonètica en les realitzacions al·lofòniques; lanomenat "subcorpus daprenentatge" consisteix en 200 frases fonèticament equilibrades amb diverses restriccions fonètiques, mentre que el ""subcorpus de prova" està format per 500 frases sense restriccions fonètiques. Un segon element dAlbayzín és el corpus daplicació, consistent en 3900 frases corresponents a una tasca de consulta a una base de dades geogràfica. Finalment, el corpus de parla en ambient advers recull parts dels dos corpus anteriors enregistrades amb efecte Lombard.
El corpus sha recollit amb 304 locutors, parlants de la varietat central del castellà, sense trets específics duna zona geogràfica o dun grup social restringit; la mosta és equilibrada pel que fa al sexe dels parlants, i conté un 50% de locutors dedats compreses entre els 18 i els 30 anys.
Els estàndars emprats en Albayzín són els definits en el projecte ESPRIT SAM, entre els que cal esmentar la transcripció fonètica en SAMPA (Sam Phonetic Alphabet).
EUROM és un corpus multilingüe per al desenvolupament de les tecnologies de la parla a Europa, del que existeix una versió castellana. El corpus conté els següents elements: logatoms CV(C) amb les consonants en posició inicial, medial i final acompanyades de les vocals /i/, /a/, /u/; 100 dígits; els logatoms inclosos en 5 frases marc diferents; 40 paràgrafs de cinc frases cadascun; i 50 frases per a augmentar la cobertura fonètica del corpus.
Pel que fa al nombre de locutors, 60 parlants varen enregistrar 6 frases i dígits, 10 locutors varen enregistrar 75 frases més cinc repeticions de dígits i logatoms, mentre que 4 locutors varen enregistrat 10 repeticions dels logatoms, tan aïllats com inclosos en les frases marc.
El primer projecte SpeechDat va tenir com a objectiu la definició destàndars per a la creació de bases de dades orals enfocades a les tecnologies de la parla i la creació duna infraestructura per a la producció i distribució de recursos lingüísticos. En el marc del projecte es varen desenvolupar bases de dades en 7 llengües entre les quals es compta el castellà que contenen mots i expressions relacionades amb aplicacions, nombres, dígits aïllats, lletres, dates, quantitats de diners, hores, topònims i un conjunt de frases fonèticament riques.
Les bases de dades desenvolupades en el marc de SpeechDat II tenen com a principal objectiu servir en el desenvolupament de teleserveis dinformació (horaris de trens), transaccions (compres des de la llar, banca telefònica) o serveis (lectura del correu electrònic, centraletes automàtiques).
Lobjectiu de SpeechDat-Car fou la creació de bases de dades per al desenvolupament de sistemes dajuda a la conducció. Per tal motiu, ladquisició del corpus en nou llengües, incloent el castellà, es va realitzar en entorns reals, a dins dun cotxe en marxa i amb un telèfon GSM equipat amb un "kit" de mans lliures.
El projectee SALA pretén daplicar els estàndars desenvolupats per SpeechDat a la creació de bases de dades per a lentrenament de sistemes de reconeixement de parla per telèfon en les diverses varietats de lespanyol dAmèrica.
El resultat del projecte ONOMASTICA, entre les llegües del qual sinclou el castellà, és un diccionari multilingüe de pronúncia de noms propis en CD-ROM que conté 4.5 milions dentrades transcrites i validades manualment.
En el marc dels dos projectes ACCOR es va desenvolupar una bases de dades multicanal en 7 llengües europees entre elles el català que conté dades fisiològiques electropalatografia i transducció electromagnètica i aeordinàmiques.
Tot i que el projecte es va centrar en el tractament de la llengua escrita, MULTEXT va donar també com a resultat la validació perceptiva de lestilització de la freqüència fonamental i letiquetat prosòdic mitjançant el sistema INTSINT dels paràgrafs inclosos en la base de dades EUROM, incloent els que corresponen a la versió castellana. Actualment es desenvolupa el mateix projecte per al català.
MATE és un projecte en curs que té com a objectiu el desenvolupament destàndars per a lanotació de diàlegs especialment orientats a la creació de sistemes de comunicació persona-màquina. Entre els diversos nivells contemplats sinclou letiquetat prosòdic, i el castellà és una de les llengües incloses en el projecte.
Poden esmentar-se, en primer lloc, els corpus sorgits de diversos laboratoris de fonètica, dissenyats per a la descripció articulatòria i acústica de la llegua, per a la descripció de les varietats geogràfiques, de les varietats socials o per a lestudi dels estils de parla. Aquesta mena de corpus shan desenvolupat en castellà, català, gallec i basc.
Per altra banda, els grups dedicats al processament del senyal han desenvolupat en alguns casos en col·laboració amb grups especialitzats en fonètica corpus per a lextracció dunitats per a la síntesi i per al desenvolupament de models prosòdics aplicables a la conversió de text a parla. Hom compta ambé amb corpus per a lextracció dunitats per al reconeixement de la parla i per a lentrenament i avaluació daquests sistemes, així com de corpus que contenen elements específics com ara dígits, lletres, etc., relacionats amb una determinada aplicació, o corpus recollits per telèfon, en ambients adversos o especialment orientats a la verificació i dentificació del locutor. Corpus amb algunes daquestes característiques existeixen també en castellà, català, gallec i basc.
Finalment, cal esmentar els corpus orientats al desenvolupament de sistemes de diàleg, emprats per modelar la interacció en sistemes dinformació o de transaccions com, per exemple, les comandes per telèfon o les reserves de viatges; aquests corpus existeixen per al castellà i el català i shan desenvolupat, en general, com a part de les activitats de grups dedicats al tractament de senyals.
Entre els grups de recerca a lEstat Espanyol amb una dedicació especial al desenvolupament de corpus per a la fonètica i les tecnologies de la parla poden esmentar-se els següents:
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de
Barcelona
Darrera actualització: 21/8/03 22:42