Grup de Fonètica
|
Curso de Industrias de la
Lengua:
"La ingeniería Lingüística en la
Sociedad de la Información"
Fundación Duques de Soria, Soria, 17 de julio de 2000
Sin embargo, en su sentido más actual, el concepto de Sociedad de la Información incorpora otros componentes, entre los cuales destacan las tecnologías que permiten la difusión del conocimiento compartido. No es la primera vez que nos encontramos ante técnicas que facilitan la transmisión del saber; sólo cabe recordar que el papel de las nuevas tecnologías en la pervivencia de las lenguas y las culturas ha sido muy menudo comparado al que en su momento tuvo la imprenta (Danzin, 1992).
Las nuevas tecnologías, y muy especialmente las relacionadas con Internet, ponen a nuestro alcance una gran variedad de datos y de sistemas de interacción: en la red podemos acceder a sistemas de enseñanza asistida por ordenador, ir de compras, establecer nuevas relaciones, conversar con amigos o colegas que están al otro lado del planeta y consultar a todo tipo de información. Suele insistirse, por este motivo, en que el acceso a la información se ha "democratizado": sólo hay que pensar que, por ejemplo, hasta hace muy pocos tiempo, si un investigador quería conocer los trabajos de la Universidad de Harvard, no existía otra alternativa que solicitar una beca y realizar una estancia de unos meses; sin embargo, en la actualidad es perfectamente factible acceder a cualquier campus universitario, entrar en contacto con los profesores que allí trabajan, informarse con detalle sobre las investigaciones que se están llevando a cabo e imprimir las últimas publicaciones, todo ello mediante una simple consulta en la web.
Esta facilidad en las comunicaciones contribuye indudablemente a la creación de un nuevo nivel de realidad, la denominada "realidad virtual", que permite desarrollar el mismo tipo de interacciones que la realidad "presencial". En esta realidad virtual ni el espacio ni la distancia imponen ningún tipo de trabas, por lo que la intervención en nuestro entorno puede hacerse de una manera mucho más eficaz.
Debe también considerarse que la aparición de Internet como red de telecomunicaciones y, especialmente, de la web, está cambiando el concepto de lo que se considera información y el modo de tratarla: no está mejor informado quien más datos tiene, sino quien dispone de los mejores medios para recopilar única y exclusivamente aquellos que necesita.
Ahora bien, el entorno comunicativo que deriva de la aplicación de estas nuevas tecnologías plantea retos hasta el momento inexistentes: el acceso a la información debe ser eficaz, rápido, sencillo y flexible ante posibles errores de los usuarios. Es deseable también que se integre en un mismo entorno el habla, la imagen y la lengua escrita y que se tenga en cuenta la variedad de lenguas en las que la información puede encontrarse, tanto en el acceso a la misma como en los documentos que se recuperan.
La recuperación de información, una actividad que hasta hace poco se restringía a colectivos de profesionales muy concretos, ha pasado a ser uno de los problemas centrales a los que deberá hacer frente la Sociedad de la Información. Internet constituye un gran banco de datos que puede devenir inservible si no se dota de sistemas de recuperación de información que satisfagan las demandas de los usuarios. Por otra parte, las instituciones (gobiernos, ministerios) , organismos (hospitales, centros de información y atención diversos,) y empresas de todo tipo, en la medida en que disponen de una gran cantidad y variedad de información, precisan también de este tipo de sistemas.
Puede decirse que el problema de la recuperación de información se centra en dos aspectos fundamentales: el filtrado de los datos y el multilingüismo. En el primer caso, se trata de diseñar sistemas de recuperación de información que ofrezcan sólo los documentos que interesan al usuario, que eviten el exceso de "ruido" - es decir, la presencia de textos irrelevantes - y que no ignoren ningún texto que pueda ser de interés. En lo que se refiere al segundo aspecto, se hace necesario contar con recursos que permitan el acceso multilingüe a los datos, los cuales, a su vez, son también multilingües.
Estas necesidades que plantea la Sociedad de la Información inciden de manera muy directa en la orientación de la lingüística computacional en el cambio de siglo; un aspecto esencial del cambio radica en el tratamiento de textos lingüísticos sin restricciones, en contraste con las líneas de trabajo anteriores. Las repercusiones de este nuevo enfoque son muchas y afectan en profundidad a la definición de los campos de investigación tradicionales. Cabe añadir que la orientación que han adoptado las aplicaciones más clásicas de la lingüística computacional, así como las nuevas opciones que están emergiendo, requieren disponer de recursos lingüísticos a gran escala y para el mayor número de lenguas posible, tal como se señala en el siguiente apartado.
Finalmente, no debe olvidarse que la revolución tecnológica que ha significado la aparición de los nuevos sistemas de comunicación está provocando un cambio en profundidad en las profesiones y sectores productivos relacionados con el lenguaje, como puedan ser la traducción, la edición - en especial la de diccionarios y enciclopedias - y la enseñanza. Tales cambios exigen, como se verá en el último apartado, un reciclaje profundo a los profesionales de estas áreas. Por otro lado, pese al surgimiento de nuevos sectores que tienen a Internet como paradigma y que se centran en la gestión de contenidos, no se han ideado aún sistemas que permitan acceder de manera "inteligente" a la gran cantidad de información almacenada en formato electrónico. Los hospitales, la prensa y los medios de comunicación audiovisual, el mundo editorial, la banca etc. requieren sistemas que permitan extraer de manera guiada la información de la que ya disponen.
El procesamiento del lenguaje y las tecnologías del habla son el núcleo de las actuales tecnologías del lenguaje, en las que confluyen la informática y la lingüística. Tales tecnologías constituyen también la base de lo que se ha dado en llamar ingeniería lingüística, entendida como "la aplicación de los conocimientos sobre la lengua al desarrollo de sistemas informáticos que puedan reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas" (Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje p. 5).
Las tecnologías lingüística comprenden, como se indicaba anteriormente, una serie de procedimientos relacionados con el tratamiento informático del lenguaje. En general, suelen distinguirse las que se aplican al tratamiento de la lengua hablada de las propias del procesamiento del texto escrito.
El desarrollo de las tecnologías lingüísticas requiere también la existencia de los denominados recursos lingüísticos, consistentes en corpus textuales, orales o léxicos que proporcionan los datos necesarios para el desarrollo y el funcionamiento de las aplicaciones. La utilización de tales corpus está ligada a una serie de procesos - como la codificación, el etiquetado, y el análisis lingüístico - y herramientas - por ejemplo los programas de concordancias - que facilitan su uso y su explotación. Su constitución constituye actualmente uno de los ámbitos a los que, tanto el sector público como el privado, dedican mayores esfuerzo.
Por ejemplo, las enciclopedias y diccionarios en soporte electrónico deben permitir el acceso a los contenidos por temas, por tipos de entidades y por relaciones léxicas; además, deben facilitar las respuestas adecuadas a pesar de los posibles errores del usuario. Estos mismos requisitos deben poder aplicarse tanto a grandes bases de datos como a la información almacenada en Internet. Actualmente, los documentos en estos entornon se indexan por formas o por palabras clave, sin tener en cuenta procesos de lematización, relaciones de significado, etc. El resultado es que, en muchas ocasiones, ante una consulta en la web obtenemos resultados que son muy poco relevantes para los objetivos que perseguíamos.
Sin embargo, los resultados de las interacciones con los sistemas de información en cualquiera de sus formas pueden mejorar cualitativamente con la introducción de los recursos y las ténicas propias de la ingeniería lingüística. Así, es un objetivo deseable que los documentos puedan indexarse por conceptos, que sea factible acceder a la información mediante consultas realizadas en lenguaje natural, y que, por ejemplo, los documentos recuperados aparezcan en la lengua solicitada por el usuario.
Los recursos necesarios para llegar a alcanzar estos objetivos son de carácter muy diverso. Entre ellos cabe citar los analizadores morfológicos que relacionen las diferentes variantes flexivas con su lema, los léxicos computacionales que guían el proceso de análisis e interpretación semántica del texto, léxicos multilingües que facilitan el proceso de traducción automática, redes léxico-semánticas que establecen relaciones entre las palabras, gramáticas computacionales, lenguajes de representación del conocimiento, y corpus de referencia. A su vez, las técnicas asociadas a la gestión de contenidos - las más relevantes de las cuales serían la extracción de información, la recuperación de información, la traducción automática o la generación de resúmenes - utilizan estos recursos como fuentes de información para el procesado de los datos.
Otra de las ventajas de acceder mediante el habla a información almacenada en un sistema informático es la posibilidad de utilizar el teléfono, con la consiguiente rapidez de acceso, sin necesidad de un equipo específico y con independencia de la distancia. Algunas aplicaciones en este ámbito son la información sobre horarios de transportes públicos, las consultas a páginas amarillas u otros directorios, los servicios de banca telefónica y las centralitas automatizadas.
Finalmente, no debe dejar de tenerse en cuenta que la entrada y salida de información mediante el habla es una alternativa viable cuando un sistema informático debe prescindir, por razones de tamaño, del teclado, como es el caso de agendas y comunicadores personales. La voz, junto con los lápices electrónicos y las pantallas táctiles, constituye una alternativa viable para incrementar la funcionalidad de estos aparatos. Incluso puede pensarse en prescindir de la pantalla como en el caso de agendas vocales que existen ya en el mercado.
En la actualidad, se dispone de programas que permiten el dictado automático, la navegación por Internet y la recuperación de información mediante el habla, o la lectura en voz alta de un texto almacenado en un ordenador como por ejemplo, un mensaje de correo electrónico o el contenido de una base de datos. Es posible también, mediante los sistemas de diálogo que incorporan síntesis, reconocimiento y un cierto grado de comprensión, obtener información o realizar transacciones comerciales a través del teléfono.
Estos últimos sistemas son, seguramente, los que en la actualidad despiertan un mayor interés, por lo que puede ser relevante detenerse en algunas de sus aplicaciones. Uno de los sectores para los que se han desarrollado sistemas de diálogo es el de los transportes públicos, ya que a menudo las centralitas telefónicas no pueden atender todas las llamadas de los usuarios, especialmente en lo que respecta a la consulta horarios. Proyectos como Railtel (Railway Telephone Information Service) y Arise (Automatic Railway Information Systems for Europe) han desarrollado prototipos para proporcionar una respuesta a este tipo de peticiones, concretamente en el caso de los ferrocarriles, mientras que, por ejemplo, ATIS (Advanced Travel Information System) y Pegasus proporcionan información telefónica sobre horarios de vuelos.
Existen también sistemas de diálogo complementados con información multimodal, entre los que pueden citarse Waxholm, que ofrece información sobre el transporte marítimo en el archipiélago de Estocolmo utilizando la voz acompañada de un rostro generado también mediante un ordenador, Mask, un quiosco que proporciona información sobre la circulación de trenes franceses tanto por la voz como a través de una pantalla, permitiendo también la reserva de billetes o Toot, diseñado para realizar consultas vocales en la web y obtener horarios de trenes.
La información ciudadana es otro servicio que puede ofrecerse de manera automática a través del teléfono. Voyager, por ejemplo, informa en inglés, francés e italiano sobre direcciones, números de teléfono y sobre la localización de restaurantes, hoteles, oficinas de correos, estaciones de metro, etc. en el área de Boston. Sobre esta misma zona puede obtenerse información sobre restaurantes con el sistema Dinex: un teléfono y un ordenador conectado a Internet permiten conocer la localización, el precio, el tipo de tarjeta de crédito aceptado y, en algunos casos, el menú en línea, utilizando preguntas en lenguaje natural como "Qué restaurantes chinos hay cerca del hotel Plaza?". Existen también aplicaciones como Movieline - centrada en la búsqueda de información sobre películas en cartel en los cines de Pittsburgh - que ofrecen información hablada. En otros ámbitos como el de la información meteorológica destacan sistemas como Jupiter, que ofrece de forma automática y a través del teléfono información del tiempo en más de 500 ciudades de todo el mundo.
Finalmente, debe señalarse en este apartado la importancia que está adquiriendo la integración entre los sistemas de diálogo y la web, tal como se hace patente en Dinex. Uno de los proyectos más ambiciosos en este campo es WebGalaxy, orientado a la búsqueda de información en Internet mediante preguntas libres que son tratadas por un reconocedor de habla y por un sistema de comprensión del lenguaje natural, complementados por un procedimiento de navegación por la web.
Estrechamente relacionado con los sistemas de diálogo, tanto en el ámbito de la lengua oral como de la escrita, existe desde hace tiempo un marcado interés por los denominados "interfaces en lenguaje natural", pensados para facilitar la interacción con sistemas informáticos mediante un uso espontáneo del lenguaje que no esté condicionado por las restricciones de los ordenadores. Tales interfaces tienden cada vez más, como se señalaba anteriormente, a la multimodalidad, incorporando texto, habla, imagen - fija y en movimiento - y sonido, así como también la posibilidad de realizar algunas acciones mediante gestos.
Un paso más lo constituyen los sistemas diseñados para la traducción automática de conversaciones, tanto telefónicas como cara a cara, campo que está adquiriendo un auge cada vez mayor.
Algunas técnicas propias del procesamiento del lenguaje natural y del reconocimiento del habla encuentran igualmente su utilidad en la enseñanza de lenguas asistida por ordenador, tanto en los sistemas presenciales como en la enseñanza a distancia.
Es preciso también referirse a la relevancia de las tecnologías lingüísticas como ayuda a las personas con discapacidades visuales - que pueden hacer uso de conversores de texto a habla para trabajar con ordenadores -, auditivas - para quienes la conversión de habla en texto es una alternativa viable en teléfonos que incorporen pantallas - o con trastornos de la producción del habla, que utilizan igualmente sistemas de generación de mensajes. En el caso de las personas con dificultades de movilidad, el control de buena parte de su entorno doméstico mediante la voz conlleva un notable incremento de su independencia.
El última instancia, el uso del habla - complementada, si es necesario, con información gráfica - en la interacción con ordenadores es una posibilidad para personas poco familiarizadas con sistemas informáticos o incluso con un bajo nivel de alfabetización.
En todos estos casos, las tecnologías contribuyen a facilitar el acceso a la Sociedad de la Información a personas con necesidades especiales, cumpliendo así una importante misión social.
La definición del papel de las tecnologías lingüísticas en la Sociedad de la Información se inicia, en el contexto europeo, ya en 1997, con el documento Human language technologies. Living and working together in the Information Society, en el que se definen las grandes líneas que configuran el programa de trabajo actual: multilingüismo, interacción natural y contenidos activos. Como resultado de consultas a diversos sectores, el informe Human Language, Human Communication, Human Knowledge precisaba de un modo más detallado los contenidos futuros de esta línea de acción, para llegar, finalmente, a la publicación del programa de trabajo en 1999, actualizado posteriormente para el año 2000.
Uno de los principales objetivos del programa es ayudar a superar las barreras lingüísticas para acceder con más facilidad a los contenidos y a los servicios digitales como las transacciones a distancia, la gestión distribuida de conocimiento corporativo o los servicios de información en línea. Para ello se requiere desarrollar herramientas de análisis, traducción, resumen y generación de contenidos lingüísticos, así como tecnologías - agentes de búsqueda y de presentación de contenidos - que permitan la recuperación y la presentación de información en diversas lenguas. Igualmente se contempla en esta línea de acción la transferencia de tecnologías especialmente prometedoras a una gama más amplia de lenguas.
Desde un punto de vista práctico, el desarrollo de los proyectos enmarcados en este ámbito debe llevar a automatizar las centralitas telefónicas y los servicios de atención al cliente, a permitir la identificación automática de la lengua y la verificación de la identidad del usuario por la voz, a filtrar, traducir y responder correo electrónico, a gestionar el acceso a catálogos multilingües o a ofrecer servicios comerciales en la web con un interfaz oral. En el terreno de la lengua escrita, la autoría conjunta de documentos, el desarrollo de herramientas de corrección para hablantes no nativos, las herramientas para la gestión de documentos y de terminología técnica en varias lenguas o los programas de enseñanza de lenguas asistida por ordenador serán algunos desarrollos que hará posible el programa. Finalmente, se plantea también la creación de servicios en Internet que tengan en cuenta las preferencias lingüísticas de los usuarios y que permitan crear contenidos publicados simultáneamente en varias lenguas y en distintos contextos culturales.
La segunda línea de acción, denominada genéricamente "interactividad natural", se centra en conseguir que la utilización de los sistemas informáticos sea más fácil gracias al uso espontáneo de la lengua oral o escrita, superando las limitaciones actuales en nuestra interacción con los ordenadores; se trata, en conjunto, de avanzar hacia el diseño de interfaces más intuitivas, multilingües y multimodales que permitan, por ejemplo, la navegación por la web, el control de sistemas o el diálogo persona-máquina, gracias a la comprensión de información hablada, escrita o incluso gestual.
Las tecnologías que subyacen a estas aplicaciones son, esencialmente, el reconocimiento y la síntesis de habla de alta calidad, así como la comprensión de la lengua hablada en situaciones de conversación entre un usuario y un sistema informático.
Finalmente, una tercera línea de actuación se centra en los contenidos, prestándose especial atención a la gestión, búsqueda y recuperación de información multilingüe. Se contempla para ello la utilización de agentes lingüísticos inteligentes y de técnicas que permitan identificar el tema de los textos, extraer datos y clasificarlos automáticamente, con el objetivo de crear, resumir, convertir y presentar información en varias lenguas, tanto en su versión escrita como hablada, incluyendo diálogos y componentes multimedia.
Como puede observarse, las líneas de acción europeas enmarcan las tecnologías lingüísticas en el contexto de la Sociedad de la Información, prestando especial atención a los nuevos retos que hemos querido destacar en este trabajo, centrados en el tratamiento multilingüe de la información tanto escrita como oral.
Sin embargo, la incorporación del lingüista a los nuevos sectores de actividad no puede ser efectiva sin una formación específica. En el caso de la gestión de contenidos, son esenciales los conocimientos de informática y de lingüística computacional, así como la capacidad de abstracción y de razonamiento lógico, de organización y estructuración de datos y de formalización del lenguaje. Las tecnologías del habla, por otra parte, requieren especialistas con sólidos conocimientos de fonética, de tratamiento digital de señales y de las peculiaridades del proceso de interacción entre personas y sistemas informáticos.
Al contrario de lo que sucedía en la filología tradicional, el desarrollo de sistemas de procesamiento de la información, del lenguaje y del habla requiere la colaboración de especialistas en diversas áreas. Por ello, es también esencial en el perfil del lingüista que aspire a centrar su actividad en el nuevo entorno de la Sociedad de la Información, una buena capacidad de trabajo en equipo y de organización y gestión de proyectos multidisciplinares en los que la labor individual se oriente a la consecución de un objetivo común.
BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) (1999) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona - Editorial Milenio.
COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) (1997)
Survey of the State of the Art in Human Language Technology. Cambridge:
Cambridge University Press.
http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html
DANZIN, A. (1992) Vers une infrastructure linguistique européenne. Rapport présenté par A. Danzin et le Groupe de réflexion stratégique pour la CCE (DGXIII).
GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) (1999) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico.
GÓMEZ GUINOVART, J.- PALOMAR, M. (Coords.) (1998) Monografía: Lengua y Tecnologías de la Información. Novática, Revista de la Asociación de Técnicos de Informática, 133 (Mayo-Junio): 3-45.
Green Paper on Living and Working in the Information Society: People
First. European Commission, Directorate General V, Employment, Industrial
Relations and Social Affairs. COM (96) 389, 22.07.96.
http://www.ispo.cec.be/infosoc/legreg/docs/peopl1st.html
Human language technologies. Living and working together in the Information
Society. Discussion document. Luxembourg, DG XIII/E-5, July 1997.
http://www.hltcentral.org/le/ist/hlt/paper.html
Human Language, Human Communication, Human Knowledge. Summary Report.
Luxembourg, DG XIII/E-5, July 1998.
http://www.hltcentral.org/hlt/ist/ist/FP5.asp
Ingeniería lingüística. Cómo aprovechar la fuerza del lenguaje. Luxembourg: Anite Systems. Versión española a cargo del Observatorio
Español de Industrias de la Lengua, Instituto Cervantes.
http://www.hltcentral.org/le/es/broch/harness.html
Ingeniería lingüística: un mayor uso del lenguaje en todos los
sentidos. Luxemburg: Cray Systems.
http://www.hltcentral.org/le/es/whatis.html
Language Engineering. Progress & Prospects'98. Report produced in behalf of the European Commissin (DGXIII-E/5) by the LINGLINK
team at Anite Systems. Luxembourg, July 1998. DG XIII, Telematics Applications
Programme.
http://www.hltcentral.org/hlt/download/PandP98.asp
Language Engineering. Progress & Prospects'99. Luxembourg: DG
XIII/E-5, HLT, Human Language Technologies.
http://www.hltcentral.org/hlt/P&P99/
Lenguaje y tecnología. De la torre de Babel a la aldea global. Luxemburgo: Oficina de Publicaciones Oficiales de las Comunidades
Europeas, 1997. Publicación electrónica de la versión inglesa en:
ftp://ftp.echo.lu/pub/mlis/l&t.pdf
L'ingénierie linguistique. Délégation Génerale à la Langue Française, Réseau international des observatoires francophones de
l'inforoute et du traitement informatique des langues.
http://www.culture.fr/culture/dglf/riofil/enjeux.htm
MARTÍ ANTONIN, M.A. (1999) "Panorama de la lingüística computacional en Europa", in GÓMEZ GUINOVART, J.- LORENZO SUÁREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. pp. 11-24.
MOURE, T.- LLISTERRI, J. (1996) "Lenguaje y nuevas tecnologías. El campo de la lingüística computacional", in FERNÁNDEZ PÉREZ, M. (Coord.) Avances en lingüística aplicada. Santiago de Compostela: Universidade de Santiago de Compostela, Servicio de Publicacións e Intercambio Científico (Avances en, 4). pp. 147-228.
Procesamiento del lenguaje natural. Número monográfico. Philologia Hispalensis 11,2 (1997).
The EUROMAP Report. Challenge & Opportunity for Europe's Information
Society. September 1998. DG XIII, Telematics Applications Programme.
http://www.hltcentral.org/hlt/download/euromap-report/index.asp
![]()
Joaquim Llisterri, Universitat
Autònoma de
Barcelona
Last modified: 21/8/03 22:17