Tecnologías lingüísticas: los recursos linguísticos


Los recursos lingüísticos
Corpus
Recursos léxicos
Gramáticas computacionales

Corpus


Los recursos lingüísticos

“The term language resources refers to a set of speech or language data and descriptions in machine readable form, used e.g. for building, improving or evaluating natural language and speech algorithms or systems, or, as core resources for the software localisation and language services industries, for language studies, electronic publishing, international transactions, subject-area specialists and end users.
Examples of language resources are written and spoken corpora, computational lexicons, terminology databases, speech collection and processing, etc. Basic software tools are also important for the acquisition, preparation, collection, management, customisation and use of these language resources and other resources”.

ELRA. (2008). Definition. Language resources [Página web]. Paris: ELRA, European Language Resources Association. Consultado en http://www.elra.info/Definition.html

arrow_gray_up

Corpus

La noción de corpus

Lingüística de corpus

Corpus

Corpus

Corpus escritos

Corpus escritos

Herramientas para el tratamiento de corpus escritos

Corpus escritos

Corpus orales

Corpus orales

Constitución de corpus orales

Tipología y aplicaciones de los corpus orales

Herramientas para el tratamiento de corpus orales

Corpus orales

Corpus de lengua oral

El texto oral

Corpus de lengua oral

Corpus orales y corpus de lengua oral

arrow_gray_up

Recursos léxicos

Diccionarios de uso

Posibilidad de extracción automática de información a partir de los diccionarios de uso para la constitución de diccionarios electrónicos.

Diccionarios electrónicos o lexicones computacionales

MRD, Machine Readable Dictionary
Computational lexicon

Léxico en soporte informático enriquecido con la información morfológica, sintáctica o semántica relevante para las diversas aplicaciones del procesamiento del lenguaje, para su incorporación a las herramientas de análisis automático de textos y para la anotación de corpus textuales.

ir: [ [-N], [+V], [SUBCAT <sp>]]

[-N]: indica que no se trata de un nombre
[+V]: indica que se trata de un verbo
[SUBCAT <sp>]: indica que subcategoriza un sintagma preposicional

Información sobre el verbo “ir” en un léxico computacional

Llisterri, J. y Martí, M. A. (2002). Las tecnologías lingüísticas en la sociedad de la información. En M. A. Martí y J. Llisterri (Eds.), Tratamiento del lenguaje natural. Tecnología de la lengua oral y escrita. (pp. 13-28). Barcelona: Edicions de la Universitat de Barcelona - Fundación Duques de Soria.

Léxicos multilingües: cada lema lleva asociada su correspondencia con los equivalentes en otras lenguas.

Redes léxico-semánticas

Las redes léxico-semánticas estructuran el vocabulario en función de las relaciones semánticas entre palabras, basándose en conceptos propios de la semántica léxica como sinonimia, antonimia, hiponimia, hiperonimia o meronimia (“parte de”).

WordNet, Cognitive Science Laboratory, Princeton University

WordNet

EuroWordNet, CLiC, Centre de Llenguatge i Computació, Universitat de Barcelona

Las redes léxico-semánticas son un recurso ampliamente utilizado en la anotación semántica de corpus, y muestran también un gran potencial para las aplicaciones orientadas a la recuperación y extracción de información.

Diccionarios de pronunciación

Pronunciation lexicon

Léxico en soporte electrónico enriquecido con la representación fonética o fonológica de las palabras.

Una de sus funciones es establecer, para cada palabra de un corpus, sus variantes de pronunciación y asociarlas a una forma canónica, por lo que en algunos casos se incluye también una representación fonológica más abstracta.

Este tipo de léxicos se emplea, por ejemplo, para las excepciones a las reglas de un programa de transcripción fonética automática o en los sistemas de reconocimiento del habla.

Ontologías

Establecen una organización de los conceptos, especialmente en el caso de los nombres.

Terminologías

Léxicos en soporte electrónico que cubren campos específicos del conocimiento.

arrow_gray_up

Gramáticas computacionales

Una gramática computacional puede entenderse como una descripción formalizada del conocimiento lingüístico.

En el procesamiento del lenguaje puede ser empleada tanto por las herramientas de análisis como por las de generación de textos.

Una gramática requiere un formalismo para expresar la información lingüística que contiene.

Gramáticas de unificación

Reciben este nombre por el procedimiento que se aplica para combinar la información contenida en las categorías gramaticales, y tienen como principal característica la codificación de la máxima información posible en el léxico, al que se incorporan rasgos sintácticos y semánticos.

Gramáticas de restricciones

Constraint Grammars

Las gramáticas de restricciones parten de la anotación de la posibles funciones sintácticas de una palabra, para realizar después una desambiguación y seleccionar la función adecuada en una oración concreta.

Sintaxis léxica

Integración de gramáticas y diccionarios electrónicos.

Los diccionarios contienen, para cada forma, el lema a la que está asociada, la clase distribucional a la que pertenece y sus propiedades morfológicas.

Las gramáticas consisten en una formalización de las propiedades de los predicados que se encuentran en el diccionario.

arrow_gray_up


Tecnologías lingüísticas: los recursos linguísticos
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_technology/HLT/tecnol_ling_recursos.html
Last updated: 12/2/14 07:39

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.