Corpus Linguistics and Written Language Resources
Bibliography


Speech and Spoken Language Resources


General references on corpus linguistics


= Recommended introductory/general reading


= Recommended advanced reading

Aarts, J. (1988). Corpus linguistics: An appraisal. In Y. Choueka (Ed.), Computers in literary and linguistic research. Literary and linguistic computing 1988. Proceedings of the 15th International Conference, Jerusalem. (pp. 13-28). Paris - Geneva: Champion - Slatkine.


Adolphs, S. & Lin, P. (2010). Corpus linguistics. In J. Simpson (Ed.), The Routledge handbook of applied linguistics. Oxford: Routledge.


Baker, P., Hardie, A., & McEnery, T. (2006). A glossary of corpus linguistics. Edinburgh: Edinburgh University Press.

Baquero, J. M. (2010). Lingüística computacional aplicada. Bogotá: Universidad Nacional de Colombia.

Breve fundamentación teórica en torno a la investigación lingüística; Programas para la consulta de concordancias; Análisis morfológico y sintáctico; Análisis del texto y del discurso; Organización de bibliografías.

Barnbrook, G. (1996). Language and computers. A practical introduction to the computer analysis of language. Edinburgh: Edinburgh University Press.

1.- Why use a computer; 2.- First capture your data; 3.- Examining the catch: using frequency lists; 4.- Studying the environment: using concordances; 5.- The sociology of words: collocations; 6.- Putting them in their place: tagging, parsing and so on; 7.- The leading edge: applications of natural language processing; 8.- Case studies.


Berber Sardinha, T. (2004). Lingüística de corpus. Barueri, São Paulo: Editora Manole.

1.- Visão geral de Lingüística de Corpus; 2.- Coleta, armazenamento e pré-processamento de corpora; 3.- Listas de palavras, concordáncias, palabras-chave: o programa WordSmith Tools; 4.- Etiquetagem morfossintática (POS tagging); 5.- Exemplo de desenho de corpus: um corpus de português especializado na linguagem profissional; 6.- Freqüéncias de palavras da língua portuguesa segundo o Banco de Português; 7.- Análise de palavras em contexto: concordáncias; 8.- Padronização na língua portuguesa segundo a Lingüística de Corpus: a partícula só; 9.- Lingüística de corpus e tradução: prosódia semântica; 10.- Lingüística de Corpus e Lingüística Aplicada: o ensino de língua estrangeira; 11.- Estudo de variação com Lingüística de Corpus: a Análise Multidimensional.


Biber, D., Conrad, S., & Reppen, R. (1998). Corpus linguistics. Investigating language structure and use. Cambridge: Cambridge University Press.

1.- Introduction: goals and methods of the corpus-based approach. I. Investigating the use of language features: 2.- Lexicography; 3.- Grammar; 4.- Lexico-grammar; 5.- The study of discourse characteristics. II. Investigating the characteristics of varieties: 6.- Register variation and English for Specific Purposes; 7.- Language acquisition and development; 8.- Historical and stylistic investigations. III. Summing up and looking ahead: 9.- Conclusion. IV. Methodology boxes: 1.- Issues in corpus design; 2.- Issues in diachronic corpus design; 3.- Concordancing packages versus programming for copus analysis; 4.- Characteristics of tagged corpora; 5.- The process of tagging; 6.- Norming frequency counts; 7.- Statistical measures of lexical associations; 8.- The unit of analysis in corpus-based studies; 9.- Significant tests and the reporting of statistics; 10.- Factor loadings and dimension scores. Appendix: commercially available corpora and analytical tools.

Burnard, L. (1992). Tools and techniques for computer-assisted text processing. In C. S. Butler (Ed.), Computers and written text. (pp. 1-28). Oxford: Basil Blackwell.

Butler, C. S. (1985). Computerized text processing in linguistic and literary research. Linguistics Abstracts, 1(2), 53-67.

Calzolari, N. (1998). An overview of written language resources in Europe: A few reflections, facts and a vision. In Proceedings of the 1st International Conference on Language Resources and Evaluation. Vol 1. (pp. 217-24). Granada, Spain, May 28-30, 1998.

Caravedo, R. (1999). Lingüística del corpus. Cuestiones teórico-metodológicas aplicadas al español. Salamanca: Ediciones de la Universidad de Salamanca.

Cole, R. A., Mariani, J., Uszkoreit, H., Zaenen, A., & Zue, V. (Ed.). (1997). Language resources. In Survey of the state of the art in human language technology. (pp. 441-174). Cambridge: Cambridge University Press. Retrieved from http://www.cslu.ogi.edu/HLTsurvey/ch12node2.html#Chapter12#Chapter12

Davidson, L. (1992). Using large text data-banks on computers. In P. Roach (Ed.), Computing in linguistics and phonetics. (pp. 5-34). London: Academic Press.


Gries, S. T. (2009). Quantitative corpus linguistics with R. A practical introduction. Oxford: Routledge.

Habert, B., Fabre, C., & Issac, F. (1998). De l’écrit au numérique: Constituer, normaliser et exploiter les corpus électroniques. Paris: InterEditions - Masson.

Habert, B., Nazarenko, A., & Salem, A. (1997). Les linguistiques de corpus. Paris: Armand Colin.

Introduction. 1- Le regain d’intérêt pour les corpus; 2.- A quoi servent les corpus annotés?; 3.- Choix terminologiques; 4.- Notations; 5.- Orientation de l’ouvrage; 6.- Démarche suivie; 7.- Principaux corpus cités. Première partie: Les corpus annotés et leurs utilisateurs. I.- Les corpus étiquetés: 1.- Définitions; 2.- Étiquetage partiel et typologie de textes; 3.- Étiquetage intégral et socio-stylistique; 4.- Utiliser étiqueteurs et corpus étiquetés; 5.- Enjeux théoriques; II.- Les corpus arborés; 1.- Diversité des corpus arborés; 2.- Une réalisation exemplaire: Suzanne; 3.- Phraseologie et traitements syntaxiques; 4.- Utiliser des parseurs et des corpus arborés; III.- Les resources lexicales pour l’étiquetage sémantique; 1.- Un objectif: la désambiguïsation lexicale; 2.- Une opposition fondamentale: construction lexicale ou conceptuelle; 3.- Une grande diversité de ressources lexicales; 4.- Un réseau lexical: WordNet; 5.- Tabler sur l’existant; Deuxième partie: Dimensions transversales. IV.- Des mots aux sens: sémantique en corpus; 1.- Définitions et enjeux; 2.- Construire automatiquement des entrées de dictionnaire; 3.- Distinger des sens pour la recherche documentaire; 4.- Un même parti pris d’empirisme; V.- Le langage au fil du temps: corpus et diachronie. 1.- Définitions et enjeux; 2.- Un corpus pour l’étude de la diachronie: Archer; 3.- Études de la diacronie; 4.- Problèmes méthodologiques; VI.- D’une lange à l’autre: les corpus alignés: 1.- Définition et exemples; 2.- Utilisation des textes alignés; 3.- Méthodes d’alignement; 4.- Problèmes et enjeux. Troisième partie: Méthodes et techiques. VII.- Constituer un corpus; 1.- Définitions et typologie des corpus; 2.- Langue générale; 3.- Langues de spécialité et sous-langages; 4.- Articuler typologie interne et typologie externe; 5.- Normaliser un corpus; 6.- Documenter un corpus; 7.- Contraintes et conditions institutionnelles; VIII.- Annoter un corpus; 1.- Nettoyage et homogénéisation; 2.- Segmentation; 3.- Étiquetage morpho-syntaxique; 4.- Analyse syntaxique; 5.- Étiquetage sémantique; IX.- Quantifier les faits langagiers; 1.- Porquoi quantifier? 2.- Les unités; 3.- Mesures de récurrence sur l’axe syntagmatique; 4.- Comparer des décomptes au sein d’un corpus partitionné; 5.- Approches multidimensionelles; 6.- Articuler des constats sur des unités différentes; 7.- Temps lexical; 8.- Bilan. Conclusion.

Hockey, S. (2001). Electronic texts in the humanities. Principles and practices. Oxford: Oxford University Press.

1.- Why Electronic Texts?; 2.- Creating and Acquiring Electronic Texts; 3.- Text Encoding; 4.- Concordance and Text Retrieval Programs; 5.- Literary Analysis; 6.- Linguistic Analysis; 7.- Stylometry and Attribution Studies; 8.- Textual Criticism and Electronic Editions; 9.- Dictionaries and Lexical Databases; 10- Where Next?


Kennedy, G. (1998). An introduction to corpus linguistics. London: Longman.

1.- Introduction; 1.1.- Corpora; 1.2.- The role of computers in corpus linguistics; 1.3.- The scope of corpus linguistics; 2.- The design and development of corpora; 2.1.- Pre-electronic corpora; 2.2.- Types of electronic corpora; 2.3.- Major electronic corpora for linguistic research; 2.4.- Electronic text databases; 2.5.- issues in corpus design and compilation; 2.6.- Compiling a corpus; 2.7.- Organizations and professional associations concerned with corpus design, development and research; 3.- Corpus-based descriptions of English; 3.1.- Lexical descriptions; 3.2.- Grammatical studies centered on morphemes and words; 3.3.- Grammatical studies centered on the sentence; 3.4.- Pragmatics and spoken discourse; 3.5.- Corpus-based studies of variation in the use of English; 4.- Corpus analysis; 4.1.- Corpus annotation and processing; 4.2.- Procedures used in corpus analysis; 4.3.- Corpus search and retrieval software; 5.- Implications and applications of corpus-based analysis; 5.- Goals of linguistic description and the effect of corpora on methodology; Corpus linguistics and computational linguistics; 5.3.- Corpus-based approaches to language teaching.

Knowles, G. (1996). Corpora, databases and the organization of linguistic data. In J. Thomas & M. Short (Eds.), Using corpora for language research. Studies in honour of Geoffrey Leech. (pp. 36-56). London: Longman.

Leech, G. (1991). The state of the art in corpus linguistics. In K. Aijmer & B. Altenberg (Eds.), English corpus linguistics. Sudies in honour of Jan Svartvik. (pp. 8-29). London: Longman.

Leech, G., & Beale, A. (1985). Computers in English language research. Language Teaching, 17(3), 216-229.

Leech, G., & Beale, A. (1985). Computers in English language research. In V. Kinsella (Ed.), Cambridge language teaching surveys 3. (pp. 5-18). Cambridge: Cambridge University Press.

Leech, G., & Fligelstone, S. (1992). Computers and corpus analysis. In C. S. Butler (Ed.), Computers and written text. (pp. 115-40). Oxford: Basil Blackwell.


Lüdeling, A., & Kytö, M. (Eds). (2008). Corpus Linguistics. An International Handbook (Volume 1). Berlin - New York: Mouton de Gruyer.


Lüdeling, A., & Kytö, M. (Eds). (2009). Corpus Linguistics. An International Handbook (Volume 2). Berlin - New York: Mouton de Gruyer.


Martí, M. A. (2012). Els corpus lingüístics. In G. Colón & L. Gimeno (Eds.), La lingüística i les seues aplicacions en la societat (pp. 99-114). Castelló de la Plana: Publicacions de la Universitat Jaume I.


McEnery, T. (2003). Corpora. In R. Mitkov (Ed.), The Oxford handbook of computational linguistics. (pp. 448-63). Oxford: Oxford University Press.


McEnery, T., & Wilson, A. (1996). Corpus linguistics. Edinburgh: Edinburgh University Press.
http://www.lancaster.ac.uk/fss/courses/ling/corpus/

1.- Early corpus linguistics and the Chomskyan revolution: 1.- Is corpus linguistics a branch of linguistics?; 2.- Early corpus linguistics; 3.- What Chomsky said; 4.- Why is this book being written; 5.- Through the interregnum to the revival of the early eighties; 6.- Conclusion; 7.- Study questions; 8.- Further reading. 2.- What is a corpus and what is in it?: 1.- Corpora vs. machine-readable texts; 2.- Text encoding and annotation; 3.- Multilingual corpora; 4.- Chapter summary; 5.- Study questions; 6.- Further reading, 3.- Quantitative data: 1.- Introduction; 2.- Qualitative vs. quantitative analysis; 3.- Corpus representativeness; 4.- Approaching quantitative data; 5.- Chapter summary; 6.- Study questions; 7.- Further reading. 4.- The use of corpora in language studies: 1.- Corpora as sources of empirical data; 2.- Corpora in speech research; 3.- Corpora in lexical studies; 4.- Corpora and grammar; 5.- Corpora and semantics; 6.- Corpora in pragmatics and discourse analysis; 7.- Corpora and sociolinguistcs; 8.- Corpora and stylistics; 9.- Corpora in the teaching of languages and linguistics; 10.- Corpora in historical linguistics; 11.- Corpora in dialectology and variation studies; 12.- Corpora in psycholinguistics; 13.- Corpora and cultural studies; 14.- Corpora and social psychology; 15.- Chapter summary; 16.- Study questions; 17.- Further reading. 5.- Corpora and computational linguistics: 1.- Introduction; 2.- What have corpora got to offer? 3.- Part-of-speech analysis; 4.- Automated lexicography; 5.- Corpora and lexicography; 6.- Parsing; 7.- Machine translation; 8.- Conclusion; 9.- Study questions; 10.- Further reading. 6.- A case study: Sublanguages: 1.- Formulation of our hypothesis: sublanguages; 2.- Choosing the corpora: the IBM, APHB and Hansard corpora; 3.- Processing the corpora: corpus annotation and manipulation; 4.- Limiting claims: what are we looking at?; 5.- Beginning work: the study; 6.- The first study of closure: lexical closure; 7.- The second study of closure: part-of-speech closure; 8.- The third study of closure: parsing closure; 9.- Drawing conclusions: findings; 10.- Study questions; 11.- Further reading. 7.- Where to now?: !.- The past and the present; 2.- The future; 3.- Conclusion. Glossary; Appendix A: Corpora mentioned in the text; Appendix B: Some software for corpus research; Appendix C: Suggested solution to exercises.

McEnery, T., & Wilson, A. (2001). Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Original work published 1996)


McEnery, T., & Hardie, A. (2011). Corpus linguistics: Method, theory and practice. Cambridge: Cambridge University Press.


O’Keeffe, A., & McCarthy, M. (2010). The Routledge handbook of corpus linguistics. Oxford: Routledge.

Oshika, B. T., & Krausse, S. C. (1992). Electronic databases for linguistic and language research. Library Trends, 40(4), 724-732.

Parodi, G. (2007). Lingüística de corpus: Puntos de mira. In G. Parodi (Ed.), Lingüística de corpus y discursos especializados: Puntos de mira. (pp. 13-30). Valparaíso: Ediciones Universitarias de Valparaíso, Pontificia Universidad Católica de Valparaíso.

Parodi, G. (2008). Lingüística de corpus: Una introducción al ámbito. Revista de Lingüística Teórica y Aplicada, 46(1), 93-119. doi:10.4067/S0718-48832008000100006

Quirk, R., & Stein, G. (1996). Sipping a cocktail of corpora. In J. Thomas & M. Short (Eds.), Using corpora for language research. Studies in honour of Geoffrey Leech. (pp. 27-35). London: Longman.


Rafel, J., & Soler, J. (2001). El processament de corpus. La lingüística empírica. In M. A. Martí (Ed.), Les tecnologies del llenguatge. (pp. 27-59). Barcelona: Edicions de la Universitat Oberta de Catalunya.


Rafel, J., & Soler, J. (2003). El procesamiento de corpus. In M. A. Martí (Ed.), Tecnologías del lenguaje. (pp. 41-73). Barcelona: Editorial UOC. (Original work published 2001)

Rojo, G. (2008). Lingüística de corpus y lingüística del español. In XV Congreso de la ALFAL (Asociación de Lingüística y Filología de América Latina). Montevideo, Uruguay, 18-21 de agosto de 2009. Retrieved from http://gramatica.usc.es/~grojo/Publicaciones/Lgca_corpus_lgca_espanol.pdf

Rojo, G. (2015). Hispanic corpus linguistics. In M. Lacorte (Ed.), The Routledge handbook of hispanic applied linguistics (pp. 371-387). New York: Routledge.

Sampson, G. (1996). From central embedding to corpus linguistics. In J. Thomas & M. Short (Eds.), Using corpora for language research. Studies in honour of Geoffrey Leech. (pp. 14-126). London: Longman.


Sinclair, J. (2005). Corpus and text - Basic principles. In M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. Retrieved from http://ota.ox.ac.uk/documents/creating/dlc/chapter1.htm

Stubbs, M. (1996). Text and corpus analysis. Computer assisted studies of language and culture. Oxford: Basil Blackwell.

I. Concepts and History: 1.- Text and Text Types; 2.- British Traditions in Text Analysis: Firth, Halliday and Sinclair; 3.- Institutional Linguistics: Firth, Hill and Giddens. II. Text and Corpus Analysis: 4.- Baden-Powell: A Comparative Analysis of Two Short Texts; 5.- Judging the Facts: An Analysis on One Text in the Institutional Context; 6.- Human and Inhuman Geography: A Comparative Analysis of Two Long Texts and a Corpus; 7.- Keywords, Collocations and Culture: The Analysis of Word Meanings across Corpora; 8.- Towards a Modal Grammar of English: A Matter of Prolonged Fieldwork; 9.- The Classic Questions.

Svartvik, J. (1992). Corpus linguistics comes of age. In J. Svartvik (Ed.), Directions in corpus linguistics. Proceedings of Nobel Symposium 82. Stockholm 4-8 august 1991. Berlin - New York: Mouton de Gruyer.

Svartvik, J. (1996). Corpora are becoming mainstream. In Using corpora for language research. Studies in honour of Geoffrey Leech. (pp. 3-13). London: Longman.

Teubert, W., & ?ermáková, A. (2007). Corpus linguistics: A short introduction. London - New York: Continuum.

Tolchinsky, L., & Martí, M. A. (2013). La lingüística de corpus, què és i quina utilitat educativa té. Quaderns per a l’anàlisi, 36, 7-22.


Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. Retrieved from http://ota.ox.ac.uk/documents/creating/dlc/

Proceedings and compilations

LREC, International Conference on Language Resources and Evaluation

LREC 1998. Proceedings of the 1st International Conference on Language Resources and Evaluation. Granada, Spain. May 28-30, 1998.

LREC 2000. Proceedings of the 2nd International Conference on Language Resources and Evaluation. Athens, Greece. May 31 - June 2, 2000. Retrieved from http://www.lrec-conf.org/proceedings/lrec2000/

LREC 2002. Proceedings of the 3rd International Conference on Language Resources and Evaluation. Las Palmas de Gran Canaria. Spain, May 29-31, 2002. Retrieved from http://www.lrec-conf.org/proceedings/lrec2002/

LREC 2004. Proceedings of the 4th International Conference on Language Resources and Evaluation. Lisbon, Portugal. May 26-28, 2004.Retrieved from http://www.lrec-conf.org/proceedings/lrec2004/

LREC 2006. Proceedings of the 5th International Conference on Language Resources and Evaluation. Genoa, Italy. May 24-26, 2006. Retrieved from http://www.lrec-conf.org/proceedings/lrec2006/

LREC 2008. Proceedings of the 6th International Conference on Language Resources and Evaluation. Marrakech, Morocco. May 26 - June 1, 2008. Retrieved from http://www.lrec-conf.org/proceedings/lrec2008/

LREC 2010. Proceedings of the 7th International Conference on Language Resources and Evaluation. Valletta, Malta. 17-23 May, 2010. Retrieved from http://www.lrec-conf.org/proceedings/lrec2010/index.html

LREC 2012. Proceedings of the 8th International Conference on Language Resources and Evaluation. Istanbul, Turkey. 21-27 May, 2012. Retrieved from http://www.lrec-conf.org/proceedings/lrec2012/index.html

LREC 2014. Proceedings of the 9th International Conference on Language Resources and Evaluation. Reykjavik, Iceland. 26-31 May, 2014. Retrieved from http://www.lrec-conf.org/proceedings/lrec2014/index.html

LREC 2016. Proceedings of the 10th International Conference on Language Resources and Evaluation. Portorož, Slovenia. 23-28 May, 2016. Retrieved from http://www.lrec-conf.org/proceedings/lrec2016/index.html

Conference proceedings and compilations

IV i V Jornades de Corpus Lingüístics, 1996-1997. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Activitats), 1998.
http://www.iula.upf.edu/publi005.htm

AARTS, J., de HAAN, P., OOSTDIJK, N. (Eds.) (1993) English Language Corpora: Design, Analysis and Explotation. Amsterdam: Rodopi.

AARTS, J.- MEIJS, W. (Eds.) (1984) Corpus Linguistics. Recent Developments in the Use of Corpora in English Language Research. Amsterdam: Rodopi

AARTS, J.- MEIJS, W. (Eds.) (1986) Corpus Linguistics II. New Studies in the Analysis and Exploitation of Computer Corpora. Amsterdam: Rodopi.

AARTS, J.- MEIJS, W. (Eds.) (1990) Theory and Practice in Corpus Linguistics. Amsterdam: Rodopi.

AIJMER, K.- ALTENBERG, B. (Eds.) (1991) English Corpus Linguistics. Sudies in Honour of Jan Svartvik. London: Longman.

ARMSTRONG, S. (Ed.) (1994) Using Large Corpora. Cambridge, MA: The MIT Press (ACL-MIT Press Series in Computational Linguistics)

Baker, P. (Ed). (2009). Contemporary Corpus Linguistics. London: Continuum.

BAKER, M.- FRANCIS, G.- TOGNINI-BONELLI, E. (Eds.) (1993) Text and Technology: In Honour of John Sinclair. Amsterdam/Philadelphia: John Benjamins.

BUTLER, C.S. (Ed.) (1992) Computers and Written Texts. Oxford: Basil Blackwell (Applied Language Studies).

CHOUEKA, Y. (Ed.) (1990) Computers in Literary and Linguistic Research. Literary and Linguistic Computing, 1988, Proceedings of the 15th International Conference, Jerusalem, 1988. Paris / Geneva: Champion-Slatkine.

de HAAN, J. P. - OOSTDIJK, N. (Eds.) (1993) English Language Corpora: Design, Analysis and Exploitation. Amsterdam: Rodopi

FRIES, U.- TOTTIE, G.- SCHNEIDER, P. (Eds.) (1994) Creating and Using English Language Corpora. Amsterdam: Rodopi.


GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) (1997) Corpus Annotation: Linguistic Information from Computer Text Corpora. Harlow: Addison Wesley Longman.

GARSIDE, R.- LEECH, G.- SAMPSON, G. (Eds.) (1987) The Computational Analysis of English: A Corpus-based Approach. London: Longman

HUNDT, M. - NESSELHAUF, N. - BIEWER, C. (Eds.) (2007) Corpus Linguistics and the Web. Amsterdam: Rodopi (Language and Computers - Studies in Practical Linguistics, 59).

JOHANSSON, S.- OKSEFJELL, S. (Eds.) (1998) Corpora and Cross-Linguistic Research: Theory and Practice. Amsterdam: Rodopi BV Editions.

JOHANSSON, S.- STENSTRÖM, A. (Eds.) (1991) English Computer Corpora: Selected Papers and Research Guide. Berlin: Mouton de Gruyer (Topics in English Linguistics, 3).

KIRK, J.M. (Ed.) (2000) Corpora Galore: Analyses and Techniques in Describing English. Amsterdam: Rodopi (Language and Computers: Studies in Practical Linguistics, 30).

KYTÖ, M. - IHALAINEN, O.- RISSANEN, M. (Eds.) (1988) Corpus Linguistics, Hard and Soft. Proceedings of the Eighth International Conference on English Language Research on Computerized Corpora. Amsterdam: Rodopi.

KYTÖ, M.- RISSANEN, M.- WRIGHT, S. (Eds.) (1994) Corpora across the Centuries. Amsterdam: Rodopi.

LEITNER, G. (Ed.) (1992) New Directions in English Language Corpora. Methodology, Results, Software Development. Berlin: Mouton de Gruyter (Topics in English Linguistics, 9)


Lüdeling, A., & Kytö, M. (Eds). (2008). Corpus Linguistics. An International Handbook (Volume 1). Berlin - New York: Mouton de Gruyer.


Lüdeling, A., & Kytö, M. (Eds). (2009). Corpus Linguistics. An International Handbook (Volume 2). Berlin - New York: Mouton de Gruyer.

MARCINKEVICIENE, R.- VOLZ, N. (Eds.) (1997) TELRI.Trans-European Language Resources and Infrastructure. Proceedings of the Second European Seminar "Language Applications for Multilingual Europe". Kaunas, Lithuania, April 17-20, 1997. Mannheim - Kaunas: IDS - VDU.

McENERY, T.- TONO, Y.- ZHONGHUA, R. (Eds.) (2006) Corpus-Based Language Studies. An Advanced Resource Book. Oxford: Routledge (Routledge Applied Linguistics).

MEIJS, W. (Ed.) (1987) Corpus Linguistics and Beyond. Proceedings of the Seventh International Conference on English Language Research on Computerized Corpora. Amsterdam: Rodopi.

NERBONNE, J. (Ed.) (1998) Linguistic Databases. Stanford: CSLI Publications (CSLI Lecture Notes, 77).


O’Keeffe, A., & McCarthy, M. (2010). The Routledge handbook of corpus linguistics. Oxford: Routledge.

OOSTDIJK, N.- DE HAAN, P. (Eds.) (1994) Corpus-based Research into Language.In Honour of Jan Aarts. Amsterdam: Rodopi.

PAYRATÓ, Ll.- BOIX, E.- LLORET, M.-R.- LORENTE, M. (Eds.) (1996) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. (Col·lecció Lingüística Catalana, 1)

RENOUF, A. (Ed.) (1998) English Corpus Linguistics: the State of the Art. Papers from the Eighteen International Conference on English Language Research on Computerised Corpora. Amsterdam: Rodopi BV Editions (Language and Computers, 23).

Renouf, A., & Kehoe, A. (Eds). (2009). Corpus linguistics. Refinements and reassessments. Amsterdam - New York: Rodopi.

RISSANEN, M.- KYTÖ, M.- PALANDER-COLLIN, M. (Eds.) (1993) Early English in the Computer Age. Berlin: Mouton de Gruyter.

SALTMIL (1998). Proceedings of the SALTMIL workshop on language resources for minority languages [LREC 1998. 1st International Conference on Language Resources and Evaluation]. Granada, Spain, May 27, 1998. Retrieved from http://ixa2.si.ehu.es/saltmil/index.php/en/activities-mainmenu-73/saltmil-workshops-mainmenu-77.1.html

SALTMIL (2004). Proceedings of the SALTMIL workshop on first steps in language documentation for minority languages. Computational linguistic tools for morphology, lexicon and corpus compilation [LREC 2004. 4th International Conference on Language Resources and Evaluation]. Lisbon, Portugal, May 26-28, 2004.


SAMPSON, G.- McCARTHY, D. (Eds.) (2004) Corpus Linguistics: readings in a widening discipline. London - New York: Continuum International.

SINCLAIR, J. McH. (2004) Trust the Text. Language, Corpus and Discourse. Routledge (Taylor and Francis).

SVARTVIK, J. (Ed.) (1992) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm 4-8 August 1991. Berlin: Mouton de Gruyter (Trends in Linguistics, Studies and Monographs, 65)

THOMAS, J.- SHORT, M. (Eds.) (1996) Using Corpora for Language Research. Studies in Honour of Geoffrey Leech. London: Longman.


Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. Retrieved from http://ota.ox.ac.uk/documents/creating/dlc/

YOUNG, S.- BLOOTHOOFT, G. (Eds.) (1997) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2)

Introduction. 1.- Corpus-Based Statistical Methods in Speech and Language Processing; H. Ney. 2.- Hidden Markov Models in Speech and Language Processing; K. Knill, S. Young. 3.- Spoken Language Dialogue Systems; E. Giachin, S. McGlashan. 4.- Part-of-Speech Tagging and Partial Parsing; S. Abney. 5.- Data-Oriented Language Processing; R. Bod, R. Scha. 6.- Statistical Language Modeling Using Leaving-One-Out; H. Ney, S. Martin, F. Wessel.

up arrow

Journals

Corpus (2001- ). Nice: Laboratoire "Bases, Corpus, Langage", Université de Nice - Sophia Antipolis.
http://corpus.revues.org/

Corpus Linguistics and Linguistic Theory (2005- ). Berlin - New York: Mouton De Gruyter.
https://www.degruyter.com/view/j/cllt

Computers and the Humanities (1996-2004). Dordrecht: Kluwer.

Computers and Text (1996-2000). Oxford: Centre for Textual Studies, Oxford University.
http://users.ox.ac.uk/~ctitext2/publish/comtxt/

ICAME Journal, Journal of the International Computer Archive of Modern English (1987- ). Bergen: Norwegian Computer Centre for the Humanities - Berlin: de Gruyter.
http://clu.uni.no/icame/journal.html
https://www.degruyter.com/view/j/icame

International Journal of Corpus Linguistics (1996- ). Amsterdam: John Benjamins.
https://benjamins.com/#catalog/journals/ijcl/main

Language Resources and Evaluation (2005- ). Dordrecht: Springer.
http://link.springer.com/journal/10579

Literary and Linguistic Computing (1986- ). Oxford: Oxford University Press.
http://llc.oxfordjournals.org

up arrow

Specific references on corpus linguistics

Barlow, M. (2011). Corpus linguistics and theoretical linguistics. International Journal of Corpus Linguistics, 16(1), 3-44. doi:10.1075/ijcl.16.1.02bar

BLECUA, J.M. (1996) "Reflexiones al margen de los corpus escritos", in PAYRATÓ, Ll.- BOIX, E.- LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. pp. 15-26

COLLINS, P.C. (1988) "Computer corpora in English Language Research: A critical survey", Australian Review of Applied Linguistics 10: 1-19

de BEAUGRANDE, R. (1996) "The "pragmatics" of doing language sciences: The "warrant" for large-corpus linguistics", Journal of Pragmatics 25, 4: 503-535.

FILLMORE, C. (1992) "’Corpus Linguistics’ or ’Computer-aided armchair linguistics’", in SVARTVIK, J. (Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August 199. Berlin - New York: Mouton de Gruyter.

Gries, S. T. (2010). Corpus linguistics and theoretical linguistics: A lovehate relationship? Not necessarily. International Journal of Corpus Linguistics, 15, 327-343. doi:10.1075/ijcl.15.3.02gri

JOHANSSON, S. (1991) "Computer corpora in English Language Research", in JOHANSSON, S.- STENSTRÖM, A. (Eds.) English Computer Corpora: Selected Papers and Research Guide. Berlin: Mouton de Gruyer. pp. 3-6

MIGHETTO, D. (1998) "Notas sobre lingüística de corpus y técnicas de información por Internet", in DELBÈCQUE, N.- DE PAEPE, C. (Eds.) Estudios en honor del profesor Josse de Kock. Leuven: Leuven University Press (Symbolae, Facultatis Litterarum Lovaniensie, Series A, Vol. 25). pp. 383-393.

PARODI, G. (Ed.) (2007) Working with Spanish Corpora. London: Contiuum (Corpus and Discourse).

1.- Introduction: Catching up with corpus linguistics: Register diversified studies from different corpora in different Spanish speaking countries: Giovanni Parodi; 2- Variation across registers in Spanish: Exploring El Grial PUCV Corpus: Giovanni Parodi; 3.- Dimensions of register variation in Spanish: Douglas Biber and Nicole Tracy-Ventura; 4.- Epistemic modality and academic spoken discourse: A pilot study for COTECA (Corpus Textual del Español Científico de la Argentina): Guiomar Ciapuscio; 5.- Multi-register analysis of prepositional schemes in communication verbs of Spanish: Omar Sabaj; 6.- Spoken and written varieties of future tense expressions: Mercedes Sedano; 7.- Technical-professional discourses: Specialized and dissemination text types: Giovanni Parodi and Aída Gramajo; 8.- Academic writing: Exploring Corpus 92: Carmen López-Ferrero; 9.- Using Latent Semantic Analysis in a Spanish research article corpus: René Venegas; 10.- Lexical bundles in speech and writing: Nicole Tracy-Ventura, Douglas Biber, and Viviana Cortes.

Parodi, G. (2010). Lingüística de corpus: De la teoría a la empiria. Madrid - Frankfurt: Iberoamericana - Vervuert.

SCHÖNEFELD, D. (1999) "Corpus Linguistics and Cognitivism", International Journal of Corpus Linguistics 4, 1: 137-171.

TOGNINI-BONELLI, E. (2001) Corpus Linguistics at Work. Amsterdam: John Benjamins (Studies in Corpus Linguistics, 6).

up arrow

Written corpora

CALZOLARI, N. (1998) "An Overview of Written Language Resources in Europe: a few Reflections, Facts and a Vision", in LREC 1998. Proceedings of the First International Conference on Language Resources and Evaluation. 28 - 30 May 1998. Granada, Spain. Paris: ELRA, European Language Resources Association. Vol. I. pp. 217-224.

CALZOLARI, N. (1998) "Les ressources linguistiques écrites",La lettre d’information d’ELRA (Numéro spécial 1ère conférence LREC) 3, 3: 4

EJERHED, E.- CHURCH, K. (1997) "Written Language Corpora", in in COLE, R.A.- MARIANI, J.- USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 445-449.
http://www.cslu.ogi.edu/HLTsurvey/ch12node4.html#SECTION122

up arrow

Standards for written corpora


= Recommended introductory/general reading


= Recommended advanced reading

ARRARTE, G. (1999) "Normas y estándares para la codificación de textos y para la ingeniería lingüística", in BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona - Editorial Milenio. pp. 17-44.


OLIVER, A. - MORÉ, J. - CLIMENT, S. (Coord.) (2007) "Formats de codificació de text i de dades. Característiques i tractament", in Traducció i tecnologies. Barcelona: Editorial UOC (Manuals, 116).

SGML, Standard Generalized Markup Language and XML, eXtensible Markup Language

BARCALA, F. M. - BLANCO, C. - DARRIBA, V. M. (2006) "Metodología para la construcción de córpora textuales estructurados basados en XML", Procesamiento del Lenguaje Natural 36: 9-16.
http://www.sepln.org/revistaSEPLN/revista/36/01.pdf

BRYAN, M. (1988) SGML: An Author’s Guide to the Standard Generalized Markup Language. Wokingham: Addison-Wesley

BURNARD, L. (1995) "What is SGML and how does it help?", Computers and the Humanities 29,1: 41-50

CABRÉ, M.T.- VIVALDI, J.- de YZAGUIRRE, Ll.- SOLÉ, X. (1996) Marcatge estructural i morfosintàctic del corpus tècnic amb l’estàndard SGML. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 1).
http://www.iula.upf.edu/repositori/96inf001.pdf

FLYNN, P. (1998) Understanding SGML and XML tools: practical programs for handling structured text. Boston: Kluwer Academic Publishers (with CD-ROM).

GOLDFARB, C.F. (1990) The SGML Handbook. Oxford: Clarendon Press.

GOLDFARB, Ch. F.- PRESCOD, P. (1998) The XML handbook. Upper Saddle River, NJ: Prentice-Hall (Charles F. Goldfarb series on open information management) (with CD-ROM).


Hawkins, K. S. (2015). Introduction to XML for Text. Denton, TX: University of North Texas Libraries. Retrieved from http://www.ultraslavonic.info/intro-to-xml/

ISO 8879 (1986) Information Processing. Text and Office Systems. Standard Generalized Markup Language (SGML). Geneva: International Organization for Standardization.


OLIVER, A. - MORÉ, J. - CLIMENT, S. (Coord.) (2007) "Llenguatges de marcatge: HTML i XML", in Traducció i tecnologies. Barcelona: Editorial UOC (Manuals, 116).

PINO, M.- SANTALLA, M.P. (1996) "Codificación de la anotación morfosintáctica en SGML", Procesamiento del Lenguaje Natural 19: 101-117.

TEI Consortium (Eds.). (2015). v. A Gentle Introduction to XML. [Version 2.8.0]. [Last updated on 6th April 2015]. In TEI P5: Guidelines for Electronic Text Encoding and Interchange. TEI Consortium. Retrieved from http://www.tei-c.org/release/doc/tei-p5-doc/en/html/SG.html

TEI, Text Encoding Initiative

BURNARD, L. (1995) "The Text Encoding Initiative: an overview", in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 69-81

IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative: Background and Contexts. Computers and the Humanities 29, 1-3; Dordrecht: Kluwer Academic Publishers.

SPERBERG- McQUEEN, C.M. - BURNARD, L. (1995) TEI Lite: An introduction to Text Encoding for Interchange . Revised 2002.
http://www.tei-c.org/Guidelines/Customization/Lite/


TEI Consortium (Eds.). (2015). TEI P5: Guidelines for Electronic Text Encoding and Interchange. [Version 2.8.0]. [Last updated on 6th April 2015]. TEI Consortium. Retrieved from http://www.tei-c.org/Guidelines/P5/

TEI, Text Encoding Initiative

EAGLES, Expert Advisory Group on Language Engineering Standards

EAGLES Guidelines. Expert Advisory Group on Language Engineering Standards, 1996.
http://www.ilc.cnr.it/EAGLES96/browse.html

IDE, N. (Coord.) (1996) Corpus Encoding Standard. Document CES 1. Version 1.5. March, 2000.
http://www.cs.vassar.edu/CES/CES1.html

EAGLES, Expert Advisory Group on Language Engineering Standards

up arrow

Written corpora design and textual typology

ALVAR EZQUERRA, M.- CORPAS PASTOR, G. (1994) "Criterios de diseño para la creación de córpora", in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 31-40.

ATKINS, S.- CLEAR, J.- OSTLER, N. (1992) "Corpus design criteria", Literary and Linguistic Computing 7, 1: 1-16.

BIBER, D. (1989) " A typology of English texts", Linguistics 27: 3-43

BIBER, D. (1993) "Representativeness in corpus design", Literary and Linguistic Computing 8, 4: 243-257.

BIBER, D.- FINEGAN, E. (1986) "An initial typology of English text types", in AARTS, J.- MEIJS, W. (Eds.) Corpus Linguistics II. New Studies in the Analysis and Exploitation of Computer Corpora. Amsterdam: Rodopi. pp. 19-46.

CLEAR, J. (1992) "Corpus sampling", in LEITNER, G. (Ed.) New Directions in English Language Corpora. Methodology, Results, Software Development. Berlin: Mouton de Gruyter. pp. 21-32.

de HAAN, P. (1992) "The optimum corpus sample size?", in LEITNER, G. (Ed.) New Directions in English Language Corpora. Methodology, Results, Software Development. Berlin: Mouton de Gruyter. pp. 3-20.

LÓPEZ GUZMÁN, J.M. (1994) "Adquisición y reusabilidad de materiales en la creación de corpus", in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 47-62.

QUIRK, R. (1992) "On corpus principles and design", in SVARTVIK, J. (Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm 4-8 August 1991. Berlin: Mouton de Gruyter. pp. 457-470

RENOUF, A. (1987) "Corpus development" in SINCLAIR, J. (Ed.) Looking Up, An Account of the COBUILD Project. London: Collins. pp. 1-40

SINCLAIR, J. (1996) Preliminary Recommendations on Corpus Typology. EAGLES Document EAG-TCWG-CTYP/P, May 1996.
http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html

SINCLAIR, J.- BALL, C. (1996) Preliminary Recommendations on Text Typology. EAGLES Documents EAG-TCWG-TTYP/P, June 1996.
http://www.ilc.cnr.it/EAGLES96/texttyp/texttyp.html

Torruella, J., & Llisterri, J. (1999). Diseño de corpus textuales y orales. In J. M. Blecua, G. Clavería, C. Sánchez, & J. Torruella (Eds.), Filología e informática. Nuevas tecnologías en los estudios lingüísticos. (pp. 45-77). Barcelona: Seminari de Filologia i Informàtica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona - Editorial Milenio. Retrieved from http://liceu.uab.cat/~joaquim/publicacions/Torruella_Llisterri_99.pdf

up arrow

Computational processing of written language resources


= Recommended introductory/general reading


= Recommended advanced reading

ABAITUA, J. (2002) "Tratamiento de corpora bilingües", in MARTÍ, M.A.- LLISTERRI, J. (Eds.) (2002) Tratamiento del lenguaje natural. Tecnología de la lengua oral y escrita. Barcelona: Edicions Universitat de Barcelona - Fundación Duques de Soria (Biblioteca de la Universitat de Barcelona, Manuals, 53). pp. 61-90.
http://paginaspersonales.deusto.es/abaitua/konzeptu/ta/soria00.pdf

BAAYEN, R.H. (2001) Word Frequency Distributions. Dordrecht - Boston - London: Kluwer Academic Publishers (Text, Speech and Language Technology, 18).

1.- Word Frequencies; 2.- Non-parametric models; 3.- Parametric models; 4.- Mixture distributions; 5.- The Randomness Assumption; 6.- Examples of Applications.


BADIA, T. (1996) "El processament computacional de corpus. Tècniques automàtiques d’anàlisi morfològica i sintàctica", in PAYRATÓ, Ll.- BOIX, E.- LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. pp. 217-254.


BARNBROOK, G. (1996) Language and Computers. A Practical Introduction to the Computer Analysis of Language. Edinburgh: Edinburgh University Press (Edinburgh Textbooks in Empirical Linguistics).

1.- Why use a computer; 2.- First capture your data; 3.- Examining the catch: using frequency lists; 4.- Studying the environment: using concordances; 5.- The sociology of words: collocations; 6.- Putting them in their place: tagging, parsing and so on; 7.- The leading edge: applications of natural language processing; 8.- Case studies.

BOD, R.- SCHA, R. (1997) "Data-Oriented Language Processing", in YOUNG, S.- BLOOTHOOFT, G. (Eds.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) pp. 137-173.

BURNARD, L. (1992) "Tools and Techniques for Computer-assisted Text Processing", in BUTLER, C.S. (Ed.) Computers and Written Texts. Oxford: Basil Blackwell (Applied Language Studies) pp. 1-28.

DE YZAGUIRRE, Ll. (1996) "Els lingüicials dels corpus UB", in PAYRATÓ, Ll.- BOIX, E.- LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. pp. 297-304.

FIORMONTE, D. (2003) Scrittura e filologia nell’era digitale. Torino: Bollati Boringhieri. [A.1.2 Software per l’analisi del testo]

GARCÍA-MACHO, M.L. - PERIÑÁN, B.- SABA, A.- SASSI, M. (1998) "Análisis de textos mediante la ayuda del ordenador. Puesta a punto de una metodología para confeccionar concordancias lematizadas de textos medievales y renacentistas", Revista Española de Lingüística 28,1: 131-148.

GIL SALOM, L.- SOLER MONREAL, C.- STUART, K. (2001) "ACIA: una herramienta computacional de concordancias y anotación lingüística", in MORENO, A.I.- COLWELL, V. (Eds.) Perspectivas recientes sobre el discurso. Recent perspectives on discourse. León: Secretariado de Publicaciones y Medios Audiovisuales, Universidad de León - AESLA, Asociación Española de Lingüística Aplicada. (+ CD-ROM). p. 205.


LEBART, L.- SALEM, A.- BERRY, L. (1998) Exploring Textual Data. Dordrecht - Boston - London: Kluwer Academic Publishers (Text, Speech and Language Technology, 4).

1.- Textual statistics: scope and applications; 2.- The units of textual statistics; 3.- Correspondence analysis of lexical tables; 4.- Cluster analysis of words and texts; 5.- Visualization of textual data; 6.- Characteristic textual units, modal responses and modal texts; 7.- Longitudinal partitions, textual time series; 8.- Textual discriminant analysis.


McCarty, W. (2007). The basics of concording. AV100 fundamentals of the digital humanities (2007-2008) [Web page]. London: King’s College. Retrieved from http://miraclesinactionpress.com/dthomp74/2007/docs/concord.html

PARODI, G. (2007) "El Grial: Interfaz computacional para anotación en interrogación de corpus en español", in PARODI, G. (Ed.) Lingüística de corpus y discursos especializados: puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso, Pontificia Universidad Católica de Valparaíso. pp. 31-52.

PÉREZ GUERRA, J. (1998) Análisis computarizado de textos. Una introducción a TACT. Prólogo de John Bradley. Vigo: Universidade de Vigo, Servicio de Publicación (Monografías da Universidade de Vigo, Humanidades e Ciencias Xurídico-Sociais, 13).

Parte I- Introducción a la lingüística de corpus; 1. Introducción. Los corpus y la lingüística; 2. Historia de la lingüística de corpus; 3. Concepto de "corpus de textos". Hacia el corpus electrónico; 3.1 Introducción; 3.2 Tamaño del corpus; 3.3 Rigor en la selección del material; 3.4 Codificación de los textos; 4. Anotaciones en los corpus; 4.1 Introducción; 4.2 Categorías de anotación; 4.3 COCOA: la versatilidad al servicio de la simplificación; 4.4 Hacia el estándar de la anotación textual: SGML-TEI; 4.5 De SGML a TDB: una introducción a SGML2TDB; 5. Creando nuestro corpus informatizado: computarizando el texto. Parte II - Introducción al análisis textual asistido por ordenador: TACT; 1. Introducción; 2. TACT como herramienta de análisis textual: aspectos introductorios; 3. Eligiendo y preparando el texto para su análisis mediante TACT; 4. TACT al completo; 4.1 Los primeros pasos; 4.2 Haciendo la base de datos textuales: MakeBase; 4.3 Creando un TDB específico para textos HSMS: HSMS2TDB; 4.4 Búsquedas en la base de datos textuales: UseBase ; 4.5 Manejo de corpus de grandes dimensiones: MergeBas y BuildBat; 4.6 Anotando automáticamente corpus crudos mediante diccionarios electrónicos: PreProc, MakeDCT, TagText y SatDCT; 4.7 Similitudes léxicas y lexicográficas de palabras y frases: Anagrams y CollGen; 4.8 Subprogramas de manipulación de datos: TACTFreq, TACTSort y Fcompare; 4.9 Obteniendo información estadística de las palabras en el corpus: TACTStat; 5. Nuestros TDB en Internet: TACTWEB. Apéndices - 1. DTD de TEI Lite (un extracto con elementos y atributos manejados en Parte I); 2. Elementos y atributos de TEI Lite; 3. Más sobre TACT ; Extensiones de los archivos producidos por TACT; Tutoriales sobre TACT vía Internet; Niebla.txt (con anotaciones); Niebla.mks; Esquema general de TACT; 4. Glosario General de términos frecuentes; 5. Fuentes de textos electrónicos (español e inglés) a través de Internet; 6. Referencias; Algunas referencias bibliográficas útiles; Texto empleado; Revistas especializadas; Otras referencias de interés.

REPPEN, R. (2001) "Review of MonoConc Pro and WordSmith Tools", Language Learning and Technology 5, 3: 32-36.
http://llt.msu.edu/vol5num3/review4/default.html

RUIZ UREÑA, R.J.- GARCÍA PIÑEIRO, V. (1996) "Cuatro programas para la gestión de conjuntos de texto en soporte informático: Lexa, MicroConcord, Tact y WordCruncher", in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 123-131.

SASSI, M. (1999) "Concordancias para filólogos: en pos de la simplicidad", in BLECUA, J.M.- CLAVERÍA, G.- SÁNCHEZ, C.- TORRUELLA, J. (Eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona - Editorial Milenio. pp. 165-182.

SINCLAIR, J.- MASON, O.- BALL, J.- BARNBROOK, G. (1997) "Language independent statistical software for corpus exploration", Computers in the Humanities 31, 3: 229-255.

VENEGAS, R. - SILVA, J. (2007) "«El Manchador de Textos»: Una herramienta computacional para el análisis de textos", in PARODI, G. (Ed.) Lingüística de corpus y discursos especializados: puntos de mira. Valparaíso: Ediciones Universitarias de Valparaíso, Pontificia Universidad Católica de Valparaíso. pp. 53-78.

Corpus processing and exploitation tools

up arrow

Written corpora annotation


= Recommended introductory/general reading


= Recommended advanced reading

ABNEY, S. (1997) "Part-of-Speech Tagging and Partial Parsing", in YOUNG, S.- BLOOTHOOFT, G. (Eds.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) pp. 118-136.

BATEMAN, J.- FORREST, J.- WILLIS, T. (1997) "The use of syntactic annotation tools: partial and full parsing", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.)Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 166-178.

BERBER SARDINHA, T. (1999) Usando WordSmith Tools na pesquisa lingüística. DIRECT Paper 40. LAEL, Pontifícia Universidade Católica de São Paulo - AELSU, University of Liverpool.
http://www2.lael.pucsp.br/direct/DirectPapers40.pdf

BERBER SARDINHA, T. (1999) "Search tools for corpus exploration", in I Encontro de Estudos de Corpus. Universidade de São Paulo, São Paulo. 14-15 outoubro 1999.
http://www2.lael.pucsp.br/~tony/temp/publications/1999ferramentas_usp.pdf

CIVIT TORRUELLA, M. (2003) Criterios de etiquetación y desambiguación morfosintáctica de corpus en español. Alicante: Sociedad Española para el Procesamiento del Lenguaje Natural (Colección de Monografías de la Sociedad Española para el Procesamiento del Lenguaje Natural, 3).
http://www.sepln.org/wp-content/uploads/2011/02/monografiaCivit.pdf

1.- Marco general: La Lingüística de Corpus; 2.- Anotación morfológica; 3.- Desambiguación morfológica; 4.- Análisis sintáctico del español: GramEsp; 5.- Anotación sintáctica de corpus; 6.- Conclusiones; Apéndices: A.- Locuciones; B.- GramEsp; C.- Etiquetas utilizadas para la anotación de Cast3LB; D.- Corpus CLiC-TALP desambiguado; E.- Corpus CLiC-TALP analizado sintácticamente; F.- Corpus CLiC-TALP anotado sintácticamente.

FLIGELSTONE, S.- PACEY, M.- RAYSON,P. (1997) "How to generalize the task of annotation", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 122-136.

GARSIDE, R.- FLIGELSTONE, S.- BOTLEY, S. (1997) "Discourse annotation: anaphoric relations in corpora", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 66-84.


GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) (1997) Corpus Annotation: Linguistic Information from Computer Text Corpora. Harlow: Addison Wesley Longman.

GARSIDE, R.- RAYSON, P. (1997) "Higher-level annotation tools", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 179-193.

McENERY, T.- RAYSON, P. (1997) "A corpus / annotation toolbox", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 194-208.

LEECH, G. (1997) "Grammatical tagging", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 19-33.

KAHREL, P.-BARNETT, R.- LEECH, G. (1997) "Towards cross-linguistic standards or guidelines for the annotation of corpora", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 231-242.

LEECH, G. (1997) "Introducing corpus annotation", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 1-18.

LEECH, G.- BARNETT, R.- KAHREL, P. (1996) Preliminary Recommendations for the Syntactic Annotation of Corpora. EAGLES Document EAG-TCWG-SASG1/P-B, March 1996.
http://www.ilc.cnr.it/EAGLES96/segsasg1/segsasg1.html

LEECH, G.- EYES, E. (1997) "Syntactic annotation: treebanks", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 34-52.

LEECH, G.- McENERY, T.- WYNNE, M. (1997) "Further levels of annotation", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 85-101.

LEECH, G.- WILSON, A. (1996) Recommendations for the Morphosyntactic Annotation of Corpora. EAGLES Document EAG-TCWG-MAC/R, March 1996. Available at:
http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html

LÓPEZ GUZMÁN, J.M. (1994) "Niveles de representación de textos escritos", in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 63-72

MORENO, A.- LÓPEZ, S.- SÁNCHEZ, F.- GRISHMAN, R. (2002) "Developing a syntactic annotation scheme and tools for a Spanish treebank", in ABEILLÉ, A. (Ed.) Building and using syntactically annotated corpora. Dordrecht: Kluwer (Text, Speech and LanguageTechnology).

PÉREZ GUERRA, J. (1999) "Estándares de anotación en lingüística de corpus", in GÓMEZ GUINOVART, J.- LORENZO SUREZ, A.- PÉREZ GUERRA, J.- ÁLVAREZ LUGRÍS, A. (Eds.) Panorama de la investigación en lingüística informática. RESLA, Revista Española de Lingüística Aplicada, Volumen monográfico. pp.25-52.

RIBERA, X.- MOLINA, A.- PLA, F. (2000) "Herramientas para el etiquetado léxico y análisis sintáctico de textos orientados a la construcción de corpus supervisados", Procesamiento del Lenguaje Natural, Revista nº 26: 119-124.
http://www.sepln.org/revistaSEPLN/revista/26/ribera.pdf

RUIZ MIYARES, E.- ZAMORA MATAMOROS, L. (2000) "Análisis estadístico del comportamiento del primer etiquetador cubano en tres diferentes corpus de la prensa", Procesamiento del Lenguaje Natural, Revista nº 26: 133-140.
http://www.sepln.org/revistaSEPLN/revista/26/ruiz-miyares.pdf

SÁNCHEZ, F.- PORTA, J.- SANCHO, J.L.- NIETO, A.- BALLESTER, A.- FERNÁNDEZ, A.- GÓMEZ, J.- GÓMEZ, L.- RAIGAL, E.- RUIZ, R. (1999) "La anotación de los corpus CREA y CORDE", Procesamiento del Lenguaje Natural, Revista nº 25: 175-182.
http://www.sepln.org/revistaSEPLN/revista/25/25-Pag175.pdf

WILSON, A.- THOMAS, J. (1997) "Semantic annotation", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 53-65

up arrow

Written language resources projects

Catalan

BACH, C.- SAURÍ, R.- VIVALDI, J.- CABRÉ, M.T. (1997) El corpus de l’IULA: descripció. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 17).
http://www.iula.upf.edu/repositori/97inf017.pdf

CABRÉ, M.T.- DE YZAGUIRRE, Ll.- LORENTE, M. (1996) "El projecte CECA (Corpus escrit del català)", in PAYRATÓ, Ll.- BOIX, E.- LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2). Barcelona: Promociones y Publicaciones Universitarias SA. pp. 115-126.

CABRÉ, M.T.- VIVALDI, J.- de YZAGUIRRE, Ll.- SOLÉ, X. (1996) Marcatge estructural i morfosintàctic del corpus tècnic amb l’estàndard SGML. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 1).
http://www.iula.upf.edu/repositori/96inf001.pdf

CABRÉ, T.- MOREL, J.- TORNER, S.- VIVALDI, J. (1997) El corpus de l’IULA: etiquetaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Papers de l’IULA, Sèrie Informes, 18).
http://www.iula.upf.edu/repositori/98inf018.pdf

RAFEL, J. (1992-93) "El ’Diccionari del català contemporani’: Treballs realitzats i previsions de futur", Llengua i Literatura 5: 733-737.

RAFEL, J. (1996) "El Diccionari del català contemporani i el Corpus textual informatitzat de la llengua catalana", in PAYRATÓ, Ll.- BOIX, E.- LLORET, M.-R.- LORENTE, M. (Eds.) Corpus, Corpora. Actes del 1er i 2on Col·loquis Lingüístics de la Universitat de Barcelona (CLUB-1, CLUB-2).Barcelona: Promociones y Publicaciones Universitarias SA. pp. 71-92.

Spanish

Aguado, G., Bernardos, M. S., Gómez Pérez, A., Gracia, J., Montiel, E., Sebastián, S., Bel, N., Marimon, M., & Forcada, M. L. (2016). Inventario de recursos lingüísticos de la administración pública para la traducción automática. Madrid: Plan de Impulso de las Tecnologías del Lenguaje, Secretaría de Estado para la Sociedad de la Información y la Agenda Digital, Ministerio de Energía, Turismo y Agenda Digital. Retrieved from http://www.agendadigital.gob.es/tecnologias-lenguaje/actuaciones/Documents/Inventario-recursos-traduccion-Retele.pdf

ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord.) (1994) Estudios para un corpus del español. Málaga: Universidad de Málaga (Anejo 7 de Analecta Malacitana, Revista de la Sección de Filología de la Facultad de Filosofía y Letras de Málaga)

ALVAR EZQUERRA, M.- BLANCO RODRÍGUEZ, M.J.- PÉREZ LAGOS, F. (1994) "Diseño de un corpus español en el marco de un corpus europeo", in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 9-30

BATTANER, M.P. (2000) "Un corpus para la enseñanza: Corpus PAAU, junio 1992", in BATTANER, M.P.- LÓPEZ, C. (Eds.) VI Jornada de Corpus Lingüístics. Corpus lingüístics i ensenyament de llengües. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra. pp. 41-64.

BERMEJO, I.- CARRERAS, X.- CASTELL, N.- CASTELLÓN, I.- COELLO, E.- GONZALO, J.- KALFON, N. - MARTÍ, M.A.- RODRÍGUEZ, S.- PADRÓ, L.- PEÑAS, A.- READ, T.- VERDEJO, M.F. (2000) "RILE: Servidor de Recursos para el desarrollo de la Ingeniería Lingüística en Español", Procesamiento del Lenguaje Natural, Revista nº 26: 141-142.
http://www.sepln.org/revistaSEPLN/revista/26/bermejo.pdf

CIVIT, M.- CASTELLÓN, I.- MARTÍ, M.A. (2001) "Creación, etiquetación y desambiguación de un corpus de referencia del español", Procesamiento del Lenguaje Natural, Revista n. 27: 21-28.
http://www.sepln.org/revistaSEPLN/revista/27/27-articulo2.pdf

CIVIT, M. - MARTÍ, MA. (2002) "Design Principles for a Spanish Treebank", in TLT02, First Workshop on Treebanks and Linguistic Theories. Sozopol, Bulgaria.
http://www.bultreebank.org/proceedings/paper05.pdf

GARCÍA-MIGUEL, J.M. "Corpus de textos analizados sintácticamente", en GÓMEZ GUiNOVART (Ed.) Aplicaciones lingüísticas de la informática. Santiago de Compostela: Tórculo. pp.19-34.

GARCÍA PLATERO, J.M. (1994) "Resultados de la encuesta en España sobre la necesidad de un corpus textual", in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 41-46

McENERY, T.- WILSON, A.- SÁNCHEZ, F.- NIETO, A. (1997) "Multilingual Resources for European languages: Contributions of the CRATER Project", Literary and Linguistic Computing 12, 4: 219-226.

MORENO, A.- LÓPEZ, S.- SÁNCHEZ, F.- GRISHMAN, R. (2002) "Developing a syntactic annotation scheme and tools for a Spanish treebank", in ABEILLÉ, A. (Ed.) Building and using syntactically annotated corpora. Dordrecht: Kluwer (Text, Speech and LanguageTechnology).

ROJO, G. (1992) " El futuro Diccionario de construcciones verbales del español actual" in MARTIN VIDE, C. (Ed.) Lenguajes Naturales y Lenguajes Formales VIII. Actas del VIII Congreso de Lenguajes Naturales y Lenguajes Formales, Gerona, 1992. Barcelona: PPU. pp. 41-50

ROJO, G. (1993) "La base de datos sintácticos del español actual", Español actual, 59: 15-20

SÁNCHEZ, F.- PORTA, J.- SANCHO, J.L.- NIETO, A.- BALLESTER, A.- FERNÁNDEZ, A.- GÓMEZ, J.- GÓMEZ, L.- RAIGAL, E.- RUIZ, R. (1999) "La anotación de los corpus CREA y CORDE", Procesamiento del Lenguaje Natural, Revista nº 25: 175-182.
http://www.sepln.org/revistaSEPLN/revista/25/25-Pag175.pdf

SÁNCHEZ, A.- CANTOS, P. (1997) "Predictability of word forms (types) and lemmas in linguistic corpora. A case study based on the analysis of the CUMBRE corpus: An 8-million-word corpus of contemporary Spanish", International Journal of Corpus Linguistics 2,2: 259-280.

SÁNCHEZ, A. - SARMIENTO, R.- CANTOS, P.- SIMÓN, J. (1995) Cumbre. Corpus lingüístico del español contemporáneo. Fundamentos, metodología y aplicaciones. Madrid: SGEL.

SEBASTIÁN, N.- CUETOS, F.- MARTÍ, M.A.- CARREIRAS, M.F. (2000) LEXESP: Léxico informatizado del español. Edición en CD-ROM. Barcelona: Edicions de la Universitat de Barcelona (Col·lecions Vàries, 14).

VERA LUJÁN, A. (1998) "Los medios de comunicación como recurso lingüístico (proyecto de acopio y distribución de materiales lingüísticos. Instituto Cervantes, España)", in La lengua española y los medios de comunicación. México: Siglo XXI Editores en coedición con la Secretaría de Educación Pública (México) y el Instituto Cervantes (España). Vol 2. pp. 1331-1338.
http://congresosdelalengua.es/zacatecas/ponencias/tecnologias/proyectos/vera.htm

Written corpora in Spanish

up arrow

Applications of written language resources

BERGLUND, Y. (1999) "Exploiting a Large Spoken Corpus: an End-user’s Way to the BNC", International Journal of Corpus Linguistics 4, 1: 29-52.

HOCKEY, S. (2001) Electronic Texts in the Humanities. Principles and Practices. Oxford: Oxford University Press.

1.- Why Electronic Texts?; 2.- Creating and Acquiring Electronic Texts; 3.- Text Encoding; 4.- Concordance and Text Retrieval Programs; 5.- Literary Analysis; 6.- Linguistic Analysis; 7.- Stylometry and Attribution Studies; 8.- Textual Criticism and Electronic Editions; 9.- Dictionaries and Lexical Databases; 10- Where Next?

BLANCO, X. (1996) "La explotación de corpora textuales en soporte electrónico", in ALONSO, E.- BRUÑA, M.- MUÑOZ, M. (Eds.) La lingüística francesa: gramática, historia, epistemología. Sevilla: Grupo Andaluz de Pragmática. vol. 2 pp. 115-122.

Natural language processing and computational linguistics

AGUADO, G.- BERNARDOS, M.S. (2000) "Método para la elaboración de un corpus para la generación automática de lenguaje natural", Procesamiento del Lenguaje Natural, Revista nº 26: 19-26.
http://www.sepln.org/revistaSEPLN/revista/26/aguado-de-cea.pdf

ÁLVAREZ, C.- ALVARIÑO, P.- GIL, A.- ROMERO, T.- SANTALLA, M.P.- SOTELO, S. (1998) "AVALON, una gramática formal basada en corpus", Procesamiento del Lenguaje Natural, Revista nº 23: 132-139.
http://www.sepln.org/revistaSEPLN/revista/23/23-Pag132.pdf

ARMSTRONG, S.- CHURCH, K.- ISABELLE, P.- MANZI, S.- TZOUKERMANN, E.- YAROWSKY, D. (Eds.) (1999) Natural Language Processing Using Very Large Corpora. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 11).

KNILL, K.- YOUNG, S. (1997) "Hidden Markov Models in Speech and Language Processing", in YOUNG, S.- BLOOTHOOFT, G. (Eds.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) pp. 27-68

McNAUGHT, J. (1993) "User Needs for Textual Corpora in Natural Language Processing", Literary and Linguistic Computing, 8,4.

NEY, H. (1997) "Corpus-Based Statistical Methods in Speech and Language Processing", in YOUNG, S.- BLOOTHOOFT, G. (Eds.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) pp. 1-26.

NEY, H.- MARTIN, S.- WESSEL, F. (1997) "Statistical Language Modeling Using Leaving-One-Out", in YOUNG, S.- BLOOTHOOFT, G. (Eds.) Corpus-Based Methods in Language and Speech Processing. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 2) pp. 174-207

SOUTER, C.- ATWELL, E. (Eds.) (1993) Corpus Based Computational Linguistics. Amsterdam: Rodopi.

Linguistic analysis

AARTS, J. (1991) "Intuition-based and observation-based grammars"in AIJMER, K.- ALTENBERG, B. (Eds.) English Corpus Linguistics. Sudies in Honour of Jan Svartvik. London: Longman.

Baker, P. (2010). Sociolinguistics and corpus linguistics. Edinburgh: Edinburgh University Press.

BIBER, D. (1985) "Investigating macroscopic textual variation through multifeature / multidimensional analyses", Linguistics 23: 337-360.

BIBER, D. (1990) "Methodological issues regarding corpus-based analyses of linguistic variation", Literary and Linguistic Computing 5,4: 257-269

BIBER, D. (1992) "On the complexity of discourse complexity: a multidimensional analysis", Discourse Processes 15,2: 133-164.

BIBER, D. (1992) "The Multi-Dimensional Approach to Linguistic Analyses of Genre Variation: An Overwiew of Methodology and Findings", Computers and the Humanities, 26, 5-6: 331-345.

BIBER, D. (1993) "Co-occurrence patterns among collocations: A tool for corpus-based lexical knowledge acquisition", Computational Linguistics 19, 3: 531-538

BIBER, D. (1993) "Using Register-Diversified Corpora for General Language Studies" Computational Linguistics 19 2: 219-242

BIBER, D.- FINEGAN, E. (1986) "An initial typology of English text types" in AARTS, J.- MEIJS, W. (Eds.) Corpus Linguistics II. New Studies in the Analysis and Exploitation of Computer Corpora. Amsterdam: Rodopi pp. 19-46

BIBER, D.- FINEGAN, E. (1991) "On the exploitation of computerized corpora in variation studies", in AIJMER, K.- ALTENBERG, B. (Eds.) English Corpus Linguistics. Sudies in Honour of Jan Svartvik. London: Longman. pp. 204-220

GÓMEZ GUINOVART, J. (1993) "Análisis lingüístico de un corpus de textos periodísticos en soporte informático" in MARTÍN VIDE, C. (Ed.) Lenguajes Naturales y Lenguajes Formales IX. Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, Reus, 20-22 de diciembre de 1993. Barcelona: PPU. pp. 323-329.

OOSTDIJK, N. (1988) "A corpus for studying linguistic variation", ICAME Journal 12: 3-14.

OOSTDIJK, N. (1988) "A corpus linguistic approach to linguistic variation", Literary and Linguistic Computing 3,1: 12-25.

Lexicography and terminology

Cicle de conferències 94-95. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 1996.
http://www.iula.upf.edu/publi002.htm

Cicle de conferències 95-96. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 1997.
http://www.iula.upf.edu/publi003.htm

Cicle de conferències 96-97. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 1998.
http://www.iula.upf.edu/publi010.htm

Cicle de conferències i seminaris 97-98. Lèxic, corpus i diccionaris. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra (Conferències), 2000.
http://www.iula.upf.edu/publi013.htm

McENERY, T.- LANGÉ, J.-M.- OAKES, M.- VÉRONIS, J. (1997) "The exploitation of multilingual annotated corpora for term extraction", in GARSIDE, R.- LEECH, G.- McENERY, T. (Eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora. London & New York: Longman. pp. 220-230.

TEUBERT, W. (2001) "Corpus linguistics and lexicography", International Journal of Corpus Linguistics 6: 125-153.

Language teaching

Language teaching

up arrow

Language resources for minority languages

First Steps in Language Documentation for Minority Languages. Computational Linguistic Tools for Morphology, Lexicon and Corpus Compilation. Proceedings of the SALTMIL Workshop. LREC 2004. 4th International Conference on Language Resources and Evaluation. 26-28 May, 2004. Lisbon, Portugal.

KRAUWER, S. (2003) "The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap", in SPECOM 2003. International Workshop "Speech and Computer". 27-29 October 2003, Moscow, Russia.
http://www.elsnet.org/dox/krauwer-specom2003.pdf

Ó CRÓINÍN, D. (Ed.) (2000) Proceedings of the Workshop on Developing Language Resources for Minority Languages: Reusability and Strategic Priorities. LREC 2000, Second International Conference on Language Resources and Evaluation. Athens, Greece, 30 May 2000. European Language Resources Association.

Proceedings of the International LREC Workshop on Resources and Tools in Field Linguistics. LREC 2002.Third International Conference on Language Resources and Evaluation. Las Palmas, 26-27 May 2002.

up arrow

Speech and Spoken Language Resources

Speech and Spoken Language Resources


Corpus Linguistics and Written Language Resources - Bibliography
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: