From the CLUVI Corpus to WordNet and SemCor: Enriching parallel corpora with multimedia and lexical semantics

Gómez Guinovart, Xavier

doi:10.1075/scl.90.09gom

In:Parallel Corpora for Contrastive and Translation Studies: New resources and applications
Edited by Irene Doval and M. Teresa Sánchez Nieto
[Studies in Corpus Linguistics 90] 2019
► pp. 141–158

Get fulltext from our e-platform

Download Book PDF

Enriching parallel corpora with multimedia and lexical semantics

From the CLUVI Corpus to WordNet and SemCor

Xavier Gómez Guinovart | University of Vigo

Published online: 20 March 2019

https://doi.org/10.1075/scl.90.09gom

In this chapter, I present the main characteristics of the CLUVI Corpus, an open collection of sentence-level aligned parallel corpora with over 44 million words in nine specialised domains (fiction, computing, popular science, biblical texts, law, consumer information, economy, tourism, and film subtitling) and different language combinations including Galician, Spanish, English, French, Portuguese, Catalan, Italian, Basque and Latin. Then, I present the methodology developed for extending the film subtitles section of the CLUVI Corpus with multimedia data. Finally, I discuss the resources and methods used to build the SensoGal Corpus, a SemCor-based English-Galician parallel corpus semantically annotated based on WordNet and aligned at the sentence and word levels.

Keywords: parallel corpora, multimedia, lexical semantics, WordNet, SemCor

Article outline

1.Introduction
2.The CLUVI Corpus
- 2.1Corpus description
- 2.2Tagging the CLUVI Corpus
- 2.3Extending the CLUVI Corpus with multimedia data
3.The SensoGal Corpus
4.Conclusion
Notes
References

References (41)

References

Almeida, José João, Araújo, Sílvia, Simões, Alberto & Dias, Idalete. 2014. The Per-Fide Corpus: A New Resource for Corpus-based Terminology, Contrastive Linguistics and Translation Studies. In Working with Portuguese Corpora, Tony Berber Sardinha & Telma de Lurdes São Bento Ferreira (eds), 177–200. London: Bloomsbury Publishing.

Álvarez de la Granja, María, Gómez Clemente, Xosé María & Gómez Guinovart, Xavier. 2016. Introducing idioms in the Galician wordnet: methods, problems and results. Open Linguistics 2: 253–286.

Álvarez Lugrís, Alberto & Gómez Guinovart Xavier. 2014. Lexicografía bilingüe práctica basada en corpus: planificación y elaboración del Dicionario Moderno Inglés-Galego. In Lexicografía de las lenguas románicas: Aproximaciones a la lexicografía moderna y contrastiva, María José Domínguez Vázquez, Xavier Gómez Guinovart Xavier & Valcárcel Riveiro Carlos (eds), 31–48. Berlin/Boston: De Gruyter Mouton.

Crespo Bastos, Ana, Gómez Clemente, Xosé María, Gómez Guinovart Xavier & López Fernández Susana. 2008. XML-based Extraction of Terminological Information from Corpora. In Actas da 6ª Conferência Nacional XATA2008: XML, Aplicações e Tecnologias Associadas, José Carlos Ramalho, João Correia Lopes & Salvador Abreu (eds), 28–39. Évora: Universidade de Évora.

Girju, Roxana. 2007a. Experiments with an Annotation Scheme for a Knowledge-rich Noun Phrase Interpretation System. In Proceedings of the Linguistic Annotation Workshop, 168–175. Prague: ACL.

. 2007b. Improving the Interpretation of Noun Phrases with Cross-linguistic Information. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 568–575. Prague: ACL.

Gómez Clemente, Xosé María, Gómez Guinovart, Xavier, González Pereira, Andrea & Verónica Taboada Lorenzo. 2013. Sinonimia e rexistros na construción do WordNet do galego. Estudos de lingüística galega 5: 27–42.

Gómez Guinovart Xavier & Oliver, Antoni. 2014. Methodology and evaluation of the Galician WordNet expansion with the WN-toolkit. Procesamiento del Lenguaje Natural 53: 43–50.

Gómez Guinovart Xavier & Sacau Fontenla Elena. 2004a. Métodos de optimización de la extracción de léxico bilingüe a partir de corpus paralelos. Procesamiento del Lenguaje Natural 33: 133–140.

. 2004b. Parallel corpora for the Galician language: building and processing of the CLUVI (Linguistic Corpus of the University of Vigo). In Proceedings of the 4th International Conference on Language Resources and Evaluation, Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa & Raquel Silva (eds), 1179–1182. Paris: ELRA.

. 2005. Técnicas para o desenvolvemento de dicionarios de tradución a partir de córpora aplicadas na xeración do Dicionario CLUVI Inglés-Galego. In Viceversa 11: 159–171.

Gómez Guinovart Xavier & Simões, Alberto. 2009. Parallel corpus-based bilingual terminology extraction. In Proceedings of the 8th International Conference on Terminology and Artificial Intelligence. Toulouse: Université Paul Sabatier. <[URL]> (28 April 2017).

Gómez Guinovart, Xavier & Simões, Alberto. 2010. Translation dictionaries triangulation. In Proceedings of FALA2010: VI Jornadas en Tecnología del Habla & II Iberian SLTech, Carmen García Mateo, Francisco Campillo Díaz & Francisco Méndez Pazó (eds), 171–174. Vigo: Universidade de Vigo.

Gómez Guinovart, Xavier & Torres Padín, Ánxeles. 2006. Extracción dun vocabulario xurídico-administrativo galego-castelán a partir dun corpus paralelo. In Terminología y derecho: la complejidad de la comunicación multilingüe, M. Teresa Cabré, Carme Bach & Jaume Martí (eds), 175–188. Barcelona: Universitat Pompeu Fabra.

Gómez Guinovart, Xavier, Díaz Rodríguez, Eva & Álvarez Lugrís, Alberto. 2008. Aplicacións da lexicografía bilingüe baseada en córpora na elaboración do Dicionario CLUVI inglés-galego. Viceversa 14: 71–87.

Gómez Guinovart, Xavier. 2012. A hybrid corpus-based approach to bilingual terminology extraction. In Encoding the Past, Decoding the Future: Corpora in the 21st Century , Isabel Moskowich-Spiegel Fandiño & Begoña Crespo (eds), 147–175. Newcastle upon Tyne: Cambridge Scholar Publishing.

Keshtkar, Hossein & Mosavi Miangah, Tayebeh. 2012. Using Bilingual Parallel Corpora in Translation Memory Systems. International Journal of Applied Linguistics and English Literature 1.5: 184–193.

Koehn, Philipp. 2005. EuroParl: A Parallel Corpus for Statistical Machine Translation. In MT Summit X: The Tenth Machine Translation Summit Proceedings, 79–86. Tokyo: Asia-Pacific Association for Machine Translation.

Landes, Shari, Leacock, Claudia & Tengi, Randee I. 1998. Building semantic concordances. In WordNet: An Electronic Lexical Database, Christiane Fellbaum (ed), 199–216. Cambridge: The MIT Press.

Mikhailov, Mikhail & Cooper, Robert. 2016. Corpus Linguistics for Translation and Contrastive Studies: A Guide for Research. Abingdon: Routledge.

Miller, George A., Beckwith, Richard, Fellbaum, Christiane, Gross, Derek & Miller, Katherine. 1990. WordNet: An On-line Lexical Database. International Journal of Lexicography 3: 235–244.

Montero Perez, Maribel, Paulussen, Hans Macken, Lieve & Desmet, Piet. 2014. From input to output: the potential of parallel corpora for CALL. Language Resources and Evaluation 48.1: 165–189.

Moreira, Adonay. 2010. Estratégias de tradução em sites das regiões de turismo de Portugal: estudo baseado em corpus. Polissema: Revista de Letras do ISCAP 10: 13–42.

. 2011a. The translator as cultural mediator: a corpus-based study of omissions and additions in translations of tourism brochures. The Journal of Cultural Mediation 1: 86–95.

. 2011b. Turigal: compilation of a parallel corpus for bilingual terminology extraction. In Actas del III Congreso Internacional de Lingüística de Corpus: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus, María Luisa Carrió & Miguel Ángel Candel (eds), 33–42. València: Universitat Politècnica de València.

. 2014. A methodology for building a translator- and translation-oriented terminological resource. In inTRAlinea Special Issue: Translation & Lexicography, María Sánchez, María Porciel & Iris Serrat (eds). < [URL] > (28 April 2017).

Santos, Diana. 2004. Translation-based Corpus Studies: Contrasting English and Portuguese Tense and Aspect Systems. Amsterdam: Rodopi.

Savourel, Yves. 2005. TMX 1.4b Specification. Localisation Industry Standards Association. <[URL]> (28 April 2017).

Simões, Alberto & Gómez Guinovart, Xavier. 2009. Terminology extraction from English–Portuguese and English–Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns. In Proceedings of the Iberian SLTech 2009 - I Joint SIG-IL/Microsoft Workshop on Speech and Language Technologies for Iberian Languages, António Teixeira, Miguel Sales Dias & Daniela Braga (eds), 13–16. Porto Salvo: Designeed.

Simões, Alberto, Gómez Guinovart, Xavier & Almeida, José João. 2004. Distributed translation memories implementation using WebServices. Procesamiento del Lenguaje Natural 33: 89–94.

Solla Portela, Miguel Anxo & Gómez Guinovart, Xavier. 2015. Galnet: o WordNet do galego. Aplicacións lexicolóxicas e terminolóxicas. Revista Galega de Filoloxía 16: 169–201.

. 2017. Diseño y elaboración del corpus SemCor del gallego anotado semánticamente con WordNet 3.0. Procesamiento del Lenguaje Natural 59: 137–140.

Sotelo Dios Patricia & Guinovart Xavier, Gómez. 2012. A multimedia parallel corpus of English–Galician film subtitling. In 1st Symposium on Languages, Applications and Technologies, Alberto Simões, Ricardo Queirós & Daniela da Cruz (eds), 255–266. Saarbrücken: Dagstuhl Publishing.

Sotelo Dios, Patricia. 2011. Using a multimedia parallel corpus to investigate English–Galician subtitling. In Proceedings of the SDH 2011 Conference: Supporting Digital Humanities, Bente Maegaard (ed). Copenhagen: University of Copenhagen. <[URL]> (28 April 2017).

. 2015. Using a multimedia corpus of subtitles in translation training. In Affordances of Language Corpora for Data-driven Learning, Agnieszka Leńko-Szymańska & Alex Boulton (eds), 245–266. Amsterdam: John Benjamins.

. 2016. Adquisición de competencias en traducción audiovisual mediante un corpus multimedia. In New Insigths into Corpora and Translation, Daniel Gallego Hernández (ed), 1–16. Newcastle upon Tyne: Cambridge Scholars Publishing.

Tiedemann, Jörg. 2012. Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation, Nicoletta Calzolari, Khalid Choukri,Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk & Stelios Piperidis (eds), 2214–2218. Istanbul: ELRA.

Tufiş, Dan. 2007. Exploiting Aligned Parallel Corpora in Multilingual Studies and Applications. In Intercultural Collaboration, Toru Ishida, Susan R. Fussell & Peek Vossen (eds), 103–117. Berlin: Springer.

Véronis, Jean, ed. 2000. Parallel Text Processing: Alignement and Use of Translation Corpora. Dordrecht: Kluwer.

Vossen, Piek. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Norwell: Kluwer Academic Publishers.

. 2002. WordNet, EuroWordNet and Global WordNet. Revue française de linguistique appliquée 7: 27–38.