Article published In: Revue Romane
Vol. 51:2 (2016) ► pp.189–220
I corpora diacronici delle lingue romanze
Costituzione e funzionalità
Article language: Italian
Published online: 17 November 2016
https://doi.org/10.1075/rro.51.2.01sch
https://doi.org/10.1075/rro.51.2.01sch
This paper presents a survey of the diachronic corpora available online for the study of the Romance languages. In the first place the makeup of each corpus is described, indicating the number of texts and tokens included and the manner of classification of the documents following chronological, typological and diatopic criteria. After having examined the problems involved in lemmatization and morphosyntactic annotation, the paper will look at query options with a view to possible research into lexicon, morphology, syntax and semantics. A short conclusion will consist in the presentation of the MIDIA corpus, published in June 2014, which represents the first tool devised for the study of Italian from a lengthy diachronic perspective (from the earliest texts to the mid-twentieth century).
References (54)
CICA (Corpus Informatitzat del Català Antic) : [URL]
CORDE (Corpus Diacrónico del Español) : [URL]
Corpus de l’Español : [URL]
Corpus do Português : [URL]
Frantext : [URL]
Corpus OVI dell’Italiano antico : [URL]
MIDIA (Morfologia dell’Italiano in DIAcronia) : [URL]
Barbera, M. (2013a) : Per una soluzione teorica e storica dei rapporti tra grammatica generativa e linguistica dei corpora, in : Id., Molti occhi sono meglio di uno: saggi di linguistica generale 2008-12. Qu.A.S.A.R., Milano, pp. 27–45.
. (2013b) : Linguistica dei corpora, in : Iannaccaro, G. (a cura di): La linguistica italiana all’alba del terzo millennio (1997-2010). Società di linguistica italiana, 58, Bulzoni, Roma, pp. 581–598.
. (2013c) : Linguistica dei corpora e linguistica dei corpora italiana. Un’introduzione. Qu.A.S.A.R., Milano.
. (2011) : “Partes Orationis”, “Parts of Speech”, “Tagset” e dintorni. Un prospetto storico-linguistico, in : Borghi, G. & Rizza, A. (a cura di): Anatolistica Indoeuropeistica e Oltre - nelle Memorie dei Seminarî offerti da Onofrio Carruba (Anni 1997-2002), al Medesimo presentate. “Antiqui Aevi grammaticae artis studiorum consensus. Series maior” 1, tomo I1, Qu.A.S.A.R., Milano, pp. 113–145.
Barbera, M. & C. Marello (2001) : L’annotazione morfosintattica del Padua Corpus: strategie adottate e problemi di acquisizione. Revue Romane, 36, 1, pp. 3–20.
Baroni, M. (2010) : Corpora di italiano, in : Enciclopedia dell’Italiano, consultabile all’indirizzo web [URL]
Beggiato, F., S. Marinetti & S. Marroni (2002) : AMIA (Analizzatore Morfosintattico dell’Italiano Antico). La comunicazione, XIII1, pp. 149–150.
Bernardi, R., A. Bolognesi, C. Seidenari & F. Tamburini (2006) : POS tagset design for Italian, in :
LREC, Proceedings of the Fifth International Conference on Language Resources and Evaluation
, 22-28 maggio, ELRA, Genova, pp. 1396–1401.
Clavería, G. & J. Torruella (2011) : La clasificación de los modelos tipológicos en los corpus informatizados, in : Actas del II Congreso Internacional Tradición e Innovación: Nuevas perspectivas para la edición y el estudio de documentos antiguos, organitzat pel Grupo Charta (Corpus hispánico y Americano en la Red : Textos antiguos), a la Université de Neuchâtel, els dies 7–9 de setembre 2011, in stampa.
D’Achille, P. & Grossmann, M. (a cura di) (2016) : Per la storia della formazione delle parole in italiano:un nuovo corpus in rete (MIDIA) e nuove prospettive di studio, Cesati, Firenze, 2016.
Davidse, K., L. Vandelanotte & H. Cuyckens (2010) (a cura di) : Subjectification, intersubjectification and grammaticalization. De Gruyter, Berlin / New York.
Davies, M. (2009) : Creating useful historical corpora. A comparison of CORDE, the Corpus del Español and the Corpus do Português, in : Enrique-Arias, A. (a cura di) : Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus. Iberoamericana / Vervuert, Frankfurt / Madrid, pp. 139–169.
Frank, B. & J. Hartmann (1997) : Inventaire systématique des premiers documents des langues romanes. Narr, Tübingen.
Frank, B. (2010) : Traditions discursives et élaboration écrite des langues romanes au Moyen Âge. Aemilianense, II1, pp. 13–36.
Fried, M. (2009) : Representing contextual factors in language change: Between frames and constructions, in : Bergs, A. & Diewald, G. (a cura di): Contexts and constructions. John Benjamins, Amsterdam, pp. 63–83.
Heidinger, S. & F. Schäfer (2008) : On the French reflexive passive and anticausative. A diachronic view from the par-phrase, in : Fagard, B., Prevost, S., Combettes, B. & Bertrand, O. (a cura di), Évolutions en français. Études de linguistique diachronique. Peter Lang, Bern, pp. 135–152.
Hug, M. (2002) : Désambiguïsation automatique d’homographes verbe/nom, in : Morin, A. et Sébillot, P. (éd.): JADT 2002, 6e Journées internationales d’analyse des données textuelles, vol. 11. IRISA, Rennespp, pp.371–379.
Iacobini, C. & F. Masini (2009) : I verbi sintagmatici dell’italiano fra innovazione e persistenza: il ruolo dei dialetti, in : Cardinaletti, A. e Munaro, N. (a cura di), Italiano, italiani regionali e dialetti. Franco Angeli Editore, Milano, pp. 115–136.
Iacobini, C., A. De Rosa, G. Schirato (2014) : Part-of-Speech tagging strategy for MIDIA: A diachronic corpus of the Italian language, in : Basili, R., Lenci, A. & Magnini, B. (a cura di):
Proceedings of the First Italian Conference on Computational Linguistics (CLiC-it)
, 9-10 December. Pisa University Press, Pisa, pp. 213–218.
Kabatek, J., C.D. Pusch & W. Raible (2005) : Romance corpus linguistics and language change – an introduction to the present volume, in : Pusch, C.D., Kabatek, J. & Raible, W. (a cura di): Romanistische Korpuslinguistik II: Korpora und diachrone Sprachwissenschaft / Romance corpus linguistics II: corpora and diachronic linguistics. Gunter Narr Verlag, Tübingen, pp. 1–10.
Koch, P. (1993) : Pour une typologie conceptionnelle et mediale des plus anciens documents/monuments des langues romanes», in : Selig, M., Frank, B. et Hartmann, J. (a cura di): Le passage à l’écrit des langues romanes. Gunter Narr Verlag, Tübingen, pp. 39–81.
Legallois, D. (2007) : Le connecteur histoire (de) au regard de ses occurrences dans Frantext. Syntaxe et Sémantique, 81, pp. 61–74.
Lenci, A. (2013) : Linguistica computazionale, in : Iannaccaro, G. (a cura di), La linguistica italiana all’alba del terzo millennio (1997-2010). Società di linguistica italiana, 58, Bulzoni, Roma, pp. 917–940.
Macoveiciuc M. & A. Kilgariff (2010) : The RoWaC Corpus and Romanian word sketches, in : Tufiş, D. & Forăscu, C. (eds.): Multilinguality and interoperability in language processing with emphasis on Romanian. Romanian Academy Publishing House, Bucarest, pp. 149–166.
Massanell Messalles, M. (2009) : Beneficios de los corpus informatizados para la investigación diacrónica: el caso del CICA para la GCA y los auxiliares de perfecto, in : Romero Aguilera, L. y Julià Luna, C. (a cura di) : Tendencias actuales en la investigación diacrónica de la lengua. Actas del VIII Congreso Nacional de la Asociación de Jóvenes Investigacores de Historiografía e Historia de la Lengua Española (AJIHLE), Publicacions i Edicions de la Universitat de Barcelona, Barcelona, pp. 147–158.
Montserrat, S. (2012) :
Continuar + gerundi i seguir + gerundi: un estudi de corpus. eHumanista/IVITRA, 21, pp. 148–184.
Muller, C. (2009) : Une cartographie des indéfinis free choice du français. Syntaxe et sémantique, 101. pp. 65–78.
Oesterreicher, W. (2001) : La “recontextualización” de los géneros medievales como tarea hermenéutica, in : Jacob, D. y Kabatek, J. (a cura di): Lengua medieval y tradiciones discursivas en la Península Ibérica. Iberoamericana / Vervuert, Frankfurt / Madrid, pp. 199–231.
Onelli, C., D. Proietti, C. Seidenari & F. Tamburini (2006) : The DiaCORIS Project: A diachronic corpus of written Italian, in :
LREC, Proceedings of the Fifth International Conference on Language Resources and Evaluation
, 22-28 maggio, ELRA, Genova, pp. 1212–1215.
Passarotti, M. (2003) : La lemmatizzazione. Cos’è, perché si deve fare, come io credo convenga farla. Griselda ([URL]).
Petrucci, L. (1994) : Il problema delle Origini e i più antichi testi italiani, in : Serianni, L. e Trifone, P. (a cura di.): Storia della lingua italiana III: Le altre lingue, Einaudi, Torino, pp. 5–73.
Pountain, C.J. (2012) : Valores sociolingüísticos y funcionales de los posesivos en el español peninsular del siglo XVI, in : Montero E. (a cura di): Actas del IX Congreso Internacional de Historia de la Lengua Española (Santiago de Compostela, 14-18 de septiembre de 2009), vol. I1. Meubook-Unidigital S. L., Santiago de Compostela, pp. 1059–1072.
Rauber, A.L. & M.M.D. Texeira (2013) : A variação semântico-funcional de ‘sendo que’ no português europeu entre os séculos XVI a XX, in : IV Simpósio Mundial de Estudos de Língua Portuguesa, 2013, Goiânia. Anais do IV SIMELP: Ultrapassando fronteiras, unindo culturas. Goiânia : UFG, v. 11. pp. 1798–1807.
Salvi, G. & L. Renzi (a cura di) (2010) : Grammatica dell’italiano antico, Il Mulino, Bologna, 2010.
Sánchez, C. (2009) : Corpus diacrónicos y periodización del español. Cahiers d’études hispaniques médiévales, 321, pp. 159–180.
Sánchez-Marco, C., G. Boleda, J.M. Fontana & J. Domingo (2010) : Annotation and representation of a diachronic corpus of Spanish, in :
LREC, Proceedings of the International Conference on Language Resources and Evaluation
, 17-23 May, ELRA, Valletta, pp. 2713–2718.
Selig, M. (2001) : La tipología de los textos primitivos, in : Jacob, D. y Kabatek, J. (a cura di): Lengua medieval y tradiciones discursivas en la Península Ibérica. Iberoamericana / Vervuert, Frankfurt / Madrid, pp. 233–248.
Sosnowski, R. (2010) : La deissi spaziale: dal sistema ternario al sistema binario – un cambiamento recente, in : Tempo e memoria nella lingua e nella letteratura italiana. Atti del XVII congresso A.I.P.I. (Ascoli Piceno, 22-26 agosto 2006). Civiltà Italiana, 5, vol. I1, Pubblicazioni dell’Associazione Internazionale Professori d’Italiano, pp. 143–54.
Tamburini, F. (2000) : Annotazione grammaticale e lemmatizzazione di corpora in italiano, in : Rossini Favretti, R. (a cura di): Linguistica e informatica: multimedialità, corpora e percorsi di apprendimento. Bulzoni, Roma, pp. 57–73.
Torruella, J. (2009) : Los ejes principales en el diseño de un corpus diacrónico: el caso del Cica, in : Cantos, P. & Sánchez, A. (a cura di): A survey on corpus-based research / Panorama de investigaciones basadas en corpus. Asociación Española de Lingüística del Corpus, Murcia, pp. 21–36.
Vázquez, I. (2013) : Estructuras sintácticas construidas con infinitivo. Semejanzas y diferencias entre español y portugués. Limite, 71, pp. 181–215.
Venturi, G. (2009) : Rassegna comparativa degli schemi di annotazione morfosintattica per la lingua italiana. Rapporto Tecnico TRIPLE - RTT/1, febbraio 2009, disponibile sul sito TRIPLE alla pagina [URL]
Voghera, M. (2014) : Tipi di testo e contesto nei processi di grammaticalizzazione: riflessioni basate su corpora. Comunicazione presentata al
Convegno DIA III. Strutture e dinamismo della variazione e del cambiamento
, Napoli, 24-27 novembre 2014.
