Article published In: Researching Occitan in the 21st Century: Un dialòg interdisciplinari
Edited by Marc Olivier and Anna Paradis
[Revue Romane 60:1] 2025
► pp. 30–42
Framework to build and lemmatise an Occitan historical corpus
Published online: 15 December 2025
https://doi.org/10.1075/rro.25009.cou
https://doi.org/10.1075/rro.25009.cou
Abstract
This paper presents a framework for building lemmatised Occitan corpora, focusing on early modern texts. Due to
strong dialectal and diachronic variation, lemmatisation is essential for enabling cross-text and cross-period comparison. We
adopt a semi-automatic approach based on the Pie neural model, combining tokenisation, super-lemma selection, and
POS tagging aligned with Universal Dependencies. Initial experiments on 17th–18th century texts show promising results,
particularly for frequent and grammatical words, while highlighting challenges with unknown lemmas. Despite its exploratory scope,
the study demonstrates the feasibility of cost-effective corpus construction and lays the groundwork for a larger, more
representative language model of Occitan.
Keywords: Occitan, lemmatisation, corpus linguistics, historical linguistics, POS tagging
Article outline
- 1.Occitan corpus linguistics and lemmatisation
- 2.General guidelines
- 2.1Tokenisation
- 2.2Lemmas
- 2.3POS tagging
- 3.From fac-simile to annotated data
- 3.1Data
- 3.1.2Methodology and results
- 3.1.3Exemples of research question
- 3.1Data
- 4.Conclusion
- Note
References
References (24)
Alibèrt, L. ([1976]
2000). Gramatica occitan segon los parlars lengadocians. Tolosa, Barcelona, IEO, IEC.
Francioni, B., Romanova, N., Ziane, R. (2025). First
steps towards building a treebank of Old Gascon. Talk
at Data in Historical Linguistics
seminar, London, King’s College.
Bras, M., Vergez-Couret, M., & Sibille, J. (2024). Corpus
et bases de données. Manuel de linguistique
occitane, Berlin, DeGruyter, 523–542.
Camps, J. B., Couffignal, G. (2020). La
production de corpus d’occitan médiéval et prémoderne : problèmes et perspectives de
travail, in Jean-François Courouau et David Fabié (dir.), Fidélités
et dissidences / Fidelitats et dissidéncias, actes du XIIe Congrès de l’Association Internationale d’Études
Occitanes. Toulouse, SFAIEO, vol. 21, 639–652.
Chambon, J. P. (2017). Brèves
remarques sur le Tresor dóu Felibrige de Frédéric
Mistral. In Méthodes de recherche en linguistique et en philologie
romanes. Strasbourg, EliPhi, 259–274.
Couffignal, G. (forth.
a). Philologie numérique et données bruitées : un exemple de recherche sur l’occitan
prémoderne, in Robert Hesselbach et Tanja Prohl (dir.) Approches
numériques des corpus historiques des langues de France.
(forth.
b). Le noël occitan imprimé à Toulouse au XVIIe siècle : une approche
textométrique. In Littératures classiques, special issue directed by
J.F. Courouau.
Courouau, J. F. (2024). Contact
avec le français et registres de l’occitan moderne (XVIe-XVIIIe
siècle), Lengas, 941, [URL]
Field, T. (2013). The
Linguistic Corpus of Old Gascon. Database for linguistic research on Southwestern
France, [URL]
Léonard, J.-L., Brun-Trigaud, G., Picard, F. (2024). Atlas
linguistiques et perspectives dialectométriques. In Manuel de
linguistique
occitane. Berlin, DeGruyter, 473–520.
Manjavacas, E., Kádár, Á., and Kestemont, M. (2019). Improving
Lemmatization of Non-Standard Languages with Joint
Learning. In Proceedings of the 2019 Conference of the North American
Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short
Papers). Minneapolis, Minnesota. Association for Computational Linguistics, 1493–1503.
Miletić, A. (2023). Outiller
l’occitan: nouvelles ressources et lemmatisation. In 18e Conférence
en Recherche d’Information et Applications--16e Rencontres Jeunes Chercheurs en RI--30e Conférence sur le Traitement
Automatique des Langues Naturelles--25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des
Langues. ATALA, 217–231.
Miletić, A., and Siewert, J. (2023). Lemmatization Experiments on Two Low-Resourced Languages: Low Saxon and Occitan. In Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023), Dubrovnik, Association for Computational Linguistics, 163–173.
Miletić, A., Bras, M., Vergez-Couret, M., Esher, L., Poujade, C., & Sibille, J. (2020). A
four-dialect treebank for Occitan: Building process and parsing
experiments. In Proceedings of the 7th Workshop on NLP for Similar
Languages, Varieties and Dialects, 140–149.
Mistral, F. (1878). Lou
Tresor dòu Felibrige ou dictionnaire
provençal-français. Avignon, Veuve Remondet-Aubin.
Rainsford, Thomas M. 2025. Old Gallo-Romance
Corpus, version
1.0. Stuttgart: Institut für Linguistik/Romanistik. 〈[URL]〉
Raynouard, F. J. M. (1840). Lexique
roman, ou, dictionnaire de la langue des
troubadours. Paris, Silvestre.
Sauzet, P. (2014). Idiomacitat
e diglossia. In Amb un fil d’amistat. Mélanges offerts à Philippe
Gardy. Toulouse, SFAIEO, 855–866.
Scrivner, O., Kübler, S., Vance, B., & Beuerlein, E. (2013). Le
Roman de Flamenca: An annotated corpus of old Occitan. In Proceedings
of the Third Workshop on Annotation of Corpora for Research in
Humanities, 85–96.
Stempel, W. D., Selig, M., Kraus, C., Peter, R., & Tausend, M. (1996). Dictionnaire
de l’occitan médiéval (DOM en ligne), [URL]
Thalamus team (2014). Édition critique
numérique du manuscrit AA9 des Archives municipales de Montpellier dit Le Petit
Thalamus. Université Paul Valéry Montpellier-III, [URL]
