Article published In: Revista Española de Lingüística Aplicada/Spanish Journal of Applied Linguistics
Vol. 33:2 (2020) ► pp.416–442
Sources and steps of corpus lemmatization
Old English anomalous verbs
Published online: 10 February 2021
https://doi.org/10.1075/resla.18024.gar
https://doi.org/10.1075/resla.18024.gar
Abstract
This article describes the steps and results of the lemmatization of the derived anomalous verbs of Old English. The data
have been retrieved from The Dictionary of Old English Web Corpus, searched through the lexical database from the
Nerthus Project called Norna. The methodology comprises several steps combining automatic searches on
the lemmatizer and manual revision. Part of the results, including the verbs starting with the letters A to H, are compared with the
Dictionary of Old English, while the rest of the lemmas are checked with the standard Old English dictionaries
(Clark-Hall, Sweet and Bosworth-Toller). The discussion leads to the conclusion that the lemmatization of the verbs of Old English, a
language with a remarkable degree of spelling variation, requires considerable manual revision. However, the progressive improvement of
automatic searches, based on the comparison of the initial results with the available lexicographical sources, minimizes the need for manual
adjustment.
Keywords: lemmatization, Old English, lexical database, corpus linguistics, lexicography
Resumen
Fuentes y pasos para la lematización en corpus: Los verbos anómalos de Inglés Antiguo
Este artículo describe el procedimiento y los resultados de la lematización de los verbos anómalos derivados de
Inglés Antiguo. Los datos se han obtenido de The Dictionary of Old English Web Corpus, sobre el que se han lanzado
búsquedas por medio de la base de datos léxica Norna. La metodología consiste en varios pasos que combinan búsquedas
automáticas en el lematizador y revisión manual de los resultados. Los verbos de la A a la H se han comparado con el Dictionary of
Old English, mientras que el resto de los lemas se revisan con ayuda de los diccionarios estándar de Inglés Antiguo (Clark-Hall,
Sweet and Bosworth-Toller). Las conclusiones insisten en la necesidad de revisión manual cuando se lematizan verbos de Inglés Antiguo dado
el alto grado de variación de esta lengua. Sin embargo, el método puede refinarse con el perfeccionamiento de las búsquedas automáticas,
basándose en la comparación de los resultados con las fuentes lexicográficas disponibles, y así reducir la necesidad de revisión manual.
Palabras clave: lematización, Inglés Antiguo, base de datos léxica, lingüística de corpus, lexicografía
Article outline
- 1.Aims and relevance of the research
- 2.Sources. The lemmatizer Norna
- 3.Research methodology
- 4.Results
- 5.Discussion
- 6.Conclusion
References
References (28)
Databases and corpora
Healey, A. diPaolo (Ed.), Price Wilkin, J., & Xiang, X. (2004). The Dictionary of Old English Web Corpus. Toronto: Dictionary of Old English Project, Centre for Medieval Studies, University of Toronto.
Martín Arista, J. (Ed.), García Fernández, L., Lacalle Palacios, M., Ojanguren López, A. E., & Ruiz Narbona, E. (2016). NerthusV3. Online Lexical Database of Old English. Nerthus Project. Universidad de La Rioja.
Rissanen, M., Kytö, M., Kahlas-Tarkka, L., Kilpiö, M., Nevanlinna, S., Taavitsainen, I., Nevalainen, T., & Raumolin-Brunberg, H. (1991). The Helsinki Corpus of English Texts. Department of Modern Languages, University of Helsinki.
Bibliographical references
(1971). The Holy Bible Translated from the Latin Vulgate (Douay-Rheims Version). Rockford: Tan books and publishers.
Brunner, K. (1965). Altenglische Grammatik nach der Angelsӓchsischen Grammatik von Eduard Sievers. Tübingen: Max Niemeyer Verlag.
Healey, A. diPaolo (Ed.) (2008). The Dictionary of Old English in Electronic Form A- H. Toronto: Dictionary of Old English Project, Centre for Medieval Studies, University of Toronto.
Hogg, R. M. (1992). Phonology and morphology. In R. M. Hogg (Ed.), The Cambridge History of the English Language I: The Beginnings to 1066 (pp. 67–167). Cambridge: Cambridge University Press.
Kastovsky, D. (1992). Semantics and vocabulary. In R. M. Hogg (Ed.), The Cambridge History of the English Language I: The Beginnings to 1066 (pp. 209–408). Cambridge: Cambridge University Press.
Mailhammer, R. (2006). On the origin of the Germanic strong verb system. Sprachwissenschaft, 31(1), 1–52.
(2007). The Germanic Strong Verbs: Foundations and Development of a New System, Trends in Linguistics. Berlin: Mouton De Gruyter.
(2008). The Typological Significance of Ablaut in the (Pre-)history of English. In W. Rudolf, T. Honegger & A. J. Johnston (Eds.), Clerks, Wives, and Historians: Essays on Medieval English Language and Literature (pp. 185–212). Bern: Peter Lang.
Martín Arista, J. (2013). Nerthus. Lexical Database of Old English: From Word- Formation to Meaning Construction. Lecture delivered at the English Linguistics Research Seminar (Center for Research in Humanities), University of Sheffield.
Metola Rodríguez, D. (2015). Lemmatisation of Old English Strong Verbs on a Lexical Database. PhD Dissertation, Department of Modern Languages, University of La Rioja.
(2017). Strong Verb Lemmas from a Corpus of Old English. Advances and issues. Revista de Lingüística y Lenguas Aplicadas, 121, 65–76.
Miller, T. (Ed.). (1890). The Old English Version of Bede’s Ecclesiastical History of the English People. London: N. Trübner and Co.
Cited by (1)
Cited by one other publication
This list is based on CrossRef data as of 30 november 2025. Please note that it may not be complete. Sources presented here have been supplied by the respective publishers. Any errors therein should be reported to them.
