Article published In: Diachronica
Vol. 40:2 (2023) ► pp.238–285
Large-scale computerized forward reconstruction yields new perspectives in French diachronic phonology
Published online: 28 November 2022
https://doi.org/10.1075/dia.20027.mar
https://doi.org/10.1075/dia.20027.mar
Abstract
Traditionally, historical phonologists have relied on tedious manual derivations to sequence the sound changes that have shaped the phonological evolution of languages. However, humans are prone to errors, and cannot track thousands of parallel derivations in any efficient manner. We demonstrate computerized forward reconstruction (CFR), deriving each etymon in parallel, as a task with metrics to optimize, and as a tool which drastically facilitates inquiry. To this end we present DiaSim, an application which simulates “cascades” of diachronic developments over a language’s lexicon and provides various diagnostics for “debugging” those cascades. We test our method on a Latin-to-French reflex prediction task, using a newly compiled, publicly available dataset FLLex consisting of 1368 paired Latin and Modern French forms. We also introduce a second dataset, FLLAPS, which maps 310 reflexes from Latin through five attested intermediate stages up to Modern French, derived from Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press. periodic development tables. We present publicly available rule cascades: the baseline BaseCLEF and BaseCLEF* cascades, based on Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press. widely-cited view of French development, and DiaCLEF, made from incremental corrections to BaseCLEF aided by DiaSim’s diagnostics. DiaCLEF outperforms the baselines by large margins, improving raw accuracy on FLLex from 3.2% to 84.9% of etyma, with similarly large improvements for each of FLLAPS’ periods. Changes were made to build DiaCLEF considering only the baseline and DiaSim’s diagnostics, but they often independently reproduced past work in French diachronic phonology, corroborating both our procedure and past endeavors; we discuss the implications of some of our findings in detail.
Résumé
Pour ordonner des modifications phonétiques qui ont façonné l’évolution phonologique de chaque langue, la recherche en phonologie historique s’appuie traditionnellement sur de fastidieuses dérivations manuelles. Cependant, le cerveau humain est enclin à l’erreur et n’a pas la capacité suffisante pour suivre des milliers de dérivations en parallèle. Nous démontrons la reconstruction informatisée de chaque lexème en parallèle comme tâche de calcul avec des métriques d’optimalité, ainsi qu’un outil pour faciliter drastiquement l’empirisme. Dans ce but, nous présentons « DiaSim », une application qui simule des « cascades » de processus diachroniques sur tout le lexique, tout en proposant des diagnostics pour le « débogage » desdites cascades. Nous appliquons notre méthode à une tâche de prédiction réflexe par reconstruction en avant en utilisant FLLex, un nouvel ensemble de données que nous avons compilé et rendons accessibles au public, comprenant 1368 couples de formes latinfrançais. Nous avons également produit et publions un second ensemble de données, FLLAPS, qui associe à 310 racines latines leur évolution via cinq étapes intermédiaires jusqu’au français moderne; ces trajectoires ont été obtenues grâce aux tables de développement de Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press.. Nous présentons trois cascades accessibles au public : les cascades de références BaseCLEF et BaseCLEF*, dérivées de l’approche traditionnelle de la diachronologie française par Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press.; et DiaCLEF, qui s’obtient en corrigeant BaseCLEF suivant les diagnostics de DiaSim. DiaCLEF surpasse largement les références, faisant passer la précision brute sur FLLex de 3.2% à 84.9% d’étymons avec des gains semblables pour chacune des étapes intermédiaires de FLLAPS. Étant donné que les modifications effectuées pour construire DiaCLEF furent appliquées sans se référer aux recherches passées, leur accord avec les conclusions de diverses travaux antérieurs corrobore à la fois la méthode traditionnelle et notre amélioration de celle-ci; nous examinons en détail les implications de certains de nos résultats.
Zusammenfassung
Um die Sequenzen von Lautänderungen zu ordnen, die die phonologische Entwicklung von Sprachen prägten, haben sich Phonologen bisher auf mühsam von Hand hergeleitete Ableitungen verlassen. Solche Ableitungen sind jedoch fehleranfällig und es ist schwierig, tausende davon in effizienter Weise parallel zu verfolgen. Wir zeigen, wie unser automatisches Verfahren, computerized forward reconstruction (CFR), jedes lexikalische Element automatisch ableitet, was sowohl für Rechenaufgaben mit optimierbaren Metriken als auch als Hilfsmittel für empirische Untersuchungen genutzt werden kann. Zu diesem Zweck stellen wir DiaSim vor, eine Applikation, die ‚Kaskaden‘ diachronischer Entwicklungen über das Lexikon einer Sprache simuliert und verschiedene Diagnosen zum ‚Debuggen‘ dieser Kaskaden bereitstellt. Wir testen unsere Methode anhand einer Reflex-Vorhersage von Latein nach Französisch unter Verwendung eines neu kompilierten, öffentlich verfügbaren Datensatzes FLLex, der aus 1368 gepaarten lateinischen und modernen französischen Formen besteht. Außerdem präsentieren wir einen zweiten Datensatz, FLLAPS, der 310 Reflexe aus dem Lateinischen über fünf attestierte Zwischenstufen bis ins moderne Französische abbildet und aus den periodischen Entwicklungstabellen von Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press. abgeleitet ist. Weiter stellen wir öffentlich verfügbare Regelkaskaden vor:die Basiskaskaden BaseCLEF und BaseCLEF*, die auf Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press. vielzitierter Annahme zur Entwicklung des Französischen basieren, und DiaCLEF, die aus inkrementellen Korrekturen an BaseCLEF mit diagnositscher Hilfe von DiaSim erstellt wurden. DiaCLEF übertrifft die Basislinien um ein Vielfaches und verbessert die Genauigkeit von FLLex von 3.2% zu 84.9% aller Etyma mit ähnlich großen Verbesserungen für jede FLLAPS-Periode. Veränderungen wurden vorgenommen, um DiaClef nur mithilfe eines Ausgangswerts und DiaSims diagnostischen Kriterien arbeiten zu lassen, aber oftmals reproduzierten sie unabhängig voneinander bestehende Forschungsresultate zur französischen Sprachgeschichte, was sowohl unsere Methoden als auch bestehende Analysen bestätigt. Wir diskutieren die Implikationen einiger unserer Resultate im Detail.
Article outline
- 1.Introduction
- 2.Background
- 2.1French phonological history
- 2.2Computerized forward reconstruction (CFR)
- 3.Contributions
- 4.Iterative refinement of an analysis using DiaSim
- 5.DiaSim
- 5.1Transparent mass simulation
- 5.1.1Performance metrics
- 5.2Diagnostics
- 5.3Consistency with longstanding theory
- 5.1Transparent mass simulation
- 6.Datasets
- 6.1FLLex
- 6.2FLLAPS
- 7.Rule cascades
- 7.1BaseCLEF
- 7.2DiaCLEF
- 8.Results and discussion
- 8.1A regular account of “sporadic” k-voicing
- 8.2Major re-orderings
- 8.2.1Alveolar deaffrication counterfeeding vowel lengthening
- 8.3Retention of Latin b/v distinction into Gallo-Roman
- 8.4Classical French grammarians as reliable primary sources?
- 8.4.1Dating of /rr/ degemination
- 8.4.2Pre-rhotic lowering: Prescriptivist miracle or prescriptivist error?
- 9.Conclusion
- Acknowledgements
- Notes
References
References (100)
Adamik, Béla. 2017a. On the Vulgar Latin merger of /b/ and /w/ and its correlation with the loss of intervocalic /w/: Dialectological evidence from inscriptions. Pallas. Revue d’études antiques 1031. 25–36.
. 2017b. Potential Greek influence on the Vulgar Latin sound change [b]>[𝛽]: Dialectological evidence from inscriptions. Acta Antiqua Academiae Scientiarum Hungaricae 57(1). 11–33.
Adams, Douglas Q. 1975. The distribution of retracted sibilants in medieval Europe. Language 282–292.
Adams, James Noel. 2007. The regional diversification of Latin 200 BC-AD 600. Cambridge: Cambridge University Press.
ATILF. 1998–2019a. glas. [URL]. (August 29, 2019).
ATILF, (Analyse et Traitement Informatique de la Langue Française). 1998–2018. Trésor de la langue français informatisé. Université de Lorraine, CNRS. At [URL]
. 1998–2019b. dartre. In Trésor de la langue française informatisé, Université de Lorraine, CNRS. At [URL]. (November 16, 2019).
. 1998–2019c. glaive. In Trésor de la langue française informatisé, Université de Lorraine, CNRS. At [URL]. (August 29, 2019).
. 1998–2019d. marchand. In Trésor de la langue française informatisé, Université de Lorraine, CNRS. At [URL]. (November 16, 2019).
. 1998–2019e. marché. In Trésor de la langue française informatisé, Université de Lorraine, CNRS. At [URL]. (November 16, 2019).
. 1998–2019f. par. In Trésor de la langue française informatisé, Université de Lorraine, CNRS. At [URL]. (November 16, 2019).
. 1998–2019g. parchemin. In Tlfi (trésor de la Langue Française) informatisé), Université de Lorraine, CNRS. At [URL]. (November 16, 2019).
Banniard, Michel. 2001. Causes et rythmes du changement langagier en Occident Latin (IIIe-VIIIe s.). Travaux Neuchatelois de Linguistique (Tranel) 34(35). 85–99.
Barbarino, Joseph L. 2018. The evolution of the Latin /b/-/ṷ/ merger: A quantitative and comparative analysis of the B-V alternation in Latin inscriptions. [URL]. (September 3, 2019).
Blom, Alderik. 2009. Lingua gallica, lingua celtica: Gaulish, Gallo-Latin, or Gallo-Romance? Keltische Forschungen 41. 7–54
Borin, Lars. 1988. A computer model of sound change: An example from Old Church Slavic. Literary and Linguistic Computing 3(2). 105–108.
Bourciez, Édouard & Jean Bourciez. 1967. Phonétique française: étude historique. Tradition de l’humanisme. Paris: Klincksieck.
Bourciez, Édouard Eugène Joseph. 1889. Précis historique de phonétique française: ou exposé des loi qui régissent la transformation des mots latins en français. Paris: Klincksieck.
Brunot, Ferdinand & Gustave Charlier. 1927. Histoire de la langue française des origines à 1900, t. vii. la propagation du français en France jusqu’à la fin de l’Ancien Régime. Revue belge de Philologie et d’Histoire 6(1). 326–330.
Buckley, Eugene. 2003. The phonetic origin and phonological extension of Gallo-Roman palatalization. In First north-american phonology conference, vol. 11, Montreal: Concordia University.
Burton-Hunter, Sarah K. 1976. Romance etymology: A computerized model. Computers and the Humanities 10(4). 217–220.
de la Chaussée, François. 1974. Initiation à la phonétique historique de l’ancien français. Paris: Klincksieck.
Cravens, Thomas. 2002. Comparative historical phonology: Italo-Romance clues to Ibero-Romance sound change. Amsterdam: John Benjamins Publishing.
Delattre, Pierre. 1946. Stages of Old French phonetic changes observed in Modern Spanish. Publications of the Modern Language Association of America 7–41.
Dendien, Jacques & Jean-Marie Pierrel. 2003. Le Trésor de la Langue Française informatisé: un exemple d’informatisation d’un dictionnaire de langue de référence. Traitement automatique des langues 44(2). 11–37.
Diefenbach, Lorenz. 1831. Ueber die jetzigen romanischen schriftsprachen, die spanische, portugiesische, rhätoromanische, in der schweiz, französische, italiaänische nd dakoromaische, in mehren ländern des östlichen Europa, mit vorbemerkungen über Entstehung, Verwandtschaft usw dieses, Sprachstammes. Frankfurt am Main: J. Ricker.
Diez, Friedrich. 1836. Grammatik der romanischen Sprachen, 3 vols. Bonn: Weber (3rd ed. 1870– 1872).
Dunn, Michael. 2015. Language phylogenies. In The Routledge handbook of historical linguistics, 208–229. New York, NY: Routledge.
Eastlack, Charles L. 1977. Iberochange: A program to simulate systematic sound change in IberoRomance. Computers and the Humanities 11(2). 81–88.
Esau, Helmut. 1976. The medieval German sibilants /s/ and /ʐ/. The Journal of English and Germanic Philology 75(1/2). 188–197. [URL]
Figge, Udo. 1966. Die romanische anlautsonorisation. Bonn: Romanisches Seminar der Universität Bonn.
File-Muriel, Richard J. & Earl K. Brown. 2011. The gradient nature of s-lenition in Caleño Spanish. Language Variation and Change 23(2). 223–243. (February 28, 2021).
Fought, John. 1979. The ‘medieval sibilants’ of the Eulalia-Ludwigslied manuscript and their development in early Old French. Language 842–858.
Gleason, Henry A. 1959. Counting and calculating for historical reconstruction. Anthropological Linguistics 11. 22–32.
Grimes, Joseph E. & Frederick B. Agard. 1959. Linguistic divergence in Romance. Language 35(4). 598–604.
Hartman, Lee. 2003. Phono (version 4.0): Software for modeling regular historical sound change. In Actas: Viii simposio internacional de comunicación social: Santiago de cuba, 20–24.
Herman, J. 1965. Aspects de la différenciation territoriale du latin sous l’empire. Paris: Klincksieck.
Hombert, Jean-Marie, Médard Mouele & Lai-Won Seo. 1991. Outils informatiques pour la linguistique historique bantu. Pholia 61. 131–136
Jackson, Kenneth Hurlstone. 1953. Language and history in early Britain: A chronological survey of the Brittonic languages, first to twelfth century A.D. Cambridge: Harvard University Press.
Janda, Richard D. & Brian D. Joseph. 2003. Reconsidering the canons of sound-change. In Historical linguistics 2001: Selected papers from the 15th International Conference on Historical Linguistics. 2371. 205–219. Amsterdam: John Benjamins Publishing.
Johnson, C Douglas. 1972/2019. Formal aspects of phonological description, Berlin: De Gruyter Mouton.
Kaplan, Ronald M. & Martin Kay. 1981. Phonological rules and finite-state transducers. In Linguistic Society of America meeting handbook, fifty-sixth annual meeting, 27–30.
Kiparsky, Paul & Jeff Good. 1968. Linguistic universals and language change. Universals in linguistic theory, 170–202.
Kondrak, Grzegorz. 2002. Algorithms for language reconstruction: University of Toronto dissertation.
Lodge, R Anthony. 2004. A sociolinguistic history of Parisian French. Cambridge: Cambridge University Press.
Lowe, John B. & Martine Mazaudon. 1994. The reconstruction engine: A computer implementation of the comparative method. Computational Linguistics 20(3). 381–417.
Lusignan, Serge. 1986. Parler vulgairement: les intellectuels et la langue française aux XIIIe et XIVe siècles, 11. Librairie philosophique J. Vrin; Montréal: Presses de l’Université de Montréal.
Machonis, Peter A. 1990. Histoire de la langue: du latin à l’ancien français. Lanham, MD: University Press of America.
Maniet, A. 1985. Un programme de phonologie diachronique: de l’«indo-européen» au latin par ordinateur; version définitive. Cahiers de l’Institut de linguistique de Louvain 11(1–2). 203–243.
Marchot, Paul. 1901. Petite phonétique du française prélittéraire (VIe-Xe siècles). Freiburg: B. Veith.
Marr, Clayton & David R. Mortensen. 2020. Computerized forward reconstruction for analysis in diachronic phonology, and Latin to French reflex prediction. In Proceedings of LT4HALA 2020–1st workshop on language technologies for historical and ancient languages, 28–36.
Mazzola, Michael L. 2013. Analogy among French sounds. In Research on old french: The state of the art, 149–165. Springer.
Morin, Yves-Charles. 2009. Histoire des systèmes phonique et graphique du français. Romanische Sprachgeschichte/Histoire linguistique de la Romania 31. 2907–2926.
Mortensen, David R., Patrick Littell, Akash Bharadwaj, Kartik Goyal, Chris Dyer & Lori Levin. 2016. PanPhon: A resource for mapping IPA segments to articulatory feature vectors. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical papers, 3475–3484.
Muzaffar, Towhid Bin. 1997. Computer simulation of Shawnee historical phonology: Memorial University of Newfoundland dissertation.
Noske, Roland. 2011. L’accent en proto-français: arguments factuels et typologiques contre l’influence du francique. In Congrès Mondial de Linguistique Française 2008, 307–320. Institut de Linguistique Française, Paris.
Nyrop, Kristoffer. 1899. Grammaire historique de la langue française vol. 3. Copenhague/Paris: Gyldendal/Nordisk Forlag.
Penzl, Herbert. 1968. Die mittelhochdeutschen sibilanten und ihre Weiterentwicklung. Word 24(1–3). 340–349.
Piwowarczyk, Dariusz. 2016. Abstract: A computational-linguistic approach to historical phonology. New Developments in the Quantitative Study of Languages 701.
Pope, Mildred Katharine. 1934. From Latin to Modern French with especial consideration of AngloNorman: Phonology and morphology. Manchester University Press.
Posner, Rebecca. 1994. Historical linguistics, language change and the history of French. Journal of French Language Studies 4(1). 75–97.
. 2011. Phonemic overlapping and repulsion revisited. General and Theoretical Linguistics 71. 235–243.
Pyysalo, Jouna. 2017. Proto-Indo-European lexicon: The generative etymological dictionary of Indo-European languages. In Proceedings of the 21st Nordic Conference on Computational Linguistics, nodalida, 22–24 May 2017, Gothenburg, Sweden 1311, 259–262. Linköping: Linköping University Electronic Press.
Recasens, Daniel. 2002. Weakening and strengthening in Romance revisited. Italian Journal of Linguistics 141. 327–374.
Richter, Elise. 1934. Beiträge zur Geschichte der Romanismen, i: Chronologische Phonetik des Französischen. Halle: Niemeyer.
Rochet, Bernard L. 2015. The formation and evolution of the French nasal vowels, vol. 1531. Berlin: De Gruyter.
Scheer, Tobias. 2014. Muta cum liquida in the light of Tertenia Sardinian metathesis and compensatory lengthening Latin tr> Old French vrr. In Variation within and across Romance languages: Selected papers from the 41st Linguistic Symposium on Romance Languages (LSRL), Ottawa, 5–7 May 2011, 77–100.
Simonet, Miquel, José I. Hualde & Marianna Nadeu. 2012. Lenition of /d/ in spontaneous Spanish and Catalan. In Thirteenth Annual Conference of the International Speech Communication Association, 1416–1419.
Sims-Williams, Patrick. 2018. Mechanising historical phonology. Transactions of the Philological Society 116(3). 555–573.
Smith, Raoul N. 1969. A computer simulation of phonological change. ITL-Tijdschrift voor Toegepaste Linguistiek 5(1). 82–91.
Straka, Georges. 1970. L’évolution phonétique du latin au français sous l’effet de l’énergie et de la faiblesse articulatoires. Centre de philologie et de littératures romanes.
Swadesh, Morris. 1952. Lexico-statistic dating of prehistoric ethnic contacts: with special reference to North American Indians and Eskimos. Proceedings of the American Philosophical Society 96(4). 452–463.
Thurot, Charles. 1881. De la prononciation française depuis le commencement du XVIe siècle: d’après les témoinages des grammairiens, vol. 11. Paris: Impr. nationale.
Van Horn Melton, James. 2003. Absolutism and the eighteenth-century origins of compulsory schooling in Prussia and Austria. Cambridge: Cambridge University Press.
Voyles, Joseph B. 1972. The phonetic quality of OHG Z. The Journal of English and Germanic Philology 71(1). 47–55. [URL]
von Wartburg, Walther et al. 1922–2002. Französisches Etymologisches Wörterbuch. eine darstellung des galloromanischen sprachschatzes. Klopp/Winter/Teubner/Zbinden. 251 vols.
Wehr, Barbara. 2001. Ein westlich-atlantischer sprachbund: Irisch, Französisch, Portugiesisch. In Fremd und Eigen. untersuchungen zu Grammatik und Wortschatz des Uralischen und Indogermanischen in memoriam Hartmut Katz, 253–78. Vienna: Edition Praesens.
Wernicke-Heinrichs, Meike. 1996. The evolution of French R: A phonological perspective: Theses (Dept. of French)/Simon Fraser University dissertation.
Cited by (2)
Cited by two other publications
Zuk, Fabian
This list is based on CrossRef data as of 8 december 2025. Please note that it may not be complete. Sources presented here have been supplied by the respective publishers. Any errors therein should be reported to them.
