Article published In: Terminology
Vol. 28:2 (2022) ► pp.264–298
Repérage automatisé de l’hyponymie dans des corpus spécialisés en français à l’aide de Sketch Engine
Article language: French
Published online: 12 May 2022
https://doi.org/10.1075/term.20044.san
https://doi.org/10.1075/term.20044.san
Abstract
Hyponymy is an essential semantic relation in terminology, as it represents the hierarchical organization of concepts. Much has been written about hyponymy extraction. However, terminologists working with French do not currently have user-friendly and freely available tools to automatically extract hyper-hyponymic pairs from their own corpora. This paper presents the most recent version of the ESSG (EcoLexicon Semantic Sketch Grammar) methodology, a knowledge-pattern-based approach that enables Sketch Engine to extract semantic relations. This methodology is applied to the development and evaluation of the ESSG-fr, a semantic sketch grammar for hyponymy extraction in French. The evaluation results show that the ESSG-fr is a reliable domain-independent tool for terminologists wishing to extract simple hyper-hyponymic pairs and the corresponding concordances from specialized corpora.
Keywords: knowledge patterns, hyponymy, hyponym extraction, corpus, word sketches
Article outline
- 1.Introduction
- 2.L’hyponymie
- 3.Contextes riches en connaissances et patrons de connaissances
- 3.1Systèmes d’extraction de relations sémantiques basés sur des patrons de connaissances
- 3.2Extraction de relations sémantiques sous forme de word sketches
- 4.La méthodologie ESSG
- 4.1Collecte de patrons de connaissances
- 4.2Encodage des patrons de connaissances
- 4.3Enrichissement et peaufinage des règles
- 4.4Évaluation des règles
- 4.5Évaluation des word sketches
- 5.Évaluation de l’ESSG-fr au moyen des word sketches
- 5.1Matériel et méthodes
- 5.2Résultats et discussion
- 6.Conclusions et travail futur
- Remerciements
- Remarque
Références
References (61)
Auger, Alain. 1997. « Repérage des énoncés d’intérêt définitoire dans les bases de données textuelles ». Thèse de doctorat, Université de Neuchâtel.
Auger, Alain, et Caroline Barrière. 2010. « Probing Semantic Relations ». Dans Probing Semantic Relations: Exploration and Identification in Specialized Texts, sous la direction d’Alain Auger et Caroline Barrière, 1–18. Amsterdam: John Benjamins.
Aussenac-Gilles, Nathalie, et Marie-Paule Jacques. 2008. « Designing and Evaluating Patterns for Relation Acquisition from Texts with CAMÉLÉON ». Terminology 14 (1): 45–73.
Aussenac-Gilles, Nathalie, et Patrick Séguéla. 2000. « Les relations sémantiques : du linguistique au formel ». Cahiers de grammaire, 251: 175–98.
Barrière, Caroline, et Akakpo Agbago. 2006. « TerminoWeb: A Software Environment for Term Study in Rich Contexts ». Dans Conference on Terminology, Standardisation and Technology Transfer (TSTT 2006), 103–13. Pékin.
Barsalou, Lawrence W. 2010. « Ad Hoc Categories ». Dans The Cambridge Encyclopedia of the Language Sciences, sous la direction de Patrick Colm Hogan, 86–87. New York: Cambridge University Press.
Borillo, Andrée. 1996. « Exploration automatisée de textes de spécialité : repérage et identification de la relation lexicale d’hyperonymie ». Linx 34–351: 113–24.
Bowker, Lynne. 1997. « Multidimensional Classification of Concepts and Terms ». Dans Handbook of Terminology Management: Volume 1: Basic Aspects of Terminology Management, sous la direction de Sue Ellen Wright et Gerhard Budin, 133–43. Amsterdam: John Benjamins.
. 2003. « Lexical Knowledge Patterns, Semantic Relations, and Language Varieties: Exploring the Possibilities for Refining Information Retrieval in an International Context ». Cataloging & Classification Quarterly 37 (1–2): 153–71.
Condamines, Anne. 2000. « “Chez” dans un corpus de sciences naturelles : un marqueur de relation méronymique? » Cahiers de lexicologie 771: 165–87.
. 2005. « Anaphore nominale infidèle et hyperonymie : le rôle du genre textuel ». Revue de Sémantique et Pragmatique 181: 23–42.
. 2008. « Taking Genre into Account When Analysing Conceptual Relation Patterns ». Corpora 3 (2): 115–40.
. 2018. « Terminological Knowledge Bases from Texts to Terms, from Terms to Texts ». The Routledge Handbook of Lexicography, sous la direction de Pedro A. Fuertes-Olivera, 335–49. Oxford: Routledge.
Dancette, Jeanne. 2011. « L’intégration des relations sémantiques dans les dictionnaires spécialisés multilingues : du corpus ciblé à l’organisation des connaissances ». Meta 56 (2): 284–300.
Drouin, Patrick. 2003. « Term Extraction Using Non-technical Corpora as a Point of Leverage ». Terminology 9 (1): 99–115.
. 2010. « Extracting a Bilingual Transdisciplinary Scientific Lexicon ». Dans eLexicography in the 21st century: new challenges, new applications, sous la direction de Sylviane Granger et Magali Paquot, 43–53. Louvain-la-Neuve: Presses Universitaires de Louvain.
Faber, Pamela (dir.). 2012. A Cognitive Linguistics View of Terminology and Specialized Language. Berlin, Boston: De Gruyter Mouton.
. 2015. « Frames as a Framework for Terminology ». Dans Handbook of Terminology, sous la direction de Hendrik. J. Kockaert et Frieda Steurs, vol. 11:14–33. Amsterdam: John Benjamins.
Faber, Pamela, Pilar León Araúz, et Juan Antonio Prieto Velasco. 2009. « Semantic Relations, Dynamicity, and Terminological Knowledge Bases ». Current Issues in Language Studies 1(1):1–23.
Faralli, Stefano, Els Lefever, et Simone Paolo Ponzetto. 2018. « MISA: Multilingual “ISA” Extraction from Corpora ». Dans LREC 2018 – 11th International Conference on Language Resources and Evaluation, sous la direction de Nicoletta Calzolari, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Koiti Hasida, Hitoshi Isahara, et al., 2040–44. Miyazaki: ELRA.
Garcia, Daniela. 1998. « Exploitation, pour l’élaboration de requêtes de filtrage de textes, des connaissances causales détectées par COATIS ». Dans Rencontre internationale sur le filtrage et le résumé automatique (RIFRA’98), 44–54. Sfax.
Halskov, Jakob, et Caroline Barrière. 2008. « Web-Based Extraction of Semantic Relation Instances for Terminology Work ». Terminology 14 (1): 20–44.
Hearst, Marti A. 1992. « Automatic Acquisition of Hyponyms from Large Text Corpora ». Dans Actes de COLING-92, 539–45. Morristown, NJ: International Committee on Computational Linguistics.
Jakubíček, Miloš, Adam Kilgarriff, Diana McCarthy, et Pavel Rychlý. 2010. « Fast Syntactic Searching in Very Large Corpora for Many Languages ». Dans Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, sous la direction de Ryo Otoguro, Kiyoshi Ishikawa, Hiroshi Umemoto, Kei Yoshimoto, et Yasunari Harada, 741–47. Sendai: Institute of Digital Enhancement of Cognitive Processing, Waseda University.
Jouis, Christophe. 1995. « SEEK, un logiciel d’acquisition des connaissances utilisant un savoir linguistique sans employer de connaissances sur le monde externe ». Dans Actes des 6ème Journées Acquisition, Validation (JAVA 95), INRIA, 159–72. Grenoble.
Kageura, Kyo. 1997. « Multifaceted/Multidimensional Concept Systems ». Dans Handbook of Terminology Management. Volume 1: Basic Aspects of Terminology Management, sous la direction de Sue Ellen Wright et Gerhard Budin, 119–32. Amsterdam: John Benjamins.
Kilgarriff, Adam, Vít Baisa, Jan Bušta, Miloš Jakubíček, Vojtěch Kovář, Jan Michelfeit, Pavel Rychlý, et Vít Suchomel. 2014. « The Sketch Engine: Ten Years On ». Lexicography 1 (1): 7–36.
L’Homme, Marie-Claude. 2020. Lexical Semantics for Terminology. Amsterdam: John Benjamins.
Laurence, Stephen, et Eric Margolis. 1999. « Concepts and Cognitive Science ». Dans Concepts: Core Readings, sous la direction d’Eric Margolis et Stephen Laurence, 3–81. Cambridge, MA: MIT Press.
Lefeuvre, Luce, Kevin Coustot, Anne Condamines, et Josette Rebeyrolle. 2017. « MAR-REL : Liste de candidats-marqueurs français pour les relations d’hyperonymie, de méronymie et de cause ». Toulouse: Laboratoire Cognition, Langues, Langage, Ergonomie (CLLE). [URL]
León-Araúz, Pilar. 2017. « Term and Concept Variation in Specialized Knowledge Dynamics ». Dans Multiple perspectives on Terminological Variation, sous la direction de Patrick Drouin, Aline Francœur, John Humbley, et Aurélie Picton, 213–58. Amsterdam: John Benjamins.
León-Araúz, Pilar, et Pamela Faber. 2010. « Natural and Contextual Constraints for Domain-Specific Relations ». Dans Proceedings of the Workshop Semantic Relations. Theory and Applications, sous la direction de Verginica Barbu Mititelu, Viktor Pekar, et Eduard Barbu, 12–17. La Vallette.
León-Araúz, Pilar, et Antonio San Martín. 2012. « Multidimensional Categorization in Terminological Definitions ». Dans Proceedings of the 15th EURALEX International Congress, sous la direction de Ruth Vatvedt Fjeld et Julie Matilde Torjusen, 578–84. Oslo: EURALEX.
. 2018. « The EcoLexicon Semantic Sketch Grammar: From Knowledge Patterns to Word Sketches ». Dans Proceedings of the LREC 2018 Workshop “Globalex 2018 – Lexicography & WordNets”, sous la direction d’Ilan Kerneman et Simon Krek, 94–99. Miyazaki: Globalex.
León-Araúz, Pilar, Antonio San Martín, et Pamela Faber. 2016. « Pattern-Based Word Sketches for the Extraction of Semantic Relations ». Dans Proceedings of the 5th International Workshop on Computational Terminology, sous la direction de Patrick Drouin, Natalia Grabar, Thierry Hamon, Kyo Kageura, et Koichi Takeuchi, 73–82. Osaka.
León-Araúz, Pilar, Antonio San Martín, et Arianne Reimerink. 2018. « The EcoLexicon English Corpus as an Open Corpus in Sketch Engine ». Dans Proceedings of the 18th EURALEX International Congress, sous la direction de Jaka Čibej, Vojko Gorjanc, Iztok Kosem, et Simon Krek, 893–901. Ljubljana: Euralex.
Maia, Belinda, et Sérgio Matos. 2008. « Corpógrafo V. 4 – Tools for Researchers and Teachers Using Comparable Corpora ». Dans Proceedings of the LREC 2008 Workshop on Comparable Corpora, sous la direction de Pierre Zweigenbaum, Éric Gaussier, et Pascale Fung, 79–82. Marrakesh.
Malaisé, Véronique, Pierre Zweigenbaum, et Bruno Bachimont. 2004. « Detecting Semantic Relations between Terms in Definitions ». Dans 3rd Edition of CompuTerm Workshop (CompuTerm 2004), sous la direction de Sophia Ananiadou et Pierre Zweigenbaum, 55–62. Genève.
Marshman, Elizabeth. 2014. « Enriching Terminology Resources with Knowledge-Rich Contexts: A Case Study ». Terminology 20 (2): 225–49.
Marshman, Elizabeth, Marie-Claude L’Homme, et Victoria Surtees. 2008. « Verbal Markers of Cause-Effect Relations across Corpora ». Dans Managing Ontologies and Lexical Resources. Proceedings of the 8th International Conference on Terminology and Knowledge Engineering, TKE’2008, sous la direction de Bodil Nistrup Madsen et Hanne Erdman Thomsen, 159–73. Copenhagen.
Meyer, Ingrid. 2001. « Extracting Knowledge-Rich Contexts for Terminography ». Dans Recent Advances in Computational Terminology, sous la direction de Didier Bourigault, Christian Jacquemin, et Marie-Claude L’Homme, 279–302. Amsterdam: John Benjamins.
Meyer, Ingrid, Karen Eck, et Douglas Skuce. 1997. « Systematic Concept Analysis within a Knowledge-Based Approach to Terminology ». Dans Handbook of Terminology Management. Volume 1: Basic Aspects of Terminology Management, sous la direction de Sue Ellen Wright et Gerhard Budin, 98–118. Amsterdam: John Benjamins.
Meyer, Ingrid, Kristen Mackintosh, Caroline Barrière, et Tricia Morgan. 1999. « Conceptual Sampling for Terminographical Corpus Analysis. » Dans Proceedings of Terminology and Knowledge Engineering, TKE’1999, 256–67. Innsbruck.
Morin, Emmanuel. 1999. « Acquisition de patrons lexico-syntaxiques caractéristiques d’une relation sémantique ». Traitement automatique des langues 401: 143–66.
Nazar, Rogelio, Jorge Vivaldi, et Leo Wanner. 2012. « Automatic Taxonomy Extraction for Specialized Domains Using Distributional Semantics ». Terminology 18 (2): 188–225.
Pantel, Patrick, et Marco Pennacchiotti. 2006. « Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations ». Dans COLING/ACL 2006 – 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, sous la direction de Nicoletta Calzolari, Claire Cardie, et Pierre Isabelle, 113–20. Sydney.
Rebeyrolle, Josette, et Ludovic Tanguy. 2000. « Repérage automatique de structures linguistiques en corpus : le cas des énoncés définitoires ». Cahiers de grammaire 251: 153–74.
Rogers, Margaret. 2004. « Multidimensionality in Concepts Systems: A Bilingual Textual Perspective ». Terminology 10 (2): 215–40.
Rosch, Eleanor. 1978. « Principles of Categorization ». Dans Cognition and Categorization, sous la direction d’Eleanor Rosch et Barbara B. Lloyd, 27–48. Hillsdale, NJ: Lawrence Erlbaum Associates.
Rosch, Eleanor, Carolyn B. Mervis, Wayne D. Gray, David M. Johnson, et Penny Boyes-Braem. 1976. « Basic Objects in Natural Categories ». Cognitive Psychology 8 (3): 382–439.
Rychlý, Pavel. 2016. « Evaluation of the Sketch Engine Thesaurus on Analogy Queries ». Dans Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, sous la direction d’Aleš Horák, Pavel Rychlý, et Adam Rambousek, 147–52. Brno: Tribun EU.
San Martín, Antonio. 2016. « La representación de la variación contextual mediante definiciones terminológicas flexibles ». Thèse de doctorat, Université de Grenade.
. 2022. « A Flexible Approach to Terminological Definitions: Representing Thematic Variation ». International Journal of Lexicography 35(1): 53–74.
San Martín, Antonio, Catherine Trekker, et Pilar León-Araúz. 2020. « Extraction of Hyponymic Relations in French with Knowledge-Pattern-Based Word Sketches ». Dans Proceedings of The 12th Language Resources and Evaluation Conference, sous la direction de Nicoletta Calzolari, Frédéric Béchet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, et al., 5955–63. Marseille: European Language Resources Association.
Schutz, Alexander, et Paul Buitelaar. 2005. « RelExt: A Tool for Relation Extraction from Text in Ontology Extension ». Dans The Semantic Web – ISWC 2005. ISWC 2005. Lecture Notes in Computer Science, sous la direction de Yolanda Gil, Enrico Motta, V. Richard Benjamins, et Mark A. Musen, 593–606. Berlin, Heidelberg: Springer.
Tiedemann, Jörg. 2012. « Parallel Data, Tools and Interfaces in OPUS ». Dans Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012, sous la direction de Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, et Stelios Piperidis, 2214–18. Istanbul.
Cited by (2)
Cited by two other publications
Pitirimova, T.V., K.D. Arabaji, A.A. Bogdanova & I.I. Sofina
San Martín, Antonio & Catherine Trekker
2025. Discovering hyponymic knowledge patterns in English. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication
This list is based on CrossRef data as of 6 december 2025. Please note that it may not be complete. Sources presented here have been supplied by the respective publishers. Any errors therein should be reported to them.
