Le problème de standardisation des ressources lexicales (parmi lesquelles on identifie les dictionnaires électroniques, les lexiques, les bases lexico-sémantiques) est un réel défi pour le domaine du Traitement Automatique des Langues (TAL). En effet, la construction de ressources lexicales monolingues et multilingues est une tâche difficile et coûteuse en temps et en ressources humaines. Malgré la disponibilité des méthodes d’extraction automatique des informations à partir des corpus, la construction de ressources lexicales nécessite une intervention manuelle pour la sélection des candidats, pour la structuration des informations. Les ressources lexicales peuvent contenir des informations très variées : informations morphosyntaxiques, syntaxiques, sémantiques. Les informations sont structurées en fonction de l’objectif final pour lequel le dictionnaire a été construit, pour consultation par un humain ou par un système de traitement automatique des langues. La structure du dictionnaire permet l’accès facile aux informations spécifiques et leur extraction automatique.
Les différences de choix quant à la structure et les données représentées dans les dictionnaires constituent des difficultés majeures pour la réutilisation des ressources dans le cadre d’autres applications et contextes d’utilisation. Les dictionnaires traditionnels à caractère encyclopédique (Le Petit Robert, Larousse) ne permettent pas facilement le partage des informations et sont disponibles en formats « propriétaires » et, par conséquent, peu réutilisables en dehors du contexte pour lequel ils ont été développés.
Par ailleurs, la communauté scientifique, en particulier dans le domaine du TAL, privilégie la réutilisation des ressources lexicales existantes ou des informations contenues dans certaines de ces ressources. Afin de rendre ces ressources partageables entre plusieurs applications informatiques, il est nécessaire que les dictionnaires respectent les standards et les normes disponibles, telles que Text Encoding Initiative (TEI1) ou Lexical Markup Framework (LMF2) aussi bien pour la structure des données que pour les normes de représentation des informations morphosyntaxiques.
Les expressions polylexicales en particulier, comme les collocations et les expressions idiomatiques, posent des problèmes pour la recherche et la représentation des informations syntaxiques et sémantiques pertinentes. Les collocations sont des expressions polylexicales, parfois discontinues, qui présentent un comportement syntaxique et sémantique propre (Gledhill, 2007) : prendre en considération, argument de poids, peur bleue, battre un record. Ces phénomènes sont difficiles à identifier par les systèmes de traitement automatique en raison de leurs propriétés syntaxiques et sémantiques propres. Si certaines de ces expressions sont figées (nid d’anges), d’autres sont plus variables (battre rapidement le record, battre plusieurs records). Leur traitement automatique nécessite des ressources spécialisées tels que les dictionnaires de collocations. Ainsi, des expressions idiomatiques sont présentes dans les exemples ou les définitions des dictionnaires électroniques, sans d’autres informations associées que la définition. D’autres ressources mettent l’accent sur les informations morphosyntaxiques ou syntaxiques de ces expressions. Chaque type d’information nécessite des stratégies différentes d’accès et d’interrogation.
Dans ce contexte, nous nous intéressons à la modélisation des dictionnaires électroniques de collocations en format LMF. Nous proposons un modèle LMF adapté pour la représentation de dictionnaires multilingues de collocations, permettant de représenter leurs propriétés morphosyntaxiques, des exemples d’utilisation, des définitions associées à ces expressions. Nous avons transformé un dictionnaire multilingue de collocations, disponible en français, roumain et allemand (Todirascu et al., 2008) en format LMF.
Nous allons présenter d’abord les dictionnaires informatisés et lexiques ainsi que leur choix de représentation des expressions polylexicales. Nous présentons la notion de collocations, leurs propriétés et les informations représentées dans les dictionnaires existants dédiés à la représentation de ces expressions. Nous présentons la structure de notre dictionnaire multilingue de collocations (Todirascu et al., 2008), construit sur la base du matériel lexical identifié à partir de corpus monolingues et multilingues. Les normes TEI et LMF seront présentées dans la section suivante. Nous discuterons le modèle LMF proposé avec des exemples extraits de notre dictionnaire dans la dernière section de l’article.
1. Dictionnaires informatisés versus lexiques pour le TAL
Les dictionnaires informatisés, tels que le TLFi, le Oxford Dictionary ou le Collins, sont construits d’après le modèle des dictionnaires classiques. La microstructure et la macrostructure (Rey-Debove 1971, Wiegand 1988) reprennent cette organisation. En ce qui concerne la macrostructure (l’ensemble des lemmes ou la nomenclature), les entrées sont organisées par ordre alphabétique. En général, une entrée correspond à une unité lexicale, ce qui inclut les mots simples, les mots composés à l’aide d’un signe tel que le tiret (porte-fenêtre) ou l’apostrophe, ou les mots composés résultant d’une affixation (décomposer). Les expressions polylexicales, telles que les collocations et les expressions idiomatiques, sont parfois présentes à titre d’exemples ou d’illustrations d’un sens particulier mais sans être utilisées comme mot vedette.
Les homonymes et des mots polysémiques demandent des stratégies différentes pour la représentation dans le dictionnaire. Ainsi, les homographes appartenant à des catégories lexicales différentes (politique — adjectif ou nom) sont représentés dans plusieurs entrées différentes. Pour les mots polysémiques, on fait souvent le choix de représenter tous les sens dans la même entrée.
La microstructure contient les informations attachées à chaque entrée lexicale. On y retrouve des informations concernant la catégorie lexicale, le genre (pour les noms), les définitions génériques et spécifiques à un ou plusieurs domaines, des citations illustrant le sens choisi et des expressions se formant à l’aide du mot vedette. Des informations concernant l’étymologie des mots et éventuellement des informations sur les procédés de formation de mots peuvent être présentes dans l’entrée, ainsi que des synonymes ou des antonymes. Parfois, ces informations sont complétées par des enregistrements sonores, par des informations concernant la fréquence d’usage dans des corpus de référence ou par des traductions proposées (Collins3, WordReference4).
Par rapport au format papier, les dictionnaires électroniques sont dotés des fonctions avancées de recherche dans la macrostructure ou la microstructure du dictionnaire. Ainsi, il est possible d’extraire une partie de la nomenclature à l’aide de recherches par expressions régulières dans le mot vedette ou dans les diverses parties de la microstructure, dans les définitions, les exemples ou la partie étymologique. C’est le cas des dictionnaires tels que celui de l’Académie française5, du Trésor de la Langue Française informatisé6. On peut mettre en valeur les liens de synonymie par des liens de type hypertexte ou encore des liens hyperonymiques/hyponymiques comme c’est le cas dans le Digitales Wörterbuch der deutschen Sprache (DWDS7, allemand) ou le Collins dictionary (anglais).
Les lexiques utilisés dans le domaine du traitement automatique des langues se concentrent sur certaines informations présentes dans les dictionnaires encyclopédiques. Les entrées sont des collections de formes fléchies, contenant la partie de discours, le lemme associé, les informations morphosyntaxiques correspondantes (genre et nombre pour les noms et les adjectifs, les modes et les temps pour les verbes) mais aussi la fréquence du mot dans des corpus de grande taille, tel que le Glàff8 (Hathout et al., 2014). Parfois, le lexique est une liste de lemmes. Pour chaque lemme, on représente la liste des formes fléchies correspondantes (Morphalou9) et les formes associées au lemme. En général, les collocations sont absentes de ces ressources.
Ces ressources limitent le nombre d’expressions polylexicales qui sont utilisées à titre d’exemple dans la plupart des ressources présentées et les recherches de ces expressions sont en général complexes. Les dictionnaires de collocations doivent palier ces problèmes d’accès à la ressource.
2. Dictionnaires de collocations
2.1. Collocations — problèmes définitoires
Les collocations ont fait l’objet de nombreuses études en TAL, en linguistique et en traduction. Du point de vue des linguistes, il s’agit des combinaisons de mots dont le sens n’est pas toujours compositionnel (Hausmann, 2004), « des associations de mots apparaissant souvent ensemble » (Firth, 1968 ; Sinclair, 1991) ou des expressions lexicalisées récurrentes qui sont reliées par des relations syntaxiques (Williams, 2003). Les collocations sont souvent considérées comme des cooccurrences privilégiées de deux mots (d’une base et d’un collocatif), reliées par des relations syntaxiques (Hausmann, 2004 ; Mel’čuk, 1992) ou une relation binaire entre deux éléments (Tutin, 2010 ; L’Homme, 2003). La base conserve son sens d’origine et le collocatif complète le sens de la base. Certaines collocations incluent comme base ou collocatif une autre collocation (Nerima et al, 2003). Sans prendre en compte en particulier une base, les collocations sont considérées comme unités polylexicales discontinues, ayant un comportement syntaxique spécifique et un sens souvent non-compositionnel (Gledhill, 2007 ; Odijk, 2013).
Dans une perspective TAL, les collocations sont identifiées par leur contexte et par leurs propriétés morphosyntaxiques (Ritz et Heid, 2006) ou alors par des critères statistiques (Manning et Schütze, 1999) ou une combinaison de deux approches (Ramisch, 2012). Des liens sémantiques s’établissent entre le noyau et les collocatifs (Polguère, 2003), décrits à l’aide de fonctions lexicales. Ces définitions montrent la diversité des propriétés à représenter dans un dictionnaire ou un lexique.
2.2. Les propriétés de collocations
Les collocations ont un comportement lexical bien défini : le choix des verbes ou des noms n’est pas toujours libre, répondant aux critères sémantiques et pragmatiques spécifiques. Pour ces expressions, une traduction mot-à-mot est souvent incorrecte (en français, poser une question et non *demander une question, mais ask a question est tout à fait acceptable en anglais). Souvent les collocations ont des propriétés morphosyntaxiques propres : certaines manifestent une forte préférence pour un nom avec déterminant zéro (tenir compte) ou défini (faire l’objet), alors que d’autres combinaisons sont plus variables et acceptent des modifieurs (prendre des mesures drastiques). En ce qui concerne le sens, il est plus ou moins compositionnel : les expressions idiomatiques ont un sens complètement différent de leurs éléments composants (jeter l’éponge = abandonner) ; mais pour certaines collocations, le sens reste encore déductible de ses éléments composants (battre un record, prendre des mesures).
De nombreuses études en linguistique (G. Gross 1996 ; Mel’čuk, 1984, 1988, 1992, 1999) identifient des propriétés syntaxiques et sémantiques pour les diverses catégories de collocations. M. Gross (1993) propose une constellation de propriétés lexico-syntaxiques et sémantiques, représentée dans les tables LADL10 (Laporte, 2000) pour décrire l’environnement syntaxique de certaines locutions verbales et expressions idiomatiques en français. Gaston Gross (1994) classifie certaines locutions par rapport aux critères d’opacité et de compositionnalité et propose une description de leurs propriétés syntaxiques et sémantiques contextuelles.
Malgré le manque de définition consensuelle, on peut constater que les collocations sont caractérisées par :
- des cooccurrences fréquentes des mots qui composent la collocation. Il s’agit des mots qui manifestent une forte association lexicale (Hausmann, 2004 ; Hoey, 2005) ;
- des relations lexico-syntaxiques qui s’établissent entre les composants de la collocation. Par exemple dans une collocation verbo-nominale, le nom est l’objet direct du verbe, ou dans une combinaison N de N (argument de poids), le deuxième nom est complément du nom de la base ;
- des combinaisons lexicalisées. Les collocations se combinent avec d’autres constituants syntaxiques, comme un mot simple (fait l’objet accepte un objet direct qui est introduit par la préposition de) ;
- un rôle pragmatique spécifique et un sens parfois opaque, non déductible à partir des sens des éléments qui la composent. En effet, l’usage impose l’appel à une collocation qui prend un sens différent de ses composants.
2.3. Quelles informations à représenter dans les dictionnaires de collocations ?
Les collocations sont peu représentées dans les dictionnaires informatisés ou dans les lexiques pour le TAL en raison de leur grande variabilité syntaxique. Les informations qui sont représentées sont dépendantes de l’objectif pour lequel le dictionnaire a été construit. Il est parfois difficile de représenter les propriétés mentionnées dans la section précédente dans un dictionnaire. De plus, il faut tenir compte de leur usage en contexte.
Pour un traducteur ou un apprenant d’une langue, il faut les lister dans un dictionnaire informatisé, avec leurs définitions et leurs propriétés. La Base lexicale du français (Verlinde et al., 2003) propose une liste complète de collocations, avec le sens associé. Les informations présentes dans ce dictionnaire sont très riches : les contextes syntaxiques d’utilisation, les patrons de sous-catégorisation, le sens et la définition de la collocation. Ces informations sont complétées par des requêtes faites sur corpus : JRC-Acquis (Steinberger et al., 2006), Europarl (Koehn, 2005), proposant des exemples extraits de corpus et des informations de fréquence.
Les informations représentées dans les dictionnaires de collocations reflètent le point de vue théorique adopté pour modéliser les collocations. Les dictionnaires qui sont inspirés par la théorie Sens-Texte (Mel’čuk, 1996) tels que LAF (Polguère, 2007), DicoWeb (Polguère, 2003) ou DICE (Alonso et al., 2010) représentent les liens entre des éléments à l’aide des fonctions lexicales, et la définition y est systématiquement proposée. En plus, les combinaisons syntaxiques disponibles sont représentées dans ces dictionnaires.
Pour les systèmes de traitement automatique, les dictionnaires doivent fournir des informations syntaxiques et sémantiques détaillées pour chaque collocation. On retrouve des informations dans certains lexiques développés pour le TAL. Dans les tables Lexique-Grammaire (M. Gross, 1994), on représente les contextes syntaxiques de chaque mot, avec un ensemble de contraintes qui s’appliquent sur les arguments (sujet, objet direct, objet indirect). Ces contraintes sont syntaxiques (les types de constituants acceptés), sémantiques (les sujets humains, non-humains) ou lexicales (Laporte, 2000). De même, le Lefff11 (Sagot, 2010) présente des propriétés syntaxiques du collocatif. Le Lexicoscope (Kraif et Diwersy, 2012) propose d’extraire des contextes associés à une analyse syntaxique.
D’autres dictionnaires de collocations tel que le DuELME12 (Odijk, 2013), disponible pour le néerlandais, regroupent les collocations par leur comportement syntaxique pour éviter les redondances. Ce dictionnaire représente les collocations par leurs patrons syntaxiques (qui s’appliquent à plusieurs collocations), les éléments qui composent la collocation, une glose et la traduction. La fréquence d’apparition des patrons et les propriétés morphologiques sont aussi représentées dans ce dictionnaire. D’autres dictionnaires de collocations sont développés pour un domaine spécialisé : le dictionnaire danois (Braatsch, Olsen, 2000), le dictionnaire franco-allemand de collocations nominales (Blumenthal, 2007), un dictionnaire extrait à l’aide d’un système d’extraction (Nerima et Wehrli, 2008). Ces ressources représentent l’ensemble des propriétés morphosyntaxiques associées aux collocations.
Nous identifions plusieurs catégories d’informations qui nous semblent nécessaires pour l’identification automatique des collocations ou pour consultation par un utilisateur humain :
- les propriétés morphosyntaxiques de collocations (les types d’arguments) ;
- les propriétés morphosyntaxiques des éléments qui composent la collocation (par exemple les modifieurs possibles, les préférences pour certains déterminants ou diathèse) ;
- la définition et des exemples illustrant cette définition ;
- les contextes d’utilisation et leur fréquence.
Les ressources lexicales présentées développent en général un seul aspect (syntaxique, sémantique). L’accès et l’extraction de ces informations est difficile en raison des formats spécifiques adoptés par chaque ressource. Une solution permettant d’améliorer la recherche et l’extraction des propriétés des collocations peut être représentée par les normes de représentation des dictionnaires, telles que la TEI et la LMF.
3. Normes pour la représentation des dictionnaires électroniques
Les standards et les normes de représentation facilitent le partage et la portabilité des ressources lexicales (Aristar-Dry et al., 2012). Parmi les normes utilisées pour structurer ces ressources (Mangeot et Enguehard, 2013), nous présentons la norme TEI et la norme LMF.
3.1. La norme TEI
La norme TEI a été créée pour la représentation standardisée des ressources électroniques en format numérique. La TEI est construite sur le langage à balise XML13 et est adoptée pour plusieurs ressources lexicales gérées par le projet ORTOLANG14.
Pour représenter les données des dictionnaires (dans une balise <lexicon>), la TEI prévoit deux types d’entrées : <entry>, ayant une structure rigide, comprenant des informations orthographiques, lexicales, définitions et exemples, étymologie, prononciation, et <entryFree> qui permet de rédiger l’article du dictionnaire d’une manière très libre, mais en combinant les mêmes éléments dans le désordre. Un dictionnaire est une liste d’éléments <entry> ou <entryFree>.
<entry>
<form><orth>axe</orth></form>
<gramGrp><pos>subst.</pos><gen>masc.</gen></gramGrp>
<sense n="1">
<def> Ligne qui partage un objet, un corps en deux parties symétriques dans le sens de la plus grande dimension </def>
<cit type="example"><quote>L’axe du corps humain.</quote></cit>
</sense>
</entry>
Une entrée <entry> contient des informations concernant la forme <form> (destinée à représenter la forme et la prononciation), les informations morphosyntaxiques (<gramGrp> contenant la partie de discours <pos> et le genre <gen>). Le <sense> regroupe la définition <def> et des exemples <cit>. Cette représentation ne laisse pas la place à la description des variations syntaxiques éventuelles (pour les expressions polylexicales). Le format proposé est plus adapté pour la représentation des dictionnaires électroniques que pour la consultation manuelle, mais il est aussi possible de représenter des lexiques pour le traitement automatique des langues. Toutefois, la représentation sous format TEI peut varier (par exemple, en cas d’homographes, on représente plusieurs possibilités sous une seule <entry>) ce qui limite parfois la possibilité de partager et de réutiliser les données. Par exemple, il est possible de changer l’interprétation de la balise <cit> pour identifier un lien vers une autre ressource électronique (corpus ou dictionnaire) ou vers une traduction (dans ce cas, le dictionnaire est orienté et la direction de traduction est importante).
Plusieurs dictionnaires s’inspirent de la TEI pour structurer les données dans un dictionnaire. Pour TLFPhraseo (Jacquey et al., 2018), les entrées sont des expressions idiomatiques et des collocations présentes dans le TLFi. Dans le TLFi, ces expressions sont accessibles via un mot vedette qui en fait partie : débarrasser la table et débarrasser le plancher sont disponibles dans l’entrée du verbe débarrasser. Dans TLFPhraseo, ces expressions deviennent des mots vedette. Pour une expression, plusieurs formes normalisées sont présentes (par exemple des mots composés écrits avec un tiret ou sans tiret), et on définit la propriété de contiguïté dans <gramGrp>.
Cette norme a l’avantage de respecter la structure et les informations que l’on trouve dans les dictionnaires en format papier, permettant des recherches similaires. Par contre, il n’est pas possible de représenter des variations syntaxiques ou morphologiques sous forme synthétique : il faut faire la liste exhaustive des variantes dans chaque entrée.
3.2. La norme Lexical Markup Framework (LMF)
Lexical Markup Framework (LMF), une norme ISO-24613:2008 (Francopoulo, 2013 ; Francopoulo et al., 2006a ; Romary, 2002) propose un modèle générique pour la représentation de toutes catégories de ressources lexicales : des lexiques pour le TAL, des bases lexico-sémantiques, des dictionnaires en format électronique. LMF représente les informations classiques à représenter dans le dictionnaire (lemme, définition) mais aussi des informations multilingues, syntaxiques ou sémantiques. De plus, cette norme prévoit de décrire les variations morphologiques et le comportement morpho-syntaxique des expressions polylexicales, par plusieurs extensions (Francopoulo et al, 2006a).
Selon la norme LMF15, une ressource lexicale contient un ou plusieurs lexiques monolingues <Lexicon>. Un lexique contient plusieurs entrées lexicales <LexicalEntry>. Une entrée contient la partie de discours du mot (<partOfSpeech>), le lemme (<Lemma>) et toutes les formes fléchies du mot (<Word Form>). Une entrée lexicale intègre un ou plusieurs sens (<Sens>). Un <Sens> est illustré par des exemples (<Sense Example>) et par une définition sémantique (<Semantic Definition>).
Les informations syntaxiques (<SyntacticBehavior>) sont associées à l’entrée lexicale <LexicalEntry>. Le comportement syntaxique de l’entrée est décrit par des patrons génériques <Subcategorization Frame>, composé par plusieurs arguments <Syntactic Argument> (on indique la fonction et le type de constituant).
Les entrées multilingues sont représentées dans le modèle LMF par l’intermédiaire d’un pivot <SenseAxis> (Francopoulo et al., 2006b). Chaque partie monolingue du dictionnaire a la même macrostructure et microstructure. Les correspondances entre les langues sont indiquées par la balise SenseAxis. Il est possible de changer facilement de direction de traduction. Dans l’exemple présenté dans l’annexe A, on indique les correspondances entre deux termes spécialisés du domaine médical, en format XML (gonadotrophine — gonadotropin).
Les expressions polylexicales sont représentées par des patrons permettant de combiner plusieurs mots dans une expression polylexicale et de représenter leur structure syntaxique. Les entrées du lexique peuvent être des expressions polylexicales, à l’aide de l’élément <ListOfComponents> qui regroupe plusieurs entrées lexicales <LexicalEntry> déjà présentes dans le dictionnaire.
Cette représentation modulaire permet une extraction facile des informations dans la ressource lexicale, d’une manière générique : on peut ainsi représenter les informations concernant les dictionnaires informatisés mais aussi des lexiques pour les applications de TAL. Il est possible de travailler avec les dictionnaires monolingues ou multilingues, et on peut facilement changer de direction de traduction. Les données ainsi représentées peuvent être réutilisées entre plusieurs applications. Si l’on a uniquement besoin d’informations morphologiques pour une application simple, on peut extraire ces informations sans utiliser la totalité des informations du dictionnaire. Ce modèle proposé par LMF est exhaustif, permettant la représentation d’une grande variété de ressources multilingues et monolingues.
Nombre de projets liés à la construction de ressources lexicales l’adoptent, qu’il s’agisse de lexiques en format électronique, de dictionnaires contenant des expressions multiples ou simples ou encore des dictionnaires multilingues : dictionnaires multilingues de noms propres (Bouchou et Maurel, 2008), ressources lexico-sémantiques (Eckle-Kohler et al., 2012), dictionnaire de synonymes (Henrich et Hinrichs, 2010), dictionnaires collaboratifs, tel que Wiktionnaire (Serraset, 2012), dictionnaires des langues peu outillées (Aristar-Dry et al., 2012 ; Salmon-Alt et al., 2005). Plusieurs projets de conversion des dictionnaires monolingues ont eu comme objectif la représentation en format LMF : les tables du Lexique-Grammaire (Laporte et al., 2013) ou le dictionnaire DuELME pour le néerlandais (Odijk, 2013). Dans la même lignée de travaux, nous présentons un dictionnaire de collocations (Todirascu et al., 2008) qui sera adapté à la norme LMF.
3.3. Un dictionnaire multilingue de collocations
Nous avons construit un dictionnaire (Todirascu et al., 2008) qui contient des collocations verbo-nominales et leurs équivalents en trois langues différentes (français, allemand, roumain), afin qu’il puisse être utilisé par un système de traitement automatique de langue. Les collocations sont des expressions polylexicales, parfois discontinues, ayant un comportement syntaxique et sémantique propre (Gledhill, 2007). Les collocations sont caractérisées par deux aspects : la fréquence d’apparition et les relations syntaxiques qui s’établissent entre les mots (prédicat-objet direct, etc.). Par ailleurs, les collocations manifestent une préférence marquée pour un nombre de propriétés contextuelles (dépendantes de langue) (Heid & Ritz, 2005) : le nom manifeste une préférence pour l’article défini ou apparaît sans déterminant, le complément direct du verbe est identifié par une préposition spécifique ou par une marque de cas (en allemand ou en roumain), le verbe apparaît souvent au passif, etc. Une analyse linguistique détaillée a permis d’identifier les propriétés morphosyntaxiques les plus pertinentes pour une extraction automatique, pour les trois langues étudiées (français, allemand, roumain) (Gledhill, 2007).
Deux classes de collocations verbo-nominales sont représentées dans le dictionnaire (Todirascu et al., 2008), suivant la définition de Gledhill (2009) :
- les prédicateurs complexes, qui ont des propriétés contextuelles figées : absence ou préférence pour le déterminant zéro, impossibilité de modifier le nom, impossibilité de mettre le verbe à la diathèse passive (mettre en œuvre, tenir compte, faire l’objet). De plus, le sens de ces expressions n’est pas compositionnel et expriment un procès relationnel (Halliday, 1985) ;
- les prédicats complexes, qui acceptent un degré plus important de variabilité (le nom peut être modifié par des adjectifs ou par des relatives). Au niveau sémantique, le verbe et le nom expriment ensemble un procès mental (Halliday, 1985) (prendre des mesures, arriver à un accord).
3.3.1. La macrostructure du dictionnaire
Nous avons sélectionné un nombre d’environ 250 collocations verbo-nominales pour chaque langue. Chaque entrée contient des équivalents de traduction qui nous ont permis de mettre en évidence plusieurs cas représentés dans le dictionnaire :
- l’équivalent de traduction est une collocation de la même catégorie qu’en langue source (ayant un sens non-compositionnel) (da naştere/ donner lieu) ;
- plusieurs collocations "libres" traduites mettent en évidence la préférence pour un verbe ou nom particulier (prendre des décisions, a lua decizii, make decisions) ;
- plusieurs collocations une seule unité comme équivalent (a repara daunele ‘réparer dommages-le’ = dédommager).
Le dictionnaire contient la fréquence d’apparitions des collocations et de leurs propriétés dans plusieurs corpus multilingues disponibles dans les trois langues étudiées : un extrait du corpus parallèle JRC-Acquis (Steinberger et al., 2006) et des corpus journalistiques et littéraires, de taille comparable (15 à 20 millions de mots/langue). Les corpus parallèles ont été alignés au niveau propositionnel et au niveau lexical (phrases et mots de la langue source et de la langue cible sont mis en correspondance, Todirascu et al., 2008).
À partir des corpus alignés au niveau lexical, nous avons extrait les équivalents de traductions des candidats collocationnels fréquents trouvés dans la langue source, dans les deux sens. Par l’intersection des listes d’équivalents de traduction, nous avons pu établir une liste d’entrées trilingues dans le dictionnaire.
3.3.2. La microstructure du dictionnaire multilingue
Notre dictionnaire est composé d’entrées multilingues (Todirascu et al., 2008). Chaque entrée contient des informations morphosyntaxiques et sémantiques pour chaque collocation, dans chaque langue étudiée. Une entrée regroupe des équivalents de traduction qui partagent le même sens (dans l’élément <te>).
Pour chaque collocation verbo-nominale, trois types d’informations sont présentes, représentés en langage XML propre :
- les informations concernant le verbe et ses propriétés <v_spec> (la préférence pour la diathèse passive ou impossibilité d’appliquer le passif) ;
- les informations concernant le nom et ses propriétés <n_spec> (préférence pour un déterminant particulier ou pour l’absence du déterminant, pour le singulier ou le pluriel). Pour chaque propriété, sa fréquence est calculée et représentée sous forme de pourcentage (l’attribut freq) ;
- une section pour représenter les informations des propriétés morphosyntaxiques propres aux collocations (<c_spec>):
<entry id= "1">
<te lang= "fr">
<complexitem>
<construction>mettre+en+berne</construction>
<v_spec><lemma>mettre</lemma></v_spec>
<prep>en</prep>
<n_spec>
<lemma>berne</lemma>
<det freq="100">null</det>
<nb freq="100">sg</nb>
</n_spec>
<c_spec>
<colloc_spec>
<required_args case="acc"> object </required_args>
<lexical_restriction compl="object">berne</lexical_restriction>
<colloc_type> complex_predicate</colloc_type>
</colloc_spec>
<colloc_documentation>
<colloc_LL value="2999.854" corpus="ACQ"/>
<examples><example> ... </example></examples>
</colloc_documentation>
</c_spec>
</complexitem>
</te>
</entry>
Les propriétés linguistiques spécifiques à la collocation (<colloc_spec>) sont :
- les arguments de la collocation (élément <required_args>), qui ont une préférence exprimée pour le cas et/ou de la préposition requise :
- tenir compte demande un objet direct (introduit par la préposition de) <required_args prep = "de"> p-object </required_args> ;
- pune+în+evidenţă (‘mettre+en+evidence’) entraîne un objet direct à l’accusatif : <required_args case = "acc"> direct_object </required_args> ;
- la tête lexicale d’un usage restreint de la collocation (élément <lexical_restriction>) : « mettre en berne » n’accepte guère comme compléments d’autres lexèmes que « drapeau » ou « pavillon ».
- les exemples. Un conteneur <colloc_documentation> permet de donner plusieurs exemples et de renseigner le Log-Likelihood (LL)16 calculé sur un corpus donné.
Cette représentation est adaptée à la classe de collocations que nous avons étudiée, les collocations verbo-nominales, mais elle reste peu réutilisable par d’autres applications. Pour ajouter d’autres catégories de collocations (nominales, adjectivales), et pour compléter la description des collocations, nous avons procédé à une transformation de cette structure de dictionnaire dans le format standardisé LMF.
4. Normalisation du dictionnaire
Afin de rendre la ressource développée compatible avec d’autres ressources et outils, nous avons choisi de la transformer selon la norme LMF (ISO ISO-24613:2008). Mis à part les informations de base, nous avons représenté plusieurs catégories d’informations spécifiques :
- nous utilisons <Lexical Entry> et <List Of Components> pour représenter à la fois des unités lexicales simples et les collocations.
- Les éléments <Syntactic Behavior>, <Subcategorisation Frame> et <Syntactic Argument> représentent le comportement syntaxique des collocations. Les collocations ont des comportements syntaxiques spécifiques, des préférences pour certaines catégories d’arguments.
- Les éléments <Sense>, <Sense Example> et <Semantic Definition>. L’information représentée dans <Sense> permet simplement de relier les entrées multilingues par <Sense Axis>.
- L’extension pour représenter les expressions polylexicales (MWEPattern). Cette extension permet de représenter la structure interne de la collocation et les relations qui s’établissent entre les divers éléments (<MWELex>, <MWENode>).
- L’extension pour représenter les patrons morphologiques (<MorphologicalPattern>, <TransformSet Process>, <GrammaticalFeatures>, <SynPattern>) permet de présenter les spécificités de chaque mot intégrant une collocation. De plus, on regroupe les mots par patrons morphologiques.
Nous avons ajouté un élément supplémentaire <Frequence> qui représente la fréquence d’apparition d’une configuration syntaxique ou d’une propriété particulière.
Notre dictionnaire de collocations contient une liste d’entrées multilingues, les expressions lexicales sont utilisées comme mot vedette dans ce dictionnaire.
4.1. Un exemple de représentation
Nous présentons un exemple de représentation pour la collocation tenir compte. L’entrée lexicale contient <ListOfComponents> qui font référence aux entrées lexicales du verbe tenir et du nom compte. Nous avons proposé la propriété « collocation » pour représenter cette classe d’expressions. <Sense> contient un identifiant unique, utilisé dans une balise <SenseAxis> qui définit les correspondances avec les autres langues.
<LexicalEntry mwePattern="complex">
<feat att="collocation" val="prédicateur complexe"/>
<Lemma><feat att="writtenForm" val="tenir compte"/></Lemma>
<ListOfComponents>
<Component entry="E1"/>
<Component entry="E2"/>
<Component entry="E3"/>
</ListOfComponents>
<Sense id="fra:sens1">
</LexicalEntry>
<LexicalEntry id="E1" morphologicalPatterns="verb1">
<feat att="partOfSpeech" val="V"/>
<Lemma><feat att="writtenForm" val="tenir"/></Lemma>
</LexicalEntry>
<LexicalEntry id="E2" morphologicalPatterns="det0">
<feat att="partOfSpeech" val="D"/>
<Lemma>
<feat att="writtenForm" val="— "/>
</Lemma>
</LexicalEntry>
<LexicalEntry id="E3" morphologicalPatterns="nom1">
<feat att="partOfSpeech" val="N"/>
<Lemma><feat att="writtenForm" val="compte"/></Lemma>
<Frequency><feat att="frequency" val="99"/></Frequency>
</LexicalEntry>
Chaque élément Component fait référence à une entrée lexicale simple. Pour générer les formes qui correspondent aux contraintes imposées par la combinaison de mots, on fait appel à plusieurs patrons morphologiques et syntaxiques, communs à plusieurs entrées. Dans cette représentation, nous avons deux attributs associés aux entrées multiples, « mwepattern » et « morphologicalPatterns » pour les composants. On peut alors décrire une classe de comportements syntaxiques et morphologiques pour les noms (dans l’exemple, pour les noms au singulier sans déterminant) et pour les verbes séparément. Ces comportements peuvent être partagés par plusieurs mots.
<MorphologicalPattern id="nom1">
<feat att="partOfSpeech" val="N"/>
<TransformSet>
<Process>
<feat att="operator" val="addLemma"/>
</Process>
<GrammaticalFeatures>
<feat att="grammaticalNumber" val="s"/>
</GrammaticalFeatures>
</TransformSet>
</MorphologicalPattern>
La balise <MorphologicalPattern> propose des règles de transformations communes pour retrouver toutes les formes possibles du mot (toutes les formes du verbe ou du nom, dans notre cas) : <Process> indique l’action à faire sur le lemme (ajout d’un -s pour le pluriel), <GrammaticalFeatures> indique le cas qui s’applique pour cette action. De plus, dans <GrammaticalFeatures>, on garde l’information de la fréquence de la propriété, fréquence trouvée dans le corpus. Pour d’autres exemples, voir l’annexe B.
Pour représenter les propriétés syntaxiques des collocations, nous avons utilisé la balise <MWEPattern> constituée d’un <MWENode> qui indique des propriétés spécifiques à chaque élément de la collocation, alors que <MWELex> indique l’ordre et les séparateurs (espace, tiret etc.) apparaissant entre les éléments. Dans cet exemple, on indique que le nom NP est l’objet direct du verbe VP (la relation est donné par <MWEEdge>) et il est utilisé au singulier. Ainsi, plusieurs collocations peuvent partager la même configuration interne, représentée une seule fois dans le dictionnaire.
<MWEPattern id="complex">
<MWENode>
<feat att="syntacticConstituent" val="VP"/>
<MWELex>
<feat att="rank" val="1"/>
<feat att="structureHead" val="yes"/>
</MWELex>
<MWEEdge>
<feat att=”function” val=”directObject”/>
<MWENode>
<feat att="syntacticConstituent" val="NP"/>
<feat att="grammaticalNumber" val="singular"/>
<MWELex>
<feat att="rank" val="2"/>
<feat att="graphicalSeparator" val="space"/>
</MWELex>
</MWENode>
</MWEEdge>
</MWENode>
</MWEPattern>
Enfin, pour représenter les informations syntaxiques contextuelles associées avec la collocation, nous utilisons l’élément <Subcategorisation Frame>. L’objet direct doit être un groupe nominal et il doit être à l’accusatif, contraintes exprimées par <SyntacticArgument> :
<SubcategorizationFrame id="directobject">
<SyntacticArgument>
<feat att="id" val="0"/>
<feat att="syntacticFunction" val="directobject"/>
<feat att="syntacticConstituent" val="NP"/>
<feat att="restriction" val="accusative"/>
</SyntacticArgument>
</SubcategorisationFrame>
Le regroupement des comportements syntaxiques et morphologiques permet d’éviter les redondances. De plus, les patrons morphologiques permettent la création des formes spécifiques du nom ou du verbe dynamiquement au moment où on interroge le dictionnaire. Cela représente l’avantage d’avoir une représentation synthétique du dictionnaire.
4.2. Comparaison avec d’autres ressources lexicales en format LMF
Parmi les ressources qui sont disponibles en format LMF et qui contiennent des collocations, nous mentionnons LG-LMF (Laporte et al., 2013) et DuELME (Odjik, 2013). Pour le premier lexique, il s’agit d’une modélisation des tables à l’aide de <SyntacticBehavior> et de <SubcategorisationFrame>. Pour les expressions figées, LG-LMF propose quatre patrons MWE Pattern pour décrire la structure interne des 96 expressions figées présentes dans cette ressource. Dans notre approche, nous avons gardé une représentation par MWE Pattern pour décrire la structure interne de la collocation et <SubcategorisationFrame> pour décrire le comportement syntaxique en contexte. Pour le deuxième lexique, notre dictionnaire s’approche plus de la structure de DuELME, puisque les patrons sont groupés par leur fréquence et on représente aussi les propriétés morphosyntaxiques.
Conclusion et perspectives
Dans cet article, nous avons présenté un modèle LMF pour représenter les dictionnaires multilingues de collocations. À partir des informations morphosyntaxiques et sémantiques représentées dans les dictionnaires qui contiennent des collocations et dans notre dictionnaire, nous avons proposé une représentation du dictionnaire en modèle LMF utilisant les modules syntaxique, sémantique et les extensions permettant la description des comportements morphosyntaxiques des collocations. Ce modèle permettra dans le futur l’extension du dictionnaire vers d’autres classes de collocations et une recherche ciblée vers les informations syntaxiques et sémantiques.