Occitanica

Resultats de recèrca

1 resultat
Creator : Bernhard, Delphine
Portail : Mediatèca
Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique / Delphine Bernhard, Lucie Steiblé
Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique . TALaRE 2015 - Traitement Automatique des Langues Régionales de France et d'Europe / Delphine Bernhard, Lucie Steiblé
Bernhard, Delphine
Steiblé, Lucie
Les dialectes parlés en Alsace, que l’on regroupe communément sous l’appellation « alsacien », se caractérisent par un manque de ressources numériques, qu’il s’agisse de corpus ou de lexiques. Par ailleurs, les dialectes d’Alsace sont avant tout des langues parlées dans la vie quotidienne, et leur graphie n’est pas encore complètement codifiée : une unité lexicale peut donc avoir plusieurs graphies. Ceci est un défi majeur pour la construction de ressources lexicales, car les variantes orthographiques d’une entrée lexicale doivent être identifiées. Cet article décrit une méthode pour la construction de lexiques bilingues français-alsacien qui vise à résoudre ce problème. Elle consiste à aligner des lexiques bilingues existants, en utilisant l’algorithme phonétique Double Metaphone afin de détecter les variantes. En outre, les mots alsaciens sont automatiquement reliés aux entrées de BabelNet, un réseau sémantique multilingue (Navigli & Ponzetto, 2012). La méthode d’alignement des lexiques atteint de bons niveaux de précision, ce qui permet la construction automatique de ressources, avec une intervention humaine limitée à quelques corrections. La principale originalité de ce travail est qu’il ne vise pas la normalisation, qui consisterait à transformer les variantes orthographiques en une norme donnée. Par ailleurs, au lieu d’une simple liste de mots bilingues, les liens vers BabelNet fournissent une couche sémantique supplémentaire reliant les entrées à des sens lexicaux. Enfin, nous utilisons les alignements obtenus pour faire une comparaison entre observations réalisées sur la langue orale et les graphies relevées dans les lexiques.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)