Occitanica

Resultats de recèrca

7 resultat
Type de Document : Article scientifique
Portail : Mediatèca
Date : 2015
Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan / Marianne Vergez-Couret, Assaf Urieli
Vergez-Couret, Marianne
Urieli, Assaf
Dans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Communication sur les travaux de Òsca-Font dubèrta / Dominique Château-Annaud
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Cette communication présente l’intégration de deux développements informatiques récents conçus comme des outils linguistiques et lexicographiques séparés. Cette intégration se concrétise en un outil original, une plate-forme d’édition numérique dont la notion sera précisée. Les deux projets sont implantés dans un site web et exploitent les données provenant de bases de données SQL. L’interface utilisateur est constitué de formulaires d’édition et de recherche, de tableaux en HTML et de rapports en différents formats. À l’origine les données proviennent de dictionnaires dialectaux, de listes de verbes, de modèles de conjugaison et d’autres informations annexes. L’ensemble est uniquement disponible dans un format faiblement structuré (traitement de texte WYSIWYG) impropre à un traitement numérique efficace, ce qui nécessite une conversion en base de données. Celle-ci a suscité beaucoup d’efforts et soulevé des contraintes méthodologiques et humaines. Pour le conjugueur automatique les algorithmes sont codés comme une hiérarchie de classes d’objets facile à adapter pour d’autres dialectes 1 et extensible à d’autres formats de sortie. Pour conclure nous évoquerons l’extension des capacités de la plate-forme vers les bases de données textuelles NoSQL et vers une architecture REST.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Feuille de route pour le développement numérique occitan / Benoît Dazéas
Dazéas, Benoît
Dourdet, Jean-Christophe
Le Livre blanc de META-NET, un réseau d’experts européens en technologies de la langue, alerte sur le risque « d’extinction numérique » de plusieurs langues européennes et de l’urgence pour elles de se doter rapidement de technologies de support. Cette étude propose également une grille de classification et d’évaluation des ressources et préconise des principes d’action tels que la création massive de données, la mutualisation ou encore le transfert technologique. Dans ce cadre Lo Congres permanent de lenga occitana a piloté la rédaction d’une feuille de route pour le développement numérique de l’occitan. Le rapport final fait état des ressources existantes et propose une planification de réalisation (2015-2019) des ressources de bases et des outils finaux. La mise en place de cet ambitieux programme nécessitera la coordination des acteurs de transmission de l’occitan – politiques linguistiques, recherche scientifique et communauté du logiciel libre – ainsi que la mobilisation des différents crédits et fonds européens.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton / Annie Foret, Valérie Bellynck, Christian Boitet
Foret, Annie
Bellynck, Valérie
Boitet, Christian
Nous présentons un nouveau projet, Akenou-Breizh, qui vise (1) à mettre en place une plate-forme permettant d’étudier les influences d’une langue d’héritage, comme le breton, sur une langue d’usage, comme le français, et (2) à mettre à disposition de tous les intéressés des outils s’intégrant au “Web sémantique et multilingue”, et proposant des accès proactifs aux connaissances sur le breton ainsi qu’une visualisation directe des correspondances sous-phrastiques dans des présentations bilingues alignées. Nous nous proposons non seulement d’utiliser les nombreuses ressources disponibles librement, en particulier celles de l’OPLB 1 et du projet APERTIUM, mais aussi d’en créer de nouvelles, comme des corpus bilingues alignés de bonne qualité, en utilisant le “Web collaboratif”, et de construire sur le site dédié lingwarium.org des modules linguistiques améliorant ou étendant ceux qui existent, par exemple un analyseur-générateur morphologique. Nous décrivons aussi une expérience réalisée à partir d’un lexique réduit pour le breton, qui montre comment on peut enrichir un dictionnaire classique, en le reliant à un treillis de thèmes et à un système de gestion de contexte (ici CAMELIS), de façon à ce qu’on puisse l’interroger (par facettes sémantiques) et comparer différentes ressources.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
PICARTEXT : Une ressource informatisée pour la langue picarde / Jean-Michel Eloy, Fanny Martin, Christophe Rey
Eloy, Jean-Michel
Martin, Fanny
Rey, Christophe
Picartext est une base de données textuelles, construite depuis près de 10 ans à l'Université de Picardie à Amiens. Elle présente des caractéristiques de premier intérêt pour la recherche sur les traitements automatiques. La langue picarde, d'une vitalité non négligeable, dispose d'une littérature assez abondante et de très nombreux dictionnaires et glossaires. Mais elle ne possède pas de standard, ni linguistique, ni graphique. La langue est donc très variante. La base de données, de nature littéraire, d'environ 5 millions d'occurrences, est accessible en ligne au moyen d'un outil d'interrogation paramétrable : non seulement il permet la restriction du corpus de travail (lieux, dates, genres), mais il permet une recherche tenant compte d'équivalences phonétiques et d'équivalences dialectales. Il est ouvert à des évolutions en termes de balisage, en particulier dans le cadre d'un projet ANR portant sur trois langues régionales simultanément (picard, alsacien, occitan).

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique / Delphine Bernhard, Lucie Steiblé
Bernhard, Delphine
Steiblé, Lucie
Les dialectes parlés en Alsace, que l’on regroupe communément sous l’appellation « alsacien », se caractérisent par un manque de ressources numériques, qu’il s’agisse de corpus ou de lexiques. Par ailleurs, les dialectes d’Alsace sont avant tout des langues parlées dans la vie quotidienne, et leur graphie n’est pas encore complètement codifiée : une unité lexicale peut donc avoir plusieurs graphies. Ceci est un défi majeur pour la construction de ressources lexicales, car les variantes orthographiques d’une entrée lexicale doivent être identifiées. Cet article décrit une méthode pour la construction de lexiques bilingues français-alsacien qui vise à résoudre ce problème. Elle consiste à aligner des lexiques bilingues existants, en utilisant l’algorithme phonétique Double Metaphone afin de détecter les variantes. En outre, les mots alsaciens sont automatiquement reliés aux entrées de BabelNet, un réseau sémantique multilingue (Navigli & Ponzetto, 2012). La méthode d’alignement des lexiques atteint de bons niveaux de précision, ce qui permet la construction automatique de ressources, avec une intervention humaine limitée à quelques corrections. La principale originalité de ce travail est qu’il ne vise pas la normalisation, qui consisterait à transformer les variantes orthographiques en une norme donnée. Par ailleurs, au lieu d’une simple liste de mots bilingues, les liens vers BabelNet fournissent une couche sémantique supplémentaire reliant les entrées à des sens lexicaux. Enfin, nous utilisons les alignements obtenus pour faire une comparaison entre observations réalisées sur la langue orale et les graphies relevées dans les lexiques.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Création de ressources lexicales pour une langue d'oïl : le parlanjhe / Marie-Hélène Lay, Jean-Christophe Dourdet
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Le présent article porte sur la constitution de ressources lexicales pour le poitevin-saintongeais, langue régionale (très) faiblement dotée. Depuis 2006, le projet TelPoS (Textes Electroniques en poitevin-saintongeais) a permis la constitution d'une base de données de textes (essentiellement littéraires) caractérisés par une forte variation, tant diatopique que diachronique (le premier texte date du 16e siècle). Le parlanjhe est une langue d'oïl, donc morphologiquement proche du français : nous avons choisi d'adapter des ressources dont nous disposions pour le français, en intégrant à notre outil d'annotation un moteur d'expansion de requêtes basé sur des règles morpho-graphématiques, VariaLog. L'une des caractéristiques essentielles de ce projet est de se dérouler dans un environnement disposant de très peu de compétences informatiques, les stratégies les plus répandues en TAL se trouvant de ce fait exclues. Nous utilisons donc AnaLog, un outil d'annotation manuelle développé précisément pour répondre à cette situation.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)