Occitanica

Resultats de recèrca

2 resultat
Creator : Lay, Marie-Hélène
Portail : Mediatèca
Communication sur les travaux de Òsca-Font dubèrta / Dominique Château-Annaud
Communication sur les travaux de Òsca-Font dubèrta. TALaRE 2015 - Traitement Automatique des Langues Régionales de France et d'Europe / Dominique Château-Annaud
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Cette communication présente l’intégration de deux développements informatiques récents conçus comme des outils linguistiques et lexicographiques séparés. Cette intégration se concrétise en un outil original, une plate-forme d’édition numérique dont la notion sera précisée. Les deux projets sont implantés dans un site web et exploitent les données provenant de bases de données SQL. L’interface utilisateur est constitué de formulaires d’édition et de recherche, de tableaux en HTML et de rapports en différents formats. À l’origine les données proviennent de dictionnaires dialectaux, de listes de verbes, de modèles de conjugaison et d’autres informations annexes. L’ensemble est uniquement disponible dans un format faiblement structuré (traitement de texte WYSIWYG) impropre à un traitement numérique efficace, ce qui nécessite une conversion en base de données. Celle-ci a suscité beaucoup d’efforts et soulevé des contraintes méthodologiques et humaines. Pour le conjugueur automatique les algorithmes sont codés comme une hiérarchie de classes d’objets facile à adapter pour d’autres dialectes 1 et extensible à d’autres formats de sortie. Pour conclure nous évoquerons l’extension des capacités de la plate-forme vers les bases de données textuelles NoSQL et vers une architecture REST.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Création de ressources lexicales pour une langue d'oïl : le parlanjhe / Marie-Hélène Lay, Jean-Christophe Dourdet
Création de ressources lexicales pour une langue d'oïl : le parlanjhe. TALaRE 2015 - Traitement Automatique des Langues Régionales de France et d'Europe / Marie-Hélène Lay, Jean-Christophe Dourdet
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Le présent article porte sur la constitution de ressources lexicales pour le poitevin-saintongeais, langue régionale (très) faiblement dotée. Depuis 2006, le projet TelPoS (Textes Electroniques en poitevin-saintongeais) a permis la constitution d'une base de données de textes (essentiellement littéraires) caractérisés par une forte variation, tant diatopique que diachronique (le premier texte date du 16e siècle). Le parlanjhe est une langue d'oïl, donc morphologiquement proche du français : nous avons choisi d'adapter des ressources dont nous disposions pour le français, en intégrant à notre outil d'annotation un moteur d'expansion de requêtes basé sur des règles morpho-graphématiques, VariaLog. L'une des caractéristiques essentielles de ce projet est de se dérouler dans un environnement disposant de très peu de compétences informatiques, les stratégies les plus répandues en TAL se trouvant de ce fait exclues. Nous utilisons donc AnaLog, un outil d'annotation manuelle développé précisément pour répondre à cette situation.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)