Resultats de recèrca

3 resultat
Creator : Dourdet, Jean-Christophe
Portail : Mediatèca
Communication sur les travaux de Òsca-Font dubèrta / Dominique Château-Annaud
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Cette communication présente l’intégration de deux développements informatiques récents conçus comme des outils linguistiques et lexicographiques séparés. Cette intégration se concrétise en un outil original, une plate-forme d’édition numérique dont la notion sera précisée. Les deux projets sont implantés dans un site web et exploitent les données provenant de bases de données SQL. L’interface utilisateur est constitué de formulaires d’édition et de recherche, de tableaux en HTML et de rapports en différents formats. À l’origine les données proviennent de dictionnaires dialectaux, de listes de verbes, de modèles de conjugaison et d’autres informations annexes. L’ensemble est uniquement disponible dans un format faiblement structuré (traitement de texte WYSIWYG) impropre à un traitement numérique efficace, ce qui nécessite une conversion en base de données. Celle-ci a suscité beaucoup d’efforts et soulevé des contraintes méthodologiques et humaines. Pour le conjugueur automatique les algorithmes sont codés comme une hiérarchie de classes d’objets facile à adapter pour d’autres dialectes 1 et extensible à d’autres formats de sortie. Pour conclure nous évoquerons l’extension des capacités de la plate-forme vers les bases de données textuelles NoSQL et vers une architecture REST.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Feuille de route pour le développement numérique occitan / Benoît Dazéas
Dazéas, Benoît
Dourdet, Jean-Christophe
Le Livre blanc de META-NET, un réseau d’experts européens en technologies de la langue, alerte sur le risque « d’extinction numérique » de plusieurs langues européennes et de l’urgence pour elles de se doter rapidement de technologies de support. Cette étude propose également une grille de classification et d’évaluation des ressources et préconise des principes d’action tels que la création massive de données, la mutualisation ou encore le transfert technologique. Dans ce cadre Lo Congres permanent de lenga occitana a piloté la rédaction d’une feuille de route pour le développement numérique de l’occitan. Le rapport final fait état des ressources existantes et propose une planification de réalisation (2015-2019) des ressources de bases et des outils finaux. La mise en place de cet ambitieux programme nécessitera la coordination des acteurs de transmission de l’occitan – politiques linguistiques, recherche scientifique et communauté du logiciel libre – ainsi que la mobilisation des différents crédits et fonds européens.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Création de ressources lexicales pour une langue d'oïl : le parlanjhe / Marie-Hélène Lay, Jean-Christophe Dourdet
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Le présent article porte sur la constitution de ressources lexicales pour le poitevin-saintongeais, langue régionale (très) faiblement dotée. Depuis 2006, le projet TelPoS (Textes Electroniques en poitevin-saintongeais) a permis la constitution d'une base de données de textes (essentiellement littéraires) caractérisés par une forte variation, tant diatopique que diachronique (le premier texte date du 16e siècle). Le parlanjhe est une langue d'oïl, donc morphologiquement proche du français : nous avons choisi d'adapter des ressources dont nous disposions pour le français, en intégrant à notre outil d'annotation un moteur d'expansion de requêtes basé sur des règles morpho-graphématiques, VariaLog. L'une des caractéristiques essentielles de ce projet est de se dérouler dans un environnement disposant de très peu de compétences informatiques, les stratégies les plus répandues en TAL se trouvant de ce fait exclues. Nous utilisons donc AnaLog, un outil d'annotation manuelle développé précisément pour répondre à cette situation.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)