Explorar los documents (23 total)

Outil de recherche dans les cartes de l'Atlas linguistique de la France
GIPSA-Lab
CLLE-UMR 5263
L'Atlàs linguistic de la França, realizat entre 1897 e 1900 per Jules Gilliéron e Edmond Edmont – e publicat entre 1902 e 1910 consistís en un recuèlh de 1920 cartas (1421 cartas entièras e 449 cartas parcialas) que permet d'estudiar las variacions lexicalas galloromanas a la debuta del sègle XX. Las donadas linguisticas contengudas son utilizadas per elaborar los atlasses interpretatius. 

Aquel atlàs cobrís la França e sas lengas mas tanben la Soïssa romanda, l'Itàlia de las valadas occitanas e franco-provençalas, las isclas Anglo-Normandas, e mai de ponches de l'Empèri alemand de l'epòca (Alsàcia-Lorena e Belgica romana).

Lo site internet dels projèctes Cartodialect/Géodialect vos permet de consultar e de telecargar las cartas de l'Atlàs linguistic de la França. Podètz tanben cercar una carta per nocion linguistica associada, o per son numèro (lo numèro atribuit per l'ALF).

>> Consultar l'Atlàs per lista de mots
>> Consultar l'Atlàs per lista de cartas
>> Efectuar una recèrca per mots dins las cartas

La numerizacion de las cartas foguèt facha per lo GIPSA-Lab amb lo concors del LIRIS, còla « Imagine » (a l'entorn de 1600 cartas) dins l'encastre d'aquel projècte Cartodialect/Géodialect. mas tanben per lo CIRDÒC dins l'encastre del programa SYMILA (Syntactic Microvariation in the Romance Languages of France: ANR-12-CORP-0014-02 SYMILA).

Las cartas de l'ALF son mesas a disposicion per lo GIPSA-Lab, còla de recèrca Votz, Sistèmas Linguistics e Dialectologia e lo laboratòri CLLE-UMR 5263, còla de Recèrca en Sintaxic e Semantica.

Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique / Delphine Bernhard, Lucie Steiblé
Bernhard, Delphine
Steiblé, Lucie
Les dialectes parlés en Alsace, que l’on regroupe communément sous l’appellation « alsacien », se caractérisent par un manque de ressources numériques, qu’il s’agisse de corpus ou de lexiques. Par ailleurs, les dialectes d’Alsace sont avant tout des langues parlées dans la vie quotidienne, et leur graphie n’est pas encore complètement codifiée : une unité lexicale peut donc avoir plusieurs graphies. Ceci est un défi majeur pour la construction de ressources lexicales, car les variantes orthographiques d’une entrée lexicale doivent être identifiées. Cet article décrit une méthode pour la construction de lexiques bilingues français-alsacien qui vise à résoudre ce problème. Elle consiste à aligner des lexiques bilingues existants, en utilisant l’algorithme phonétique Double Metaphone afin de détecter les variantes. En outre, les mots alsaciens sont automatiquement reliés aux entrées de BabelNet, un réseau sémantique multilingue (Navigli & Ponzetto, 2012). La méthode d’alignement des lexiques atteint de bons niveaux de précision, ce qui permet la construction automatique de ressources, avec une intervention humaine limitée à quelques corrections. La principale originalité de ce travail est qu’il ne vise pas la normalisation, qui consisterait à transformer les variantes orthographiques en une norme donnée. Par ailleurs, au lieu d’une simple liste de mots bilingues, les liens vers BabelNet fournissent une couche sémantique supplémentaire reliant les entrées à des sens lexicaux. Enfin, nous utilisons les alignements obtenus pour faire une comparaison entre observations réalisées sur la langue orale et les graphies relevées dans les lexiques.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
PICARTEXT : Une ressource informatisée pour la langue picarde / Jean-Michel Eloy, Fanny Martin, Christophe Rey
Eloy, Jean-Michel
Martin, Fanny
Rey, Christophe
Picartext est une base de données textuelles, construite depuis près de 10 ans à l'Université de Picardie à Amiens. Elle présente des caractéristiques de premier intérêt pour la recherche sur les traitements automatiques. La langue picarde, d'une vitalité non négligeable, dispose d'une littérature assez abondante et de très nombreux dictionnaires et glossaires. Mais elle ne possède pas de standard, ni linguistique, ni graphique. La langue est donc très variante. La base de données, de nature littéraire, d'environ 5 millions d'occurrences, est accessible en ligne au moyen d'un outil d'interrogation paramétrable : non seulement il permet la restriction du corpus de travail (lieux, dates, genres), mais il permet une recherche tenant compte d'équivalences phonétiques et d'équivalences dialectales. Il est ouvert à des évolutions en termes de balisage, en particulier dans le cadre d'un projet ANR portant sur trois langues régionales simultanément (picard, alsacien, occitan).

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Akenou-Breizh, un projet de plate-forme valorisant des ressources et outils informatiques et linguistiques pour le breton / Annie Foret, Valérie Bellynck, Christian Boitet
Foret, Annie
Bellynck, Valérie
Boitet, Christian
Nous présentons un nouveau projet, Akenou-Breizh, qui vise (1) à mettre en place une plate-forme permettant d’étudier les influences d’une langue d’héritage, comme le breton, sur une langue d’usage, comme le français, et (2) à mettre à disposition de tous les intéressés des outils s’intégrant au “Web sémantique et multilingue”, et proposant des accès proactifs aux connaissances sur le breton ainsi qu’une visualisation directe des correspondances sous-phrastiques dans des présentations bilingues alignées. Nous nous proposons non seulement d’utiliser les nombreuses ressources disponibles librement, en particulier celles de l’OPLB 1 et du projet APERTIUM, mais aussi d’en créer de nouvelles, comme des corpus bilingues alignés de bonne qualité, en utilisant le “Web collaboratif”, et de construire sur le site dédié lingwarium.org des modules linguistiques améliorant ou étendant ceux qui existent, par exemple un analyseur-générateur morphologique. Nous décrivons aussi une expérience réalisée à partir d’un lexique réduit pour le breton, qui montre comment on peut enrichir un dictionnaire classique, en le reliant à un treillis de thèmes et à un système de gestion de contexte (ici CAMELIS), de façon à ce qu’on puisse l’interroger (par facettes sémantiques) et comparer différentes ressources.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Feuille de route pour le développement numérique occitan / Benoît Dazéas
Dazéas, Benoît
Dourdet, Jean-Christophe
Le Livre blanc de META-NET, un réseau d’experts européens en technologies de la langue, alerte sur le risque « d’extinction numérique » de plusieurs langues européennes et de l’urgence pour elles de se doter rapidement de technologies de support. Cette étude propose également une grille de classification et d’évaluation des ressources et préconise des principes d’action tels que la création massive de données, la mutualisation ou encore le transfert technologique. Dans ce cadre Lo Congres permanent de lenga occitana a piloté la rédaction d’une feuille de route pour le développement numérique de l’occitan. Le rapport final fait état des ressources existantes et propose une planification de réalisation (2015-2019) des ressources de bases et des outils finaux. La mise en place de cet ambitieux programme nécessitera la coordination des acteurs de transmission de l’occitan – politiques linguistiques, recherche scientifique et communauté du logiciel libre – ainsi que la mobilisation des différents crédits et fonds européens.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Communication sur les travaux de Òsca-Font dubèrta / Dominique Château-Annaud
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Cette communication présente l’intégration de deux développements informatiques récents conçus comme des outils linguistiques et lexicographiques séparés. Cette intégration se concrétise en un outil original, une plate-forme d’édition numérique dont la notion sera précisée. Les deux projets sont implantés dans un site web et exploitent les données provenant de bases de données SQL. L’interface utilisateur est constitué de formulaires d’édition et de recherche, de tableaux en HTML et de rapports en différents formats. À l’origine les données proviennent de dictionnaires dialectaux, de listes de verbes, de modèles de conjugaison et d’autres informations annexes. L’ensemble est uniquement disponible dans un format faiblement structuré (traitement de texte WYSIWYG) impropre à un traitement numérique efficace, ce qui nécessite une conversion en base de données. Celle-ci a suscité beaucoup d’efforts et soulevé des contraintes méthodologiques et humaines. Pour le conjugueur automatique les algorithmes sont codés comme une hiérarchie de classes d’objets facile à adapter pour d’autres dialectes 1 et extensible à d’autres formats de sortie. Pour conclure nous évoquerons l’extension des capacités de la plate-forme vers les bases de données textuelles NoSQL et vers une architecture REST.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan / Marianne Vergez-Couret, Assaf Urieli
Vergez-Couret, Marianne
Urieli, Assaf
Dans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Création de ressources lexicales pour une langue d'oïl : le parlanjhe / Marie-Hélène Lay, Jean-Christophe Dourdet
Lay, Marie-Hélène
Dourdet, Jean-Christophe
Le présent article porte sur la constitution de ressources lexicales pour le poitevin-saintongeais, langue régionale (très) faiblement dotée. Depuis 2006, le projet TelPoS (Textes Electroniques en poitevin-saintongeais) a permis la constitution d'une base de données de textes (essentiellement littéraires) caractérisés par une forte variation, tant diatopique que diachronique (le premier texte date du 16e siècle). Le parlanjhe est une langue d'oïl, donc morphologiquement proche du français : nous avons choisi d'adapter des ressources dont nous disposions pour le français, en intégrant à notre outil d'annotation un moteur d'expansion de requêtes basé sur des règles morpho-graphématiques, VariaLog. L'une des caractéristiques essentielles de ce projet est de se dérouler dans un environnement disposant de très peu de compétences informatiques, les stratégies les plus répandues en TAL se trouvant de ce fait exclues. Nous utilisons donc AnaLog, un outil d'annotation manuelle développé précisément pour répondre à cette situation.

>> Consultez l'article sur le site de l'Association pour le Traitement Automatique des Langues (ATALA)
Les projets Wikimédia et les langues de France / Lucas Lévêque (Wikimédia France) [conferéncia]
Lévêque, Lucas. Conférencier
Kaleo design. Metteur en scène ou réalisateur
Cette vidéo fait partie des interventions de la 2e Journée Occitanica organisée en mai 2015.

La numérisation du patrimoine vient accompagner l'émergence des "savoirs communs" et participe à l'effort de démocratisation du patrimoine. Dans ces nouveaux espaces de pratique, d'échange et d'acquisition des savoirs, les langues de France bénéficient d'une potentielle "égaliré des chances" notamment par l'existence d'espaces communautaires ouverts el multilingues. L'ensemble des outils Wikimédia en est l'un des meilleurs exemples et peut constituer une boîte à outils pour les bibliothèques et institutions patrimoniales.

La journée « Numériser, Transmettre : la numérisation du patrimoine pour la transmission des langues de France » est organisée avec le soutien du Ministère de la Culture et de la Communication - « Appel à projets national patrimoine écrit », de la Région Languedoc-Roussillon, de Languedoc-Roussillon Livre et Lecture et de l'ensemble des partenaires du portail interrégional www.occitanica.eu
L'Atlas linguistique de la France numérisé : perspectives d'exploitation / Patrick Sauzet, Yaël Champclaux (Université Toulouse-II Jean Jaurès) [conferéncia]
Sauzet, Patrick. Conférencier
Champclaux, Yaël. Conférencier
Kaleo design. Metteur en scène ou réalisateur
Cette vidéo fait partie de la table ronde "Le panimoine numérisé et la recherche appliquée en technologies du langage" de la 2e Journée Occitanica organisée en mai 2015. 

Les projets applicatifs des sciences du langage et l'émergence des humanités numériques reposent sur un dialogue interdisciplinaire innovant entre les sciences humaines et les professionnels des technologies numériques.

Le patrimoine numérisé se révèle être une matière première à fort potentiel pour nombre d'applications innovantes.
Quels usages et quels projets autour des langues de France ?


La journée « Numériser, Transmettre : la numérisation du patrimoine pour la transmission des langues de France » est organisée avec le soutien du Ministère de la Culture et de la Communication - « Appel à projets national patrimoine écrit », de la Région Languedoc-Roussillon, de Languedoc-Roussillon Livre et Lecture et de l'ensemble des partenaires du portail interrégional www.occitanica.eu
sus 3