Accès direct au contenu

 
Recherche
Retour rapide vers l'accueil

Faire face au syndrome du Jabberwocky: Analyses morpho-syntaxiques en environnement hostile

Djamé Seddah, Université Paris Sorbonne (Paris IV)

Publié par Marion Coste le 28/11/2016

Les analyseurs statistiques atteignent depuis quelques années un haut niveau de performance sur des textes standard. Des techniques d'adaptation au domaine ont de surcroit amélioré leur résultats sur des corpus de genres différents de ceux sur lesquels ces analyseurs sont généralement entrainés. Néanmoins, ces textes sont habituellement conformes aux normes linguistiques usuelles (orthographe, typographie, etc.). L'émergence de nouveaux médias de communication a entrainé l'apparition de nouveaux types de données textuelles. Bien qu'éminemment intéressant, en terme de data mining ou d'analyse d'opinion, ce « contenu généré par l'utilisateur » a ceci de particulier qu'il est bruité. Cette particularité empêche les outils d'analyses de traitement automatique des langues, surtout quand ceci sont « data driven », de proposer des performances satisfaisantes. Afin de déterminer quels sont les goulots d'étranglement de nos outils, nous avons développé le French Social Media Bank, le premier corpus arboré d'une langue à morphologie plus riche que l'anglais. Cette ressource contient 3700 phrases de sources diverses (Twitter, Facebook, forums web), en particulier des textes choisis pour leur caractère extrêmement bruité.
 
Dans cette intervention, nous décrivons comment a été conçu ce corpus et présentons la méthodologie d'annotation que nous avons utilisée. Nous discutons aussi des résultats d'analyses morpho-syntaxiques et d'analyses syntaxiques bien inférieurs à ceux rencontrés sur du texte correctement édités, démontrant ainsi la difficulté à traiter de tels contenus.


Plan de la conférence


I- What's natural Language Processing?

II- NLP: How does it work?

III- What do linguistics data look like?

IV- New Media Communication & User Generated Content

V- Parsing UGC: Dealing with the Jabberwocky Syndrome
    - Dealing with the Jabberwocky Syndrome
    - Is such a machinery nessecary?

VI- - French Social Media Bank
    - French Social Media Bank (1)
    - French Social Media Bank (2)
    - French Social Media Bank - Data Selection
    - French Social Media Bank (5)
    - French Social Media Bank (6)
    - French Social Media Bank (7)

VII- Linguistics of User Generated Content
    - Linguistics of UGC (suite)
    - This was nothing: How about the content?
    - Symptomatic example
    - League of Legends
    - Minecraft
    - What kind of data are we talking about?
    - Pathological Case




Pour citer ces ressources :

Djamé Seddah. 11/2016. "Faire face au syndrome du Jabberwocky: Analyses morpho-syntaxiques en environnement hostile".
La Clé des Langues (Lyon: ENS LYON/DGESCO). ISSN 2107-7029. Mis à jour le 16 janvier 2017.
Consulté le 27 juillet 2017.
Url : http://cle.ens-lyon.fr/conf-aperos/faire-face-au-syndrome-du-jabberwocky-analyses-morpho-syntaxiques-en-environnement-hostile-326942.kjsp

Archives des Conf'Apéros
Retrouvez les conférences des cycles précédents dans la rubrique "Archives des Conf'Apéros"
 
 
Mise à jour le 16 janvier 2017
Créé le 21 novembre 2016
ISSN 2107-7029
DGESCO Clé des Langues