Accès par volet
Navigation

Aller au contenu. | Aller à la navigation

  • icone-facebook

Outils personnels

Vous êtes ici : Accueil / A trier / Faire face au syndrome du Jabberwocky: Analyses morpho-syntaxiques en environnement hostile

Faire face au syndrome du Jabberwocky: Analyses morpho-syntaxiques en environnement hostile

Par Djamé Seddah
Publié par Marion Coste le 21/11/2016
Djamé Seddah, Université Paris Sorbonne (Paris IV)
Publié par Marion Coste le 28/11/2016

 

Les analyseurs statistiques atteignent depuis quelques années un haut niveau de performance sur des textes standard. Des techniques d'adaptation au domaine ont de surcroit amélioré leur résultats sur des corpus de genres différents de ceux sur lesquels ces analyseurs sont généralement entrainés. Néanmoins, ces textes sont habituellement conformes aux normes linguistiques usuelles (orthographe, typographie, etc.). L'émergence de nouveaux médias de communication a entrainé l'apparition de nouveaux types de données textuelles. Bien qu'éminemment intéressant, en terme de data mining ou d'analyse d'opinion, ce « contenu généré par l'utilisateur » a ceci de particulier qu'il est bruité. Cette particularité empêche les outils d'analyses de traitement automatique des langues, surtout quand ceci sont « data driven », de proposer des performances satisfaisantes. Afin de déterminer quels sont les goulots d'étranglement de nos outils, nous avons développé le French Social Media Bank, le premier corpus arboré d'une langue à morphologie plus riche que l'anglais. Cette ressource contient 3700 phrases de sources diverses (Twitter, Facebook, forums web), en particulier des textes choisis pour leur caractère extrêmement bruité.

 

Dans cette intervention, nous décrivons comment a été conçu ce corpus et présentons la méthodologie d'annotation que nous avons utilisée. Nous discutons aussi des résultats d'analyses morpho-syntaxiques et d'analyses syntaxiques bien inférieurs à ceux rencontrés sur du texte correctement édités, démontrant ainsi la difficulté à traiter de tels contenus.

 

 

Plan de la conférence


I- What's natural Language Processing?
II- NLP: How does it work?
III- What do linguistics data look like?
IV- New Media Communication & User Generated Content
V- Parsing UGC: Dealing with the Jabberwocky Syndrome
– - Dealing with the Jabberwocky Syndrome
– - Is such a machinery nessecary?
VI- - French Social Media Bank
– - French Social Media Bank (1)
– - French Social Media Bank (2)
– - French Social Media Bank - Data Selection
– - French Social Media Bank (5)
– - French Social Media Bank (6)
– - French Social Media Bank (7)
VII- Linguistics of User Generated Content
– - Linguistics of UGC (suite)
– - This was nothing: How about the content?
– - Symptomatic example
– - League of Legends
– - Minecraft
– - What kind of data are we talking about?
– - Pathological Case

 

 

 

 

Archives des Conf'Apéros


Retrouvez les conférences des cycles précédents dans la rubrique "Archives des Conf'Apéros"

 

 

 

 

Pour citer cette ressource :

Djamé Seddah, "Faire face au syndrome du Jabberwocky: Analyses morpho-syntaxiques en environnement hostile", La Clé des Langues [en ligne], Lyon, ENS de LYON/DGESCO (ISSN 2107-7029), novembre 2016. Consulté le 20/02/2018. URL: http://cle.ens-lyon.fr/plurilangues/a-trier/faire-face-au-syndrome-du-jabberwocky-analyses-morpho-syntaxiques-en-environnement-hostile