Vous êtes ici : Accueil / Langues et langage, comment ça marche ? / De Sud4science à 88milSMS (un grand corpus de SMS authentiques) : entre linguistique et informatique

De Sud4science à 88milSMS (un grand corpus de SMS authentiques) : entre linguistique et informatique

Par Rachel Panckhurst : Maître de conférences - Université Paul-Valéry Montpellier 3
Publié par Marion Coste le 01/04/2016

Activer le mode zen PDF

Rachel Panckhurst (enseignante-chercheure à l’université Paul-Valéry Montpellier 3) et ses collègues linguistes et informaticiens ont recueilli plus de 90 000 SMS en langue française à Montpellier en 2011.

Une précédente conférence à l’ENS (Claudine Moïse, « La représentation de l’écriture SMS », 20/11/2012), retraçait l’organisation, le déroulement de la collecte de SMS « isolés » et l'analyse du questionnaire rattaché à cette collecte dans le cadre du projet sud4science Languedoc-Roussillon (http://www.sud4science.org et http://www.msh-m.fr/programmes-2011/sud4science-lr), lui-même intégré dans le projet international sms4science (http://www.sms4science.org, Fairon et al. 2006).

Dans cette conférence, Rachel Panckhurst présentera la suite du déroulement du projet, jusqu’au dépôt du corpus, 88milSMS, sur la grille de services d’Huma-Num en juin 2014 (http://88milsms.huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), tout en expliquant pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique des langues, TAL), l’équipe de chercheurs a décidé de fournir à la communauté scientifique et au grand public le corpus de SMS. Elle terminera par les applications envisageables, notamment en TAL.

https://video.ens-lyon.fr/eduscol-cdl/2016/2016-03-22_PLU_Panckhurst.mp4

Voir la vidéo « Sud4science Collecte de SMS », réalisée par Campus Mag LR.
 
Pour citer cette ressource :

Rachel Panckhurst, De Sud4science à 88milSMS (un grand corpus de SMS authentiques) : entre linguistique et informatique, La Clé des Langues [en ligne], Lyon, ENS de LYON/DGESCO (ISSN 2107-7029), mars 2016. Consulté le 22/11/2024. URL: https://cle.ens-lyon.fr/langues-et-langage/langues-et-langage-comment-ca-marche/de-sud4science-a-88milsms-un-grand-corpus-de-sms-authentiques-entre-linguistique-et-informatique