À consulter également
5 ressources contiennent le mot-clé corpus.
Rechercher aussi dans titre et résumé (recherche structurée).
Peut-on s'écrire sans orthographe ? L'exemple de correspondances peu-lettrées de la Grande Guerre
par Agnès Steuckardt, publié le 19/12/2023Le débat sur l'orthographe française est récemment revenu sur la scène médiatique, avec la tribune intitulée « Il est urgent de mettre à jour notre orthographe », signée par le collectif des « linguistes atterrées » ainsi que plusieurs personnalités, publiée dans Le Monde du 17 octobre 2023. On ne cherchera pas ici à prendre parti pour ou contre une réforme d'une orthographe institutionnelle : on s'intéressera à l'orthographe qui se pratique au quotidien, aujourd'hui dans les forums et les réseaux sociaux, hier dans les correspondances privées des gens ordinaires.
«Ma guerre 1914-1918» de Charles Bruneau : un corpus-témoignage d’un linguiste sur le front
par Matthieu Quignard, publié le 09/04/2019A partir de son journal, tenu pendant la Première Guerre mondiale, et de ses 600 lettres envoyées du front, Charles Bruneau composa un ouvrage éclectique, intitulé Ma guerre 1914-1918, qui nous livre le témoignage de ce qui fut «sa» guerre. Cette conférence a été donnée à l'ENS de Lyon dans le cadre des ConfApéros en sciences du langage.
Faire face au syndrome du Jabberwocky: Analyses morpho-syntaxiques en environnement hostile
par Djamé Seddah, publié le 28/10/2016Les analyseurs statistiques atteignent depuis quelques années un haut niveau de performance sur des textes standard. Des techniques d'adaptation au domaine ont de surcroit amélioré leur résultats sur des corpus de genres différents de ceux sur lesquels ces analyseurs sont généralement entrainés. Néanmoins, ces textes sont habituellement conformes aux normes linguistiques usuelles (orthographe, typographie, etc.). L'émergence de nouveaux médias de communication a entrainé l'apparition de nouveaux types de données textuelles. Bien qu'éminemment intéressant, en terme de data mining ou d'analyse d'opinion, ce « contenu généré par l'utilisateur » a ceci de particulier qu'il est bruité. Cette particularité empêche les outils d'analyses de traitement automatique des langues, surtout quand ceci sont « data driven », de proposer des performances satisfaisantes. Afin de déterminer quels sont les goulots d'étranglement de nos outils, nous avons développé le French Social Media Bank, le premier corpus arboré d'une langue à morphologie plus riche que l'anglais. Cette ressource contient 3700 phrases de sources diverses (Twitter, Facebook, forums web), en particulier des textes choisis pour leur caractère extrêmement bruité.
La représentation de l’écriture SMS
par Claudine Moïse , publié le 18/12/2012Cette communication retrace l'organisation, le déroulement de la collecte de SMS «isolés» et l'analyse du questionnaire rattaché à cette collecte dans le cadre du projet sud4science Languedoc-Roussillon, lui-même intégré dans le projet international sms4science.
Le renouveau de la linguistique historique : apports et perspectives
par Bernard Combettes, Kévin Pinault, publié le 04/07/2008Bernard Combettes commence par nous exposer les causes des grands changements qu'a connus la linguistique diachronique - tant au niveau des méthodes que des résultats - depuis 15-20 ans : une évolution de la linguistique en général et de profonds changements dans le travail sur les corpus. Il poursuit avec quelques réflexions sur le changement linguistique et la notion de variation, reconnaissant que nos "soucis" pourraient bien balayer les "problèmes" d'un homme de sa génération, pour qui "trop" ne saurait évincer "très". Pour finir, B. Combettes nous lance sur quelques pistes à explorer dans quelques domaines encore vierges de la linguistique diachronique.