Corpus EMA-écrits scolaires
Liste évolutive des contributeurs
Marie-Laure Elalouf, ÉMA, CY Cergy Paris Université
Marielle Besnard, rectorat de Versailles
Catherine Boré, ÉMA, CY Cergy Paris Université
Sonia Castagnet-Caignec, ÉMA, CY Cergy Paris Université
Béatrice Gerlaud, ÉMA, rectorat de Versailles
Yelle Koulibali, ÉMA, CY Cergy Paris Université
Catherine Neyman, CY Cergy Paris Université
Marie-Noëlle Roubaud, AMU, CNRS, LPL, Aix-Marseille Université
Kathy Similowski, ÉMA, CY Cergy Paris Université
Eleni Valma, STL, UMR8163, ÉMA, Université de Lille
Corpus ÉMA, écrits scolaires, une ressource à disposition sur ORTOLANG
Les textes réunis sur ORTOLANG sous le titre Corpus ÉMA, écrits scolaires constituent un ensemble régulièrement augmenté pour constituer un grand corpus destiné à la connaissance de la langue écrite des élèves de l’enseignement primaire et secondaire et des dispositifs dans lesquels elle s’élabore. Il se compose actuellement de 59 dossiers, du CP à la classe de terminale, recueillis selon une démarche écologique par des chercheurs, des formateurs et des enseignants en formation. Certains ayant été exploités en formation continue, des traces des analyses menées dans ce cadre ont également été recueillies.
Choix théoriques et méthodologiques
Les principes de constitution de ce corpus s’inscrivent dans le prolongement de ceux posés dans Écrire entre 10 et 14 ans (Elalouf et al., 2005), précisés ultérieurement (Elalouf et Boré, 2007 ; Boré et Elalouf, 2017). Il s’agit d’un corpus didactique en ce sens que chaque texte d’élève est présenté dans un ensemble au sein duquel son analyse fait sens : l’ensemble des productions de la classe autorisées à être diffusées, avec le cas échéant les différents états de l’écrit de l’élève, du brouillon à l’écrit définitif et les annotations de l’enseignant, ainsi que les consignes, les textes lus dans le cadre de la séquence d’enseignement, et dans certains cas des suivis à l’échelle de l’année scolaire. Ces mises en perspective s’avèrent nécessaires pour appréhender les caractéristiques des genres scolaires, à la fois dérivés de genres communs et multi-auctoriaux, car le processus d’élaboration textuelle se nourrit de façon dialogique d’une consigne exogène, et du déjà-là (Plane et Rondelli, 2017), des commentaires métatextuels de l’enseignant, des interactions verbales et du retour de l’élève sur son propre texte ou sur celui de ses pairs.
En cela, Corpus ÉMA, écrits scolaires est complémentaire d’autres corpus à orientation plus linguistique qui présentent les textes isolément comme E-Calm (https://e-calm.huma-num.fr/encoursbis/index.html) mais les conventions de transcription, d’annotation et de référencement sont les mêmes afin de faciliter la circulation entre les corpus. Par ailleurs, comme les recueils sont issus de recherches collaboratives, ils présentent une plus grande variété de dispositifs d’écriture (collaborative ou non), travaillant différentes fonctions de l’écriture (notamment la fonction cognitive dans les écrits intermédiaires) ainsi que des annotations moins centrées sur le code que sur la réception du texte d’élève (Besnard et Elalouf, 2018 ; Gerlaud et Elalouf, 2023).
Organisation du corpus
Chaque sous-corpus, décrit ci-dessous, se retrouve par le nom du chercheur qui l’a recueilli :
CP- CE1 : deux récits prolongeant la lecture d’un album (Roubaud)
CE1-CE2 : un compte-rendu de visite, un texte prescriptif et un texte explicatif en sciences (Roubaud)
CE2-CM1 : trois textes argumentatifs et une lettre d’invitation (Roubaud) (suivi sur une année)
CM2 : robinsonnades écrites selon trois protocoles dans quatre classes (Similowski)
Formation continue cycle 3 : appropriation des textes supports des robinsonnades. (Similowski)
6e : autoportrait et préparation d’une rencontre avec un écrivain (Besnard)
6e : deux récits sur le thème du monstre à la limite de l’humain dans deux classes (Kar-Koulibali)
5e : quatre séquences d’enseignement sur une année scolaire (deux discours, un récit de ruse et le résumé d’un scénario inventé de jeu vidéo) (Kar-Koulibali)
3e : une lettre et un dialogue théâtral à partir de lectures (Neyman)
2nde : suivi de sept élèves pendant une année scolaire, écrits argumentatifs et de commentaire (Gerlaud)
1e : apprentissage collaboratif du commentaire (Gerlaud)
1e et T HLP : écrits argumentatifs et de commentaire littéraire en lien avec des œuvres aux programmes (Gerlaud),
Un corpus transversal (CE2-1e) et longitudinal (sur une année scolaire)
CE2-1e : deux écrits diagnostics de novélisation par niveau (Castagnet-Caignec)
CM1-CM2 : séquence sur la novélisation, deux années consécutives (Castagnet-Caignec)
Chacun des sous-corpus comporte dans des dossiers distincts :
- les scans des écrits d’élèves anonymés (après autorisation parentale) : format JPG ;
- leur transcription : format texte brut ;
- les textes annotés : format texte brut ;
- des métadonnées au format PDF, permettant de restituer le contexte de production des écrits scolaires : informations sur l’établissement, l’enseignant, la classe, la séquence d’enseignement (textes lus en amont, consigne d’écriture, aides fournies au moment de l’écriture, modalités d’évaluation).
Principes de transcription, d’annotation et de traitement
Le protocole de transcription et d’annotation est celui d’ÉCriScol (Doquet, C., David, J. & Fleury, S., dir., 2017), du nom de l’équipe universitaire dirigée par Claire Doquet, qui développe à Paris 3-Sorbonne Nouvelle le projet du même nom, et avec laquelle l’équipe d’ÉMA est liée par une convention. La version scannée conserve l’écriture manuscrite des élèves. La version transcrite reste au plus près de leurs choix graphiques (Roubaud, 2017), tandis que la version annotée permet de mettre en relation les formes non normées avec les formes normées correspondantes. Ainsi présentés sous différents formats, les textes sont exploitables à l’aide de différents logiciels de traitement automatique du langage, notamment Le TRAMEUR développé par Serge Fleury à Paris 3. Des analyses outillées de ces corpus ont été menées sur les constructions verbales et sur les collocations (Elalouf et Koulibali, 2020 ; Similowski, Genre, Koulibali, et Elalouf 2022 ; Koulibali, 2023). D’autres sont en cours. L’analyse manuelle et outillée des corpus déjà constitués montre ce que ces écrits non normés apportent à la connaissance du langage et des sous-systèmes du français : avec leurs biffures et leurs ajouts, ils portent les traces de l’élaboration du discours ; par les choix de graphie et de segmentation, ils donnent accès aux conceptions orthographiques et lexicales, par les agencements syntaxiques préférentiels, ils ouvrent sur la grammaire interne des apprenants.
Présentation des sous-corpus et pistes d’exploitation pour la recherche et la formation
Voir Fichier joint
Sitographie de l’article
Corpus Éma-écrits scolaires: https://www.ortolang.fr/market/corpora/ema-ecrits-scolaires-1
E-Calm : https://e-calm.huma-num.fr
ÉCriScol :
http://www.univ-paris3.fr › ecriscol-300509
Scolagram :
Besnard, M. et Elalouf, M.-L. (2018). (Re)apprendre à lire des textes de jeunes scripteurs. Le français aujourd’hui, 203, pp. 75-86.
Boré, C. (dir.) (2016). La phrase en production d’écrits, approches nouvelles en didactique. Lidil 54. Grenoble, Ellug.
Boré, C. et Elalouf M.-L. (2017). Deux étapes dans la construction de corpus scolaires : problèmes récurrents et perspectives nouvelles. Corpus 16, 31-63.
Cappeau, P. et Roubaud, M. N. (2005). Enseigner les outils de la langue avec les productions d’élèves. Paris, Bordas.
Cappeau, P. et Roubaud, M. N. (2018). Regards linguistiques sur les textes d'élèves (de 5 à 12 ans). Presses Universitaires Blaise Pascal.
Doquet, C., David, J. & Fleury, S. (dir.) (2017). Spécificités et contraintes des grands corpus scolaires : problèmes de transcription, d’annotation et de traitement. Corpus 16.
Elalouf, M.-L. (dir.) (2005). Écrire entre 10 et 14 ans, un corpus, des analyses, des repères pour la formation. CRDP Versailles.
Elalouf M.-L. et Boré, C. (2007). Construction et exploitation de corpus d’écrits scolaires. Revue Française de Linguistique Appliquée, XII-1, 53-70.
Elalouf M.-L. et Koulibali, Y. (2020). Les emplois du verbe dire dans un corpus d’écrits scolaires : Étude exploratoire pour un lexique-grammaire des usages, 7e Congrès Mondial de Linguistique Française,
https://doi.org/10.1051/shsconf/20207807006
Garcia-Debanc, C., Roubaud, M.-N. et Béchour, M. (2022). Guide pour enseigner la grammaire pour écrire : CE2 et cycle 3. Paris, Retz.
Gerlaud, B. et Elalouf, M.-L. (2023). Annoter au lycée, un geste professionnel partageable ? Recherches, 79, 65-88.
Koulibali, Y. (2023). Les constructions des verbes hyperfréquents dans des corpus d’écrits scolaires : contribution d’une étude textométrique à la connaissance des usages des verbes de parole et d’états mentaux par des collégiens de (6e et 5e) en éducation prioritaire. Thèse de doctorat de l’université CY Cergy Paris sous la direction de M.-L. Elalouf.
Plane, S. et Rondelli, F. (2017). Le déjà-là dans l’écriture : quel substrat pour quels (ré)emplois ? Pratiques, 173-174.
Roubaud, M-N. (2017). Le français écrit : transcription et édition. Le cas des textes scolaires. Corpus, 16, 113-131.
Similowski, K., Genre, S., Koulibali, Y. et Elalouf, M.-L. (2022). Comment les élèves d’école primaire reconfigurent les collocations en écrivant. 8e Congrès Mondial de Linguistique Française, CMLF SHS Web of Conferences, 138.
-
Fichier(s)