N°12 | Exploitation d’un grand corpus d’écrits scolaires pour la recherche et la formation

Il y a une quinzaine d’années, nous observions l’avènement de thèses en didactique du français qui avaient pour point commun de s’appuyer sur des annexes organisées en corpus conséquents, susceptibles d’être lus et exploités de façon quasi autonome, tout en étant fortement articulées à la thèse par des choix théoriques et méthodologiques explicites (Elalouf, 2011). Les exigences ayant présidé à l’élaboration de ces corpus devaient permettre leur extension ou leur exploitation pour d’autres problématiques : mise à disposition de l’ensemble des éléments permettant de refaire les analyses, explicitation des modalités de recueil et de la place du chercheur, rigueur méthodologique dans la comparaison des sous-corpus afin de dégager des critères de comparabilité avec d’autres corpus, mise au jour d’éléments de typicité dépassant la singularité des recueils tout en la respectant.

Depuis, d’autres thèses ont apporté à la communauté des chercheurs en didactique un matériau riche et rigoureux, mais qui faute de mise en réseau ne contribue pas à sa juste mesure à la cumulativité des résultats de recherche. Par ailleurs, s’il est possible de susciter en master Formation de formateurs des corpus qui enrichissent des recherches existantes (op. cit., 37), ils restent souvent confinés dans des mémoires non publiés et leur exploitation en formation se trouve ainsi limitée à leurs auteurs.

En concevant le Corpus-EMA-écrits scolaires comme une ressource à disposition des chercheurs et des formateurs (https://www.ortolang.fr/market/corpora/ema-ecrits-scolaires-1), le choix a été fait de réunir, selon les mêmes principes, l’ensemble des productions d’écrit de différentes classes de tous niveaux scolaires avec leur contexte d’élaboration, en suivant des conventions de transcription, d’annotation et de traitement qui les rendent compatibles avec d’autres grands corpus (Doquet, David et Fleury, 2017). Ce corpus, qui s’inscrit dans une réflexion sur les genres scolaires (Boré, 2007 ; Boré et al., 2007), a déjà donné lieu à des exploitations par leurs auteurs (Boré et Elalouf, 2017, Roubaud, 2017 ; Castagnet-Caignec, 2017, 2018, 2021 ; Besnard et Elalouf, 2018 ; Elalouf et Koulibali, 2020 ; Elalouf et Gerlaud, 2021 ; Similowski, 2022 ; Similowski, Genre, Koulibali et Elalouf, 2022 ; Gerlaud et Elalouf, 2023).

 

Avec cet appel à contribution, nous souhaitons franchir une nouvelle étape dans son appropriation par des personnes ne l’ayant pas produit et son enrichissement par de nouveaux apports. Sachant combien les pratiques résistent à s’appuyer sur les productions d’élèves pour observer les processus en jeu et faire observer la langue, malgré les ressources que la recherche en didactique a déjà constituées (Boré, 2016 ; Cappeau et Roubaud, 2005, 2018 ; Garcia-Debanc, Roubaud, Béchour, 2022), nous espérons que cet appel contribuera à la circulation des ressources, des outils et des analyses entre recherche et formation.

Les contributions pourront s’intégrer dans les axes suivants :

  1. Une recherche didactique et/ou linguistique portant sur un ou plusieurs sous-corpus de Corpus EMA-écrits scolaires ;

  2. Une recherche didactique et/ou linguistique mettant en relation un ou plusieurs sous-corpus de Corpus EMA-écrits scolaires avec d’autres corpus existants ;

  3. Une recherche didactique et/ou linguistique portant sur une utilisation en formation d’un ou plusieurs sous-corpus de Corpus EMA-écrits scolaires ;

  4. Un outil à destination des formateurs portant sur la description et l’analyse d’un dispositif d’écriture de Corpus EMA-écrits scolaires.

Pour favoriser l’appropriation de cette ressource, un article a été rédigé par l’équipe initiatrice, qui en présente les principes et décrit chacun des sous-corpus avec des renvois aux fichiers correspondants sur ORTOLANG : Corpus ÉMA, écrits scolaires, une ressource à disposition sur ORTOLANG.

Pour chacun des sous-corpus, des pistes d’exploitation pour la recherche ou la formation y sont suggérées. Elles ne sont pas exclusives.

Cet article, qui figurera dans le dossier de Scolagram, est joint à cet appel à contribution.

Calendrier 

Nous attirons l’attention des auteurs sur le fait que les modalités de soumission des articles ménagent un temps d’échange entre les auteurs et les concepteurs de la base dans EMA-Écrits scolaires pour répondre à leurs questions sur les corpus et discuter de l’orientation des articles.

Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

 

Lundi 10 mars 2025 

Envoi d’un projet d’article de 5000 signes maximum hors bibliographie

  • indiquant

    • quel axe l’auteur a retenu (1, 2, 3 ou 4),

    • quel(s) sous-corpus sera étudié,

    • dans quel cadre théorique et selon quelle méthodologie ;

  • présentant au moins un exemple d’analyse possible ;

  • comportant une bibliographie de 5 à 8 titres maximum ;

  • pouvant être accompagné de questions aux concepteurs du corpus.

Mercredi 2 avril 2025

Programmation d’entretiens en visioconférence entre les personnes ayant soumis des projets, et l’équipe de rédaction de Scolagram, en relation avec les concepteurs du corpus, pour répondre aux questions et discuter de l’orientation des articles.

Lundi 1er septembre 2025 : remise de l’article (V1)

Taille de l’article : 40 000 signes +/- 10% hors bibliographie et annexes.

• Mercredi 15 octobre 2025 : retour des relecteurs

Lundi 1er décembre 2025 : envoi de la version remaniée (V2)

• Janvier 2026 : publication du numéro

 

Bibliographie

Besnard, M. & Elalouf, M.-L. (2018). (Re)apprendre à lire des textes de jeunes scripteurs. Le français aujourd’hui, 203, 75-86.

Boré, C. (dir.). (2016). La phrase en production d’écrits, approches nouvelles en didactique. Lidil, 54, [En ligne].

Boré, C. (2007, dir.). Construire et exploiter des corpus de genres scolaires. Namur (Belgique), Presses Universitaires de Namur, collection Diptyque, numéro 10.

Boré, C. (2007). La métamorphose d’un genre : quelques descripteurs pour un genre scolaire de récit. Dans Construire et exploiter des corpus de genres scolaires. Presses Universitaires de Namur, collection Diptyque, numéro 10, pp. 141-165.

Boré, C. & Elalouf M.-L. (2017). Deux étapes dans la construction de corpus scolaires : problèmes récurrents et perspectives nouvelles. Corpus 16, 31-63.

Cappeau, P., & Roubaud, M. N. (2005). Enseigner les outils de la langue avec les productions d’élèves. Paris, Bordas.

Cappeau, P., & Roubaud, M. N. (2018). Regards linguistiques sur les textes d'élèves (de 5 à 12 ans). Presses Universitaires Blaise Pascal.

Castagnet-Caignec, S. (2017). La novélisation : une rencontre avec du déjà-là qui révèle les positionnements auctoriaux des jeunes scripteurs ». Pratiques, 173-174, [En ligne].

Castagnet-Caignec, S. (2018). Traitement du temps dans des récits à visée littéraire chez les élèves de primaire et secondaire. Repères, 57, 35-56.

Castagnet-Caignec, S. (2021). Pour des corpus transfictionnels à l'école : en quoi un récit multimédiatique peut-il servir l’enseignement ? ». Strenæ, 19, [En ligne].

Doquet, C., David, J. & Fleury, S. (dir.). (2017). Spécificités et contraintes des grands corpus scolaires : problèmes de transcription, d’annotation et de traitement. Corpus, 16, [En ligne].

Elalouf, M.-L. (2011). Constitution de corpus scolaires et universitaires : vers un changement d’échelle ? ». Pratiques, 149-150, 56-70.

Elalouf, M.-L. & Koulibali, Y. (2020). Les emplois du verbe dire dans un corpus d’écrits scolaires : Étude exploratoire pour un lexique-grammaire des usages. 7e Congrès Mondial de Linguistique Française, https://doi.org/10.1051/shsconf/20207807006

Elalouf, M.-L. & Gerlaud, B. (2021). La mise en grille et l’activité résumante, deux dispositifs pour appréhender la sémantisation de la langue au lycée. Recherches en didactique du français, L'étude du fonctionnement de la langue dans la discipline français : quelles articulations ? Presses universitaires de Namur, pp. 113-132.

Garcia-Debanc, C., Roubaud, M.-N. & Béchour, M. (2022). Guide pour enseigner la grammaire pour écrire, CE2 et cycle 3. Paris, Retz.

Gerlaud, B. & Elalouf, M.-L. (2023). Annoter au lycée, un geste professionnel partageable ? Recherches, 79, 65-88.

Roubaud, M-N. (2017). Le français écrit : transcription et édition. Le cas des textes scolaires. Corpus, 16, 113-131.

Similowski K. (2022). L’extrait et l’écriture scolaire : comment des élèves de fin d’école primaire approchent-ils un genre à partir de la lecture d’extraits littéraires ? Dans A. Belhadjin & M.-F. Bishop (dir.). Usage des extraits en classe de français. Namur : CEDOCEF, PUN.

Similowski, K., Genre, S. Koulibali, Y. & Elalouf, M.-L. (2022). Comment les élèves d’école primaire reconfigurent les collocations en écrivant. 8e Congrès Mondial de Linguistique Française, CMLF SHS Web of Conferences, 138.

Liste évolutive des contributeurs

Marie-Laure Elalouf, ÉMA, CY Cergy Paris Université

Marielle Besnard, rectorat de Versailles

Catherine Boré, ÉMA, CY Cergy Paris Université

Sonia Castagnet-Caignec, ÉMA, CY Cergy Paris Université

Béatrice Gerlaud, ÉMA, rectorat de Versailles

Yelle Koulibali, ÉMA, CY Cergy Paris Université

Catherine Neyman, CY Cergy Paris Université

Marie-Noëlle Roubaud, AMU, CNRS, LPL, Aix-Marseille Université

Kathy Similowski, ÉMA, CY Cergy Paris Université

Eleni Valma, STL, UMR8163, ÉMA, Université de Lille

 

Corpus ÉMA, écrits scolaires, une ressource à disposition sur ORTOLANG

Les textes réunis sur ORTOLANG sous le titre Corpus ÉMA, écrits scolaires constituent un ensemble régulièrement augmenté pour constituer un grand corpus destiné à la connaissance de la langue écrite des élèves de l’enseignement primaire et secondaire et des dispositifs dans lesquels elle s’élabore. Il se compose actuellement de 59 dossiers, du CP à la classe de terminale, recueillis selon une démarche écologique par des chercheurs, des formateurs et des enseignants en formation. Certains ayant été exploités en formation continue, des traces des analyses menées dans ce cadre ont également été recueillies.

 

Choix théoriques et méthodologiques

Les principes de constitution de ce corpus s’inscrivent dans le prolongement de ceux posés dans Écrire entre 10 et 14 ans (Elalouf et al., 2005), précisés ultérieurement (Elalouf et Boré, 2007 ; Boré et Elalouf, 2017). Il s’agit d’un corpus didactique en ce sens que chaque texte d’élève est présenté dans un ensemble au sein duquel son analyse fait sens : l’ensemble des productions de la classe autorisées à être diffusées, avec le cas échéant les différents états de l’écrit de l’élève, du brouillon à l’écrit définitif et les annotations de l’enseignant, ainsi que les consignes, les textes lus dans le cadre de la séquence d’enseignement, et dans certains cas des suivis à l’échelle de l’année scolaire. Ces mises en perspective s’avèrent nécessaires pour appréhender les caractéristiques des genres scolaires, à la fois dérivés de genres communs et multi-auctoriaux, car le processus d’élaboration textuelle se nourrit de façon dialogique d’une consigne exogène, et du déjà-là (Plane et Rondelli, 2017), des commentaires métatextuels de l’enseignant, des interactions verbales et du retour de l’élève sur son propre texte ou sur celui de ses pairs.

En cela, Corpus ÉMA, écrits scolaires est complémentaire d’autres corpus à orientation plus linguistique qui présentent les textes isolément comme E-Calm (https://e-calm.huma-num.fr/encoursbis/index.html) mais les conventions de transcription, d’annotation et de référencement sont les mêmes afin de faciliter la circulation entre les corpus. Par ailleurs, comme les recueils sont issus de recherches collaboratives, ils présentent une plus grande variété de dispositifs d’écriture (collaborative ou non), travaillant différentes fonctions de l’écriture (notamment la fonction cognitive dans les écrits intermédiaires) ainsi que des annotations moins centrées sur le code que sur la réception du texte d’élève (Besnard et Elalouf, 2018 ; Gerlaud et Elalouf, 2023).

 

Organisation du corpus

Chaque sous-corpus, décrit ci-dessous, se retrouve par le nom du chercheur qui l’a recueilli :

CP- CE1 : deux récits prolongeant la lecture d’un album (Roubaud)

CE1-CE2 : un compte-rendu de visite, un texte prescriptif et un texte explicatif en sciences (Roubaud)

CE2-CM1 : trois textes argumentatifs et une lettre d’invitation (Roubaud) (suivi sur une année)

CM2 : robinsonnades écrites selon trois protocoles dans quatre classes (Similowski)

Formation continue cycle 3 : appropriation des textes supports des robinsonnades. (Similowski)

6e : autoportrait et préparation d’une rencontre avec un écrivain (Besnard)

6e : deux récits sur le thème du monstre à la limite de l’humain dans deux classes (Kar-Koulibali)

5e : quatre séquences d’enseignement sur une année scolaire (deux discours, un récit de ruse et le résumé d’un scénario inventé de jeu vidéo) (Kar-Koulibali)

3e : une lettre et un dialogue théâtral à partir de lectures (Neyman)

2nde : suivi de sept élèves pendant une année scolaire, écrits argumentatifs et de commentaire (Gerlaud)

1e : apprentissage collaboratif du commentaire (Gerlaud)

1e et T HLP : écrits argumentatifs et de commentaire littéraire en lien avec des œuvres aux programmes (Gerlaud),

Un corpus transversal (CE2-1e) et longitudinal (sur une année scolaire)

CE2-1e : deux écrits diagnostics de novélisation par niveau (Castagnet-Caignec)

CM1-CM2 : séquence sur la novélisation, deux années consécutives (Castagnet-Caignec)

 

Chacun des sous-corpus comporte dans des dossiers distincts :

-       les scans des écrits d’élèves anonymés (après autorisation parentale) : format JPG ;

-       leur transcription : format texte brut ;

-       les textes annotés : format texte brut ;

-       des métadonnées au format PDF, permettant de restituer le contexte de production des écrits scolaires : informations sur l’établissement, l’enseignant, la classe, la séquence d’enseignement (textes lus en amont, consigne d’écriture, aides fournies au moment de l’écriture, modalités d’évaluation).

 

Principes de transcription, d’annotation et de traitement

Le protocole de transcription et d’annotation est celui d’ÉCriScol (Doquet, C., David, J. & Fleury, S., dir., 2017), du nom de l’équipe universitaire dirigée par Claire Doquet, qui développe à Paris 3-Sorbonne Nouvelle le projet du même nom, et avec laquelle l’équipe d’ÉMA est liée par une convention. La version scannée conserve l’écriture manuscrite des élèves. La version transcrite reste au plus près de leurs choix graphiques (Roubaud, 2017), tandis que la version annotée permet de mettre en relation les formes non normées avec les formes normées correspondantes. Ainsi présentés sous différents formats, les textes sont exploitables à l’aide de différents logiciels de traitement automatique du langage, notamment Le TRAMEUR développé par Serge Fleury à Paris 3. Des analyses outillées de ces corpus ont été menées sur les constructions verbales et sur les collocations (Elalouf et Koulibali, 2020 ; Similowski, Genre, Koulibali, et Elalouf 2022 ; Koulibali, 2023). D’autres sont en cours. L’analyse manuelle et outillée des corpus déjà constitués montre ce que ces écrits non normés apportent à la connaissance du langage et des sous-systèmes du français : avec leurs biffures et leurs ajouts, ils portent les traces de l’élaboration du discours ; par les choix de graphie et de segmentation, ils donnent accès aux conceptions orthographiques et lexicales, par les agencements syntaxiques préférentiels, ils ouvrent sur la grammaire interne des apprenants.

 

Présentation des sous-corpus et pistes d’exploitation pour la recherche et la formation

Voir Fichier joint

 

 

Sitographie de l’article

Corpus Éma-écrits scolaires: https://www.ortolang.fr/market/corpora/ema-ecrits-scolaires-1

E-Calm : https://e-calm.huma-num.fr

ÉCriScol :

http://www.univ-paris3.fr › ecriscol-300509

Scolagram :

https://scolagram.u-cergy.fr

 

Bibliographie

Besnard, M. et Elalouf, M.-L. (2018). (Re)apprendre à lire des textes de jeunes scripteurs. Le français aujourd’hui, 203, pp. 75-86.

Boré, C. (dir.) (2016). La phrase en production d’écrits, approches nouvelles en didactique. Lidil 54. Grenoble, Ellug.

Boré, C. et Elalouf M.-L. (2017). Deux étapes dans la construction de corpus scolaires : problèmes récurrents et perspectives nouvelles. Corpus 16, 31-63.

Cappeau, P. et Roubaud, M. N. (2005). Enseigner les outils de la langue avec les productions d’élèves. Paris, Bordas.

Cappeau, P. et Roubaud, M. N. (2018). Regards linguistiques sur les textes d'élèves (de 5 à 12 ans). Presses Universitaires Blaise Pascal.

Doquet, C., David, J. & Fleury, S. (dir.) (2017). Spécificités et contraintes des grands corpus scolaires : problèmes de transcription, d’annotation et de traitement. Corpus 16.

Elalouf, M.-L. (dir.) (2005). Écrire entre 10 et 14 ans, un corpus, des analyses, des repères pour la formation. CRDP Versailles.

Elalouf M.-L. et Boré, C. (2007). Construction et exploitation de corpus d’écrits scolaires. Revue Française de Linguistique Appliquée, XII-1, 53-70.

Elalouf M.-L. et Koulibali, Y. (2020). Les emplois du verbe dire dans un corpus d’écrits scolaires : Étude exploratoire pour un lexique-grammaire des usages, 7e Congrès Mondial de Linguistique Française,
https://doi.org/10.1051/shsconf/20207807006

Garcia-Debanc, C., Roubaud, M.-N. et Béchour, M. (2022). Guide pour enseigner la grammaire pour écrire : CE2 et cycle 3. Paris, Retz.

Gerlaud, B. et Elalouf, M.-L. (2023). Annoter au lycée, un geste professionnel partageable ? Recherches, 79, 65-88.

Koulibali, Y. (2023). Les constructions des verbes hyperfréquents dans des corpus d’écrits scolaires : contribution d’une étude textométrique à la connaissance des usages des verbes de parole et d’états mentaux par des collégiens de (6e et 5e) en éducation prioritaire. Thèse de doctorat de l’université CY Cergy Paris sous la direction de M.-L. Elalouf.

Plane, S. et Rondelli, F. (2017).  Le déjà-là dans l’écriture : quel substrat pour quels (ré)emplois ? Pratiques, 173-174.

Roubaud, M-N.  (2017). Le français écrit : transcription et édition. Le cas des textes scolaires.  Corpus, 16, 113-131.

Similowski, K., Genre, S., Koulibali, Y. et Elalouf, M.-L. (2022). Comment les élèves d’école primaire reconfigurent les collocations en écrivant. 8e Congrès Mondial de Linguistique Française, CMLF SHS Web of Conferences, 138.

 

Recherche

Connexion

Joomla

Copyright © 2025 Scolagram - Tous droits réservés
Joomla! est un Logiciel Libre diffusé sous licence GNU General Public

Contact | Mentions légales