Le corpus est constitué initialement d’une collection de plus de 3000 copies d’un concours régional français d’accès aux fonctions d’enseignant du premier degré. Les services administratifs ont permis l’accès à la totalité de la base de données. Dans ce lot, 2292 copies étaient réellement présentes ou non vides. Il a été ainsi possible de déterminer quels candidats avaient été admis et dans quels lieux de formation ils furent affectés. Un corpus restreint de 262 copies est ainsi constitué, représentant l’ensemble d’une promotion annuelle d’enseignants entrant en formation. Ces copies sont anonymes. Les notes affectées par les deux correcteurs sont connues. Bien que numérisées, les copies sont manuscrites, un traitement automatique n’est donc pas directement possible. Pour l’approche qualitative, un sous-corpus, échantillonné au sein des quartiles de notes affectées1, est produit.
Lire la suite ...
1C’est-à-dire selon la qualité de l’analyse telle que pensée par le jury du concours.