Scientext met à la disposition des chercheurs et étudiants un large corpus d’écrits scientifiques de manière à permettre l’étude de leurs caractéristiques linguistiques. A été principalement traitée l’étude linguistique du positionnement et du raisonnement à travers la phraséologie, les marques énonciatives et les marques syntaxiques liées à la causalité. Le thème du positionnement permet d’examiner deux caractéristiques essentielles du texte scientifique. A travers le positionnement, l’auteur s’inscrit comme sujet par rapport à ses devanciers, à ses contemporains, il définit sa spécificité, ses choix. L’étude du raisonnement permet de retracer son cheminement intellectuel, ce sur quoi il s’appuie et les déductions qu’il opère.
Constitution du corpus
Parmi les paramètres pris en compte dans la constitution du corpus, figurent la langue (français et anglais), la discipline (plusieurs disciplines des sciences humaines, expérimentales et sciences pour l’ingénieur ont été réprésentées), le genre (thèse, articles, actes de colloques, écrits d’étudiants).
Taille du corpus, type d’annotations et diffusion
Le projet Scientext a permis de constituer un corpus de textes scientifiques consultable en ligne d’environ 4,8 millions de mots en français, la partie anglaise étant plus importante (33 millions dont 13 millions de mots annotés ici, en raison de l’inclusion d’un ensemble très important d’articles médicaux libres de droit). Le corpus intègre aussi un sous-corpus de textes d’anglais académique d’1,1 million de mots en anglais langue seconde. Le corpus a été annoté au niveau de l’en-tête (méta-données sur l’annotation et l’origine du corpus), au niveau de la structure (parties de l’article) et au plan morphologique et syntaxique à l’aide du logiciel Syntex développé par Didier Bourigault, et en respectant les recommandations XML et TEI en vigueur. Il est consultable en ligne.
Equipes de recherche et chercheurs concernés
Ce projet a fait collaborer des équipes pluridisciplinaires de chercheurs en linguistique, linguistique informatique et didactique .
Le LIDILEM (Laboratoire de Linguistique et de Didactique des Langues Etrangères et Maternelles) (F. Grossmann, A. Tutin, G. Antoniadis, F. Boch, C. Cavalla, M. Florez, O. Kraif, I. Novakova, M. Mroué, M.L. Nguyen, F. Rinck), coordonnateur du projet.
Le LiCoRN (Linguistique de corpus) de Lorient (G. Williams, Ch. Millon).
Le LLS (Langage, Littérature, Société) de Chambéry (J. Osborne, A. Henderson, R. Barr).
Véronika Lux, de l’INIST, a été l’expert TEI du projet.
Cécile Frérot, du GREMUTS, a également participé au projet.
Achille Falaise, du LIG, a réalisé l’interface informatique du projet en collaboration avec O. Kraif.
Date de mise à jour : 05/03/2013
Pour toute question, contactez scientext@u-grenoble3.fr