Scientext
Un corpus et des outils pour étudier le positionnement et le raisonnement dans les écrits scientifiques.



L’ouvrage L’écrit scientifique : du lexique au discours. Autour de Scientext (A.Tutin et F. Grossmann eds) vient de paraître (janvier 2014) aux Presses de l’Université de Rennes.
Il présente les principaux travaux réalisés dans le cadre du projet Scientext.

Table des matières.
Bon de commande.

Scientext met à la disposition des chercheurs et étudiants un large corpus d’écrits scientifiques de manière à permettre l’étude de leurs caractéristiques linguistiques.
A été principalement traitée l’étude linguistique du positionnement et du raisonnement à travers la phraséologie, les marques énonciatives et les marques syntaxiques liées à la causalité. Le thème du positionnement permet d’examiner deux caractéristiques essentielles du texte scientifique. A travers le positionnement, l’auteur s’inscrit comme sujet par rapport à ses devanciers, à ses contemporains, il définit sa spécificité, ses choix. L’étude du raisonnement permet de retracer son cheminement intellectuel, ce sur quoi il s’appuie et les déductions qu’il opère.

Constitution du corpus

Parmi les paramètres pris en compte dans la constitution du corpus, figurent la langue (français et anglais), la discipline (plusieurs disciplines des sciences humaines, expérimentales et sciences pour l’ingénieur ont été réprésentées), le genre (thèse, articles, actes de colloques, écrits d’étudiants).

Taille du corpus, type d’annotations et diffusion

Le projet Scientext a permis de constituer un corpus de textes scientifiques consultable en ligne d’environ 4,8 millions de mots en français, la partie anglaise étant plus importante (33 millions dont 13 millions de mots annotés ici, en raison de l’inclusion d’un ensemble très important d’articles médicaux libres de droit). Le corpus intègre aussi un sous-corpus de textes d’anglais académique d’1,1 million de mots en anglais langue seconde. Le corpus a été annoté au niveau de l’en-tête (méta-données sur l’annotation et l’origine du corpus), au niveau de la structure (parties de l’article) et au plan morphologique et syntaxique à l’aide du logiciel Syntex développé par Didier Bourigault, et en respectant les recommandations XML et TEI en vigueur. Il est consultable en ligne.


Equipes de recherche et chercheurs concernés

Ce projet a fait collaborer des équipes pluridisciplinaires de chercheurs en linguistique, linguistique informatique et didactique .

- Le LIDILEM (Laboratoire de Linguistique et de Didactique des Langues Etrangères et Maternelles) (F. Grossmann, A. Tutin, G. Antoniadis, F. Boch, C. Cavalla, M. Florez, O. Kraif, I. Novakova, M. Mroué, M.L. Nguyen, F. Rinck), coordonnateur du projet.

- Le LiCoRN (Linguistique de corpus) de Lorient (G. Williams, Ch. Millon).

- Le LLS (Langage, Littérature, Société) de Chambéry (J. Osborne, A. Henderson, R. Barr).

- Véronika Lux, de l’INIST, a été l’expert TEI du projet.

- Cécile Frérot, du GREMUTS, a également participé au projet.

- Achille Falaise, du LIG, a réalisé l’interface informatique du projet en collaboration avec O. Kraif.

Date de mise à jour : 01/03/2014

Pour toute question, contactez agnes.tutin@u-grenoble3.fr avec l’objet [scientext]