Le projet Rzine

Encourager la production et la diffusion de documentation sur la pratique du langage R en SHS

rzine.png

Rzine est un projet de la Fédération de Recherche CIST qui réunit une vingtaine d’unités et plusieurs disciplines autour des sciences territoriales. Son objectif est de contribuer à l’apprentissage et à la pratique de R en SHS, en favorisant le partage, la production et la diffusion de ressources. Ce projet collaboratif et interdisciplinaire s’étend au-delà des équipes partenaires de la FR CIST et tente de répondre à un besoin commun à de nombreuses unités de recherche de l’INSHS.

R, un outil polyvalent et interdisciplinaire au service de la science ouverte et reproductible

C’est en 1992 que Robert Gentleman et Ross Ihaka de l’université d’Auckland se lancent dans le projet de développement du langage de programmation pour l’analyse de données R. Ils cherchent alors à développer un environnement pour le calcul scientifique plus performant que l’existant. Trente ans plus tard, R s’est imposé comme une référence en matière d’analyse de données. Sa communauté de développeur·euses et d’utilisateur·rice·s connaît une croissance impressionnante depuis plusieurs années. D’abord adopté par les sciences dures, R s’est peu à peu imposé comme une référence en sciences humaines et sociales à partir des années 2010. Aujourd’hui, la pratique de ce langage est enseignée à l’université dans de nombreuses disciplines (sociologie, économie, géographie, démographie, archéologie…) et son utilisation dépasse le seul domaine de la recherche.

R est gratuit, open-source et fonctionne sur les principaux systèmes d’exploitation. À la différence d’un logiciel « clic-bouton », chaque opération est facilement archivable, partageable et reproductible. Cet outil permet ainsi de s’inscrire pleinement dans le courant de la science ouverte et de la recherche reproductible.

Grâce à sa structure modulaire, le potentiel de développement de ce langage est immense car chaque utilisateur·rice peut mettre à disposition de tou·te·s des extensions supplémentaires appelées packages. Ainsi, l’ensemble des méthodes d’analyse et de représentation des données utilisées par les différentes disciplines de SHS sont praticables en langage R.

L'évolution du nombre de packages (extensions) mis à disposition au cours du temps traduit la popularité croissante du langage R.

L’inscription du langage R comme un des projets du mouvement du logiciel libre, ainsi que le soutien financier d’acteurs majeurs du secteur privé assurent son développement, sa fiabilité et sa popularité à long terme. C’est dans ce contexte qu’un groupe d’ingénieur·e·s et de chercheur·euse·s a initié le projet Rzine pour contribuer au développement de la pratique de ce langage pour l’analyse de données, fédératrice pour les disciplines de sciences humaines et sociales.

Rzine.fr : favoriser le partage de connaissances sur la pratique de R en SHS

L’étude de la pratique de R et de sa communauté d’utilisateur·rice·s dans le monde francophone a permis de dresser un bilan positif en matière de ressources disponibles et de pluridisciplinarité. Si la communauté R francophone est indéniablement active et productive, plusieurs axes d’amélioration ont pu être recensés :

  • l’accessibilité aux ressources n’est pas toujours aisée pour un·e débutant·e;
  • la diffusion d’une ressource se limite parfois à un groupe d’utilisateur·rice·s, une structure ou une discipline;
  • deux grands types de ressources s’opposent : la documentation généraliste, orientée vers la technique et la documentation spécialisée dans un domaine, peu accessible et transposable pour les autres.

À partir de ce constat, un premier travail de référencement de ressources gratuites existantes a été réalisé au démarrage du projet. La liste de ces divers matériaux (site web, manuel, vidéo, diaporama, exercice…) est consultable à ce lien.

La collection Rzine : valoriser et transmettre ses méthodes de travail avec R

Afin de contribuer activement à la science ouverte et à la pratique de la recherche reproductible, une collection de publications open-source, ouverte à tou·te·s et soumise à une évaluation transparente par les pairs a été mise en place.

L’objectif est d’offrir un espace de publication permettant le partage d’une méthode reproductible, dans un périmètre pluridisciplinaire. Il s’agit donc d’articles méthodologiques, ancrés dans une thématique, qui présentent du code de programmation de manière intelligible pour les différentes disciplines de SHS. Chaque article fait l’objet d’une relecture thématique et technique, qui assure sa pérennité et son intérêt pour les différentes disciplines. Les publications acceptées sont éditées en format HTML, associées à un DOI et référencées sur HAL. Leur stockage et diffusion sont assurés par le site rzine.fr.

Premier article méthodologique Rzine (Lambert, 2021), qui présente sur la construction d'une carte originale publiée dans un atlas.
Des publications au format notebook

Le choix du notebook comme format de publication de ces articles méthodologiques est inhérent au contenu qu’ils présentent. Parfois nommés « documents computationnels » en français, les notebooks sont très utilisés en science des données, que ce soit pour la production de documentation, la formation et l’enseignement ou encore le travail collaboratif. Ils permettent de combiner des sections en langage naturel et des sections en langage informatique, et peuvent être mis en page en différents formats (PDF, HTML, Word…) . Le notebook permet ainsi d’appliquer le paradigme de la programmation lettrée préconisé par Donald Knuth dans les années 1970, qui est au cœur du concept de la collection Rzine.

En permettant la combinaison de texte et de code, le « notebook » permet d'appliquer le paradigme de la programmation lettrée.

À l’image des travaux et de la coopération entre la TGIR Huma-Num et le Centre de recherche interuniversitaire sur les humanités numériques - CRIHN (université de Montréal), les humanités numériques s’intéressent particulièrement à l’écriture numérique et les initiatives d’innovation en matière de format de publication apparaissent peu à peu. La revue COMPUTO de la Société Française de Statistique (SFdS) est un très bel exemple d’initiative qui participe à l’ermergence de l’utilisation des notebook et à son positionnement comme formats de publication de référence. Permettant l’intégration de données et de leur traitement à l’écriture scientifique, le notebook semble également le format idéal pour répondre aux objectifs de la collection d’articles méthodologiques Rzine.

Article méthodologique Rzine (Le Texier, 2021) en format « notebook ». Du texte et du code se succèdent, dans une mise en page soignée.

Bien que la pratique de la programmation lettrée avec R soit accessible pour un·e novice, l’utilisation d’un logiciel de gestion de versions décentralisé (Git) sur lequel repose l’ensemble du processus d’évaluation et de publication de la collection Rzine demande des connaissances plus approfondies. C’est pourquoi Rzine tente de contribuer, par des formations et l’encadrement des auteur·rices d’articles, à la montée en compétence collective et participative autour de la programmation lettrée et des systèmes de versionnage. Au-delà de sa vocation à offrir un espace de publication innovant, ce projet participe, à son échelle, au développement des humanités numériques en sciences humaines et sociales.

L’animation et l’évolution du projet Rzine repose aujourd’hui sur l’implication personnelle d’un petit groupe de personnes issues de différentes unités de recherche. Son avenir dépend de la communauté d’utilisateur·rices R en sciences humaines, sociales et territoriales qu’il réussira à rassembler et à impliquer dans cette aventure…