Nettoyer et enrichir ses données avec OpenRefine

Informations sur la session
Thème: 
Traiter : réseaux et outils, outils et techniques de gestion documentaire, traitement, analyse, indexation et cartographie de l'information
Publics prioritaires: 
Enseignant du supérieur, chercheur Doctorant
Formateur: 
Stefan GAGET
Reponsable de la formation: 
Marie-Laure MALINGRE
Tags: 
données de recherche
traitement des données
OpenRefine

Objectifs

- Diagnostiquer et nettoyer sa base de données



- Améliorer les flux d’alimentation de données



- Produire des règles de gestion d’intégration des données



- Prendre en main OpenRefine

Programme

Vous disposez de données sous différents formats et standards? vous constatez des erreurs de saisie, voire des données manquantes? Le travail de reprise de données peut être fastidieux. Compatible avec Linux, Mac et Windows, OpenRefine va vous permettre de manipuler facilement de grandes quantités de données.

OpenRefine permet d'effectuer des opérations de nettoyage en masse, mais aussi d'explorer des jeux de données, de convertir les données d'un format à un autre, d'appliquer des transformations cellulaires de base et avancées, de filtrer et de créer un partitionnement des données avec des expressions régulières, d'extraire des entités nommées sur des champs de texte intégral. Si l'interface est en ligne, toutes les données restent stockées en local. Ex Google Refine, OpenRefine est désormais un outil open source, toujours disponible gratuitement.




  • Les données : codification ; contrôle de qualité ; erreurs courantes dans la manipulation

  • Alimenter une base de données : vue d’ensemble ; préparation des données

  • Formater des données avec OpenRefine : introduction ; installation ; processus général par l’étude d’un cas pratique ; fonctionnalités

  • Un projet de A à Z par la pratique



Sous réserve du temps disponible, les participants qui le souhaitent pourront s'exercer sur leurs propres données, mais l'objectif du stage reste de rendre les participants autonomes pour qu'ils puissent ensuite traiter leurs données.



Installer OpenRefine : https://github.com/OpenRefine/OpenRefine/wiki/Installation-Instructions Voir des démos : http://openrefine.org/index.html .



Intervenant : Responsable des développements logiciels et bases de données de l'UMR "Génomique Intégrative et Modélisation des Maladies Métaboliques" et membre du comité de pilotage du réseau Min2rien, Stefan Gaget a développé une expertise dans les bases de données et les chaînes de traitements des données, le langage Perl, les outils collaboratifs et le développement de sites web.

Prérequis

Connaître les principes de conception d’une base de données
Connaître la syntaxe du langage SQL
Sous réserve du temps disponible, les participants qui le souhaitent pourront s'exercer sur leurs propres données, mais l'objectif du stage reste de rendre les participants autonomes pour qu'ils puissent ensuite traiter leurs données.

Durée

6 heures

Prix

250 €

Prochaine session

Rappel : les stages sont gratuits pour tous les personnels d’établissements d’enseignement supérieur et de recherche, ainsi que pour les doctorants.