CEBA

Cloud Environnemental au Bénéfice de l'Auvergne

Objectif : permettre de mieux comprendre les systèmes environnementaux, leurs évolutions dans le contexte du changement climatique global et leurs interactions avec les agroécosystèmes : impact des facteurs environnementaux sur les productions agricoles et inversement.

Aide - FAQ

Qu’est ce qu’un entrepôt de données ?

Un entrepôt de données est un dépôt central informatique contenant des données décrites par un ensemble minimum de métadonnées (titre, license, créateur...) permettant leur identification, leur diffusion et leur réutilisation. Un entrepôt de données garantit la conservation des données à plus ou moins long terme ainsi que la pérennisation des moyens d’identification (identifiant ou moyen d’accès). DataSuds est un exemple d’entrepôts de données.

Comment définir un jeu de données ?

« Peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent » (Gaillard R, 2014). Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée.

Quels sont les formats à privilégier pour le partage de données ?

Le format des données numériques étant important pour le partage et la préservation pérenne des données, il convient de : de privilégier des formats non propriétaires et ouverts, c’est-à-dire des formats qui ne sont pas spécifiques ou brevetés, qui peuvent être maintenus indépendamment de l’éditeur et accessibles sans restriction (par exemple, le format txt est lisible par de nombreux logiciels, sans restriction) d’utiliser des formats si possible communément partagés par la communauté (netCDF pour toutes les communautés qui ont de gros besoins) de consulter le site du CINES qui développe une expertise sur les formats de fichiers et propose une liste de formats validables et l’outil « Facile » permettant de vérifier la validité d’un format éligible à l’archivage au CINES d’éviter les formats gourmands (ascii, txt) et le stockage inutile dans le cas de gros volumes de données. Priviligier les formats binaires (tels que netcdf ou hdf5). Idéalement, il faut privilégier les formats qui permettent de faire de l’accès direct aux données. Par exemple, netcdf ou hdf5 permettent de ne lire qu’un bout de tableau, ce qui peut permettre des économies conséquentes en termes de transfert de données (et donc d’impact environnemental négatif)

Pourquoi les données doivent-elles disposer d’un identifiant pérenne ?

Pour qu’elles soient trouvables, visibles et accessibles au même titre que les publications. Pour qu’elles soient plus facilement citables et que l’on puisse les lier aux publications ou à tout autre produit de recherche. Il concourt à l’interopérabilité des données. Attention, la pérennité est purement une question de service et n’est ni inhérente à un objet, ni conférée par une syntaxe de nommage particulier. La pérennité du lien vers la localisation de la ressource est de la responsabilité du déposant ou du créateur de l’identifiant.

Lien de ressources

Doranum
Métadonnées, standards et formats
Guide de bonnes pratiques sur la gestion des données de la Recherche v2.0