Moissonneur FTP avec CSV de métadonnées

Modifié

Ce moissonneur permet aux utilisateurs de créer des jeux de données à partir d'un répertoire FTP.

Il se connecte via FTPS (en mode explicite sur le port 21) si disponible, ou FTP si demandé dans l'URL fournie.

Le repertoire FTP doit contenir :

  • Un fichier CSV de métadonnées (séparé par des points-virgules)

  • Plusieurs ressources

  • (Facultatif) plusieurs fichiers de schéma CSV

Le moissonneur FTP avec métadonnées CSV ne prend en charge que le codage UTF-8.

Disposition du dossier FTP

Fichier CSV de métadonnées

Le fichier CSV de métadonnées (nommé index.csv par défaut) est un fichier séparé par des points-virgules qui contient :

  • Une ligne d'en-tête

  • Plusieurs autres lignes, chacune dédiée à un jeu de données à moissonner

Exemple:

name;title;description;theme;keyword;source_dataset;schema_file
Row ID 1;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
Row ID 2;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;

Name

title

description

theme

keyword

source_dataset

schema_file

Row ID 1

Chocolate bars database

Une base de données de tablettes de chocolat

Santé

Chocolat

chocolat.csv

schema_chocolate.csv

Row ID 2

Venture Capital Investments

Statistiques de l'industrie du capital-risque.

Économie, Affaires

Capital-risque;Investissements;IPO;Acquisitions

investissements.json

  • La colonne name doit contenir un identifiant unique pour chaque ligne.

    Notez que name ne définit pas les identifiants techniques des ensembles de données récoltés, qui sont produits automatiquement par la plateforme sur la base du title, ou du name si le title n'est pas défini.

  • La colonne de ressource CSV ( source_dataset par défaut) contient la ressource pour chaque ligne.

  • La colonne de schéma CSV facultative (ici, schema_file ) contient le fichier de schéma pour chaque ligne.

  • Toutes les autres colonnes sont des métadonnées (voir le tableau ci-dessous pour la liste complète des noms de colonnes acceptés).

Utilisez des guillemets doubles au début et à la fin des listes comme keyword, où vous devez utiliser des points-virgules pour séparer les mots (par exemple "keyword1;keyword2" ).

Colonnes de métadonnées acceptées

Modèle

Nom de colonne

Standard

title , description , theme , keyword , license , language , timezone , modified, geographic_reference_auto , geographic_reference , publisher , references , attributions , oauth_scope

Custom

<metadata-name> (le nom des métadonnées)

Par exemple, si le nom des métadonnées est "project name", utilisez project-name.

Ce modèle est utilisé dans les cas où votre CSV contient des champs personnalisés. Pour que ces champs soient pris en compte, vous devez créer un modèle avec l'ID de modèle "custom" pour stocker ces champs. Veuillez contacter notre support pour plus d'informations.

DCAT (si activées)

dcat.created , dcat.issued , dcat.creator , dcat.contributor , dcat.contact_name , dcat.contact_email , dcat.accrualperiodicity , dcat.spatial , dcat.temporal , dcat.granularity , dcat.dataquality

DCAT-AP pour CH (si activées)

dcat_ap_ch.domain , dcat_ap_ch.rights

Inspire (si activées)

inspire.theme , inspire.type , inspire.file_identifier , inspire.hierarchy_level , inspire.hierarchy_level_name , inspire.spatial_resolution , inspire.topologic_consistency , inspire.contact_individual_name , inspire.contact_position , inspire.contact_address , inspire.contact_email , inspire.identification_purpose , inspire.extend_description , inspire.extend_bounding_box_westbound_longitude , inspire.extend_bounding_box_eastbound_longitude , inspire.extend_bounding_box_southbound_latitude , inspire.extend_bounding_box_northbound_latitude

Sémantique (si activées)

semantic.rml_mapping , semantic.classes , semantic.properties

Pour plus d'informations sur les métadonnées standard, consultez Métadonnées standard.

Les métadonnées geographic_reference_auto

La colonne geographic_reference_auto définit si la couverture géographique du jeu de données est calculée automatiquement et accepte une valeur booléenne :

Valeur

Objectif

true

Définit les métadonnées Couverture géographique du jeu de données sur Automatique. La couverture géographique est ainsi automatiquement calculée en fonction du contenu du jeu de données ou de la couverture géographique par défaut du jeu de données du domaine.

false

Définit les métadonnées Couverture géographique du jeu de données sur la valeur associée à geographic_reference.

Les métadonnées geographic_reference

La colonne geographic_reference définit l'emplacement utilisé pour la couverture géographique du jeu de données, ce qui signifie que les métadonnées de couverture géographique du jeu de données sont définies sur Spécifique. Cette colonne geographic_reference contient un tableau d'identifiants uniques de références géographiques correspondant à des emplacements.

Les identifiants uniques de références géographiques utilisent les syntaxes suivantes basées sur la référence :

Reference

Description

Syntaxe

Exemple de valeur

monde

Le jeu de données contient du contenu sur différents pays

world

world

pays

Le jeu de données contient du contenu au niveau du pays

world_{{country code}}

world_fr si la couverture du jeu de données est la France

division inférieure

Le jeu de données contient du contenu sur une division de pays spécifique

{{country code}}_{{administrative-level}}_{{administrative division}}

fr_80_75056 si la couverture du jeu de données est la ville de Paris

  • {{country code}} est un code de pays à deux lettres défini dans la norme ISO 3166-1 alpha-2. Par exemple, fr pour la France.

  • {{administrative-level}} est un niveau administratif pour le pays. Par exemple, 40 est le niveau administratif des régions françaises. Pour plus d'informations sur les niveaux administratifs disponibles pour le pays souhaité, voir ici.

  • {{administrative division}} est la division administrative relative au sein du niveau administratif du pays. Par exemple, 11 est le code de la région française d'Île-de-France.

Vous pouvez récupérer le code de division administrative désiré comme suit :

  1. Rendez-vous dans la documentation.

  2. Dans le tableau à la fin de la section, sélectionnez un pays et un niveau administratif.

  3. Dans la ligne du tableau associé, cliquez sur le lien dans la colonne URL du jeu de données pour ouvrir le référentiel géographique associé et obtenir le code de division administrative souhaité.

Ressources

Les ressources peuvent être soit :

  • Fichiers sur le serveur FTP, dans le même dossier que le fichier index.csv , ou sous un sous-répertoire en spécifiant le chemin d'accès relatif du fichier dans la colonne (par exemple "ressources/chocolat.csv")

  • Une URL pointant vers un format pris en charge

Si la colonne est vide, le jeu de données ne contiendra que des métadonnées.

Les ressources, si elles sont dans un format pris en charge par la plateforme, peuvent être moissonnées. Cependant, étant donné que le moissonneur s'appuie largement sur la détection automatique de paramètres pour la connexion du connecteur, les fichiers doivent être relativement simples pour être extraits.

Fichier de schéma CSV

Pour chaque ressource, le dossier FTP peut contenir un fichier de schéma CSV qui définit les labels et les descriptions pour chaque champ du jeu de données.

Le nom de fichier de chaque fichier de schéma doit être écrit dans la colonne de schéma CSV. Ce fichier a les spécifications suivantes :

  • Une colonne name contient chaque nom de champ en minuscules (par exemple, sur une ressource CSV, il s'agirait des noms de colonne en minuscules)

  • Une colonne label (facultative) contient le label du champ correspondant

  • Une colonne description (facultative) contient la description du champ correspondant

name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar

Nom

Label

description

compagnie

Company

L'entreprise qui fabrique la barre

réf

Reference

L'identifiant du produit de la barre de chocolat

Les fichiers de schéma n'ont pas besoin de contenir une ligne pour chaque champ, et il n'est pas nécessaire de fournir un fichier de schéma pour chaque jeu de données dans index.csv. Dans ce dernier cas, laissez la cellule correspondante vide.

Paramètres

Nom

Description

Exemple

Hôte (host)

URL du serveur FTP

eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com

Utilisateur (user)

Votre nom d'utilisateur

Mot de passe (password)

Votre mot de passe

Sous-dossier (subdir)

Le dossier contenant les données à moissonner

pub/documents

Nom du fichier CSV de métadonnées (metadata_file)

Le fichier contenant les métadonnées et les noms de fichiers (voir ci-dessus pour des spécifications plus précises)

index.csv

Colonne de ressources CSV de métadonnées (resource_location_column)

Nom de la colonne contenant le nom du fichier ou l'URL contenant les données.

source_dataset

Colonne de schéma CSV de métadonnées (resource_schema_column)

Cette colonne contient un nom de fichier avec le schéma de ressource (descriptions et labels des colonnes)