Moissonneur FTP avec CSV de métadonnées
Ce moissonneur permet aux utilisateurs de créer des jeux de données à partir d'un répertoire FTP.
Il se connecte via FTPS (en mode explicite sur le port 21) si disponible, ou FTP si demandé dans l'URL fournie.
Le repertoire FTP doit contenir :
Un fichier CSV de métadonnées (séparé par des points-virgules)
Plusieurs ressources
(Facultatif) plusieurs fichiers de schéma CSV
Le moissonneur FTP avec métadonnées CSV ne prend en charge que le codage UTF-8.
Fichier CSV de métadonnées
Le fichier CSV de métadonnées (nommé index.csv
par défaut) est un fichier séparé par des points-virgules qui contient :
Une ligne d'en-tête
Plusieurs autres lignes, chacune dédiée à un jeu de données à moissonner
Exemple:
name;title;description;theme;keyword;source_dataset;schema_file
Row ID 1;Chocolate bars database;"A database of chocolate bars";Health;Chocolate;chocolate.csv;schema_chocolate.csv
Row ID 2;Venture Capital Investments;Venture capital industry statistics.;Economy, Business;"Venture capital;Investments;IPO;Acquisitions";investments.json;
Name | title | description | theme | keyword | source_dataset | schema_file |
Row ID 1 | Chocolate bars database | Une base de données de tablettes de chocolat | Santé | Chocolat | chocolat.csv | schema_chocolate.csv |
Row ID 2 | Venture Capital Investments | Statistiques de l'industrie du capital-risque. | Économie, Affaires | Capital-risque;Investissements;IPO;Acquisitions | investissements.json |
La colonne
name
doit contenir un identifiant unique pour chaque ligne.Notez que name ne définit pas les identifiants techniques des ensembles de données récoltés, qui sont produits automatiquement par la plateforme sur la base du title, ou du name si le title n'est pas défini.
La colonne de ressource CSV (
source_dataset
par défaut) contient la ressource pour chaque ligne.La colonne de schéma CSV facultative (ici,
schema_file
) contient le fichier de schéma pour chaque ligne.Toutes les autres colonnes sont des métadonnées (voir le tableau ci-dessous pour la liste complète des noms de colonnes acceptés).
Utilisez des guillemets doubles au début et à la fin des listes comme keyword, où vous devez utiliser des points-virgules pour séparer les mots (par exemple "keyword1;keyword2" ).
Colonnes de métadonnées acceptées
Modèle | Nom de colonne |
Standard |
|
Custom |
Par exemple, si le nom des métadonnées est "project name", utilisez
|
DCAT (si activées) |
|
DCAT-AP pour CH (si activées) |
|
Inspire (si activées) |
|
Sémantique (si activées) |
|
Pour plus d'informations sur les métadonnées standard, consultez Métadonnées standard.
Les métadonnées geographic_reference_auto
La colonne geographic_reference_auto
définit si la couverture géographique du jeu de données est calculée automatiquement et accepte une valeur booléenne :
Valeur | Objectif |
| Définit les métadonnées Couverture géographique du jeu de données sur Automatique. La couverture géographique est ainsi automatiquement calculée en fonction du contenu du jeu de données ou de la couverture géographique par défaut du jeu de données du domaine. |
| Définit les métadonnées Couverture géographique du jeu de données sur la valeur associée à |
Les métadonnées geographic_reference
La colonne geographic_reference
définit l'emplacement utilisé pour la couverture géographique du jeu de données, ce qui signifie que les métadonnées de couverture géographique du jeu de données sont définies sur Spécifique. Cette colonne geographic_reference
contient un tableau d'identifiants uniques de références géographiques correspondant à des emplacements.
Les identifiants uniques de références géographiques utilisent les syntaxes suivantes basées sur la référence :
Reference | Description | Syntaxe | Exemple de valeur |
monde | Le jeu de données contient du contenu sur différents pays |
|
|
pays | Le jeu de données contient du contenu au niveau du pays |
|
|
division inférieure | Le jeu de données contient du contenu sur une division de pays spécifique |
|
|
{{country code}}
est un code de pays à deux lettres défini dans la norme ISO 3166-1 alpha-2. Par exemple,fr
pour la France.{{administrative-level}}
est un niveau administratif pour le pays. Par exemple,40
est le niveau administratif des régions françaises. Pour plus d'informations sur les niveaux administratifs disponibles pour le pays souhaité, voir ici.{{administrative division}}
est la division administrative relative au sein du niveau administratif du pays. Par exemple,11
est le code de la région française d'Île-de-France.
Vous pouvez récupérer le code de division administrative désiré comme suit :
Rendez-vous dans la documentation.
Dans le tableau à la fin de la section, sélectionnez un pays et un niveau administratif.
Dans la ligne du tableau associé, cliquez sur le lien dans la colonne URL du jeu de données pour ouvrir le référentiel géographique associé et obtenir le code de division administrative souhaité.
Ressources
Les ressources peuvent être soit :
Fichiers sur le serveur FTP, dans le même dossier que le fichier
index.csv
, ou sous un sous-répertoire en spécifiant le chemin d'accès relatif du fichier dans la colonne (par exemple "ressources/chocolat.csv")Une URL pointant vers un format pris en charge
Si la colonne est vide, le jeu de données ne contiendra que des métadonnées.
Les ressources, si elles sont dans un format pris en charge par la plateforme, peuvent être moissonnées. Cependant, étant donné que le moissonneur s'appuie largement sur la détection automatique de paramètres pour la connexion du connecteur, les fichiers doivent être relativement simples pour être extraits.
Fichier de schéma CSV
Pour chaque ressource, le dossier FTP peut contenir un fichier de schéma CSV qui définit les labels et les descriptions pour chaque champ du jeu de données.
Le nom de fichier de chaque fichier de schéma doit être écrit dans la colonne de schéma CSV. Ce fichier a les spécifications suivantes :
Une colonne
name
contient chaque nom de champ en minuscules (par exemple, sur une ressource CSV, il s'agirait des noms de colonne en minuscules)Une colonne
label
(facultative) contient le label du champ correspondantUne colonne
description
(facultative) contient la description du champ correspondant
name;label;description
company;Company;The company that makes the bar
ref;Reference;The product id of the chocolate bar
Nom | Label | description |
compagnie | Company | L'entreprise qui fabrique la barre |
réf | Reference | L'identifiant du produit de la barre de chocolat |
Les fichiers de schéma n'ont pas besoin de contenir une ligne pour chaque champ, et il n'est pas nécessaire de fournir un fichier de schéma pour chaque jeu de données dans index.csv
. Dans ce dernier cas, laissez la cellule correspondante vide.
Paramètres
Nom | Description | Exemple |
Hôte (host) | URL du serveur FTP | eu.ftp.opendatasoft.com, ftps://eu.ftp.opendatasoft.com, ftp://eu.ftp.opendatasoft.com |
Utilisateur (user) | Votre nom d'utilisateur | |
Mot de passe (password) | Votre mot de passe | |
Sous-dossier (subdir) | Le dossier contenant les données à moissonner | pub/documents |
Nom du fichier CSV de métadonnées (metadata_file) | Le fichier contenant les métadonnées et les noms de fichiers (voir ci-dessus pour des spécifications plus précises) | index.csv |
Colonne de ressources CSV de métadonnées (resource_location_column) | Nom de la colonne contenant le nom du fichier ou l'URL contenant les données. | source_dataset |
Colonne de schéma CSV de métadonnées (resource_schema_column) | Cette colonne contient un nom de fichier avec le schéma de ressource (descriptions et labels des colonnes) |