Définir un schéma de données

Modifié

Chaque jeu de données possède un schéma, qui définit le type de données qu'il contient et la manière dont il est organisé.

Lors de la création d'un jeu de données à partir d'une source de données existante, la plateforme fait de son mieux pour interpréter et identifier automatiquement le schéma. Mais c'est à vous de vous assurer que les schémas de votre jeu de données sont complets et bien organisés.

Cela se fait dans l'onglet Schéma d'un jeu de données.

Modification du schéma

Dans l'onglet Schéma, vous verrez la liste des champs de votre ensemble de données.

Pour modifier un champ, passez la souris dessus et cliquez sur l'icône du crayon. (N'oubliez pas ensuite de cliquer sur Appliquer dans le coin inférieur droit pour enregistrer les modifications apportées).

Cela ouvrira une interface qui vous permettra de définir et de configurer entièrement le schéma de votre jeu de données :

  1. Utilisation d'étiquettes identifiables et d'ID

  2. Ajout d'une description à un champ de l'ensemble de données

  3. Définir le type approprié pour chaque champ

Vous pouvez également réorganiser les champs en les faisant glisser et en les déposant à l'aide de l'icône de six points située à gauche, ou en utilisant les flèches vers le haut et vers le bas.

Les champs de l'ensemble de données peuvent être « supprimés » de l'ensemble de données en cliquant sur l'icône de la corbeille.

Cela ne signifie pas que le champ est complètement supprimé de l'ensemble de données, mais seulement de la sortie. Une fois l'ensemble de données publié, le champ supprimé n'apparaîtra dans aucune visualisation, et si l'ensemble de données est exporté, le champ supprimé ne figurera pas dans l'exportation.

Les champs supprimés apparaissent en gris à la fin du schéma.

Pour restaurer un champ supprimé d'un ensemble de données, passez la souris dessus et cliquez sur l'icône de la flèche circulaire.

1) Utilisation d'étiquettes identifiables et d'identifiants

Lorsqu'elle le peut, la plateforme récupère les libellés des champs à partir d'un jeu de données source.

Néanmoins, nous vous encourageons à prendre le temps d'utiliser des étiquettes explicites et bien écrites. C'est ce qui est visible dans le portail, donc pour s'assurer qu'un public plus large puisse comprendre les données, utilisez si possible des termes simples au lieu d'un vocabulaire spécifique à l'entreprise.

Pour modifier un libellé, saisissez la valeur correcte sous « Champ ».

Notez que l'étiquette du champ et l'identifiant technique ne sont pas la même chose. En général, vous devriez éviter de modifier vos identifiants techniques, mais si vous le faites, notez qu'ils ne doivent pas contenir de caractères spéciaux.

La modification de l'identifiant technique d'un champ peut empêcher la réutilisation de l'ensemble de données correspondant (info-bulles personnalisées, onglets personnalisés ou pages). Il peut également perturber les processeurs qui font référence à cet identifiant. Cela peut également poser un problème si la source du jeu de données est régulièrement mise à jour : lors du remplacement d'une source par une source plus récente, la plateforme vérifie l'identifiant technique des champs des deux sources afin de trouver une correspondance entre les deux. Si les identifiants techniques ne sont plus les mêmes, le jeu de données n'est pas mis à jour.

Bascule « ID unique » : Chaque enregistrement est identifié de manière unique par son identifiant, qui est par défaut calculé comme l'empreinte digitale de toutes les valeurs de champ de l'enregistrement. Si l'option « ID unique » est activée pour un champ, les enregistrements ayant le même identifiant (ou la même valeur) sont supprimés et seul le dernier/le plus ancien reste dans l'ensemble de données. Cette option est particulièrement utile pour les ensembles de données en temps réel afin de s'assurer qu'au lieu d'ajouter de nouveaux enregistrements à chaque mise à jour de l'ensemble de données, les nouvelles valeurs remplacent les anciennes.

2) Ajout d'une description

Des descriptions peuvent être ajoutées aux champs de l'ensemble de données pour plus de contexte ou d'informations.

Pour ajouter une description, saisissez-la sous « Description (facultatif) ».

3) Choisir un type de champ

Les champs sont caractérisés par des types. En fonction du type de champ choisi, la plate-forme traitera et affichera ses enregistrements d'une manière spécifique.

Pour choisir un type, sélectionnez-le dans la liste sous « Type ». Il existe huit types différents : texte, entier, booléen, double, datetime, date, point géographique, forme géographique, adresse IP et fichier.

En fonction du type, vous pouvez définir plus précisément le champ.

Depending on the type, you're able to further define the field.

Type

Déscription

Text

Les valeurs des champs sont des textes.

Deux options vous permettent de spécifier si les valeurs sont multivaluées ou hiérarchiques :

L'option « Multivalué » concerne les enregistrements séparés par un même séparateur. Exemple : France,UK,USA Lorsqu'elle est configurée en tant que filtre, chaque valeur d'enregistrement du champ apparaît sous la forme d'une entrée distincte dans la section des filtres. Lorsque l'on clique sur l'une des entrées, toutes les autres entrées qui ne sont pas liées (c'est-à-dire les entrées qui n'apparaissent jamais dans le même enregistrement en tant que partie d'une combinaison) disparaissent automatiquement - seules les entrées liées restent disponibles en tant qu'entrées de filtre.

L'option « Hiérarchique » s'applique aux enregistrements multivalués, séparés par un même séparateur et qui ont une relation hiérarchique. Exemple : France/Ile-de-France/Paris Lorsqu'elle est utilisée comme filtre, la première valeur de chaque combinaison multivaluée apparaît comme une entrée distincte dans la section des filtres. En cliquant sur une entrée, toutes les valeurs de second niveau liées à cette entrée apparaissent, et ainsi de suite. Exemple : Après avoir cliqué sur l'entrée de filtre France, l'entrée de deuxième niveau Ile-de-France apparaît. Après avoir cliqué sur Ile-de-France, l'entrée de troisième niveau Paris apparaît.

Integer

Les valeurs des champs sont des nombres entiers. Notez que si une valeur contient une décimale, seul le nombre entier est conservé (la valeur décimale est supprimée). Par exemple, si la valeur est 1,9, le nombre entier résultant est 1.

Vous pouvez définir l'unité à partir de la liste.

Boolean

Une valeur vraie ou fausse.

Double

Pour les chiffres décimaux. Les séparateurs valides pour la partie décimale sont . ou ,. Pour définir un nombre spécifique d'unités décimales, activez la case à cocher « Forcer le nombre de décimales à afficher ».

Vous pouvez définir l'unité à partir de la liste.

DateTime

Les valeurs de champ sont une combinaison d'une date et d'une heure. Le format idéal est le format ISO 8601, qui est YYYY-mm-ddTHH:MM:ss+00:00 , YYYY-mm-ddTHH:MM:ssZ ou YYYYmmddTHHMMssZ. D'autres formats sont également compris par la plateforme, tels que YYYY-mm-dd-HH:MM:ss ou YYYY-mm-dd HH:MM:ss.

La plate-forme essaiera de deviner aussi précisément que possible le format datetime d'entrée. Cependant, en cas de mauvaise détection ou d'ambiguïté, utilisez le processeur Normaliser la date pour définir le format d'analyse du champ datetime.

Par défaut, les enregistrements de temps sont dans le fuseau horaire UTC. Pour modifier le fuseau horaire, utilisez le Processeur Définir le fuseau horaire.

Vous pouvez définir la précision à partir de la liste (heure, minute).

La date complète (heure et minutes) est affichée dans le jeu de données. La différence se situe dans la vue Analyse et dans Chart Builder où le degré de précision est disponible pour configurer le graphique.

Date

Les valeurs des champs sont des dates. Le format idéal est le format ISO 8601, qui est YYYY-mm-dd. D'autres formats sont également compris par la plateforme, tels que YYYY/mm/dd ou dd/mm/YYYY.

La plateforme essaiera de deviner le plus précisément possible le format de la date d'entrée. Cependant, en cas de mauvaise détection ou d'ambiguïté, utilisez le processeur Normaliser la date pour définir le format d'analyse du champ de date.

Vous pouvez définir la précision à partir de la liste :

  • Année : Seule l'année de la date est affichée dans l'ensemble de données.

  • Mois : Seuls le mois et l'année de la date sont affichés dans l'ensemble de données.

  • Jour : La date complète (jour, mois et année) est affichée dans le jeu de données.

Geopoint

Les valeurs des champs correspondent à un emplacement géographique unique exprimé dans le format <LAT>,<LON>, par exemple 45.8,2.5.

Si votre jeu de données contient deux champs, latitude et longitude, utilisez le processeur Create GeoPoint (Créer un point géographique) pour créer un champ de point géographique valide.

Geoshape

Les valeurs des champs sont des formes géographiques exprimées en GeoJSON. Par exemple :

{"type": "LineString",
 "coordinates": [ [100.0, 0.0], [101.0, 1.0] ]}

Les collections de caractéristiques ne sont pas prises en charge.

IP address

Les valeurs des champs sont des adresses IP au format IPv4 habituel, comme 192.0.2.22 (quatre nombres de un à trois chiffres séparés par des points : 0.0.0.0 à 255.255.255.255).

L'option "Anonymiser l'adresse IP" est disponible, ce qui convertit le dernier chiffre de l'adresse en un 0. Notre exemple d'adresse ci-dessus deviendrait donc 192.0.2.0.

Notez que cela ne rend pas techniquement l'adresse anonyme, mais la rend seulement moins spécifique. Vous restez responsable de la disponibilité des données personnelles identifiables que vous publiez.

Notez que si vous pouvez utiliser un champ de texte pour stocker les adresses IP, cela ne vous permettra pas "d'anonymiser" les adresses de la manière indiquée ci-dessus, et les actions qui traitent les adresses IP via l'API (par exemple, l'agrégation par adresse IP et les comptages distincts) sont plus rapides lorsque le type d'adresse IP est utilisé.

File

Les valeurs de champ sont des fichiers provenant de l'une des méthodes disponibles pour créer un ensemble de données avec des fichiers multimédias (avec le processeur de fichiers, via un fichier d'archive ou avec un extracteur spécifique), créant un champ dont le type par défaut est fichier. Ce type de champ n'est disponible que dans ce cas.