La fonctionnalité Explorer les données avec l'IA

Patrick Smith Mis à jour le par Patrick Smith

Opendatasoft a déjà commencé à exploiter la puissance de l'IA pour permettre aux utilisateurs d'effectuer de nouvelles tâches ou de rendre les tâches existantes plus faciles et plus rapides. Dans cet esprit, nous avons lancé une fonctionnalité appelée « Explorer les données avec l'IA ».

L'exploration des données avec l'IA est conçue pour vous permettre de poser des questions simples en langage naturel à n'importe quel jeu de données, et même d'obtenir des visualisations rapides en fonction des résultats. Vous pouvez l'utiliser pour interroger rapidement un jeu de données et pour vérifier que le jeu de données contient ce dont vous avez besoin.

Pour tirer le meilleur parti de cette fonctionnalité, il est utile de garder quelques éléments à l’esprit.

Quelques principes et bonnes pratiques

  1. Utilisez des requêtes en langage naturel, simples et sans ambiguïté. Si cela peut dérouter un humain, il est peu probable que le robot fasse mieux !
  2. Le bot est limité par ce qui se trouve réellement dans le jeu de données et par le schéma du jeu de données. Par exemple, cela signifie que le bot ne peut pas créer de carte sans données géographiques réelles. Mais cela signifie également que si votre requête utilise des termes rares ou absents de l'ensemble de données, le bot peut avoir du mal à répondre correctement à votre requête.
  3. Utilisez le bouton Afficher le raisonnement pour comprendre ou vérifier la réponse qui vous a été donnée.
  4. Le bot peut actuellement afficher des informations de quatre manières différentes : sous forme de nombre unique, de graphique à colonnes, de graphique linéaire ou de carte de points d'intérêt. Il peut être utile de spécifier celui que vous souhaitez.
  5. Le bot peut généralement exécuter les fonctions suivantes : compter le nombre total d'enregistrements, le nombre d'enregistrements distincts, renvoyer une valeur minimale ou maximale, effectuer des sommes ou renvoyer une valeur moyenne ou médiane.

Plus en détail

  1. Utilisez des requêtes en langage naturel et gardez-les simples et sans ambiguïté.
    Dans une conversation, nous pouvons parfois deviner le sens d'une question ambiguë, mais il arrive parfois que la formulation soit tout simplement floue. Par exemple, si quelqu'un demande « Afficher les dépenses et les revenus par service lorsque les revenus sont supérieurs à 1 million de dollars », il se peut que l'on ne sache pas si « lorsque les revenus sont supérieurs à 1 million de dollars » se réfère uniquement aux revenus ou s'applique aux dépenses.
    Il est probable que le robot suppose que vous souhaitez que cela s'applique aux deux. N'oubliez donc pas que vous aurez plus de succès si vos demandes sont simples et claires.
  2. Le bot est limité par ce qui se trouve réellement dans le jeu de données et par le schéma du jeu de données.
    Comme indiqué ci-dessus, cela signifie par exemple que le robot ne peut pas créer de carte sans données géographiques réelles. Il en va de même pour les nombres ou les dates. Les données doivent avoir le type approprié et être correctement formatées pour que le robot puisse réaliser la visualisation pertinente.
    Notez que certaines données peuvent sembler seulement cartographiables. Un jeu de données peut être organisé par ville, et donc avoir une colonne avec les noms des villes, mais ne pas fournir de données géographiques réelles. Imaginez que « Paris » soit l'une de ces villes. Paris, en France, n'est en fait pas le seul « Paris » au monde. Le Paris voulu peut sembler évident, mais le bot ne peut tout simplement pas inventer des détails que le jeu de données n'inclut pas déjà.
    Cela signifie également que si votre requête utilise des termes rares ou absents de l'ensemble de données, le robot peut avoir du mal à répondre de manière appropriée à votre requête. Il peut donc être utile d'examiner les données elles-mêmes et d'ajuster votre requête en conséquence. Il faudra peut-être plusieurs essais avant de trouver la formulation suffisamment précise pour que le robot la comprenne.
    Exemples :
    Par exemple, le jeu de données All Vehicles Model, un ensemble de données collectées par l'Agence américaine de protection de l'environnement, répertorie plus de 47 000 véhicules avec des informations sur leur type de carburant et leur efficacité. Nous pourrions vouloir savoir combien de modèles sont hybrides, et donc demander « Combien de véhicules hybrides y a-t-il dans l'ensemble de données ? »
    Le bot échoue
    Comme vous pouvez le voir ci-dessous, bien qu'il y ait en fait des hybrides dans l'ensemble de données, le robot a renvoyé 0. Lorsque nous examinons son raisonnement, nous pouvons comprendre pourquoi. Bien qu'après examen, la colonne « Type de carburant » soit effectivement l'endroit où se trouve la réponse, le robot cherchait apparemment la valeur « Hybrid » alors qu'en fait la valeur pertinente est « Electricity ».
    Dans les données, nous pouvons voir que « Electricity » est répertorié soit seul, pour les voitures entièrement électriques, soit avec un autre type de carburant, dans le cas des hybrides.
    Rester simple
    Voyons si nous pouvons obtenir le nombre total de véhicules électriques, à la fois entièrement électriques et hybrides. Nous pourrions demander : « Combien de véhicules ont un type de carburant qui contient de l'électricité ? » Et la réponse est : 1,108.
    Et qu'en est-il des véhicules entièrement électriques ? Si nous demandons : « Combien de véhicules ont un type de carburant qui ne contient que de l'électricité ? », nous obtenons la réponse : 766.
    Une soustraction rapide, et nous concluons qu’il y a 342 hybrides.
    Une méthode plus directe
    Nous risquons de confondre le robot, mais nous pouvons essayer d'obtenir la réponse directement en demandant quelque chose comme : « Combien de véhicules ont un type de carburant qui contient de l'électricité mais qui n'est pas égal à de l'électricité ? » Et ici nous obtenons également notre réponse : 342.
  3. Assurez-vous de jeter un œil au bouton Afficher le raisonnement pour comprendre ou vérifier la réponse qui vous a été donnée.
    Comme on peut le voir dans les exemples ci-dessus, les informations fournies ici peuvent être essentielles si vous souhaitez avoir un aperçu de ce que fait le bot ou potentiellement de ce qui manque à l'ensemble de données.
  4. Le bot peut actuellement afficher des informations de quatre manières différentes : sous forme de nombre unique, de graphique à colonnes, de graphique linéaire ou de carte de points d'intérêt. Si vous pouvez nous aider à préciser lequel vous souhaitez.
    Notez que cela signifie que vous ne pouvez pas poser au robot une question par oui ou par non, du moins pas directement. Par exemple, imaginez que vous disposez d'un ensemble de données sur les parkings, leurs capacités et le nombre de places de parking actuellement occupées. Vous souhaitez savoir s'il existe actuellement des parkings à pleine capacité. Ainsi, au lieu de demander s'il y a des parkings pleins, vous pouvez demander combien il y en a. Si la réponse est « 12 », vous avez à la fois la réponse à votre question initiale (oui, il y en a), mais vous savez également combien !

    Il en va de même pour une réponse sous forme de mot ou de mots. Si vous souhaitez savoir quelle taille de chaussures est la plus populaire dans votre ensemble de données de magasin de chaussures, vous ne poserez pas cette question directement. Au lieu de cela, demandez-lui de représenter graphiquement les tailles par nombre vendu. Non seulement vous verrez quelle taille a la barre la plus grande, mais vous aurez également une idée de la distribution dans les données !
    Notez que les cartes ne peuvent afficher qu'un seul type de point de données à la fois. Cependant, vous pouvez demander que chaque point de données inclue des informations spécifiques de l'ensemble de données. Par exemple, si vous souhaitez cartographier les parkings de l'astuce ci-dessus, vous ne pouvez pas demander que les parkings complets soient indiqués d'une manière différente. Cependant, vous pouvez demander que le nombre de places restantes (en supposant que cette colonne existe) soit inclus lorsque vous cliquez sur un point donné de la carte.
    Un exemple de graphique à colonnes :
    Un exemple de carte :
  5. Le bot peut généralement exécuter les fonctions suivantes : compter le nombre total d'enregistrements, le nombre d'enregistrements distincts, renvoyer une valeur minimale ou maximale, effectuer des sommes ou renvoyer une valeur moyenne ou médiane.
    Notez que vous pouvez regrouper ou trier vos résultats, et qu'il est utile de spécifier la colonne à utiliser pour le faire.

Êtes-vous satisfait ?

Recherchez vos données avec l'IA (recherche vectorielle)

Contactez-nous

Powered by HelpDocs (opens in a new tab)