Le diagramme en violon

PARTAGER L’ARTICLE SUR

Le diagramme en violon voix du client
Table des matières

Le diagramme en violon est une combinaison entre un diagramme en boîte, Box Plot, et un diagramme d’estimation de densité qui affiche les pics de données. Il est utilisé pour montrer comment les données numériques sont distribuées. Contrairement à un diagramme en boîte, qui ne peut fournir que des statistiques sommaires, les diagrammes en violon montrent des statistiques sommaires ainsi que la densité de chaque variable.

Qu'est-ce qu'un diagramme en violon ?

Un diagramme en violon est un type de visualisation de données quantitatives. Il est similaire à un diagramme en boîte, mais de chaque côté se trouve un diagramme de densité à noyau tournant.

En général, un diagramme en violon comprend toutes les données d’un diagramme en boîte : un marqueur pour la médiane des données, une boîte ou un marqueur représentant l’écart interquartile et, si le nombre d’échantillons n’est pas trop important, tous les points de l’échantillon.

Les diagrammes de type violon sont disponibles en tant qu’extensions de divers logiciels, notamment le module Data Visualization du CRAN et le module md-plot de PyPI.

Les diagrammes en violon, tout comme les diagrammes en boîte, sont utilisés pour examiner la distribution d’une variable, ou distribution de l’échantillon, dans des « catégories » distinctes. Par exemple, la distribution de la température comparée entre le jour et la nuit, ou la distribution des prix des voitures comparée entre différents constructeurs automobiles. Des couches peuvent être ajoutées à un diagramme en violon. Par exemple, la forme extérieure représente tous les résultats concevables. Les valeurs qui se produisent 95 % du temps peuvent être représentées par la couche suivante à l’intérieur. À l’intérieur, la couche suivante, si elle existe, peut représenter les valeurs qui se produisent 50 % du temps.

Ils sont moins courants que les diagrammes en boîte, bien qu’ils soient plus informatifs. En raison de leur caractère obscur, leur signification peut être difficile à comprendre pour de nombreux lecteurs qui ne sont pas familiers avec la représentation de ces diagrammes.

Dans ce cas, le tracé d’une série d’histogrammes empilés ou de distributions de densité de noyau peut être une option plus accessible.

Guide de la recherche exploratoire

Mener une recherche exploratoire peut sembler difficile, mais un guide efficace peut vous aider.

Comment lire un diagramme en violon ?

  • Le point blanc indique la médiane.
  • La plage interquartile est représentée par la large barre grise au milieu.
  • À l’exception des points considérés comme « aberrants » à l’aide d’une technique basée sur l’écart interquartile, la fine ligne grise reflète le reste de la distribution.
  • Une estimation de la densité du noyau est affichée de chaque côté de la ligne grise, pour indiquer la forme de distribution des données. Les parties plus larges du diagramme en violon reflètent une plus grande possibilité que les individus de la population prennent la valeur donnée, tandis que les sections plus fines impliquent une probabilité moindre.

Meilleure pratique pour utiliser un diagramme en violon

TENEZ COMPTE DE L’ORDRE DU GROUPE

Lorsque les groupes d’un diagramme en violon n’ont pas d’ordre intrinsèque, l’ordre dans lequel les groupes sont tracés peut être modifié, pour simplifier la dérivation des informations à partir des données. Le tri des groupes par valeur médiane, par exemple, rend l’ordre des groupes clairement apparent.

Option commune de tracé de violon

SUPERPOSITION AVEC UN AUTRE TYPE DE GRAPHIQUE

Les diagrammes en violon peuvent être assez restrictifs en soi. Il peut être difficile d’effectuer des comparaisons exactes des courbes de densité entre les groupes si la symétrie, l’inclinaison ou d’autres caractéristiques de forme et de variabilité changent entre les groupes. Par conséquent, les diagrammes en violon sont souvent présentés avec un autre type de graphique superposé.

Le diagramme en boîte est l’ajout le plus typique au diagramme en violon. Cet ajout est fréquemment supposé par défaut ; le diagramme en violon est parfois décrit comme un hybride de KDE et de diagramme en boîte. Pour diminuer le bruit visuel, seul un sous-ensemble d’éléments du diagramme en boîte, comme trois lignes représentant les positions des quartiles sans moustaches, sera présenté dans certaines circonstances.

Au lieu d’un diagramme en boîte, d’autres diagrammes de distribution peuvent être superposés. Un diagramme en tapis ou un diagramme en bandes, comme un nuage de points à une dimension, ajoute chaque point de données à la ligne centrale sous forme de marque ou de point. Pour éviter les chevauchements, un graphique en essaim décale les points de données par rapport à la ligne centrale. Le décalage des points par rapport à la ligne centrale est une autre approche plus facile à mettre en œuvre, mais qui ne permet pas d’éviter les chevauchements.

Ces superpositions de graphiques alternatifs fonctionnent bien lorsque chaque groupe a une quantité faible à moyenne de points de données. Si l’affichage des points de données individuels permet d’illustrer la façon dont les courbes de densité ont été construites et de révéler des informations sur la taille des groupes qui ne sont généralement pas visibles dans un diagramme en violon, leur présence ajoute du bruit au diagramme et peut être distrayante. En outre, une fois que la taille des groupes est suffisamment élevée, les estimations de la distribution à partir de la courbe de densité et du diagramme en boîte sembleront suffisamment stables pour offrir des informations utiles.

Types de diagrammes en violon

DIAGRAMME EN VIOLON DIT « DE BASE »

Il comprend des observations sur le type d’alimentation spécifique, le sexe et le poids de soixante-et-onze poussins. Ce diagramme en violon illustre le lien entre le type d’alimentation et le poids des poussins. Les caractéristiques du diagramme en boîte révèlent que les poussins nourris aux haricots ont un poids médian inférieur à celui des autres types d’aliments. La forme de la distribution, très mince à chaque extrémité et large au centre, montre que les poids des poussins nourris au tournesol sont significativement concentrés autour de la médiane.

 DIAGRAMME HORIZONTAL EN FORME DE VIOLON

Les diagrammes horizontaux en forme de violon, comme les diagrammes à barres horizontales, sont parfaits pour traiter un large éventail de catégories. En changeant d’axe, les libellés des catégories bénéficient d’une zone de liberté supplémentaire. Les parties et le tracé habituels du diagramme en boîte peuvent être omis, et chaque observation peut être représentée comme un simple point.

Lorsque votre ensemble de données contient les observations d’une population complète, les points se révèlent utiles, plutôt qu’un échantillon sélectionné. Il n’est pas nécessaire de tirer des conclusions pour une population non observée quand vous disposez de la population entière. Lorsque la largeur de la bande du noyau est réduite, les graphiques deviennent plus grumeleux, ce qui peut aider à identifier de petits groupes, comme dans la partie correspondant aux poussins nourris à la caséine.

 DIAGRAMME EN VIOLON VERTICAL VERSUS HORIZONTAL

Les diagrammes en violon peuvent être organisés en utilisant des courbes de densité verticales ou horizontales. Les diagrammes en violon orientés horizontalement sont utiles pour afficher les longs noms de groupes ou lorsque vous tracez un grand nombre de groupes. Lorsque vous avez besoin d’une surface suffisante pour examiner correctement le contour d’une courbe de densité, il est souvent préférable d’agrandir un diagramme sur son axe vertical plutôt que sur son axe horizontal.

DIAGRAMMES EN VIOLON GROUPÉS

Une variable catégorielle de second ordre peut également être représentée par un diagramme en violon. Au sein de chaque catégorie, des groupes peuvent être créés. Par exemple, créer un diagramme qui différencie les poussins mâles et femelles dans chaque groupe de type de repas que les poussins reçoivent.

Les poussins femelles pèsent moins que les mâles dans chaque catégorie de type de repas, selon le diagramme en violon groupé. De plus, il est possible de tirer des conclusions sur la façon dont le delta du sexe change entre les catégories : la différence de poids médiane est plus importante pour les poussins nourris aux graines de lin que pour les poussins nourris au soja.

DIAGRAMME EN VIOLON GROUPÉ AVEC FRACTIONNEMENT

Plutôt que de générer des diagrammes distincts pour chaque groupe au sein d’une catégorie, vous pouvez utiliser des diagrammes en violon fractionnés et remplacer le diagramme en boîte par des lignes pointillées montrant les quartiles pour chaque groupe.

Les distributions de chaque groupe peuvent être facilement comparées à l’aide des diagrammes fractionnés. Par exemple, les poussins femelles nourris au tournesol ont une distribution à longue traîne en dessous du premier quartile, mais les mâles ont une distribution à longue traîne au-dessus du troisième quartile.

Découvrez le logiciel d’enquête Voxco en action avec une démonstration gratuite.

AVANTAGES DU DIAGRAMME EN VIOLON

  • Les diagrammes en violon permettent une approximation rapide de la position du centre des données et de leur distribution.

Parce qu’un diagramme en violon incorpore un diagramme en boîte, le centre et la distribution peuvent être interprétés de la même manière qu’un diagramme en boîte.

  • Les diagrammes en violon, qui comprennent une fonction de densité de probabilité, indiquent la forme de la distribution.

Un diagramme en violon est un diagramme en boîte sur lequel est superposée une fonction de densité de probabilité, aussi appelée PDF. Une fonction de densité de probabilité est simplement un histogramme lissé qui indique la fréquence d’apparition de chaque valeur. Contrairement à un histogramme, une fonction de densité de probabilité donne une distribution plus lisse en éliminant le bruit. La fonction de densité est tournée et orientée symétriquement sur la longueur d’un diagramme en boîte, dans un diagramme en violon, de sorte que la largeur de la fonction de densité reflète la fréquence d’apparition de cette valeur dans l’ensemble de données. Une fonction de densité plus prononcée suggère que la valeur est plus fréquente. Une fonction de densité plus petite suggère que la valeur est moins fréquente.

  • L’utilisation d’une fonction continue élimine le besoin de sélectionner des cases, ce qui est un avantage significatif des PDF par rapport aux histogrammes. Cela produit une distribution d’apparence plus naturelle, quel que soit le nombre de tranches utilisées.
  • Le diagramme en violon est idéal pour les données bimodales.

Les diagrammes de boîtes ne peuvent pas distinguer les données unimodales des données bimodales. Examinez la comparaison suivante de trois diagrammes en boîte et de trois diagrammes en violon. Les diagrammes en boîte pour les ensembles de données bimodales, en bleu, et uniformes, en violet, sont pratiquement indiscernables, mais les diagrammes en violon mettent clairement en évidence les deux modes de l’ensemble de données bimodales et peuvent également démontrer que l’ensemble de données uniformes est distribué uniformément.

  • Le diagramme en violon peut également être utilisé pour comparer des données

Les diagrammes en violon, tout comme les histogrammes, les diagrammes en boîte et les diagrammes à barres, sont particulièrement utiles pour comparer deux ensembles de données et déterminer leurs différences.

Read more