Diagramme en Mosaïque

PARTAGER L’ARTICLE SUR 

Diagramme en Mosaïque Diagramme en Mosaïque
Table des matières

Un diagramme en mosaïque est une sorte de graphique à barres empilées qui affiche les pourcentages de données en groupes. Un tableau de contingence est représenté graphiquement dans le diagramme. 

Les diagrammes en mosaïque sont utilisés pour démontrer les connexions et comparer visuellement les regroupements. 

Qu’est-ce qu’un diagramme en mosaïque ?

Un diagramme en mosaïque (également appelé diagramme de Marimekko) est un moyen graphique de représenter visuellement des données provenant de deux variables qualitatives ou plus. Il s’agit d’une version multidimensionnelle des spineplots, qui représentent graphiquement les mêmes données pour une seule variable. Il fournit un résumé des données et permet d’identifier les corrélations entre des variables distinctes. Par exemple, l’indépendance est démontrée lorsque toutes les cases de la même catégorie partagent les mêmes zones. Hartigan et Kleiner ont proposé des diagrammes en mosaïque en 1981, et Friendly les a développés en 1994. En raison de sa similitude avec une carte de Marimekko, les diagrammes en mosaïque sont souvent connus sous le nom de cartes de Mekko. La surface des cases, également appelée taille du bac, est liée au nombre d’observations à l’intérieur de cette catégorie, comme pour les graphiques à barres et les diagrammes spineplots. 

EXEMPLE 

Un exemple typique de mosaïque incorpore les données des passagers du Titanic. L’ensemble de données de cet exemple contient 2201 observations et trois variables. Les variables sont les suivantes : 

  • le sexe de l’individu (homme / femme) 
  • la classe (première, deuxième et troisième classe, ou équipage) 
  • Cette personne a-t-elle échappé au naufrage (oui / non)? 

Les observations ont été regroupées dans le tableau suivant : 

Genre 

Survécu 

1re classe 

2e classe 

3e classe 

Équipage 

Homme 

Non 

118 

154 

422 

670 

Oui 

62 

25 

88 

192 

Femme 

Non 

4 

13 

106 

3 

Oui 

141 

93 

90 

20 

Construction: 

Les variables catégorielles sont initialement classées par ordre alphabétique. Les variables sont ensuite affectées à un axe. La séquence et la catégorisation de cet ensemble de données sont indiquées dans le tableau de droite. Un autre ordre produira un diagramme de mosaïque différent, indiquant que l’ordre des variables est important dans tous les diagrammes multivariés. 

Nous affichons initialement « Sexe » sur le bord gauche de la première variable, ce qui signifie que nous divisons les données verticalement en deux blocs: celui du bas (beaucoup plus petit) concerne les femmes, tandis que celui du haut (beaucoup plus grand) se réfère aux hommes. On peut facilement affirmer que les passagers étaient divisés de la manière suivante : environ un quart des passagers étaient des femmes, et trois quarts des hommes. 

Commande 

Variable 

Axe 

1. 

Genre 

Vertical 

2. 

Classe 

Horizontal 

3. 

Survécu 

Vertical 

Le bord supérieur reçoit alors la deuxième variable « Classe ». Par conséquent, les quatre colonnes verticales représentent les quatre valeurs de cette variable (1re, 2e, 3e et équipage). Étant donné que la largeur des colonnes montre la fraction proportionnelle de la valeur pertinente sur la population, l’épaisseur de ces colonnes varie. L’équipage est clairement la catégorie la plus dominée par les hommes, tandis que les passagers de troisième classe sont le groupe le plus dominé par les femmes. Le nombre de femmes membres d’équipage est également considéré comme faible. 

Enfin, la troisième variable (« Survécu ») est appliquée, cette fois le long du côté gauche, avec le résultat souligné par la nuance : les rectangles gris foncé représentent ceux qui n’ont pas survécu à la catastrophe, tandis que les rectangles gris clair représentent les personnes qui elles s’en sont tirées. Il est rapidement démontré que les femmes de la première classe ont eu les meilleures chances de survie. Les femmes semblent avoir eu une probabilité de survie plus élevée que les hommes (ce qui se marginalise dans toutes les classes). De même, une marginalisation fondée sur le sexe identifie les passagers de première classe comme les plus susceptibles de survivre. Au total, environ un tiers de toutes les personnes ont survécu (proportion de zones gris clair). 

Guide de recherche exploratoire

Mener des recherches exploratoires semble délicat, mais un guide efficace peut servir. 

Propriétés des Diagrammes en Mosaïque

  • Les variables présentées sont des échelles catégorielles ou ordinales. 
  • Il y a au moins deux variables dans le graphique. Il n’y a pas de limite supérieure, mais avoir trop de variables peut être trompeur sous forme visuelle. 
  • Le nombre d’observations n’est pas limité ; cependant, cela n’est pas visible sur l’image. 
  • Les surfaces des champs rectangulaires accessibles pour un ensemble donné de caractéristiques sont proportionnelles au nombre d’observations avec cet ensemble d’entités. 
  • Le diagramme en mosaïque, contrairement au diagramme en boîte ou au diagramme QQ, ne permet pas l’affichage d’un intervalle de confiance. En conséquence, la pertinence des diverses fréquences des différentes valeurs caractéristiques ne peut pas être démontrée visuellement. 

Utilisations d’un Diagramme en Mosaïque

Les tracés en mosaïque sont utiles lorsque : 

  • Les relations qui sont « part-to-whole » ou « part-to-part-to-whole » doivent être soulignées. 
  • Si nécessaire, les valeurs exactes peuvent être récupérées à l’aide d’un autre mécanisme (par exemple, un tableau). 
  • L’espace est limité, donc les comparaisons de multiples minuscules sont raisonnables. 

Indépendance

Un diagramme en mosaïque indique généralement clairement si deux variables sont indépendantes. Puisque toutes les proportions sont les mêmes lorsqu’elles sont indépendantes, les boîtes s’alignent dans une grille. Cette approche est démontrée à l’aide de l’ensemble de données des admissions à l’UCB inclus avec R. Voici un graphique des admissions des étudiants selon leur sexe : 

Cela semble être un préjugé sexiste. Cependant, il existe une variable cachée : le département auquel l’étudiant a postulé. Que se passe-t-il lorsque nous stratifions par département ?: 

La plupart des départements semblent être neutres du point de vue du genre, et ceux qui sont biaisés le sont en favorisant les femmes. Premièrement, il y a extrêmement peu de candidates dans les départements A et B (les colonnes sont étroites). Il est également très simple d’entrer dans de tels départements – le nombre de candidats qui sont refusés est plus faible que dans d’autres départements, en particulier F. Une possibilité est que plus d’hommes entrent parce qu’ils postulent dans les départements affamés, ceux qui connaissent peut-être la croissance la plus rapide. 

Découvrez le logiciel de sondage Voxco en action avec une démo gratuite.

See Voxco survey software in action with a Free demo.

Résidu

Les diagrammes en mosaïque fournissent les données exactement telles quelles, sans aucune tentative de généralisation à l’ensemble de la population. Nous avons besoin de mesures de signification statistique pour porter des jugements sur la population. Nous pouvons définir les résidus de Pearson, qui s’inspirent du test du chi carré, pour quantifier l’écart de chaque cellule par rapport à l’indépendance. Étant donné que les unités sont dans des écarts-types, un résidu supérieur à 2 ou inférieur à -2 signifie un écart substantiel au niveau de 95 %. 

Voici un graphique en mosaïque de la couleur des cheveux par rapport à la couleur des yeux dans un groupe d’étudiants statistiques avec ombrage résiduel. 

Les résidus peuvent être vus comme suit : si nous sommes certains qu’une cellule est plus élevée que les autres cellules de la même ligne, elle est colorée en bleu. Si nous sommes certains qu’une cellule est plus courte que les autres cellules de la même ligne, elle est colorée en rouge. Si une cellule est manifestement courte mais ne devient pas rouge, les données sont insuffisantes pour établir que la cellule resterait courte si nous obtenions un autre échantillon. Une cellule bleue est souvent suivie d’une cellule rouge dans la même ligne, bien que ce ne soit pas toujours le cas – voir, par exemple, la rangée inférieure de la figure (yeux verts). Il est à noter que l’ombrage ne dit rien sur les hauteurs relatives des boîtes dans la même colonne. 

L’ombrage est inutile dans un tableau avec beaucoup de données, car toutes les différences sont substantielles et peuvent être observées à partir des hauteurs de boîte. Lorsque les boîtes ne sont pas alignées, comme dans la rangée « yeux noisette », il peut être difficile de comparer les hauteurs. De plus, la coloration attire votre attention sur les emplacements des relations essentielles. 

Avantages des diagrammes en mosaïque

Ils fournissent un résumé des données et permettent d’identifier les corrélations entre des variables distinctes. Par exemple, l’indépendance est démontrée lorsque toutes les cases de la même catégorie ont les mêmes zones. 

Inconvénients des diagrammes en mosaïque

  • Il est difficile de comparer des longueurs ou des hauteurs qui ne sont pas alignées le long d’une ligne de base partagée. 

Par exemple, dans le graphique ci-dessous, étant donné que les deux rectangles en surbrillance ne sont pas alignés sur la même ligne de base, il est plus difficile de comparer leurs hauteurs que s’ils étaient alignés le long d’une seule ligne de base. 

  • Les choses catégoriques sont souvent difficiles à classer. 
  • Une variable est représentée par la hauteur des rectangles et l’autre par leur largeur, mais il est difficile de se concentrer sur les hauteurs ou les largeurs individuellement lorsqu’elles fluctuent toutes les deux. 
  • Les comparaisons de tailles de rectangle sont confondues par le fait que les rapports d’aspect des rectangles peuvent varier considérablement. 
Diagramme en Mosaïque Diagramme en Mosaïque

See why 450+ clients trust Voxco!

Subscription Pop Up (#10)

By providing this information, you agree that we may process your personal data in accordance with our Privacy Policy.