PARTAGER L’ARTICLE SUR
Un diagramme en mosaïque est une sorte de graphique à barres empilées qui affiche les pourcentages de données en groupes. Un tableau de contingence est représenté graphiquement dans le diagramme.
Les diagrammes en mosaïque sont utilisés pour démontrer les connexions et comparer visuellement les regroupements.
Un diagramme en mosaïque (également appelé diagramme de Marimekko) est un moyen graphique de représenter visuellement des données provenant de deux variables qualitatives ou plus. Il s’agit d’une version multidimensionnelle des spineplots, qui représentent graphiquement les mêmes données pour une seule variable. Il fournit un résumé des données et permet d’identifier les corrélations entre des variables distinctes. Par exemple, l’indépendance est démontrée lorsque toutes les cases de la même catégorie partagent les mêmes zones. Hartigan et Kleiner ont proposé des diagrammes en mosaïque en 1981, et Friendly les a développés en 1994. En raison de sa similitude avec une carte de Marimekko, les diagrammes en mosaïque sont souvent connus sous le nom de cartes de Mekko. La surface des cases, également appelée taille du bac, est liée au nombre d’observations à l’intérieur de cette catégorie, comme pour les graphiques à barres et les diagrammes spineplots.
EXEMPLE
Un exemple typique de mosaïque incorpore les données des passagers du Titanic. L’ensemble de données de cet exemple contient 2201 observations et trois variables. Les variables sont les suivantes :
Les observations ont été regroupées dans le tableau suivant :
Genre | Survécu | 1re classe | 2e classe | 3e classe | Équipage |
Homme | Non | 118 | 154 | 422 | 670 |
Oui | 62 | 25 | 88 | 192 | |
Femme | Non | 4 | 13 | 106 | 3 |
Oui | 141 | 93 | 90 | 20 |
Les variables catégorielles sont initialement classées par ordre alphabétique. Les variables sont ensuite affectées à un axe. La séquence et la catégorisation de cet ensemble de données sont indiquées dans le tableau de droite. Un autre ordre produira un diagramme de mosaïque différent, indiquant que l’ordre des variables est important dans tous les diagrammes multivariés.
Nous affichons initialement « Sexe » sur le bord gauche de la première variable, ce qui signifie que nous divisons les données verticalement en deux blocs: celui du bas (beaucoup plus petit) concerne les femmes, tandis que celui du haut (beaucoup plus grand) se réfère aux hommes. On peut facilement affirmer que les passagers étaient divisés de la manière suivante : environ un quart des passagers étaient des femmes, et trois quarts des hommes.
Commande | Variable | Axe |
1. | Genre | Vertical |
2. | Classe | Horizontal |
3. | Survécu | Vertical |
Le bord supérieur reçoit alors la deuxième variable « Classe ». Par conséquent, les quatre colonnes verticales représentent les quatre valeurs de cette variable (1re, 2e, 3e et équipage). Étant donné que la largeur des colonnes montre la fraction proportionnelle de la valeur pertinente sur la population, l’épaisseur de ces colonnes varie. L’équipage est clairement la catégorie la plus dominée par les hommes, tandis que les passagers de troisième classe sont le groupe le plus dominé par les femmes. Le nombre de femmes membres d’équipage est également considéré comme faible.
Enfin, la troisième variable (« Survécu ») est appliquée, cette fois le long du côté gauche, avec le résultat souligné par la nuance : les rectangles gris foncé représentent ceux qui n’ont pas survécu à la catastrophe, tandis que les rectangles gris clair représentent les personnes qui elles s’en sont tirées. Il est rapidement démontré que les femmes de la première classe ont eu les meilleures chances de survie. Les femmes semblent avoir eu une probabilité de survie plus élevée que les hommes (ce qui se marginalise dans toutes les classes). De même, une marginalisation fondée sur le sexe identifie les passagers de première classe comme les plus susceptibles de survivre. Au total, environ un tiers de toutes les personnes ont survécu (proportion de zones gris clair).
Mener des recherches exploratoires semble délicat, mais un guide efficace peut servir.
Les tracés en mosaïque sont utiles lorsque :
Un diagramme en mosaïque indique généralement clairement si deux variables sont indépendantes. Puisque toutes les proportions sont les mêmes lorsqu’elles sont indépendantes, les boîtes s’alignent dans une grille. Cette approche est démontrée à l’aide de l’ensemble de données des admissions à l’UCB inclus avec R. Voici un graphique des admissions des étudiants selon leur sexe :
Cela semble être un préjugé sexiste. Cependant, il existe une variable cachée : le département auquel l’étudiant a postulé. Que se passe-t-il lorsque nous stratifions par département ? :
La plupart des départements semblent être neutres du point de vue du genre, et ceux qui sont biaisés le sont en favorisant les femmes. Premièrement, il y a extrêmement peu de candidates dans les départements A et B (les colonnes sont étroites). Il est également très simple d’entrer dans de tels départements – le nombre de candidats qui sont refusés est plus faible que dans d’autres départements, en particulier F. Une possibilité est que plus d’hommes entrent parce qu’ils postulent dans les départements affamés, ceux qui connaissent peut-être la croissance la plus rapide.
Découvrez le logiciel de sondage Voxco en action avec une démo gratuite.
Les diagrammes en mosaïque fournissent les données exactement telles quelles, sans aucune tentative de généralisation à l’ensemble de la population. Nous avons besoin de mesures de signification statistique pour porter des jugements sur la population. Nous pouvons définir les résidus de Pearson, qui s’inspirent du test du chi carré, pour quantifier l’écart de chaque cellule par rapport à l’indépendance. Étant donné que les unités sont dans des écarts-types, un résidu supérieur à 2 ou inférieur à -2 signifie un écart substantiel au niveau de 95 %.
Voici un graphique en mosaïque de la couleur des cheveux par rapport à la couleur des yeux dans un groupe d’étudiants statistiques avec ombrage résiduel.
Les résidus peuvent être vus comme suit : si nous sommes certains qu’une cellule est plus élevée que les autres cellules de la même ligne, elle est colorée en bleu. Si nous sommes certains qu’une cellule est plus courte que les autres cellules de la même ligne, elle est colorée en rouge. Si une cellule est manifestement courte mais ne devient pas rouge, les données sont insuffisantes pour établir que la cellule resterait courte si nous obtenions un autre échantillon. Une cellule bleue est souvent suivie d’une cellule rouge dans la même ligne, bien que ce ne soit pas toujours le cas – voir, par exemple, la rangée inférieure de la figure (yeux verts). Il est à noter que l’ombrage ne dit rien sur les hauteurs relatives des boîtes dans la même colonne.
L’ombrage est inutile dans un tableau avec beaucoup de données, car toutes les différences sont substantielles et peuvent être observées à partir des hauteurs de boîte. Lorsque les boîtes ne sont pas alignées, comme dans la rangée « yeux noisette », il peut être difficile de comparer les hauteurs. De plus, la coloration attire votre attention sur les emplacements des relations essentielles.
Ils fournissent un résumé des données et permettent d’identifier les corrélations entre des variables distinctes. Par exemple, l’indépendance est démontrée lorsque toutes les cases de la même catégorie ont les mêmes zones.
Par exemple, dans le graphique ci-dessous, étant donné que les deux rectangles en surbrillance ne sont pas alignés sur la même ligne de base, il est plus difficile de comparer leurs hauteurs que s’ils étaient alignés le long d’une seule ligne de base.
See why 450+ clients trust Voxco!
By providing this information, you agree that we may process your personal data in accordance with our Privacy Policy.
Nous utilisons des cookies sur notre site web pour vous offrir la meilleure expérience de navigation et pour adapter la publicité. En continuant à utiliser notre site web, vous nous donnez votre accord pour l'utilisation des cookies. Lire la suite
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
hubspotutk | www.voxco.com | HubSpot functional cookie. | 1 year | HTTP |
lhc_dir_locale | amplifyreach.com | --- | 52 years | --- |
lhc_dirclass | amplifyreach.com | --- | 52 years | --- |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
_fbp | www.voxco.com | Facebook Pixel advertising first-party cookie | 3 months | HTTP |
__hstc | www.voxco.com | Hubspot marketing platform cookie. | 1 year | HTTP |
__hssrc | www.voxco.com | Hubspot marketing platform cookie. | 52 years | HTTP |
__hssc | www.voxco.com | Hubspot marketing platform cookie. | Session | HTTP |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
_gid | www.voxco.com | Google Universal Analytics short-time unique user tracking identifier. | 1 days | HTTP |
MUID | bing.com | Microsoft User Identifier tracking cookie used by Bing Ads. | 1 year | HTTP |
MR | bat.bing.com | Microsoft User Identifier tracking cookie used by Bing Ads. | 7 days | HTTP |
IDE | doubleclick.net | Google advertising cookie used for user tracking and ad targeting purposes. | 2 years | HTTP |
_vwo_uuid_v2 | www.voxco.com | Generic Visual Website Optimizer (VWO) user tracking cookie. | 1 year | HTTP |
_vis_opt_s | www.voxco.com | Generic Visual Website Optimizer (VWO) user tracking cookie that detects if the user is new or returning to a particular campaign. | 3 months | HTTP |
_vis_opt_test_cookie | www.voxco.com | A session (temporary) cookie used by Generic Visual Website Optimizer (VWO) to detect if the cookies are enabled on the browser of the user or not. | 52 years | HTTP |
_ga | www.voxco.com | Google Universal Analytics long-time unique user tracking identifier. | 2 years | HTTP |
_uetsid | www.voxco.com | Microsoft Bing Ads Universal Event Tracking (UET) tracking cookie. | 1 days | HTTP |
vuid | vimeo.com | Vimeo tracking cookie | 2 years | HTTP |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
__cf_bm | hubspot.com | Generic CloudFlare functional cookie. | Session | HTTP |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
_gcl_au | www.voxco.com | --- | 3 months | --- |
_gat_gtag_UA_3262734_1 | www.voxco.com | --- | Session | --- |
_clck | www.voxco.com | --- | 1 year | --- |
_ga_HNFQQ528PZ | www.voxco.com | --- | 2 years | --- |
_clsk | www.voxco.com | --- | 1 days | --- |
visitor_id18452 | pardot.com | --- | 10 years | --- |
visitor_id18452-hash | pardot.com | --- | 10 years | --- |
lpv18452 | pi.pardot.com | --- | Session | --- |
lhc_per | www.voxco.com | --- | 6 months | --- |
_uetvid | www.voxco.com | --- | 1 year | --- |