Analyse de la variance

PARTAGER L’ARTICLE SUR 

Analyse de la variance Analyse de la variance
Table des matières

L’analyse de la variance (ANOVA) est une formule statistique qui compare les variances entre les moyennes de groupes distincts. Elle est utilisée dans une variété de contextes pour évaluer s’il y a ou non une différence dans les moyennes de divers groupes. 

Qu’est-ce que l’analyse de variance ?

L’analyse de la variance est une approche d’analyse statistique qui divise la variabilité agrégée observée au sein d’un ensemble de données en deux parties : les composantes systématiques et les facteurs aléatoires. Les facteurs aléatoires n’ont pas d’impact statistique sur l’ensemble de données fourni, mais les facteurs systématiques si. Dans une recherche de régression, les analystes utilisent le test ANOVA pour examiner l’impact de facteurs indépendants sur la variable dépendante. 

Jusqu’en 1918, lorsque Ronald Fisher a inventé la technique d’analyse de la variance, les procédures de test t et z établies au XXe siècle servaient à l’analyse statistique.  L’ANOVA, communément appelée analyse de variance de Fisher, est une extension des tests t et z. Le mot a gagné en popularité après être apparu dans le livre de Fisher, « Statistical Methods for Research Workers », en 1925. Il a d’abord été utilisé en psychologie expérimentale, puis généralisé à des questions plus complexes. 

Guide de recherche exploratoire

Mener des recherches exploratoires semble délicat, mais un guide efficace peut servir. 

Dans quel cas une Anova est-elle utilisée ?

Une analyse de la variance est utilisée dans le monde des affaires pour examiner toute différence dans la performance financière d’une entreprise. En outre, cela aide la direction à effectuer un contrôle supplémentaire sur le rendement opérationnel, empêchant ainsi les opérations de dépasser le budget. 

Un test ANOVA vous permet d’étudier les divergences dans votre ensemble de données en analysant les nombreux éléments qui l’influencent. Ces techniques sont utilisées par les analystes pour créer des données supplémentaires plus compatibles avec les modèles de régression. Lorsqu’il n’y a pas de différence significative entre les deux groupes testés, on parle d’hypothèse nulle et le rapport F du test ANOVA devrait être proche de un. 

Expressions utilisées dans l’analyse de la variance

Variable dépendante 

L’objet mesuré dont on suppose qu’il est influencé par les facteurs indépendants est appelé variable dépendante. 

Variable indépendante 

Les éléments évalués qui peuvent avoir une influence sur la variable dépendante sont appelés variables indépendantes. 

Hypothèse nulle (H0) 

Lorsqu’il n’y a pas de différence entre les groupes ou les moyennes, l’hypothèse nulle (H0) est utilisée. L’hypothèse nulle sera acceptée ou rejetée en fonction des résultats du test ANOVA. 

Hypothèse alternative (H1) 

Lorsqu’on suppose qu’il existe une différence entre les groupes et les moyennes, on parle d’hypothèse alternative (H1). 

Facteurs et niveaux 

Une variable indépendante qui influence la variable dépendante est appelée facteur dans la nomenclature des ANOVA. Le terme niveau fait référence aux différentes valeurs de la variable indépendante qui sont utilisées dans une expérience. 

Catégories de modèle

Modèles à effets fixes 

Le modèle à effets fixes (classe I) d’analyse de la variance est appliqué lorsque le chercheur administre un ou plusieurs traitements aux sujets de l’expérience pour examiner si les valeurs des variables de réponse changent. Cela permet au chercheur d’estimer les plages de valeurs des variables de réponse que le traitement pourrait produire dans l’ensemble de la population. 

Modèles à effets aléatoires 

Lorsque les traitements ne sont pas fixés, c’est le modèle à effets aléatoires (classe II) qui est utilisé. Cela se produit lorsque les différents niveaux de facteurs sont échantillonnés à partir d’une plus grande population. Étant donné que les niveaux sont des variables aléatoires, plusieurs hypothèses et l’approche pour les traitements contrastés (une extension multivariable des différences simples) changent par rapport au modèle à effets fixes. 

Modèles à effets mixtes 

Un modèle à effets mixtes (classe III) incorpore des composantes expérimentales à effets fixes et aléatoires, avec des interprétations et des analyses appropriées pour chaque type. 

Un département dans un collège ou une université, par exemple, peut mener des essais d’enseignement pour déterminer un manuel approprié pour débutant, chaque texte étant désigné comme un traitement. Une liste de textes potentiels serait comparée à l’aide du modèle à effets fixes. Le modèle à effets aléatoires permettrait de déterminer s’il existe ou non des différences significatives entre un ensemble de textes choisis au hasard. Le modèle à effets mixtes comparerait les textes (fixes) en place à des textes alternatifs choisis au hasard. 

Caractéristiques de l’analyse de la variance

L’ANOVA est utilisée pour analyser des études comparatives dans lesquelles seule la différence de résultats est pertinente. Un rapport de deux variances détermine la signification statistique de l’expérience. Ce rapport n’est pas affecté par un certain nombre de changements potentiels aux observations expérimentales : l’ajout d’une constante à toutes les observations n’a aucun effet sur leur importance. La pertinence de toutes les observations reste inchangée lorsqu’elles sont multipliées par une constante. Par conséquent, le résultat de signification statistique de l’ANOVA est indépendant du biais constant, des erreurs d’échelle et des unités utilisées pour décrire les observations. Pour faciliter la saisie des données pendant la période de calcul mécanique, il était typique de supprimer une constante de toutes les observations (lorsqu’elle était égale à la suppression des chiffres de tête). Ceci est une illustration du codage des données. 

Comment Anova est-elle utilisée dans la science des données ?

L’un des éléments les plus difficiles de l’apprentissage automatique consiste à sélectionner les fonctionnalités les plus fiables et les plus utilisables pour entraîner un modèle. L’ANOVA aide à sélectionner les caractéristiques optimales pour l’entraînement d’un modèle. L’ANOVA réduit le nombre de variables d’entrée pour réduire la complexité du modèle. L’ANOVA peut être utilisée pour examiner si une variable indépendante influence une variable cible. 

La détection de spam d’e-mail est une application d’ANOVA en science des données. En raison du grand nombre d’e-mails et de fonctionnalités des courriers électroniques, l’identification et le rejet de tous les spams sont devenus extrêmement difficiles et gourmands en ressources. L’ANOVA et les tests f servent à trouver les facteurs essentiels pour déterminer correctement quels courriels sont des pourriels et lesquels ne le sont pas. 

Hypothèses formulées avec Anova

Une distribution normale utilisée dans l’analyse des manuels scolaires 

L’analyse de la variance peut être exprimée sous la forme d’un modèle linéaire qui formule les hypothèses suivantes sur la distribution de probabilité des réponses : 

Indépendance des observations – il s’agit d’une hypothèse modèle qui facilite l’analyse statistique. 

Normalité — les distributions résiduelles sont normales. 

Égalité (ou « homogénéité ») des variances, également appelée homoscédasticité – la variance des données devrait être la même d’un groupe à l’autre. 

Pour les modèles à effets fixes, les hypothèses distinctes du modèle classique impliquent que les erreurs sont distribuées indépendamment, de manière identique et normale, c’est-à-dire que les erreurs () sont indépendantes et ~N(0,2) 

Analyse basée sur la randomisation 

Dans une expérience contrôlée randomisée, les traitements sont administrés au hasard à des unités expérimentales tout en adhérant à la procédure expérimentale. Cette randomisation est objective et annoncée avant l’essai. Suivant les principes de C. S. Peirce et Ronald Fisher, l’assignation aléatoire objective est utilisée pour évaluer la signification de l’hypothèse nulle. Francis J. Anscombe de la station expérimentale de Rothamsted et Oscar Kempthorne de l’Université d’État de l’Iowa ont exploré et développé cette analyse basée sur le plan. Kempthorne et ses étudiants ont établi une hypothèse d’additivité de traitement unitaire, qui est détaillée dans les publications de Kempthorne et David R. Cox. 

Modèle linéaire dérivé 

Kempthorne dérive un modèle linéaire de la distribution de randomisation et de l’hypothèse de l’additivité du traitement unitaire, ce qui est assez proche du modèle de manuel présenté précédemment. Selon les théorèmes d’approximation et les expériences de simulation, les statistiques de test de ce modèle linéaire dérivé sont étroitement approximées par les statistiques de test d’un modèle linéaire normal adéquat. Il existe toutefois des distinctions. L’approche basée sur la randomisation, par exemple, donne une corrélation minuscule mais (strictement) négative entre les observations. Il n’y a pas d’hypothèse de distribution normale et certainement pas d’hypothèse d’indépendance dans l’analyse basée sur la randomisation. Les observations, en revanche, sont dépendantes. 

L’inconvénient de l’analyse basée sur la randomisation est que sa présentation nécessite des mathématiques complexes et prend beaucoup de temps. La plupart des professeurs insistent sur la technique du modèle linéaire normal, car l’analyse basée sur la randomisation est complexe et est étroitement abordée par l’approche utilisant un modèle linéaire normal. Peu de statisticiens s’opposent à l’analyse basée sur des modèles d’essais randomisés équilibrés. 

Modèles statistiques à partir de données d’observation 

L’analyse basée sur des modèles, en revanche, perd la justification de la randomisation lorsqu’elle est appliquée aux données d’essais non randomisés ou de recherches observationnelles. Les intervalles de confiance pour les données d’observation doivent être calculés à l’aide de modèles subjectifs, comme l’ont souligné Ronald Fisher et ses successeurs. Dans la pratique, les estimations de l’effet du traitement provenant des études observationnelles sont souvent incohérentes. Dans la pratique, les « modèles statistiques » et les données d’observation sont précieux pour générer des hypothèses que le grand public devrait aborder avec prudence. 

Découvrez le logiciel de sondage Voxco en action avec une démo gratuite.

ANOVA unidirectionnelle versus ANOVA bidirectionnelle

Anova unidirectionnelle 

L’ANOVA unidirectionnelle est souvent appelée ANOVA à facteur unique ou ANOVA simple. L’ANOVA unidirectionnelle, comme son nom l’indique, est appropriée pour les enquêtes avec une seule variable indépendante (facteur) ayant deux niveaux ou plus. Par exemple, une variable dépendante peut être le mois de l’année où il y a le plus de fleurs dans le jardin. Il y aura un total de douze niveaux. Une ANOVA à sens unique présuppose : 

Indépendance : La valeur de la variable dépendante pour une observation n’est pas liée à la valeur de la variable dépendante pour toute autre observation. 

Normalité : la valeur de la variable dépendante est normalement distribuée. 

Variance : La variance entre les différents groupes d’expériences est comparable. 

La variable dépendante (le nombre de fleurs) est continue et peut être mesurée sur une échelle qui peut être subdivisée. 

Anova factorielle complète (Anova bidirectionnelle) 

Lorsqu’il y a deux variables indépendantes ou plus, l’ANOVA factorielle complète est appliquée. Chacune de ces variables peut avoir plusieurs niveaux. L’ANOVA factorielle complète ne peut être utilisée que dans une expérience factorielle complète dans laquelle toutes les permutations imaginables de facteurs et de leurs niveaux sont utilisées. Cela pourrait être le mois de l’année avec le plus de fleurs dans le jardin, suivi des heures les plus ensoleillées. Cette ANOVA bidirectionnelle évalue non seulement la variable indépendante par rapport à la variable indépendante, mais aussi si les deux variables s’influencent mutuellement. Une ANOVA bidirectionnelle présuppose : 

Continuité : La variable dépendante doit être continue, tout comme pour une ANOVA unidirectionnelle. 

Indépendance : Chaque échantillon est distinct des autres, sans croisement. 

Variation : La variance des données est la même dans tous les groupes. 

Normalité : Les échantillons sont typiques de la population générale. 

Catégories : Les variables indépendantes doivent être séparées en catégories ou en groupes. 

Types d’Anova et leurs formules

Cet examen statistique peut être appliqué à de nombreuses variables différentes qui surgissent dans le monde des affaires. Voici quelques-uns des principaux types de variances à explorer : 

  • Variance de main-d’œuvre 
  • Écart des ventes 
  • Écart budgétaire 
  • Variance importante 
  • Variance variable des frais généraux 
  • Écart fixe entre les frais généraux 

Il n’existe pas de formule universelle d’analyse de variance pouvant être utilisée pour toutes les études. L’analyse de variance que nous entreprenons sera déterminée par le type de variable que nous examinons. Voici quelques-unes des formules d’analyse de variance les plus importantes : 

Formule de variance du coût des matériaux : 

Coût standard – Coût réel = (Quantité standard x Prix standard) – (Quantité réelle x Prix réel) 

Formule de variance de main-d’œuvre : 

Salaires standard – Salaires réels = (Heures standard x Prix standard) – (Heures réelles x Prix réel) 

Formule de variance fixe des frais généraux : 

(Sortie réelle x taux standard) – Frais généraux fixes réels 

Formule de variance des ventes : 

(Qualité budgétisée x Prix budgétisé) – (Qualité réelle x Prix réel) 

Dans la plupart des cas, les analystes utiliseront un logiciel tel qu’Excel pour exécuter ces algorithmes. Cependant, un test ANOVA peut être effectué manuellement en suivant les procédures ci-dessous : 

  • Déterminer la moyenne pour chaque groupe que vous comparez. 
  • Déterminer la moyenne globale ou la moyenne des groupes fusionnés. 
  • Calculer la variance intra-groupe de chaque score ou la divergence par rapport à la moyenne du groupe. 
  • Déterminer la variance entre les groupes, ou la divergence entre la moyenne de chaque groupe et la moyenne totale. 
  • Calculer le rapport F, qui est le rapport de la variation entre les groupes et la variation intra-groupe. 

Limites de l’analyse de la variance

  • L’ANOVA peut seulement nous révéler s’il y a une différence significative dans les moyennes d’au moins deux groupes, mais elle ne peut pas nous dire quelle paire de moyennes diffère. Si des données granulaires sont nécessaires, la mise en œuvre de techniques statistiques de suivi supplémentaires permettra de déterminer si les groupes diffèrent en valeur moyenne. L’ANOVA est généralement utilisée conjointement avec d’autres approches statistiques. 
  • L’ANOVA suppose également que l’ensemble de données est également réparti, car elle compare simplement les moyennes. Si les données ne sont pas distribuées normalement et qu’il y a des valeurs aberrantes, l’ANOVA n’est pas la meilleure méthode pour interpréter les données. 
  • L’ANOVA, d’autre part, implique que les écarts-types sont identiques ou comparables entre les groupes. Si les écarts-types diffèrent considérablement, la conclusion du test peut être inexacte.