Voxco et Ascribe unissent leurs forces pour améliorer vos études
PARTAGER L’ARTICLE SUR
L’analyse de la variance (ANOVA) est une formule statistique qui compare les variances entre les moyennes de groupes distincts. Elle est utilisée dans une variété de contextes pour évaluer s’il y a ou non une différence dans les moyennes de divers groupes.
L’analyse de la variance est une approche d’analyse statistique qui divise la variabilité agrégée observée au sein d’un ensemble de données en deux parties : les composantes systématiques et les facteurs aléatoires. Les facteurs aléatoires n’ont pas d’impact statistique sur l’ensemble de données fourni, mais les facteurs systématiques si. Dans une recherche de régression, les analystes utilisent le test ANOVA pour examiner l’impact de facteurs indépendants sur la variable dépendante.
Jusqu’en 1918, lorsque Ronald Fisher a inventé la technique d’analyse de la variance, les procédures de test t et z établies au XXe siècle servaient à l’analyse statistique. L’ANOVA, communément appelée analyse de variance de Fisher, est une extension des tests t et z. Le mot a gagné en popularité après être apparu dans le livre de Fisher, « Statistical Methods for Research Workers », en 1925. Il a d’abord été utilisé en psychologie expérimentale, puis généralisé à des questions plus complexes.
Mener des recherches exploratoires semble délicat, mais un guide efficace peut servir.
Une analyse de la variance est utilisée dans le monde des affaires pour examiner toute différence dans la performance financière d’une entreprise. En outre, cela aide la direction à effectuer un contrôle supplémentaire sur le rendement opérationnel, empêchant ainsi les opérations de dépasser le budget.
Un test ANOVA vous permet d’étudier les divergences dans votre ensemble de données en analysant les nombreux éléments qui l’influencent. Ces techniques sont utilisées par les analystes pour créer des données supplémentaires plus compatibles avec les modèles de régression. Lorsqu’il n’y a pas de différence significative entre les deux groupes testés, on parle d’hypothèse nulle et le rapport F du test ANOVA devrait être proche de un.
L’objet mesuré dont on suppose qu’il est influencé par les facteurs indépendants est appelé variable dépendante.
Les éléments évalués qui peuvent avoir une influence sur la variable dépendante sont appelés variables indépendantes.
Lorsqu’il n’y a pas de différence entre les groupes ou les moyennes, l’hypothèse nulle (H0) est utilisée. L’hypothèse nulle sera acceptée ou rejetée en fonction des résultats du test ANOVA.
Lorsqu’on suppose qu’il existe une différence entre les groupes et les moyennes, on parle d’hypothèse alternative (H1).
Une variable indépendante qui influence la variable dépendante est appelée facteur dans la nomenclature des ANOVA. Le terme niveau fait référence aux différentes valeurs de la variable indépendante qui sont utilisées dans une expérience.
Le modèle à effets fixes (classe I) d’analyse de la variance est appliqué lorsque le chercheur administre un ou plusieurs traitements aux sujets de l’expérience pour examiner si les valeurs des variables de réponse changent. Cela permet au chercheur d’estimer les plages de valeurs des variables de réponse que le traitement pourrait produire dans l’ensemble de la population.
Lorsque les traitements ne sont pas fixés, c’est le modèle à effets aléatoires (classe II) qui est utilisé. Cela se produit lorsque les différents niveaux de facteurs sont échantillonnés à partir d’une plus grande population. Étant donné que les niveaux sont des variables aléatoires, plusieurs hypothèses et l’approche pour les traitements contrastés (une extension multivariable des différences simples) changent par rapport au modèle à effets fixes.
Un modèle à effets mixtes (classe III) incorpore des composantes expérimentales à effets fixes et aléatoires, avec des interprétations et des analyses appropriées pour chaque type.
Un département dans un collège ou une université, par exemple, peut mener des essais d’enseignement pour déterminer un manuel approprié pour débutant, chaque texte étant désigné comme un traitement. Une liste de textes potentiels serait comparée à l’aide du modèle à effets fixes. Le modèle à effets aléatoires permettrait de déterminer s’il existe ou non des différences significatives entre un ensemble de textes choisis au hasard. Le modèle à effets mixtes comparerait les textes (fixes) en place à des textes alternatifs choisis au hasard.
L’ANOVA est utilisée pour analyser des études comparatives dans lesquelles seule la différence de résultats est pertinente. Un rapport de deux variances détermine la signification statistique de l’expérience. Ce rapport n’est pas affecté par un certain nombre de changements potentiels aux observations expérimentales : l’ajout d’une constante à toutes les observations n’a aucun effet sur leur importance. La pertinence de toutes les observations reste inchangée lorsqu’elles sont multipliées par une constante. Par conséquent, le résultat de signification statistique de l’ANOVA est indépendant du biais constant, des erreurs d’échelle et des unités utilisées pour décrire les observations. Pour faciliter la saisie des données pendant la période de calcul mécanique, il était typique de supprimer une constante de toutes les observations (lorsqu’elle était égale à la suppression des chiffres de tête). Ceci est une illustration du codage des données.
L’un des éléments les plus difficiles de l’apprentissage automatique consiste à sélectionner les fonctionnalités les plus fiables et les plus utilisables pour entraîner un modèle. L’ANOVA aide à sélectionner les caractéristiques optimales pour l’entraînement d’un modèle. L’ANOVA réduit le nombre de variables d’entrée pour réduire la complexité du modèle. L’ANOVA peut être utilisée pour examiner si une variable indépendante influence une variable cible.
La détection de spam d’e-mail est une application d’ANOVA en science des données. En raison du grand nombre d’e-mails et de fonctionnalités des courriers électroniques, l’identification et le rejet de tous les spams sont devenus extrêmement difficiles et gourmands en ressources. L’ANOVA et les tests f servent à trouver les facteurs essentiels pour déterminer correctement quels courriels sont des pourriels et lesquels ne le sont pas.
L’analyse de la variance peut être exprimée sous la forme d’un modèle linéaire qui formule les hypothèses suivantes sur la distribution de probabilité des réponses :
Indépendance des observations – il s’agit d’une hypothèse modèle qui facilite l’analyse statistique.
Normalité — les distributions résiduelles sont normales.
Égalité (ou « homogénéité ») des variances, également appelée homoscédasticité – la variance des données devrait être la même d’un groupe à l’autre.
Pour les modèles à effets fixes, les hypothèses distinctes du modèle classique impliquent que les erreurs sont distribuées indépendamment, de manière identique et normale, c’est-à-dire que les erreurs () sont indépendantes et ~N(0,2)
Dans une expérience contrôlée randomisée, les traitements sont administrés au hasard à des unités expérimentales tout en adhérant à la procédure expérimentale. Cette randomisation est objective et annoncée avant l’essai. Suivant les principes de C. S. Peirce et Ronald Fisher, l’assignation aléatoire objective est utilisée pour évaluer la signification de l’hypothèse nulle. Francis J. Anscombe de la station expérimentale de Rothamsted et Oscar Kempthorne de l’Université d’État de l’Iowa ont exploré et développé cette analyse basée sur le plan. Kempthorne et ses étudiants ont établi une hypothèse d’additivité de traitement unitaire, qui est détaillée dans les publications de Kempthorne et David R. Cox.
Kempthorne dérive un modèle linéaire de la distribution de randomisation et de l’hypothèse de l’additivité du traitement unitaire, ce qui est assez proche du modèle de manuel présenté précédemment. Selon les théorèmes d’approximation et les expériences de simulation, les statistiques de test de ce modèle linéaire dérivé sont étroitement approximées par les statistiques de test d’un modèle linéaire normal adéquat. Il existe toutefois des distinctions. L’approche basée sur la randomisation, par exemple, donne une corrélation minuscule mais (strictement) négative entre les observations. Il n’y a pas d’hypothèse de distribution normale et certainement pas d’hypothèse d’indépendance dans l’analyse basée sur la randomisation. Les observations, en revanche, sont dépendantes.
L’inconvénient de l’analyse basée sur la randomisation est que sa présentation nécessite des mathématiques complexes et prend beaucoup de temps. La plupart des professeurs insistent sur la technique du modèle linéaire normal, car l’analyse basée sur la randomisation est complexe et est étroitement abordée par l’approche utilisant un modèle linéaire normal. Peu de statisticiens s’opposent à l’analyse basée sur des modèles d’essais randomisés équilibrés.
L’analyse basée sur des modèles, en revanche, perd la justification de la randomisation lorsqu’elle est appliquée aux données d’essais non randomisés ou de recherches observationnelles. Les intervalles de confiance pour les données d’observation doivent être calculés à l’aide de modèles subjectifs, comme l’ont souligné Ronald Fisher et ses successeurs. Dans la pratique, les estimations de l’effet du traitement provenant des études observationnelles sont souvent incohérentes. Dans la pratique, les « modèles statistiques » et les données d’observation sont précieux pour générer des hypothèses que le grand public devrait aborder avec prudence.
Découvrez le logiciel de sondage Voxco en action avec une démo gratuite.
L’ANOVA unidirectionnelle est souvent appelée ANOVA à facteur unique ou ANOVA simple. L’ANOVA unidirectionnelle, comme son nom l’indique, est appropriée pour les enquêtes avec une seule variable indépendante (facteur) ayant deux niveaux ou plus. Par exemple, une variable dépendante peut être le mois de l’année où il y a le plus de fleurs dans le jardin. Il y aura un total de douze niveaux. Une ANOVA à sens unique présuppose :
Indépendance : La valeur de la variable dépendante pour une observation n’est pas liée à la valeur de la variable dépendante pour toute autre observation.
Normalité : la valeur de la variable dépendante est normalement distribuée.
Variance : La variance entre les différents groupes d’expériences est comparable.
La variable dépendante (le nombre de fleurs) est continue et peut être mesurée sur une échelle qui peut être subdivisée.
Lorsqu’il y a deux variables indépendantes ou plus, l’ANOVA factorielle complète est appliquée. Chacune de ces variables peut avoir plusieurs niveaux. L’ANOVA factorielle complète ne peut être utilisée que dans une expérience factorielle complète dans laquelle toutes les permutations imaginables de facteurs et de leurs niveaux sont utilisées. Cela pourrait être le mois de l’année avec le plus de fleurs dans le jardin, suivi des heures les plus ensoleillées. Cette ANOVA bidirectionnelle évalue non seulement la variable indépendante par rapport à la variable indépendante, mais aussi si les deux variables s’influencent mutuellement. Une ANOVA bidirectionnelle présuppose :
Continuité : La variable dépendante doit être continue, tout comme pour une ANOVA unidirectionnelle.
Indépendance : Chaque échantillon est distinct des autres, sans croisement.
Variation : La variance des données est la même dans tous les groupes.
Normalité : Les échantillons sont typiques de la population générale.
Catégories : Les variables indépendantes doivent être séparées en catégories ou en groupes.
Cet examen statistique peut être appliqué à de nombreuses variables différentes qui surgissent dans le monde des affaires. Voici quelques-uns des principaux types de variances à explorer :
Il n’existe pas de formule universelle d’analyse de variance pouvant être utilisée pour toutes les études. L’analyse de variance que nous entreprenons sera déterminée par le type de variable que nous examinons. Voici quelques-unes des formules d’analyse de variance les plus importantes :
Formule de variance du coût des matériaux :
Coût standard – Coût réel = (Quantité standard x Prix standard) – (Quantité réelle x Prix réel)
Formule de variance de main-d’œuvre :
Salaires standard – Salaires réels = (Heures standard x Prix standard) – (Heures réelles x Prix réel)
Formule de variance fixe des frais généraux :
(Sortie réelle x taux standard) – Frais généraux fixes réels
Formule de variance des ventes :
(Qualité budgétisée x Prix budgétisé) – (Qualité réelle x Prix réel)
Dans la plupart des cas, les analystes utiliseront un logiciel tel qu’Excel pour exécuter ces algorithmes. Cependant, un test ANOVA peut être effectué manuellement en suivant les procédures ci-dessous :
Nous utilisons des cookies sur notre site web pour vous offrir la meilleure expérience de navigation et pour adapter la publicité. En continuant à utiliser notre site web, vous nous donnez votre accord pour l'utilisation des cookies. Lire la suite
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
hubspotutk | www.voxco.com | HubSpot functional cookie. | 1 year | HTTP |
lhc_dir_locale | amplifyreach.com | --- | 52 years | --- |
lhc_dirclass | amplifyreach.com | --- | 52 years | --- |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
_fbp | www.voxco.com | Facebook Pixel advertising first-party cookie | 3 months | HTTP |
__hstc | www.voxco.com | Hubspot marketing platform cookie. | 1 year | HTTP |
__hssrc | www.voxco.com | Hubspot marketing platform cookie. | 52 years | HTTP |
__hssc | www.voxco.com | Hubspot marketing platform cookie. | Session | HTTP |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
_gid | www.voxco.com | Google Universal Analytics short-time unique user tracking identifier. | 1 days | HTTP |
MUID | bing.com | Microsoft User Identifier tracking cookie used by Bing Ads. | 1 year | HTTP |
MR | bat.bing.com | Microsoft User Identifier tracking cookie used by Bing Ads. | 7 days | HTTP |
IDE | doubleclick.net | Google advertising cookie used for user tracking and ad targeting purposes. | 2 years | HTTP |
_vwo_uuid_v2 | www.voxco.com | Generic Visual Website Optimizer (VWO) user tracking cookie. | 1 year | HTTP |
_vis_opt_s | www.voxco.com | Generic Visual Website Optimizer (VWO) user tracking cookie that detects if the user is new or returning to a particular campaign. | 3 months | HTTP |
_vis_opt_test_cookie | www.voxco.com | A session (temporary) cookie used by Generic Visual Website Optimizer (VWO) to detect if the cookies are enabled on the browser of the user or not. | 52 years | HTTP |
_ga | www.voxco.com | Google Universal Analytics long-time unique user tracking identifier. | 2 years | HTTP |
_uetsid | www.voxco.com | Microsoft Bing Ads Universal Event Tracking (UET) tracking cookie. | 1 days | HTTP |
vuid | vimeo.com | Vimeo tracking cookie | 2 years | HTTP |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
__cf_bm | hubspot.com | Generic CloudFlare functional cookie. | Session | HTTP |
prénom | Domaine | Objectif | Expiration | Type |
---|---|---|---|---|
_gcl_au | www.voxco.com | --- | 3 months | --- |
_gat_gtag_UA_3262734_1 | www.voxco.com | --- | Session | --- |
_clck | www.voxco.com | --- | 1 year | --- |
_ga_HNFQQ528PZ | www.voxco.com | --- | 2 years | --- |
_clsk | www.voxco.com | --- | 1 days | --- |
visitor_id18452 | pardot.com | --- | 10 years | --- |
visitor_id18452-hash | pardot.com | --- | 10 years | --- |
lpv18452 | pi.pardot.com | --- | Session | --- |
lhc_per | www.voxco.com | --- | 6 months | --- |
_uetvid | www.voxco.com | --- | 1 year | --- |