SHARE THE ARTICLE ON
Die Varianzanalyse (ANOVA) ist eine statistische Formel, die die Varianzen der Mittelwerte (oder Durchschnittswerte) verschiedener Gruppen vergleicht. Sie wird in einer Vielzahl von Situationen verwendet, um zu beurteilen, ob es einen Unterschied zwischen den Mittelwerten verschiedener Gruppen gibt oder nicht.
Die Varianzanalyse ist ein statistischer Analyseansatz, der die beobachtete Gesamtvariabilität innerhalb eines Datensatzes in zwei Teile aufteilt: systematische Komponenten und Zufallsfaktoren. Zufällige Faktoren haben keinen statistischen Einfluss auf den gelieferten Datensatz, systematische Faktoren hingegen schon. Bei einer Regressionsanalyse verwenden Analysten den ANOVA-Test, um die Auswirkungen unabhängiger Faktoren auf die abhängige Variable zu untersuchen.
Bis 1918, als Ronald Fisher die Varianzanalyse erfand, wurden für die statistische Analyse die im zwanzigsten Jahrhundert eingeführten t- und z-Test-Verfahren verwendet. Die ANOVA, gemeinhin als Fisher-Varianzanalyse bekannt, ist eine Erweiterung der t- und z-Tests. Der Begriff gewann an Popularität, nachdem er 1925 in Fishers Buch „Statistical Methods for Research Workers“ erschienen war. Es wurde zunächst in der experimentellen Psychologie verwendet und dann auf kompliziertere Fragestellungen verallgemeinert.
Die Durchführung von Sondierungsforschung scheint schwierig zu sein, aber ein effektiver Leitfaden kann helfen.
Eine Varianzanalyse wird in der Wirtschaft eingesetzt, um Unterschiede in der finanziellen Leistung eines Unternehmens zu untersuchen. Darüber hinaus hilft sie der Unternehmensleitung, die betriebliche Leistung zusätzlich zu kontrollieren und somit die Einhaltung des Budgets zu gewährleisten.
Der ANOVA-Test ermöglicht es Ihnen, Diskrepanzen in Ihrem Datensatz zu untersuchen, indem Sie die zahlreichen Elemente analysieren, die ihn beeinflussen. Diese Techniken werden von Analytikern verwendet, um zusätzliche Daten zu erstellen, die besser mit Regressionsmodellen kompatibel sind. Wenn kein signifikanter Unterschied zwischen den beiden getesteten Gruppen besteht, wird dies als „Nullhypothese“ bezeichnet, und das F-Verhältnis des ANOVA-Tests sollte nahe bei eins liegen.
Das zu messende Objekt, von dem angenommen wird, dass es von den unabhängigen Faktoren beeinflusst wird, wird als abhängige Variable bezeichnet.
Die zu bewertenden Elemente, die einen Einfluss auf die abhängige Variable haben können, werden als unabhängige Variablen bezeichnet.
Wenn es keinen Unterschied zwischen den Gruppen oder Mittelwerten gibt, wird die Nullhypothese (H0) verwendet. Die Nullhypothese wird auf der Grundlage der Ergebnisse des ANOVA-Tests angenommen oder abgelehnt.
Wenn angenommen wird, dass es einen Unterschied zwischen den Gruppen und Mittelwerten gibt, spricht man von einer Alternativhypothese (H1).
Eine unabhängige Variable, die die abhängige Variable beeinflusst, wird in der ANOVA-Nomenklatur als Faktor bezeichnet. Der Begriff Niveau bezieht sich auf die verschiedenen Werte der unabhängigen Variablen, die in einem Experiment verwendet werden.
Modelle mit festen Effekten
Das Modell mit festen Effekten (Klasse I) der Varianzanalyse wird verwendet, wenn der Versuchsleiter den Versuchspersonen eine oder mehrere Behandlungen verabreicht, um zu untersuchen, ob sich die Werte der Antwortvariablen ändern. Auf diese Weise kann der Forscher die Bereiche der Antwortvariablenwerte schätzen, die die Behandlung in der gesamten Population hervorrufen könnte.
Modelle mit zufälligen Effekten
Wenn die Behandlungen nicht fix sind, wird das Modell mit zufälligen Effekten (Klasse II) verwendet. Dies ist der Fall, wenn die verschiedenen Faktorstufen aus einer größeren Grundgesamtheit entnommen werden. Da es sich bei den Niveaus um Zufallsvariablen handelt, ändern sich mehrere Annahmen und der Ansatz für die Gegenüberstellung der Behandlungen (eine multivariable Erweiterung der einfachen Differenzen) gegenüber dem Modell mit festen Effekten.
Modelle mit gemischten Effekten
Ein Modell mit gemischten Effekten (Klasse III) enthält experimentelle Komponenten sowohl mit festen als auch mit zufälligen Effekten, mit geeigneten Interpretationen und Analysen für jede Art.
Ein Fachbereich einer Hochschule oder Universität könnte beispielsweise Lehrversuche durchführen, um ein geeignetes Lehrbuch für den Anfang zu finden, wobei jeder Text als Treatment bezeichnet wird. Eine Liste möglicher Texte würde mit Hilfe des Modells mit festen Effekten verglichen werden. Das Modell mit zufälligen Effekten würde ermitteln, ob es signifikante Unterschiede zwischen einer Reihe zufällig ausgewählter Texte gibt oder nicht. Das Modell mit gemischten Effekten würde die (festen) etablierten Texte mit alternativen, zufällig ausgewählten Texten vergleichen.
Die ANOVA wird zur Analyse von Vergleichsstudien verwendet, bei denen nur der Unterschied in den Ergebnissen von Bedeutung ist. Ein Verhältnis zweier Varianzen bestimmt die statistische Signifikanz des Experiments. Dieses Verhältnis bleibt von einer Reihe möglicher Änderungen an den experimentellen Beobachtungen unberührt: Die Hinzufügung einer Konstante zu allen Beobachtungen hat keinen Einfluss auf ihre Bedeutung. Die Relevanz aller Beobachtungen bleibt unverändert, wenn sie mit einer Konstanten multipliziert werden. Daher ist das Ergebnis der statistischen Signifikanz der ANOVA unabhängig von der Verzerrung durch die Konstante, von Skalierungsfehlern und von den zur Beschreibung der Beobachtungen verwendeten Einheiten. Um die Dateneingabe während der mechanischen Berechnungsphase zu erleichtern, war es üblich, eine Konstante aus allen Beobachtungen zu entfernen (gleichbedeutend mit dem Löschen der führenden Ziffern). Dies ist eine Veranschaulichung der Datenkodierung.
Eine der größten Schwierigkeiten beim maschinellen Lernen ist die Auswahl der zuverlässigsten und brauchbarsten Merkmale, mit denen ein Modell trainiert wird. ANOVA hilft bei der Auswahl der optimalen Merkmale für das Training eines Modells. ANOVA reduziert die Anzahl der Eingabevariablen, um die Komplexität des Modells zu verringern. ANOVA kann verwendet werden, um zu untersuchen, ob eine unabhängige Variable eine Zielvariable beeinflusst.
Die Erkennung von E-Mail-Spam ist eine Anwendung von ANOVA in der Datenwissenschaft. Aufgrund der großen Anzahl von E-Mails und E-Mail-Merkmalen ist das Erkennen und Zurückweisen aller Spam-E-Mails extrem schwierig und ressourcenintensiv geworden. ANOVA und f-Tests werden verwendet, um Faktoren zu finden, die für die korrekte Bestimmung, welche E-Mails Spam sind und welche nicht, entscheidend sind.
Die Varianzanalyse kann als lineares Modell ausgedrückt werden, das die folgenden Annahmen über die Wahrscheinlichkeitsverteilung der Antworten trifft:
Unabhängigkeit der Beobachtungen – dies ist eine Modellannahme, die die statistische Analyse erleichtert.
Normalität – die Restverteilungen sind normal.
Gleichheit (oder „Homogenität“) der Varianzen, auch bekannt als Homoskedastizität – die Varianz der Daten sollte in allen Gruppen gleich sein.
Bei Modellen mit festen Effekten implizieren die verschiedenen Annahmen des Lehrbuchmodells, dass die Fehler unabhängig, identisch und normal verteilt sind, d. h. die Fehler () sind unabhängig und ~N(0,2)
In einem randomisierten kontrollierten Experiment werden die Behandlungen den Versuchseinheiten nach dem Zufallsprinzip zugeteilt, wobei der Versuchsablauf eingehalten wird. Diese Randomisierung ist objektiv und wird vor Beginn des Versuchs angekündigt. In Anlehnung an die Prinzipien von C. S. Peirce und Ronald Fisher wird die objektive Zufallszuweisung verwendet, um die Signifikanz der Nullhypothese zu beurteilen. Francis J. Anscombe von der Rothamsted Experimental Station und Oscar Kempthorne von der Iowa State University erforschten und entwickelten diese designbasierte Analyse. Kempthorne und seine Studenten stellten die Annahme der Additivität der Einheitsbehandlung auf, die in den Veröffentlichungen von Kempthorne und David R. Cox näher erläutert wird.
Kempthorne leitet aus der Randomisierungsverteilung und der Annahme der Einheitsbehandlungsadditivität ein lineares Modell ab, das dem zuvor vorgestellten Lehrbuchmodell recht nahe kommt. Nach Approximationstheoremen und Simulationsexperimenten werden die Teststatistiken dieses abgeleiteten linearen Modells durch die Teststatistiken eines adäquaten linearen Normalmodells stark angenähert. Es gibt jedoch Unterschiede. Der auf der Randomisierung basierende Ansatz führt beispielsweise zu einer winzigen, aber (streng) negativen Korrelation zwischen den Beobachtungen. Bei der auf Randomisierung basierenden Analyse wird keine Normalverteilung und schon gar keine Unabhängigkeit vorausgesetzt. Die Beobachtungen hingegen sind abhängig.
Der Nachteil der randomisierungsbasierten Analyse ist, dass ihre Darstellung komplexe Mathematik erfordert und viel Zeit in Anspruch nimmt. Die meisten Professoren betonen die Technik des normalen linearen Modells, da die auf Randomisierung basierende Analyse komplex ist und durch den Ansatz eines normalen linearen Modells stark angenähert wird. Nur wenige Statistiker lehnen die modellbasierte Analyse von ausgewogenen randomisierten Studien ab.
Bei der modellbasierten Analyse hingegen geht die Rechtfertigung der Randomisierung verloren, wenn sie auf Daten aus nicht-randomisierten Studien oder aus der Beobachtungsforschung angewendet wird. Konfidenzintervalle für Beobachtungsdaten müssen, wie von Ronald Fisher und seinen Nachfolgern betont, mit Hilfe subjektiver Modelle abgeleitet werden. In der Praxis sind die Schätzungen der Behandlungseffekte aus Beobachtungsstudien häufig inkonsistent. In der Praxis sind „statistische Modelle“ und Beobachtungsdaten wertvoll für die Erstellung von Hypothesen, denen die breite Öffentlichkeit mit Vorsicht begegnen sollte.
Sehen Sie die Voxco Umfrage-Software in Aktion mit einer kostenlosen Demo.
Die einseitige ANOVA wird oft auch als Ein-Faktor-ANOVA oder einfache ANOVA bezeichnet. Die einseitige ANOVA eignet sich, wie der Name schon sagt, für Untersuchungen mit nur einer unabhängigen Variablen (Faktor) mit zwei oder mehr Stufen. Eine abhängige Variable könnte zum Beispiel sein, in welchem Monat des Jahres die meisten Blumen im Garten wachsen. Insgesamt gibt es dann zwölf Stufen. Eine einseitige ANOVA setzt voraus:
Unabhängigkeit: Der Wert der abhängigen Variable für eine Beobachtung steht in keinem Zusammenhang mit dem Wert der abhängigen Variable für andere Beobachtungen.
Normalität: Der Wert der abhängigen Variable ist normal verteilt.
Varianz: Die Varianz zwischen den verschiedenen Versuchsgruppen ist vergleichbar.
Die abhängige Variable (Anzahl der Blumen) ist kontinuierlich und kann auf einer Skala gemessen werden, die sich unterteilen lässt.
Vollfaktorielle Anova (Zwei-Wege-Anova)
Wenn es zwei oder mehr unabhängige Variablen gibt, wird die vollfaktorielle ANOVA verwendet. Jede dieser Variablen kann mehrere Stufen haben. Die vollfaktorielle ANOVA kann nur in einem vollfaktoriellen Experiment verwendet werden, in dem jede denkbare Permutation von Faktoren und deren Niveaus verwendet wird. Dies könnte der Monat des Jahres sein, in dem die meisten Blüten im Garten blühen, gefolgt von den sonnigsten Stunden. Bei dieser zweiseitigen ANOVA wird nicht nur die unabhängige gegenüber der unabhängigen Variable untersucht, sondern auch, ob sich die beiden Variablen gegenseitig beeinflussen. Eine zweiseitige ANOVA setzt Folgendes voraus:
Kontinuierlich: Die abhängige Variable sollte kontinuierlich sein, genau wie bei einer einseitigen ANOVA.
Unabhängigkeit: Jede Stichprobe unterscheidet sich von den anderen, es gibt keine Überschneidungen.
Varianz: Die Varianz der Daten ist in allen Gruppen gleich groß.
Normalität: Die Stichproben sind typisch für die allgemeine Bevölkerung.
Kategorien: Die unabhängigen Variablen sollten in Kategorien oder Gruppen unterteilt werden.
Diese statistische Überprüfung kann auf viele verschiedene Variablen angewandt werden, die in der Geschäftswelt vorkommen. Einige der wichtigsten zu untersuchenden Arten von Varianzen sind die folgenden:
Es gibt keine allgemeingültige Formel für die Abweichungsanalyse, die für alle Studien verwendet werden kann. Welche Abweichungsanalyse wir durchführen, hängt von der Art der zu untersuchenden Variablen ab. Hier sind einige der wichtigsten Formeln für die Abweichungsanalyse:
Materialkosten-Abweichungsformel:
Standardkosten – tatsächliche Kosten = (Standardmenge x Standardpreis) – (tatsächliche Menge X tatsächlicher Preis)
Formel für Arbeitsabweichungen:
Standardlöhne – Ist-Löhne = (Standard-Stunden x Standard-Preis) – (Ist-Stunden x Ist-Preis)
Formel für fixe Gemeinkostenabweichung:
(Ist-Output x Standardsatz) – Tatsächliche fixe Gemeinkosten
Formel für die Umsatzabweichung:
(Geplante Qualität x Geplanter Preis) – (Tatsächliche Qualität x Tatsächlicher Preis)
In den meisten Fällen werden Analysten Software wie Excel verwenden, um diese Algorithmen durchzuführen. Ein ANOVA-Test kann jedoch auch manuell durchgeführt werden, indem Sie die nachstehenden Verfahren befolgen:
Read more
We use cookies in our website to give you the best browsing experience and to tailor advertising. By continuing to use our website, you give us consent to the use of cookies. Weiterlesen
Name | Domain | Zweck | Ablauf | Art |
---|---|---|---|---|
hubspotutk | www.voxco.com | HubSpot functional cookie. | 1 year | HTTP |
lhc_dir_locale | amplifyreach.com | --- | 52 years | --- |
lhc_dirclass | amplifyreach.com | --- | 52 years | --- |
Name | Domain | Zweck | Ablauf | Art |
---|---|---|---|---|
_fbp | www.voxco.com | Facebook Pixel advertising first-party cookie | 3 months | HTTP |
__hstc | www.voxco.com | Hubspot marketing platform cookie. | 1 year | HTTP |
__hssrc | www.voxco.com | Hubspot marketing platform cookie. | 52 years | HTTP |
__hssc | www.voxco.com | Hubspot marketing platform cookie. | Session | HTTP |
Name | Domain | Zweck | Ablauf | Art |
---|---|---|---|---|
_gid | www.voxco.com | Google Universal Analytics short-time unique user tracking identifier. | 1 days | HTTP |
MUID | bing.com | Microsoft User Identifier tracking cookie used by Bing Ads. | 1 year | HTTP |
MR | bat.bing.com | Microsoft User Identifier tracking cookie used by Bing Ads. | 7 days | HTTP |
IDE | doubleclick.net | Google advertising cookie used for user tracking and ad targeting purposes. | 2 years | HTTP |
_vwo_uuid_v2 | www.voxco.com | Generic Visual Website Optimizer (VWO) user tracking cookie. | 1 year | HTTP |
_vis_opt_s | www.voxco.com | Generic Visual Website Optimizer (VWO) user tracking cookie that detects if the user is new or returning to a particular campaign. | 3 months | HTTP |
_vis_opt_test_cookie | www.voxco.com | A session (temporary) cookie used by Generic Visual Website Optimizer (VWO) to detect if the cookies are enabled on the browser of the user or not. | 52 years | HTTP |
_ga | www.voxco.com | Google Universal Analytics long-time unique user tracking identifier. | 2 years | HTTP |
_uetsid | www.voxco.com | Microsoft Bing Ads Universal Event Tracking (UET) tracking cookie. | 1 days | HTTP |
vuid | vimeo.com | Vimeo tracking cookie | 2 years | HTTP |
Name | Domain | Zweck | Ablauf | Art |
---|---|---|---|---|
__cf_bm | hubspot.com | Generic CloudFlare functional cookie. | Session | HTTP |
Name | Domain | Zweck | Ablauf | Art |
---|---|---|---|---|
_gcl_au | www.voxco.com | --- | 3 months | --- |
_gat_gtag_UA_3262734_1 | www.voxco.com | --- | Session | --- |
_clck | www.voxco.com | --- | 1 year | --- |
_ga_HNFQQ528PZ | www.voxco.com | --- | 2 years | --- |
_clsk | www.voxco.com | --- | 1 days | --- |
visitor_id18452 | pardot.com | --- | 10 years | --- |
visitor_id18452-hash | pardot.com | --- | 10 years | --- |
lpv18452 | pi.pardot.com | --- | Session | --- |
lhc_per | www.voxco.com | --- | 6 months | --- |
_uetvid | www.voxco.com | --- | 1 year | --- |