Analyse der Varianz

SHARE THE ARTICLE ON

Data Analysis using Qualitative and Quantitative Techniques2
Table of Contents

Die Varianzanalyse (ANOVA) ist eine statistische Formel, die die Varianzen der Mittelwerte (oder Durchschnittswerte) verschiedener Gruppen vergleicht. Sie wird in einer Vielzahl von Situationen verwendet, um zu beurteilen, ob es einen Unterschied zwischen den Mittelwerten verschiedener Gruppen gibt oder nicht.

Was ist eine Varianzanalyse?

Die Varianzanalyse ist ein statistischer Analyseansatz, der die beobachtete Gesamtvariabilität innerhalb eines Datensatzes in zwei Teile aufteilt: systematische Komponenten und Zufallsfaktoren. Zufällige Faktoren haben keinen statistischen Einfluss auf den gelieferten Datensatz, systematische Faktoren hingegen schon. Bei einer Regressionsanalyse verwenden Analysten den ANOVA-Test, um die Auswirkungen unabhängiger Faktoren auf die abhängige Variable zu untersuchen.

Bis 1918, als Ronald Fisher die Varianzanalyse erfand, wurden für die statistische Analyse die im zwanzigsten Jahrhundert eingeführten t- und z-Test-Verfahren verwendet. Die ANOVA, gemeinhin als Fisher-Varianzanalyse bekannt, ist eine Erweiterung der t- und z-Tests. Der Begriff gewann an Popularität, nachdem er 1925 in Fishers Buch „Statistical Methods for Research Workers“ erschienen war. Es wurde zunächst in der experimentellen Psychologie verwendet und dann auf kompliziertere Fragestellungen verallgemeinert.

Leitfaden für explorative Forschung

Die Durchführung von Sondierungsforschung scheint schwierig zu sein, aber ein effektiver Leitfaden kann helfen.

Wofür wird die Anova verwendet?

Eine Varianzanalyse wird in der Wirtschaft eingesetzt, um Unterschiede in der finanziellen Leistung eines Unternehmens zu untersuchen. Darüber hinaus hilft sie der Unternehmensleitung, die betriebliche Leistung zusätzlich zu kontrollieren und somit die Einhaltung des Budgets zu gewährleisten.

Der ANOVA-Test ermöglicht es Ihnen, Diskrepanzen in Ihrem Datensatz zu untersuchen, indem Sie die zahlreichen Elemente analysieren, die ihn beeinflussen. Diese Techniken werden von Analytikern verwendet, um zusätzliche Daten zu erstellen, die besser mit Regressionsmodellen kompatibel sind. Wenn kein signifikanter Unterschied zwischen den beiden getesteten Gruppen besteht, wird dies als „Nullhypothese“ bezeichnet, und das F-Verhältnis des ANOVA-Tests sollte nahe bei eins liegen.

In der Varianzanalyse verwendete Ausdrücke

Abhängige Variable

Das zu messende Objekt, von dem angenommen wird, dass es von den unabhängigen Faktoren beeinflusst wird, wird als abhängige Variable bezeichnet.

Unabhängige Variable

Die zu bewertenden Elemente, die einen Einfluss auf die abhängige Variable haben können, werden als unabhängige Variablen bezeichnet.

Nullhypothese (H0)

Wenn es keinen Unterschied zwischen den Gruppen oder Mittelwerten gibt, wird die Nullhypothese (H0) verwendet. Die Nullhypothese wird auf der Grundlage der Ergebnisse des ANOVA-Tests angenommen oder abgelehnt.

Alternativhypothese (H1)

Wenn angenommen wird, dass es einen Unterschied zwischen den Gruppen und Mittelwerten gibt, spricht man von einer Alternativhypothese (H1).

Faktoren und Niveaus

Eine unabhängige Variable, die die abhängige Variable beeinflusst, wird in der ANOVA-Nomenklatur als Faktor bezeichnet. Der Begriff Niveau bezieht sich auf die verschiedenen Werte der unabhängigen Variablen, die in einem Experiment verwendet werden.

Klassen von Modellen

Modelle mit festen Effekten

Das Modell mit festen Effekten (Klasse I) der Varianzanalyse wird verwendet, wenn der Versuchsleiter den Versuchspersonen eine oder mehrere Behandlungen verabreicht, um zu untersuchen, ob sich die Werte der Antwortvariablen ändern. Auf diese Weise kann der Forscher die Bereiche der Antwortvariablenwerte schätzen, die die Behandlung in der gesamten Population hervorrufen könnte.

Modelle mit zufälligen Effekten

Wenn die Behandlungen nicht fix sind, wird das Modell mit zufälligen Effekten (Klasse II) verwendet. Dies ist der Fall, wenn die verschiedenen Faktorstufen aus einer größeren Grundgesamtheit entnommen werden. Da es sich bei den Niveaus um Zufallsvariablen handelt, ändern sich mehrere Annahmen und der Ansatz für die Gegenüberstellung der Behandlungen (eine multivariable Erweiterung der einfachen Differenzen) gegenüber dem Modell mit festen Effekten.

Modelle mit gemischten Effekten

Ein Modell mit gemischten Effekten (Klasse III) enthält experimentelle Komponenten sowohl mit festen als auch mit zufälligen Effekten, mit geeigneten Interpretationen und Analysen für jede Art.

Ein Fachbereich einer Hochschule oder Universität könnte beispielsweise Lehrversuche durchführen, um ein geeignetes Lehrbuch für den Anfang zu finden, wobei jeder Text als Treatment bezeichnet wird. Eine Liste möglicher Texte würde mit Hilfe des Modells mit festen Effekten verglichen werden. Das Modell mit zufälligen Effekten würde ermitteln, ob es signifikante Unterschiede zwischen einer Reihe zufällig ausgewählter Texte gibt oder nicht. Das Modell mit gemischten Effekten würde die (festen) etablierten Texte mit alternativen, zufällig ausgewählten Texten vergleichen.

Merkmale der Varianzanalyse

Die ANOVA wird zur Analyse von Vergleichsstudien verwendet, bei denen nur der Unterschied in den Ergebnissen von Bedeutung ist. Ein Verhältnis zweier Varianzen bestimmt die statistische Signifikanz des Experiments. Dieses Verhältnis bleibt von einer Reihe möglicher Änderungen an den experimentellen Beobachtungen unberührt: Die Hinzufügung einer Konstante zu allen Beobachtungen hat keinen Einfluss auf ihre Bedeutung. Die Relevanz aller Beobachtungen bleibt unverändert, wenn sie mit einer Konstanten multipliziert werden. Daher ist das Ergebnis der statistischen Signifikanz der ANOVA unabhängig von der Verzerrung durch die Konstante, von Skalierungsfehlern und von den zur Beschreibung der Beobachtungen verwendeten Einheiten. Um die Dateneingabe während der mechanischen Berechnungsphase zu erleichtern, war es üblich, eine Konstante aus allen Beobachtungen zu entfernen (gleichbedeutend mit dem Löschen der führenden Ziffern). Dies ist eine Veranschaulichung der Datenkodierung.

Wie wird Anova in der Datenwissenschaft verwendet?

Eine der größten Schwierigkeiten beim maschinellen Lernen ist die Auswahl der zuverlässigsten und brauchbarsten Merkmale, mit denen ein Modell trainiert wird. ANOVA hilft bei der Auswahl der optimalen Merkmale für das Training eines Modells. ANOVA reduziert die Anzahl der Eingabevariablen, um die Komplexität des Modells zu verringern. ANOVA kann verwendet werden, um zu untersuchen, ob eine unabhängige Variable eine Zielvariable beeinflusst.

Die Erkennung von E-Mail-Spam ist eine Anwendung von ANOVA in der Datenwissenschaft. Aufgrund der großen Anzahl von E-Mails und E-Mail-Merkmalen ist das Erkennen und Zurückweisen aller Spam-E-Mails extrem schwierig und ressourcenintensiv geworden. ANOVA und f-Tests werden verwendet, um Faktoren zu finden, die für die korrekte Bestimmung, welche E-Mails Spam sind und welche nicht, entscheidend sind.

Annahmen bei der Anova

Eine Normalverteilung wird in der Lehrbuchanalyse verwendet

Die Varianzanalyse kann als lineares Modell ausgedrückt werden, das die folgenden Annahmen über die Wahrscheinlichkeitsverteilung der Antworten trifft:

Unabhängigkeit der Beobachtungen – dies ist eine Modellannahme, die die statistische Analyse erleichtert.

Normalität – die Restverteilungen sind normal.

Gleichheit (oder „Homogenität“) der Varianzen, auch bekannt als Homoskedastizität – die Varianz der Daten sollte in allen Gruppen gleich sein.

Bei Modellen mit festen Effekten implizieren die verschiedenen Annahmen des Lehrbuchmodells, dass die Fehler unabhängig, identisch und normal verteilt sind, d. h. die Fehler () sind unabhängig und ~N(0,2)

Auf Randomisierung basierende Analyse

In einem randomisierten kontrollierten Experiment werden die Behandlungen den Versuchseinheiten nach dem Zufallsprinzip zugeteilt, wobei der Versuchsablauf eingehalten wird. Diese Randomisierung ist objektiv und wird vor Beginn des Versuchs angekündigt. In Anlehnung an die Prinzipien von C. S. Peirce und Ronald Fisher wird die objektive Zufallszuweisung verwendet, um die Signifikanz der Nullhypothese zu beurteilen. Francis J. Anscombe von der Rothamsted Experimental Station und Oscar Kempthorne von der Iowa State University erforschten und entwickelten diese designbasierte Analyse. Kempthorne und seine Studenten stellten die Annahme der Additivität der Einheitsbehandlung auf, die in den Veröffentlichungen von Kempthorne und David R. Cox näher erläutert wird.

Abgeleitetes lineares Modell

Kempthorne leitet aus der Randomisierungsverteilung und der Annahme der Einheitsbehandlungsadditivität ein lineares Modell ab, das dem zuvor vorgestellten Lehrbuchmodell recht nahe kommt. Nach Approximationstheoremen und Simulationsexperimenten werden die Teststatistiken dieses abgeleiteten linearen Modells durch die Teststatistiken eines adäquaten linearen Normalmodells stark angenähert. Es gibt jedoch Unterschiede. Der auf der Randomisierung basierende Ansatz führt beispielsweise zu einer winzigen, aber (streng) negativen Korrelation zwischen den Beobachtungen. Bei der auf Randomisierung basierenden Analyse wird keine Normalverteilung und schon gar keine Unabhängigkeit vorausgesetzt. Die Beobachtungen hingegen sind abhängig.

Der Nachteil der randomisierungsbasierten Analyse ist, dass ihre Darstellung komplexe Mathematik erfordert und viel Zeit in Anspruch nimmt. Die meisten Professoren betonen die Technik des normalen linearen Modells, da die auf Randomisierung basierende Analyse komplex ist und durch den Ansatz eines normalen linearen Modells stark angenähert wird. Nur wenige Statistiker lehnen die modellbasierte Analyse von ausgewogenen randomisierten Studien ab.

Statistische Modelle aus Beobachtungsdaten

Bei der modellbasierten Analyse hingegen geht die Rechtfertigung der Randomisierung verloren, wenn sie auf Daten aus nicht-randomisierten Studien oder aus der Beobachtungsforschung angewendet wird. Konfidenzintervalle für Beobachtungsdaten müssen, wie von Ronald Fisher und seinen Nachfolgern betont, mit Hilfe subjektiver Modelle abgeleitet werden. In der Praxis sind die Schätzungen der Behandlungseffekte aus Beobachtungsstudien häufig inkonsistent. In der Praxis sind „statistische Modelle“ und Beobachtungsdaten wertvoll für die Erstellung von Hypothesen, denen die breite Öffentlichkeit mit Vorsicht begegnen sollte.

Sehen Sie die Voxco Umfrage-Software in Aktion mit einer kostenlosen Demo.

Einweg-Anova vs. Zweiweg-Anova

Einweg-Anova

Die einseitige ANOVA wird oft auch als Ein-Faktor-ANOVA oder einfache ANOVA bezeichnet. Die einseitige ANOVA eignet sich, wie der Name schon sagt, für Untersuchungen mit nur einer unabhängigen Variablen (Faktor) mit zwei oder mehr Stufen. Eine abhängige Variable könnte zum Beispiel sein, in welchem Monat des Jahres die meisten Blumen im Garten wachsen. Insgesamt gibt es dann zwölf Stufen. Eine einseitige ANOVA setzt voraus:

Unabhängigkeit: Der Wert der abhängigen Variable für eine Beobachtung steht in keinem Zusammenhang mit dem Wert der abhängigen Variable für andere Beobachtungen.

Normalität: Der Wert der abhängigen Variable ist normal verteilt.

Varianz: Die Varianz zwischen den verschiedenen Versuchsgruppen ist vergleichbar.

Die abhängige Variable (Anzahl der Blumen) ist kontinuierlich und kann auf einer Skala gemessen werden, die sich unterteilen lässt.

Vollfaktorielle Anova (Zwei-Wege-Anova)

Wenn es zwei oder mehr unabhängige Variablen gibt, wird die vollfaktorielle ANOVA verwendet. Jede dieser Variablen kann mehrere Stufen haben. Die vollfaktorielle ANOVA kann nur in einem vollfaktoriellen Experiment verwendet werden, in dem jede denkbare Permutation von Faktoren und deren Niveaus verwendet wird. Dies könnte der Monat des Jahres sein, in dem die meisten Blüten im Garten blühen, gefolgt von den sonnigsten Stunden. Bei dieser zweiseitigen ANOVA wird nicht nur die unabhängige gegenüber der unabhängigen Variable untersucht, sondern auch, ob sich die beiden Variablen gegenseitig beeinflussen. Eine zweiseitige ANOVA setzt Folgendes voraus:

Kontinuierlich: Die abhängige Variable sollte kontinuierlich sein, genau wie bei einer einseitigen ANOVA.

Unabhängigkeit: Jede Stichprobe unterscheidet sich von den anderen, es gibt keine Überschneidungen.

Varianz: Die Varianz der Daten ist in allen Gruppen gleich groß.

Normalität: Die Stichproben sind typisch für die allgemeine Bevölkerung.

Kategorien: Die unabhängigen Variablen sollten in Kategorien oder Gruppen unterteilt werden.

Arten von Anova und ihre Formeln

Diese statistische Überprüfung kann auf viele verschiedene Variablen angewandt werden, die in der Geschäftswelt vorkommen. Einige der wichtigsten zu untersuchenden Arten von Varianzen sind die folgenden:

  • Arbeitsabweichung
  • Umsatzabweichung
  • Budgetabweichung
  • Materialabweichung
  • Variable Gemeinkostenabweichung
  • Fixe Gemeinkostenabweichung

Es gibt keine allgemeingültige Formel für die Abweichungsanalyse, die für alle Studien verwendet werden kann. Welche Abweichungsanalyse wir durchführen, hängt von der Art der zu untersuchenden Variablen ab. Hier sind einige der wichtigsten Formeln für die Abweichungsanalyse:

Materialkosten-Abweichungsformel:

Standardkosten – tatsächliche Kosten = (Standardmenge x Standardpreis) – (tatsächliche Menge X tatsächlicher Preis)

Formel für Arbeitsabweichungen:

Standardlöhne – Ist-Löhne = (Standard-Stunden x Standard-Preis) – (Ist-Stunden x Ist-Preis)

Formel für fixe Gemeinkostenabweichung:

(Ist-Output x Standardsatz) – Tatsächliche fixe Gemeinkosten

Formel für die Umsatzabweichung:

(Geplante Qualität x Geplanter Preis) – (Tatsächliche Qualität x Tatsächlicher Preis)

In den meisten Fällen werden Analysten Software wie Excel verwenden, um diese Algorithmen durchzuführen. Ein ANOVA-Test kann jedoch auch manuell durchgeführt werden, indem Sie die nachstehenden Verfahren befolgen:

  • Bestimmen Sie den Mittelwert für jede Gruppe, die Sie vergleichen.
  • Bestimmen Sie den Gesamtmittelwert oder den Mittelwert der zusammengefassten Gruppen.
  • Berechnen Sie die gruppeninterne Varianz bzw. die Abweichung vom Gruppenmittelwert für jedes Ergebnis.
  • Bestimmen Sie die Varianz zwischen den Gruppen, d. h. die Abweichung der Mittelwerte der einzelnen Gruppen vom Gesamtmittelwert.
  • Berechnung des F-Verhältnisses, d. h. des Verhältnisses zwischen der Varianz zwischen den Gruppen und der Varianz innerhalb der Gruppen.

Beschränkungen der Varianzanalyse

  • Die ANOVA kann nur feststellen, ob ein signifikanter Unterschied zwischen den Mittelwerten von mindestens zwei Gruppen besteht, aber sie kann nicht sagen, welches Mittelwertpaar sich unterscheidet. Wenn granulare Daten benötigt werden, hilft die Anwendung weiterer statistischer Folgeverfahren bei der Feststellung, ob sich die Gruppen im Mittelwert unterscheiden. Die ANOVA wird in der Regel in Verbindung mit anderen statistischen Verfahren eingesetzt.
  • Auch bei der ANOVA wird davon ausgegangen, dass der Datensatz gleichverteilt ist, da sie lediglich die Mittelwerte vergleicht. Wenn die Daten nicht normal verteilt sind und es Ausreißer gibt, ist die ANOVA nicht die beste Methode zur Interpretation der Daten.
  • Andererseits setzt die ANOVA voraus, dass die Standardabweichungen zwischen den Gruppen gleich oder vergleichbar sind. Weichen die Standardabweichungen erheblich voneinander ab, kann die Schlussfolgerung des Tests ungenau sein.

Read more