Regression Definition Statistik erklärt

Regression Definition

SHARE THE ARTICLE ON

Table of Contents

What is Regression?

Die Regression ist ein statistisches Hilfsmittel, das in vielen verschiedenen Disziplinen eingesetzt wird, um die Stärke und Richtung der Beziehung zwischen verschiedenen Variablen – unabhängigen und abhängigen – zu bestimmen:

  • Abhängige Variable: Bei einer Ursache-Wirkungs-Beziehung zwischen zwei Variablen ist die abhängige Variable die Wirkung.

Unabhängige Variable: In einer Ursache-Wirkungs-Beziehung zwischen zwei Variablen ist die abhängige Variable die Ursache.

Transformieren Sie Ihren Erkenntnisgewinnung Prozess

Erstellen Sie einen umsetzbaren Prozess zur Sammlung von Feedback.

online survey

Arten der Regression

Regression Definition Statistik erklärt

Es gibt zwei grundlegende Arten der Regression:

  1. Einfache lineare Regression: Bei dieser Art von Regression gibt es nur eine x- und eine y-Variable.
  2. Multiple lineare Regression: Bei dieser Art von Regression gibt es eine y-Variable und zwei oder mehr x-Variablen.

Es ist wichtig zu beachten, dass es sich bei den vorgenannten Regressionen um Methoden der linearen Regression handelt, die nicht für nichtlineare Daten verwendet werden können. Bei der linearen Regression werden die Variablen mit einer geraden Linie in Beziehung gesetzt, während bei der nichtlinearen Regression die Variablen in einer nichtlinearen (gekrümmten) Beziehung stehen. Für kompliziertere Daten und Analysen gibt es andere Methoden der nichtlinearen Regression.

Einfache lineare Regression

Bei der einfachen linearen Regression wird eine unabhängige Variable (x) verwendet, um das Ergebnis der abhängigen Variable (y) zu erklären.

Die Formel für die einfache lineare Regression lautet:

Y = a + bX + u

Wobei,

  • Y = die Variable, die Sie vorherzusagen versuchen (abhängige Variable).
  • X = die Variable, die Sie zur Vorhersage von Y verwenden (unabhängige Variable).
  • a = der Achsenabschnitt.
  • b = die Steigung.
  • u = der Regressionsrest

Um zu verstehen, wann die lineare Regression angemessen ist, betrachten wir das folgende Beispiel:

Wenn wir annehmen, dass die Körpergröße die einzige Determinante des Körpergewichts ist, könnten wir das einfache lineare Regressionsmodell verwenden, um die Auswirkungen einer Veränderung der Körpergröße auf das Gewicht vorherzusagen oder zu erklären.

Multiple lineare Regression

Bei der multiplen linearen Regression werden zwei oder mehr unabhängige Variablen (x) verwendet, um das Ergebnis der abhängigen Variable (y) zu erklären.  

Die Formel für die multiple lineare Regression lautet wie folgt:

Y = a + b1X1 + b2X2 + b3X3 + … + btXt + u

Die multiple lineare Regression wird verwendet, wenn die einfache lineare Regression nicht ausreicht, um die zahlreichen realen Faktoren zu berücksichtigen, die das Ergebnis einer abhängigen Variable beeinflussen.

Bleiben wir bei dem vorherigen Beispiel mit der Größe und dem Gewicht. Realistischerweise ist die Körpergröße nicht die einzige Determinante des Gewichts. Es gibt viele verschiedene Faktoren, die das Gewicht einer Person beeinflussen, wie z. B. die Ernährung und Bewegung, und daher würde ein realistischeres Modell mehrere x-Variablen (unabhängige Variable) enthalten.

Download Marktforschungs-Toolkit

Holen Sie sich den Leitfaden für Marktforschung Trends, den Leitfaden für Online-Befragungen, den Leitfaden für agile Marktforschung und 5 Marktforschungsfragen

Making the most of your B2B market research in 2021 PDF 3 s 1.png

Überanpassung bei der Regression

Überanpassung ist ein Modellierungsfehler, der bei der Regressionsanalyse recht häufig auftritt. Er tritt auf, wenn eine Funktion oder ein Modell zu komplex für die Daten ist und zu viele Parameter aus einer zu kleinen Stichprobe geschätzt werden. Auch wenn ein überangepasstes Modell gut zu den Daten passt, wird es nicht mit zusätzlichen Test Stichproben oder der gesamten Zielpopulation übereinstimmen.

Wenn ein Modell überangepasst ist, sind seine p-Werte, R-Quadrat und Regressionskoeffizienten wahrscheinlich sehr irreführend. Wie kann man also eine Überanpassung vermeiden?

Hier sind einige Möglichkeiten, wie Sie eine Überanpassung Ihrer Daten vermeiden können:

  • Sammeln Sie mehr Daten: Das Sammeln von mehr Daten erhöht die Genauigkeit Ihres Modells und minimiert Fehler.
  • Kreuzvalidierung: Bei der Kreuzvalidierung werden die anfänglichen Trainingsdaten verwendet, um mehrere kleinere Trainings-/Test Splits zu erstellen, die zur Optimierung Ihres Modells verwendet werden können.
  • Dateierweiterung: Bei der Dateierweiterung werden die verfügbaren Datensätze diversifiziert, indem die Daten einer Probe jedes Mal leicht verändert werden, bevor sie vom Modell verarbeitet werden.
  • Merkmalsauswahl: Hierbei handelt es sich um eine Technik, bei der die Verlustfunktion bestraft wird, um die Komplexität des über angepassten Modells zu verringern.

See Voxco survey software in action with a Free demo.

FAQs on Regression

 Regression refers to the approach of modelling the relationship between variables to determine the strength and direction of their relationship.

The two main types of linear regression are simple linear regression and multiple linear regression.

Simple linear regression involves modelling the relationship between one independent variable (x) and one dependent variable (y). It is used when a dependent variable only has one determinant.

 Multiple linear regression involves modelling the relationship between two or more independent variables (x) and one dependent variable (y). It is used when a dependent variable has multiple determinants.

 Linear regression involves relating variables with a straight line while nonlinear regression relates the variables in a nonlinear (curved) relationship.

Explore all the survey question types
possible on Voxco

Read more