Définition de régression Définition de régression

Définition de régression

PARTAGER L’ARTICLE SUR

Table of Contents

Qu’est-ce que la régression ?

La régression est un outil statistique qui est exploité dans de nombreuses disciplines différentes pour aider à déterminer la force et l’orientation de la relation entre différentes variables, indépendantes ou dépendantes :

  • Variable dépendante : dans une relation de cause à effet entre deux variables, la variable dépendante est l’effet.
  • Variable indépendante : dans une relation de cause à effet entre deux variables, la variable dépendante est la cause.

Transformez votre processus de génération d’informations

Créez un processus de collecte de commentaires exploitable.

online survey

Types de régression

Définition de régression Définition de régression

Il existe deux types de régression de base :

  1. Régression linéaire simple : dans ce type de régression, il n’y a qu’une seule variable x et une variable y.
  2. Régression linéaire multiple : dans ce type de régression, il y a une variable y et deux variables x ou plus.

Il est important de noter que les régressions susmentionnées sont des méthodes de régression linéaire et ne peuvent pas être utilisées pour des données non linéaires. La régression linéaire consiste à relier des variables à une ligne droite, tandis que la régression non linéaire relie les variables dans une relation non linéaire (courbe). Pour les données et les analyses plus complexes, il existe d’autres méthodes de régression non linéaire.

Régression linéaire simple

La régression linéaire simple consiste à utiliser une variable indépendante (x) pour expliquer le résultat de la variable dépendante (y).

La formule de la régression linéaire simple est la suivante :

Y = a + bX + u

  • Y = la variable que vous essayez de prédire (variable dépendante).
  • X = la variable que vous utilisez pour prédire Y (variable indépendante).
  • a = l’interception.
  • b = la pente.
  • u = le résidu de régression

Pour comprendre quand l’utilisation appropriée de la régression linéaire, considérons l’exemple suivant :

Si nous devions supposer que la taille était le déterminant singulier du poids corporel, nous pourrions utiliser le modèle de régression linéaire simple pour prédire ou expliquer l’impact d’un changement de taille sur le poids.

Régression linéaire multiple

La régression linéaire multiple consiste à utiliser deux variables indépendantes (x) ou plus pour expliquer le résultat de la variable dépendante (y).

La formule de la régression linéaire multiple est la suivante :

Y = a + b1X1 + b2X2 + b3X3 + … + btXt + u

La régression linéaire multiple est utilisée lorsqu’une simple régression linéaire ne suffit pas à tenir compte des multiples facteurs réels qui influencent le résultat d’une variable dépendante.

Continuons avec l’exemple précédent impliquant la taille et le poids. De manière réaliste, la taille n’est pas le seul déterminant du poids. Il y a beaucoup de facteurs différents qui influencent le poids d’une personne, tels que l’alimentation et l’exercice et ainsi, un modèle plus réaliste contiendrait plusieurs variables x (variable indépendante).

Téléchargez Market Research Toolkit

Obtenez le guide des tendances des études de marché, le guide des sondages en ligne, le guide d’étude de marché agile et le modèle d’étude de marché 5

Making the most of your B2B market research in 2021 PDF 3 s 1.png

Surajustement en régression

Le surajustement est une erreur de modélisation qui se produit assez fréquemment dans l’analyse de régression. Elle se produit lorsqu’une fonction ou un modèle est trop complexe pour les données et que trop de paramètres sont estimés à partir d’une taille d’échantillon trop petite. Bien qu’un modèle suradapté puisse bien s’adapter à vos données, il ne s’alignera pas sur des échantillons de test supplémentaires ou sur la population cible globale.

Lorsqu’un modèle est surajusté, ses valeurs p, R-carré et ses coefficients de régression sont susceptibles d’être très trompeurs. Alors, comment pouvons-nous éviter le surajustement ?

Voici quelques façons d’éviter de surajuster vos données :

  • Recueillir plus de données : la collecte de plus de données augmentera la précision de votre modèle et minimisera les erreurs.
  • Validation croisée : la validation croisée consiste à utiliser les données d’entraînement initial pour générer plusieurs fractionnements train-test plus petits qui peuvent être utilisés pour ajuster votre modèle.
  • Augmentation des données : l’augmentation des données consiste à rendre les ensembles de données disponibles diversifiés en rendant les données d’un échantillon légèrement différentes à chaque fois avant de les traiter dans le modèle.
  • Sélection des caractéristiques : il s’agit d’une technique qui consiste à pénaliser la fonction de perte pour décourager la complexité du modèle surajusté.

Découvrez le logiciel d’enquête Voxco en action avec une démo gratuite.

FAQ sur la régression

La régression fait référence à l’approche consistant à modéliser la relation entre les variables pour déterminer la force et la direction de leur relation.

Les deux principaux types de régression linéaire sont la régression linéaire simple et la régression linéaire multiple.

La régression linéaire simple consiste à modéliser la relation entre une variable indépendante (x) et une variable dépendante (y). Elle est utilisée lorsqu’une variable dépendante n’a qu’un seul déterminant.

La régression linéaire multiple consiste à modéliser la relation entre deux variables indépendantes (x) et une variable dépendante (y). Elle est utilisée lorsqu’une variable dépendante a plusieurs déterminants.

La régression linéaire consiste à relier des variables à une ligne droite, tandis que la régression non linéaire relie les variables dans une relation non linéaire (courbe).

Explorez tous les types de questions d’enquête

Read more