Hypothèses de régression logistique

PARTAGER L’ARTICLE SUR 

Hypothèses de régression logistique régression logistique
Table des matières

La régression logistique s’est avérée être un moyen efficace d’ajuster un modèle de régression lorsque la variable de réponse répond de manière binaire. Selon la façon dont les variables indépendantes changent, la variable dépendante répondra de manière « oui ou non », « 0 ou 1 », « vrai ou faux ». 

Dans cette section, nous allons examiner certaines hypothèses de régression logistique avant de l’appliquer aux modèles. 

Guide de la recherche exploratoire

Mener une recherche exploratoire semble délicat, mais un guide efficace peut aider. 

Hypothèses de régression logistique

  • La variable de réponse est binaire 

C’est fondamentalement le point central de la régression logistique. Elle suppose que la variable de réponse ou la variable dépendante ne peut donner que deux variables. 

  • Oui/Non 
  • Vrai/Faux 
  • Désactiver/Activer 
  • Entrée/sortie 

La manière la plus simple de mesurer ces hypothèses est de trouver combien de résultats uniques la variable de réponse peut éventuellement donner. 

  • Les observations sont indépendantes 

La régression logistique suppose que les observations sont indépendantes les unes des autres et indépendantes des mesures répétitives. Tout individu ne devrait pas être mesuré plus d’une fois et il ne devrait pas non plus être pris en compte dans le modèle. 

Une façon de vérifier ces hypothèses est de maintenir un ordre pour les observations. Vous devez vous assurer que les observations sont faites au hasard sans aucun biais, sinon l’hypothèse est violée. 

  • Variable explicative sans  multicolinéarité 

La multicolinéarité des variables explicatives se produit lorsque deux ou plus de deux d’entre elles ne fournissent pas d’informations uniques au modèle. Dans ce cas, les explicatifs sont corrélés les uns aux autres et fournissent des informations similaires. En cas de forte corrélation entre les variables, elles créeront des divergences tout en s’adaptant au modèle de régression interprétative. 

Disons que vous voulez observer le poids des bébés, les observations suivantes seraient : 

  • Poids du bébé 
  • Poids des vêtements de bébé 
  • Régime alimentaire de bébé 

Ici, le poids du bébé et de ses vêtements sont les variables qui fournissent plus ou moins les mêmes données, occupant encore plus d’espace dans le modèle. 

La meilleure façon de rechercher la multicolinéarité est d’utiliser le VIF (facteur d’inflation de la variance). C’est un moyen de mesurer la corrélation et sa force entre les variables explicatives. 

Découvrez le logiciel d’enquête Voxco en action grâce à une démonstration gratuite.

See Voxco survey software in action with a Free demo.

  • Pas de valeurs aberrantes extrêmes 

La régression logistique suppose qu’il n’y a pas de valeurs aberrantes extrêmes ou d’observations externes qui influencent les données qui entrent dans le modèle. 

La distance de Cook est un moyen efficace d’exclure les valeurs aberrantes et les observations externes d’un ensemble de données. Vous pouvez choisir de les supprimer des données ou de les remplacer par une moyenne ou une médiane. Vous pouvez également laisser les valeurs aberrantes, mais n’oubliez pas de les signaler dans les résultats de la régression. 

  • Les variables explicatives et le Logit de la variable de réponse ont une relation linéaire entre elles. 

Le Logit s’énonce comme suit : 

Logit (p) = log (p / (1-p)) 

Où p est la probabilité qu’un résultat soit positif. 

La régression logistique suppose que ce Logit de la variable de réponse et les variables explicatives sont linéairement liés. 

Le test Box-Tidwell est utilisé pour voir si cette hypothèse est réelle dans votre ensemble de données pour le modèle de régression. 

  • Taille suffisante de l’échantillon 

La régression logistique suppose que la taille de l’échantillon à partir duquel les observations sont tirées est suffisamment importante pour donner des conclusions fiables pour le modèle de régression. 

Il existe une règle empirique pour mettre cette hypothèse en place. Vous devez avoir au moins 10 cas où le résultat n’est pas très fréquent, pour chaque variable explicative. Disons que vous avez 5 variables explicatives et que vous vous attendez à ce que la probabilité du résultat le moins fréquent soit de 0,30, le modèle exige une taille d’échantillon d’au moins (10 * 5) / 0,30 = 166. 

  • La régression logistique et la régression linéaire ont toutes deux des hypothèses communes : 
  • Relation linéaire entre les variables explicatives et la variable de réponse. 
  • Résidus normalement distribués. 
  • Homoscédasticité entre les résidus. 
Hypothèses de régression logistique régression logistique

See why 450+ clients trust Voxco!

Subscription Pop Up (#10)

By providing this information, you agree that we may process your personal data in accordance with our Privacy Policy.