Coefficient de corrélation de Matthews : définition, formule et avantages Coefficient de corrélation

Coefficient de corrélation de Matthews : définition, formule et avantages

PARTAGER L’ARTICLE SUR

Table des matières

Quel est le coefficient de corrélation de Matthew ?

Le coefficient de corrélation de Matthew, également abrégé en MCC, a été inventé par Brian Matthews en 1975. MCC est un outil statistique utilisé pour l’évaluation des modèles. Son travail consiste à évaluer ou à mesurer la différence entre les valeurs prédites et les valeurs réelles et équivaut à des statistiques du chi carré pour une table de contingence 2 x 2.

Transformez votre processus de génération d’informations

Créez un processus de collecte de commentaires exploitable.

online survey

Formule du coefficient de corrélation de Matthew

MCC est une meilleure mesure de classification à valeur unique qui aide à résumer la matrice de confusion ou une matrice d’erreur. Une matrice de confusion comporte quatre entités :

  • Vrais positifs (TP)
  • Vrais négatifs (TN)
  • Faux positifs (FP)
  • Faux négatifs (FN)

Et est calculé par la formule :

Coefficient de corrélation de Matthews : définition, formule et avantages Coefficient de corrélation

Si la prédiction donne de bons taux pour ces quatre entités, on dit qu’il s’agit d’une mesure fiable produisant des scores élevés. Et pour convenir à la plupart des coefficients de corrélation, MCC varie également entre +1 et -1 comme :

  • +1 est le meilleur accord entre les valeurs prédites et réelles.
  • 0 n’est pas un accord. Cela signifie que la prédiction est aléatoire en fonction des réels

Télécharger Market Research Toolkit

Obtenez le guide des tendances des études de marché, le guide des sondages en ligne, le guide d’étude de marché agile et le modèle d’étude de marché 5

Making the most of your B2B market research in 2021 PDF 3 s 1.png

Exemple de MCC

Matrice de confusion avec comme entrées : TP = 90, FP = 4, TN = 1, FN = 5. Lorsque nous substituons ces valeurs dans la formule, nous obtenons 0,14.

0,14 signifie que le classificateur est très proche d’un classificateur aléatoire (0).

Par conséquent, il semble que le MCC nous aide à identifier l’inefficacité du classificateur à classer en particulier les échantillons de classe négative.

Découvrez le logiciel d’enquête Voxco en action avec une démo gratuite.

Avantages du MCC par rapport au score F1

Abstrait

Contexte : Pour évaluer les classifications binaires et leurs matrices de confusion, les chercheurs scientifiques peuvent utiliser plusieurs taux statistiques, en fonction de l’objectif de l’expérience qu’ils étudient. Bien qu’il s’agisse d’une question cruciale dans l’apprentissage automatique, aucun consensus généralisé n’a encore été atteint sur une mesure choisie au choix unifiée. La précision et le score F1 calculés sur des matrices de confusion ont été (et sont toujours) parmi les mesures les plus populaires adoptées dans les tâches de classification binaire. Cependant, ces mesures statistiques peuvent dangereusement montrer des résultats gonflés trop optimistes, en particulier sur des ensembles de données déséquilibrés.

Résultats : Le coefficient de corrélation de Matthews (MCC), au contraire, est un taux statistique plus fiable qui ne produit un score élevé que si la prédiction a obtenu de bons résultats dans les quatre catégories de matrice de confusion (vrais positifs, faux négatifs, vrais négatifs et faux positifs), proportionnellement à la fois à la taille des éléments positifs et à la taille des éléments négatifs dans l’ensemble de données.

Conclusions : Dans cet article, nous montrons comment MCC produit un score plus informatif et véridique dans l’évaluation des classifications binaires que la précision et le score F1, en expliquant d’abord les propriétés mathématiques, puis l’atout de MCC dans six cas d’utilisation synthétiques et dans un scénario génomique réel. Nous pensons que le coefficient de corrélation de Matthews devrait être préféré à la précision et au score F1 dans l’évaluation des tâches de classification binaire par toutes les communautés scientifiques.

Explore all the survey question types
possible on Voxco

Read more