Valeurs aberrantes : Défintion, étapes à reconnaître, éliminer les valeurs aberrantes et étapes à traiter

PARTAGER L’ARTICLE SUR 

Valeurs aberrantes : Défintion, étapes à reconnaître, éliminer les valeurs aberrantes et étapes à traiter Valeurs aberrantes
Table des matières

Il est fort possible que les principaux progrès en tant que composante du prétraitement des données soient la reconnaissance et la prise en compte des valeurs aberrantes, car elles peuvent influencer de manière négative l’analyse mesurable et le cycle de préparation d’un calcul d’IA, ce qui réduit l’exactitude. 

Guide de recherche exploratoire

Mener des recherches exploratoires semble délicat, mais un guide efficace peut aider. 

Qu’est-ce qu’une valeur aberrante ?

Dans l’analyse prédictive, les valeurs aberrantes sont des valeurs à l’intérieur d’un ensemble de données qui fluctuent de manière extraordinaire par rapport aux autres – elles sont soit beaucoup plus grandes, soit essentiellement plus modestes. Les valeurs aberrantes peuvent montrer des incohérences dans une estimation, des erreurs exploratoires ou de la curiosité. Dans un modèle certifiable, la taille normale d’une girafe est d’environ 4 m de hauteur. En tout cas, il y a eu des révélations en cours de deux girafes qui mesurent environ 2 m chacun. Ces deux girafes seraient considérées comme des valeurs aberrantes par rapport à la population globale de girafes. 

Tout en suivant le cours de l’analyse prédictive, les valeurs aberrantes peuvent causer des particularités dans les résultats acquis. Cela implique qu’ils nécessitent une considération unique et, parfois, devraient être retirés pour décomposer l’information avec succès. 

Il y a deux raisons principales qui expliquent pourquoi le fait de prendre en considération les valeurs aberrantes est une partie essentielle du processus d’analyse de l’information : 

  • Les valeurs aberrantes peuvent avoir une incidence contraire sur les conséquences d’une analyse 
  • Les valeurs aberrantes ou leur façon de se comporter peuvent être les données qu’un enquêteur de l’information attend de l’analyse 

Quelles sont les étapes critiques pour reconnaître un large éventail de valeurs aberrantes ?

Malgré l’industrie, quelle que soit la source d’information, un cadre de découverte aberrant devrait traquer un large éventail de valeurs aberrantes dans les informations de séries chronologiques, en continu et à la taille de millions de mesures. 

Les calculs de localisation des valeurs aberrantes ont été explorés dans la communauté scientifique et ont récemment commencé à s’ouvrir dans les administrations commerciales ainsi qu’en matière de programmation open source. Tous dépendent de calculs factuels et d’IA, de stratégies données, par exemple, ARIMA, Holt-Winters, modèles dynamiques d’espace d’état (HMM), analyse PCA, LSTM et RNN, etc. Au-delà des calculs de base, il existe de nombreuses réflexions supplémentaires dans la construction d’un tel cadre. 

Un manuel exhaustif sur la façon de fabriquer un tel cadre est illustré dans le livre blanc en 3 sections sur la localisation des irrégularités. Les étapes clés de tous les calculs pour la localisation des valeurs aberrantes de base, qui aident à reconnaître les différents types de valeurs aberrantes, sont les suivantes : 

  • Choisir le modèle et la circulation le plus approprié pour chaque série chronologique : Il s’agit d’une avancée fondamentale pour reconnaître toute valeur aberrante puisque les séries chronologiques peuvent agir de différentes manières (fixes, non fixes, examinées sporadiquement, discrètes, etc.), chacune nécessitant un modèle alternatif de la façon ordinaire de se comporter avec une diffusion cachée alternative. 
  • Représentation de conceptions occasionnelles et de modèles : Les valeurs aberrantes pertinentes et agrégées ne peuvent pas être reconnues si l’irrégularité et le motif ne sont pas représentés dans les modèles représentant la manière ordinaire de se comporter. Distinguer les deux, est donc essentiel pour un cadre robotisé de reconnaissance des particularités, car les deux ne peuvent pas être caractérisés physiquement pour toutes les informations. 
  • L’identification des particularités agrégées comprend l’obtention des liens entre diverses séries chronologiques et la représentation de celles permettant de reconnaître et d’examiner les incohérences. 

 

Les valeurs aberrantes sont régulièrement des effets secondaires perceptibles de problèmes fondamentaux que vous souhaitez résoudre rapidement. Néanmoins, ces effets secondaires sont à peu près aussi apparents que votre cadre de reconnaissance des valeurs aberrantes. 

Quand serait-ce une bonne idée pour vous d’éliminer les valeurs aberrantes ?

Il peut sembler normal de devoir éliminer les valeurs aberrantes en tant que composant du processus de nettoyage des informations. Pourtant, en réalité, de temps en temps, il est préférable, voire totalement important, de conserver les valeurs aberrantes dans votre ensemble de données. 

L’élimination des valeurs aberrantes exclusivement en raison de leur position dans les limites de votre ensemble de données peut entraîner des irrégularités dans vos résultats, ce qui serait contre-productif pour vos objectifs en tant qu’analyse de données. Ces irrégularités pourraient entraîner une diminution de l’importance factuelle dans l’analyse. 

Découvrez le logiciel de sondage Voxco en action avec une démo gratuite.

Comment faire face aux valeurs aberrantes ?

Voici les étapes à suivre pour traiter les valeurs aberrantes ; 

  • Effacer les valeurs : Vous pouvez effacer les valeurs aberrantes en supposant que vous réalisiez que les valeurs aberrantes sont hors base ou en supposant à nouveau que l’explication de la valeur aberrante ne se reproduira plus jamais. Par exemple, il existe une collection d’informations sur les groupes d’âges des personnes et les âges typiques se situent entre 0 et 90 ans, mais il y a un passage d’information sur l’âge de 150 ans qui est presque impensable. Ainsi, nous pouvons laisser tomber en toute sécurité la valeur qui est de 150. 
  • Changer les valeurs : Nous pouvons également changer les valeurs dans les situations où nous connaissons la justification derrière les valeurs aberrantes. Considérez le modèle précédent pour l’estimation ou les erreurs d’instrument où nous avions 10 voltmètres dont un voltmètre était défectueux. Ici, ce que nous pouvons faire, c’est que nous pouvons prendre un autre arrangement de lectures en utilisant le bon voltmètre et les remplacer par les lectures qui ont été prises par le voltmètre cassé. 
  • Changement d’information : Le changement de données est utile lorsque nous gérons des valeurs aberrantes et biaisées. En changeant les facteurs, nous pouvons éliminer les valeurs aberrantes. Par exemple, prendre la bûche normale d’une valeur diminue la variété apportée par les valeurs scandaleuses. Cela devrait également être possible pour les index d’information qui n’ont pas de valeurs négatives. 
  • Utilisation de différentes techniques d’analyse : Vous pouvez également utiliser différents tests factuels qui ne sont pas autant affectés par la présence de valeurs aberrantes. Par exemple, l’utilisation d’indices d’information moyens pour contraster va à l’encontre de la moyenne ou de l’utilisation de tests non paramétriques comparables, etc. 
  • 5. Estimer les valeurs aberrantes : Au cas où il y aurait une justification substantielle derrière l’existence de la valeur aberrante et qu’il s’agit d’une partie de notre cycle régulier, nous devrions explorer la raison de l’aberration, car elle peut donner des informations importantes qui peuvent vous aider à mieux exécuter votre interaction.  Les valeurs aberrantes peuvent dissimuler des données précieuses qui pourraient être inestimables pour développer davantage l’exécution de votre cycle. Vous voulez investir dans une opportunité pour comprendre les causes uniques qui s’ajoutent à ces valeurs aberrantes. La résolution de ces causes uniques peut vous donner un énorme coup de pouce dans l’exécution de votre interaction et développer davantage la fidélité des consommateurs. Par exemple, le transport ordinaire des commandes nécessite 1 à 2 jours, mais quelques demandes ont pris plus de temps qu’un mois à terminer. Comprendre la raison pour laquelle cela a nécessité un mois et corriger ce cycle peut aider les futurs clients, car ils ne seraient pas affectés par des temps de veille aussi énormes. 

 

Dernières réflexions

Les valeurs aberrantes ne sont pas fréquemment mentionnées dans les tests, cependant, en fonction de votre entreprise et de la mesure que vous améliorez, elles pourraient influencer vos résultats. 

Quelques valeurs élevées dans un petit échantillon peuvent complètement incliner un test, vous amenant à choisir un choix à la lumière d’informations erronées. 

Cependant, il existe de nombreuses façons de gérer les valeurs aberrantes dans l’information. Il n’y a pas de solution pratique qui fonctionne, peu importe comment vous la regardez, ce qui est la raison pour laquelle l’intérêt pour les bons experts continue de se développer. 

Enfin, la décision fondamentale concernant les valeurs aberrantes peut se résumer comme suit : 

« Une valeur aberrante donnée pourrait être ce qui perturbe le plus une analyse, mais peut également être en général la chose que vous recherchez. »