Dans le domaine de l’analyse de données, on peut identifier à la fois des biais cognitifs (lorsque le développeur modélise en fonction de ses propres perceptions) et des biais statistiques (lorsque les méthodologies ne sont pas rigoureuses.
- Le biais « du mouton de Parnurge » : le développeur programme en se basant sur des corrélations populaires, sans pour autant en vérifier la validité.
- Les biais de confirmation : le concepteur de l’algorithme privilégie sa propre perception de la réalité pour analyser les données et ignore celles qui ne vont pas dans le sens de ses croyances.
- Le biais de corrélations illusoires : le développeur identifie des corrélations entre deux évènements qui sont indépendants, ou surestime un lien possible entre des données.
- Le biais de stéréotype : il est lié au fait que, dans les réponses à des questionnaires qui alimentent les données, les individus peuvent répondre en fonction de leurs caractéristiques (psychologiques ou sociologiques) ce qui faussent les résultats et les corrélations.
- Le biais des données : lorsqu’elles ne sont pas significatives, pas représentatives du phénomène à mesurer ou de mauvaise qualité.
- Le biais de variable omise : une caractéristique est oubliée dans l’analyse, ce qui modifie les résultats et leur interprétation.
- Le biais de sélection : lorsque l’échantillon étudié n’a pas les mêmes caractéristiques que la population en général, l’analyse n’est pas représentative.
- Le biais d’endogénéité : l’algorithme se base sur l’analyse des données historiques, mais ne tient pas compte des ajustements que les individus peuvent faire par anticipation.
Source : Guide du Big Data 2020 : 365 jours au cœur de la data économie.