Pour les exploitants de procédés industriels, la surveillance de l’état de santé de leurs équipements est une des préoccupations majeures pour éviter leurs pannes. Depuis plusieurs décennies, de nombreuses méthodes et outils ont été développés pour détecter l’apparition des dégradations, réaliser le diagnostic et estimer la durée de vie restante avant l’apparition de la défaillance (DEFAD, RUL en anglais). Elles sont basées sur des données, des modèles physiques ou une combinaison des deux. Cet article présente un état de l’art des méthodes et outils qui exploitent uniquement des données collectées sur les équipements ou contenues dans des banques de données, pour réaliser le diagnostic et le pronostic de défaillances. Pour éviter toute ambiguïté dans les termes utilisés dans cet article, la première section présente les principales définitions et terminologies proposées par les normes internationales ISO et NF-EN (ISO 13372:2012, ISO 13379-1 ISO 13381-1, ISO 16079-1 et NF EN 13306). Elle propose une classification des méthodes de diagnostic et de diagnostic en trois familles, basées sur les données (data-driven), sur les modèles physiques (model-driven) et hydrides. Ensuite, après une description des enjeux et des spécificités des méthodes basées sur les données, les étapes principales indispensables pour réaliser le diagnostic et le pronostic de l’état de santé en vue d’une prise de décision concernant les stratégies de maintenance de l’équipement sont décrites. Ces étapes participent à la réalisation de deux phases : la CBM (condition monitoring) et la PHM (prognostics and health management) – RUL (remaining useful life). La CBM est dédiée à la surveillance, la détection et le diagnostic de l’état de santé de l’équipement et la PHM – RUL réalise le pronostic de la durée de vie résiduelle. Les principes de la collecte et du stockage des données, de leur traitement, de la détection d’anomalies, du diagnostic et pronostic du temps de vie résiduelle et prises de décision relatives à la maintenance, y sont développés. Compte tenu des risques liés aux erreurs commises lors de la détection, du diagnostic et du pronostic, cette section fait un rappel succinct de la théorie de la décision et propose des métriques pour la confiance à accorder au diagnostic et au pronostic. Comme de nombreux outils et méthodes sont communs à la résolution des problèmes de diagnostic et de pronostic, la deuxième section leur est consacrée. Après une description des principes des techniques d’apprentissage supervisé et non supervisé, elle présente les deux grandes catégories de méthodes : statistiques et basée sur l’intelligence artificielle. Pour les méthodes statistiques figurent la régression par la méthode des moindres carrés, la régression par processus gaussien et les méthodes factorielles (ACP). Ensuite, après une description des concepts d’apprentissage automatique (machine learning) liée au développement du big data, du cloud computing et du data mining, un inventaire des méthodes basées sur l’intelligence est proposé. Pour illustrer les mises en œuvre de ces méthodes et souligner leurs limites, la troisième section expose les performances de leur expérimentation sur trois équipements : réacteur d’avion, batterie lithium-ion et multiplicateur de vitesse d’éolienne. Pour le réacteur d’avion, six méthodes pour la prévision du DEFAD sont comparées : la régression linéaire multiple, la régression Ridge, la régression des moindres carrés partiels, la régression polynomiale, la méthode des KppV, les forêts aléatoires et les réseaux de neurones. Les données utilisées pour tester ces algorithmes sont extraites de la banque de données de la Nasa (PCoE Datasets). Cinq méthodes sont ensuite testées pour prévoir la durée de vie résiduelle d’une batterie lithium-ion en utilisant également les données de la banque de la Nasa : les réseaux de neurones profonds et classiques, la méthode à vecteur de support, la régression linéaire et la méthode des KppV. Les performances de trois algorithmes ont été testées ensuite pour le diagnostic et le pronostic affectant un multiplicateur de vitesses d’éolienne en utilisant les données obtenues à l’aide du système SCADA de fermes d’éoliennes : les réseaux de neurones à deux classes, les machines à vecteur de support et la régression logistique. La quatrième section présente la liste des avantages et inconvénients des méthodes de diagnostic et de pronostic basées sur les données. En conclusion, quelle que soit la méthode utilisée, leurs résultats doivent être pris avec précaution. En effet, la confiance dans les résultats dépend du volume de données et d’une connaissance approfondie des mécanismes physiques de dégradation. Les résultats obtenus avec les trois cas présentés illustrent de façon très explicite les problèmes de diagnostic et de pronostic basés sur les données.