Principe du traitement des données du système de surveillance syndromique SurSaUD® : indicateurs et méthodes d’analyse statistique
// Principle on the processing of data from the French syndromic surveillance system SurSaUD®: indicators and statistical analysis methods
Résumé
Le système de surveillance syndromique SurSaUD® collecte de façon automatisée et en routine les données individuelles démographiques et médicales enregistrées lors des consultations dans les services d’urgences hospitaliers et les associations SOS Médecins, dans un objectif de détection précoce et de surveillance sanitaire d’évènements attendus ou inhabituels, d’origine et de sources diverses. C’est à l’étape de l’analyse que ce grand nombre de données est organisé à travers la construction d’indicateurs épidémiologiques agrégés selon quatre axes principaux : les classes d’âges, le jour ou la semaine, la zone géographique de consultation et des regroupements syndromiques constitués d’un ou plusieurs diagnostics médicaux ou motifs de consultation.
Les méthodes statistiques pour la détection d’évènements sanitaires constituent des outils utiles pour soutenir l’analyse objective de tous ces indicateurs, produits quotidiennement.
Cet article méthodologique présente la démarche de construction des indicateurs épidémiologiques, ainsi que les méthodes statistiques mises en œuvre pour leur analyse afin de répondre aux objectifs du système SurSaUD®.
Abstract
The French syndromic surveillance system SurSaUD® collects data daily and automatically, with individual demographic and medical information of patients recorded by the emergency departments and emergency general practitioners’s associations SOS Médecins. This system aims at ensuring early detection and situational awareness of public health known or unexpected threats. The huge amount of data collected is organized at the analysis stage by aggregating the individual data by age group, day or week, geographical area and syndromes defined by one or several medical diagnoses or chief complaints.
Statistical methods for the detection of unusual variations in the epidemiological indicators are useful tools to support the daily analysis of a large variety of indicators.
This metholodological article presents the way epidemiological indicators are built and which statistical methods are implemented for their analysis in order to reach the final purposes of the system.
Introduction
De la grippe A(H1N1) au nouveau coronavirus MERS-Cov, de la bronchiolite à l’intoxication suite à la consommation de lait mélaminé, des vagues de chaleur aux cyclones, des éruptions volcaniques à une émission de gaz toxiques liée à des accidents industriels, des sommets du G8/G20 aux Jeux olympiques, la France doit faire face à des situations diverses susceptibles d’avoir un impact sur la santé de la population.
Le système national de surveillance syndromique SurSaUD® (Surveillance sanitaire des urgences et des décès) a été mis en place en 2004 par l’Institut de veille sanitaire (InVS) en réponse à la crise sanitaire et sociale déclenchée par la vague de chaleur d’août 2003 1. Il doit permettre d’assurer une détection précoce et une surveillance réactive de tout type d’évènement sanitaire attendu ou inhabituel survenant sur le territoire, quelle qu’en soit l’origine ou la source. Ce système constitue également pour la France un des outils majeurs pour la mise en application du Règlement sanitaire international (RSI) défini par l’Organisation mondiale de la santé et adopté en 2005, qui prévoit que chaque pays « acquiert, renforce et maintient sa capacité de détecter, d’évaluer, de notifier et de déclarer des évènements en vue de protéger l’ensemble de la population mondiale de la propagation internationale des maladies » 2.
Le système SurSaUD® s’appuie aujourd’hui sur quatre sources de données : les structures d’urgence hospitalières du réseau OSCOUR® (Organisation de la surveillance coordonnée des urgences), les associations SOS Médecins, les données de mortalité de l’Insee et les données de la certification électronique des décès transmises par l’Inserm-CépiDc 1. Les informations démographiques et médicales relatives à l’ensemble des individus enregistrés par chacune des sources sont collectées, sans avoir été sélectionnées a priori dans un objectif de surveillance ciblée ou par rapport à une situation médicale identifiée.
Ainsi, en 2013, les informations individuelles d’environ 30 000 nouveaux passages aux urgences, 6 000 consultations aux associations SOS Médecins et 1 200 décès ont été intégrées quotidiennement par le système de surveillance SurSaUD®. C’est seulement à l’étape d’analyse des données à l’InVS que les informations collectées sont triées et organisées sous forme d’indicateurs épidémiologiques, construits pour répondre aux objectifs du système et aux besoins de surveillance.
Cette analyse des données de surveillance syndromique repose sur une approche populationnelle qui consiste à suivre la dynamique temporelle et/ou spatiale d’indicateurs épidémiologiques et à en identifier des variations inhabituelles. Compte tenu de la diversité des situations sanitaires que le système doit couvrir, une large variété d’indicateurs est explorée au quotidien. Pour effectuer leur analyse dans un délai court, afin d’assurer une bonne réactivité dans l’alerte aux autorités de santé, l’utilisation de méthodes statistiques appropriées à la détection de variations inhabituelles dans l’évolution des indicateurs épidémiologiques est requise.
Cet article méthodologique vise à présenter la démarche de construction de ces indicateurs issus des sources OSCOUR® et SOS Médecins, ainsi que les méthodes statistiques mises en œuvre pour leur analyse. L’analyse des indicateurs issus des sources de mortalité, qui requiert une méthodologie spécifique (comme par exemple le redressement du délai de transmission des données d’état-civil ou l’analyse des causes médicales brutes de décès issues des certificats électroniques), n’est pas décrite dans cet article et fera l’objet d’une publication ultérieure.
Construction des indicateurs de surveillance syndromique
Les diagnostics médicaux et motifs de consultations correspondant à une maladie ou à un symptôme sont codés par les médecins, à partir de thésaurus contenant un nombre important de codes. Ainsi, les diagnostics posés aux urgences sont codés selon la Classification internationale des maladies, 10e révision (CIM-10), qui contient actuellement près de 40 000 codes. Les associations SOS Médecins utilisent plusieurs thésaurus développés pour leurs besoins propres, qui comptent environ 1 000 codes diagnostics médicaux et 750 codes motifs de recours.
Les codes motifs ou diagnostics sont regroupés à l’InVS en catégories faisant sens pour la surveillance sanitaire, communément appelées les « syndromes » ou « regroupements syndromiques ». Ces regroupements, construits de façon à couvrir une large part des diagnostics ou motifs enregistrés, peuvent évoluer en fonction des problématiques de santé publique et des priorités de surveillance sanitaire. Ils sont également revus en fonction des révisions éventuelles des thésaurus métier utilisés par les partenaires fournisseurs.
Les données individuelles sont agrégées selon quatre axes principaux d’analyse : un axe temporel (agrégation quotidienne, hebdomadaire ou mensuelle), un axe démographique (agrégation par classe d’âge), un axe syndromique (agrégation par regroupement syndromique) et un axe géographique (agrégation selon le lieu où le patient a eu recours au soin). Ces agrégations consituent des indicateurs épidémiologiques.
Le choix du niveau d’agrégation des données selon les axes d’analyse (temporels, démographiques, syndromiques et géographiques) constitue une étape déterminante dans le processus d’analyse des données de surveillance syndromique. En effet, une élévation de faible amplitude d’un indicateur, ponctuelle ou observée localement, sera difficile à identifier si l’agrégation des données est effectuée à une échelle géographique élevée (regroupement de plusieurs zones géographiques) ou selon un pas de temps hebdomadaire ou mensuel. Inversement, une agrégation fine des données selon les axes géographique, temporel et syndromique conduit à analyser des effectifs faibles et présentant donc des fluctuations d’une amplitude plus marquée, d’origine aléatoire, ce qui rend difficile l’identification d’un évènement sanitaire donné. Le choix du niveau d’agrégation des données pour le suivi des indicateurs épidémiologiques est donc un compromis entre sensibilité et spécificité. Il conditionne la performance du système de surveillance.
À titre d’illustration, la figure représente l’évolution quotidienne, hebdomadaire et mensuelle du nombre de consultations pour le regroupement syndromique « Asthme ». Dans le cadre de l’objectif de détection d’évènements inhabituels, l’agrégation quotidienne permet de mettre en évidence deux signaux correspondant à deux pics survenus les 14 juin et 5 juillet 2006. L’investigation a mis en évidence que ces deux hausses de la fréquentation pour asthme étaient la conséquence de la survenue simultanée de facteurs environnementaux favorisant un choc osmotique (pollution atmosphérique, pollens, survenue d’un orage accompagné de fortes pluies). Le suivi de cet indicateur agrégé à un pas de temps hebdomadaire (et a fortiori à un niveau mensuel) n’aurait pas permis d’identifier ces deux évènements sanitaires ponctuels.
Indicateurs utilisés pour répondre aux objectifs du système SurSaUD®
Les données du système SurSaUD® sont en premier lieu utilisées dans un objectif de veille et d’alerte dans les domaines des maladies infectieuses, de la santé environnementale, des maladies chroniques et des traumatismes. Un atout majeur du dispositif SurSaUD® est de permettre la mise en place en temps quasi-réel d’une surveillance des impacts potentiels d’évènements ponctuels, qu’ils soient attendus et organisés tels que les grands rassemblements de population, ou inattendus, tels qu’une transmission d’un agent infectieux, un accident industriel, une catastrophe naturelle (cyclone, inondation, éruption volcanique...). Dans tous ces cas de figure, les données de surveillance syndromique peuvent constituer l’unique source d’informations disponible pour estimer et suivre l’impact potentiel de l’évènement sur la population, ou elles peuvent être utilisées en complément d’autres systèmes de surveillance spécifiques.
La surveillance des données du système s’appuie sur une centaine de regroupements syndromiques fondés sur les diagnostics médicaux posés aux urgences. Ces regroupements syndromiques couvrent les grandes catégories de motifs ou de diagnostics médicaux, parmi lesquelles les pathologies infectieuses saisonnières (grippe, bronchiolite, gastroentérite, méningite virale…), les traumatismes, les pathologies respiratoires, cardiovasculaires, urinaires, neurologiques, psychiatriques, dermatologiques, ou encore les pathologies associées à des phénomènes environnementaux (climatique, pollution …). Une cinquantaine de regroupements a également été définie pour l’analyse des diagnostics posés par les médecins des associations SOS, complétée par une dizaine de regroupements fondés sur les motifs d’appels aux standards des associations SOS (tableau 1).
Quelques indicateurs sont définis à partir de pathologies ou de symptômes spécifiques de pathologies ciblées (bronchiolite, coup de chaleur, rougeole, oreillons, gale...), mais nombre d’indicateurs sont également construits en intégrant des signes ou symptômes non spécifiques d’une maladie (douleurs abdominales, dyspnée, fièvre isolée, malaise…). La surveillance de ces derniers vise à mettre en évidence une variation de l’amplitude de l’indicateur pouvant traduire un phénomène sanitaire inhabituel, dont l’origine ou la source ne sont pas forcément identifiées.
La majorité des indicateurs est surveillée tout au long de l’année, certains bénéficiant d’une veille renforcée en période de recrudescence saisonnière (en hiver : grippe, bronchiolite, effets d’une intoxication au monoxyde de carbone ; au printemps et à l’automne : allergies, asthme, méningites virales …). D’autres pathologies ne sont suivies que sur une partie de l’année, en prévision de la survenue possible d’un évènement saisonnier, comme c’est le cas pour les effets attendus des fortes chaleurs pendant l’été et pour les effets associés à des périodes de froid en hiver.
Grâce à la collecte permanente des données, un historique est disponible sur plusieurs années et mobilisable à tout moment, permettant, dès la mise en place de la surveillance d’un nouvel indicateur, de disposer d’un niveau de référence sur la période antérieure. Ainsi, dès le démarrage de la pandémie grippale A(H1N1) en avril 2009 (en dehors de la période saisonnière habituelle), l’indicateur grippe a pu être suivi quotidiennement à partir des données du système avec la publication, sur le même rythme, d’un bulletin de situation à destination du ministère de la Santé 3. Un autre exemple est celui de la surveillance de l’épidémie de rougeole en 2010-2011, où le dispositif SurSaUD® a permis de suivre la dynamique de l’épidémie en temps quasi-réel, alors même que le système fondé sur la déclaration obligatoire n’était plus opérationnel en raison du grand nombre de cas.
Le système permet également la surveillance sanitaire de phénomènes pour lesquels aucun système spécifique n’existe. Ainsi, pendant l’été 2008, une surveillance des effets de la consommation de lait contaminé à la mélamine en provenance de Chine a été mise en place. Grâce à l’enregistrement en routine des diagnostics médicaux dont celui possiblement associé à cette contamination (lithiase urinaire radio-transparente), une surveillance adaptée a pu être organisée en quelques heures. Les données historiques disponibles ont permis de comparer le nombre de cas enregistrés pour ces diagnostics au cours de la période de contamination potentielle avec ceux observés au cours des deux années précédentes. Cette surveillance a permis, au final, de montrer l’absence d’effet de ce produit dans la population ayant eu recours aux soins d’urgence en France.
Dans un autre contexte, celui d’un accident industriel, le système SurSaUD® a montré son intérêt pour l’évaluation d’impact rapide sur le recours aux soins d’urgence. En effet, en 2009, la combustion de 250 tonnes de soufre dans une usine située en périphérie de Dunkerque a provoqué le dégagement d’un important nuage de dioxyde de soufre. L’analyse des données du service des urgences et de l’association SOS Médecins de Dunkerque a permis de montrer le très faible impact du phénomène sur la population. Cette analyse réalisée de manière très réactive (dès le lendemain de l’évènement) a permis de communiquer rapidement des éléments objectifs aux pouvoirs publics en charge de la décision et de la gestion et de rassurer la population exposée sur les conséquences de cet incendie sur sa santé. Plus récemment, ces données ont également contribué à l’évaluation de l’impact de l’accident industriel survenu à Rouen en 2013 à l’origine d’un dégagement important de gaz mercaptan 4.
Le tableau 2 présente différentes situations selon l’origine de l’évènement sanitaire dans lesquelles le système SurSaUD® a été utilisé.
Stratégie d’analyse statistique des indicateurs de surveillance syndromique
L’analyse des indicateurs du système de surveillance syndromique repose sur une approche quantitative consistant à étudier les nombres de passages et d’hospitalisations après passage dans les structures d’urgences ou les nombres d’appels et de consultations SOS Médecins par regroupement syndromique. La déclinaison par classe d’âge est généralement réalisée pour distinguer les adultes et les enfants et analyser les populations les plus vulnérables, comme les personnes âgées de plus de 75 ans ou encore les enfants de moins de 2 ans.
De nombreux indicateurs épidémiologiques sont ainsi produits, qu’il est nécessaire d’analyser quotidiennement à différents niveaux géographiques. Les méthodes statistiques pour la détection et la surveillance d’évènements constituent des outils majeurs pour garantir une analyse rapide, objective et systématique des données et aider à leur interprétation. Elles produisent des signaux (ou alarmes) statistiques qui nécessitent d’être investigués afin de les transformer (ou non) en alerte sanitaire.
De façon générale, ces méthodes statistiques reposent sur le principe d’une comparaison des effectifs observés sur la période en cours à un effectif attendu estimé à partir des observations enregistrées sur des périodes antérieures. Regroupées en cinq grandes catégories, certaines de ces méthodes sont utilisées en routine sur les données du système SurSaUD®, généralement dans le cadre des surveillances régionales 5 :
- les méthodes reposant sur des lissages par des moyennes/médianes mobiles des données historiques 6 ;
- les cartes de contrôle, parmi lesquelles les cartes CUSUM et EWMA 7 ;
- les méthodes d’analyse de séries temporelles (méthodes de Box et Jenkins, lissages exponentiels) 8 ;
- les méthodes de régression, parmi lesquelles la méthode de Farrington ou la méthode de Serfling couramment utilisée pour la surveillance des pathologies saisonnières 9 ;
- les méthodes de balayage spatio-temporel 10.
Le choix des méthodes statistiques pour la détection de variations inhabituelles des indicateurs de surveillance syndromique repose sur quatre critères principaux :
- le type d’évènement sanitaire que l’on souhaite suivre : un évènement attendu, saisonnier et régulier ou inattendu ;
- la capacité de la méthode à tenir compte des caractéristiques des données, telles que la présence d’une évolution tendancielle, d’une saisonnalité ou encore d’un effet du jour de la semaine ;
- la disponibilité et le nombre d’années de données historiques permettant de construire une valeur attendue robuste ;
- la rapidité d’exécution et la facilité d'automatiser la méthode pour une analyse en routine d’une grande quantité de données.
Un travail de comparaison des performances pour la détection de variations inhabituelles à partir des données du système de surveillance SurSaUD® a été mené en 2008 11. La ou les méthodes retenues doivent conduire à un bon équilibre entre la capacité à détecter une variation inhabituelle (sensibilité) et le nombre de fausses alarmes statistiques générées (1 – spécificité).
La mise en œuvre de méthodes statistiques sur une multitude d’indicateurs entraîne par ailleurs des tests multiples qui augmentent les risques de fausses alarmes. Ceci doit être pris en compte dans l’interprétation des résultats.
Discussion - perspectives
Les regroupements syndromiques sont construits à partir de symptômes observés et de diagnostics posés par les professionnels de santé lors de la consultation en urgence. Ils nécessitent un codage précis et de qualité de la part des professionnels de santé et une bonne connaissance des pratiques de codage de la médecine d’urgence par les épidémiologistes. Or ces professionnels de santé ne sont pas forcément informés du phénomène sanitaire à l’origine des symptômes présentés par leur patient (consultation aux urgences pour toux suite à l’exposition à un nuage toxique dont la composition exacte n’est pas connue, par exemple). Ces regroupements syndromiques, ainsi que leur niveau d’agrégation temporel et géographique, doivent être régulièrement évalués afin de vérifier leur capacité à identifier et suivre les phénomènes sanitaires que l’on cherche à mettre en évidence. Cette évaluation doit s’appuyer notamment sur l’expertise des professionnels sur le terrain.
Les méthodes statistiques, aussi complexes soient elles, ne suffisent pas à analyser une telle diversité d’indicateurs et donc à assurer une surveillance sanitaire réactive et de qualité. Elles ne sont que des outils générant des signaux qu’il reste à investiguer, notamment en se rapprochant des professionnels de santé qui ont fourni ces données, pour pouvoir valider (ou non) la réalité d’un impact sur la santé de la population. Ces méthodes ne remplacent pas la connaissance et l’expertise des épidémiologistes et statisticiens qui manipulent ces données, mais aident à conserver un regard objectif et systématique, rendu difficile par la routine de ces analyses quotidiennes.
Enfin, l’analyse automatique des données ne remplace pas le signalement spontané par le professionnel de santé devant toute manifestation inhabituelle ou inattendue. La sensibilisation du réseau des partenaires, la qualité de la rétro-information qui leur est faite doivent contribuer à instaurer une véritable culture de signalement, indispensable à tout système de surveillance performant et indissociable de l’analyse des données.
Remerciements
Les auteurs tiennent à remercier l’ensemble des acteurs du système : les partenaires fournisseurs de données qui contribuent également à l’interprétation des analyses ; les statisticiens et épidémiologistes de l’Institut de veille sanitaire, tout particulièrement les référents SurSaUD® en Cire pour leur engagement dans l’animation des réseaux de partenaires, l’amélioration de la qualité du système et leur analyse et interprétation quotidienne des indicateurs.