Croisement de deux bases de données médico-administratives : méthodologie et étude descriptive pour une application à la surveillance épidémiologique des cancers en France
// Crossing two health administrative databases: methodology and descriptive study for application to epidemiological surveillance of cancer in France
Résumé
Introduction –
L’utilisation des données croisées du programme de médicalisation des systèmes d’information (PMSI) et d’affections longue durée (ALD) constitue, en France, l’une des alternatives pour estimer localement l’incidence des cancers dans les zones dépourvues de registre. L’objectif de cette étude est de décrire la méthodologie de sélection des séjours PMSI et des bénéficiaires d’ALD et leur croisement, puis de comparer les effectifs obtenus aux données d’incidence de la zone registre de cancer.
Matériel et méthode –
La période d’étude couvrait 2006-2008. Les données de 21 localisations cancéreuses étaient extraites du PMSI national, des bases nationales de l’assurance maladie et des registres de cancers. La sélection des informations dans le PMSI et les ALD, croisées entre elles grâce à un identifiant anonyme individuel et commun, reposait sur des algorithmes basés sur les codes CIM-10 de diagnostic de cancer.
Résultats –
Le pourcentage de patients PMSI appariés aux bénéficiaires d’ALD variait de 19% à 60% selon la localisation cancéreuse. L’effectif de patients hospitalisés ou admis en ALD, considérés comme atteints pour la première fois d’un cancer invasif et dénombrés dans la base croisée PMSI-ALD, était plus élevé que le nombre de cas incidents dans la zone registre.
Conclusion –
Cette description est une étape nécessaire à l’utilisation de la base croisée PMSI-ALD pour l’estimation infranationale de l’incidence des cancers. L’estimation reposera sur l’application, aux zones géographiques considérées, du rapport « incidence cancer/indicateur issu du PMSI-ALD croisé » calculé sur la zone registre.
Abstract
Introduction –
The use of crossed data from the French Hospital Discharge Data system (PMSI) and long-term illness (LTI) databases is one of alternatives to estimate subnational incidence of cancer in areas without registries in France. The objective of this study is to describe the methodology of hospital stays and LTI selection and their crossing, and to compare figures obtained from the crossed data to cancer incidence in registry area.
Material and method –
The study period covered 2006-2008. Data for 21 cancers sites were extracted from national PMSI, health insurance databases and common database of cancer registries. Hospital stays and LTI beneficiaries’ selection was based on algorithms related to ICD10 diagnosis codes and were crossed through an anonymous individual and common identifier.
Results –
The percentage of PMSI patients matched with LTI varied from 19% to 60%, according to cancer site.The number of hospitalized or admitted to LTI patients, considered as suffering from invasive cancer for the first time in the crossed database, was higher than the number of incident cancers in registry area.
Conclusions –
This description is a necessary step to use PMSI-LTI crossed data for subnational incidence estimation of cancer. The estimation will be based on “cancer incidence/number of patients from PMSI-LTI crossed database” ratio in registry area applied to considered geographical areas.
Introduction
En France, la surveillance épidémiologique des cancers repose principalement sur les données des registres des cancers. Ces structures, créées le plus souvent sur une base départementale, constituent les seules sources de données exhaustives et continues d’enregistrement des cas de cancer (selon la localisation, le type histologique, le stade au diagnostic…) sur leur zone géographique. La recherche active des cas et leur validation par les registres nécessitent des moyens humains et financiers importants représentant un obstacle majeur à la mise en place de registres dans la totalité des 101 départements français. Les registres français couvrent environ 20% de la population générale 1,2. À partir de leurs données, des estimations nationales de l’incidence des cancers sont produites depuis plusieurs années 3. Elles reposent sur l’extrapolation à la France du rapport « Incidence/Mortalité » observé dans la zone registre (i.e. ensemble des départements couverts par un registre). Si ce rapport peut être raisonnablement utilisé pour les estimations nationales, il ne peut l’être au niveau infranational, en raison de sa variabilité interdépartementale 4 empêchant toute estimation d’incidence dans les zones dépourvues de registres.
Les bases nationales de données médico-administratives que sont le Programme de médicalisation des systèmes d’information (PMSI) et les bases contenant les Affections longue durée (ALD) n’ont pas été créées pour mesurer l’incidence des cancers 5,6. Cependant, depuis quelques années, les ALD sont utilisées pour suivre les tendances récentes de l’incidence nationale des cancers 7. Des développements méthodologiques ont également été réalisés avec ces bases pour estimer l’incidence des cancers au niveau infranational. Ils reposent sur l’utilisation du rapport « Incidence/PMSI (ou ALD) de la zone registre » appliqué au PMSI (ou ALD) des départements (ou régions) sans registre 1,8. Des estimations départementales (ou régionales) ont ainsi pu être fournies pour certains cancers mais pas pour tous, car l’hypothèse d’égalité du rapport « Incidence/PMSI (ou ALD) » entre les départements (ou régions) n’a pu être validée pour plus de la moitié des localisations cancéreuses 8,9. Pour ces localisations, l’une des orientations repose sur la construction d’un nouvel indicateur, proxy de l’incidence, obtenu en croisant les bases PMSI et ALD, qui serait soumis à la même méthodologie pour produire des estimations infranationales. Cette démarche doit être précédée d’une étude exploratoire de l’indicateur construit à partir du croisement PMSI-ALD, afin de comprendre les phénomènes induits par le croisement d’informations médico-administratives de différente nature.
L’objectif de l’étude exploratoire présentée dans cet article est de :
1) décrire la méthodologie de :
- sélection des patients atteints pour la première fois d’un cancer invasif dans chacune des bases ;
- croisement des bases PMSI et ALD ;
- construction de l’indicateur proxy de l’incidence issu du croisement PMSI-ALD ;
2) comparer cet indicateur avec les cas incidents de cancers invasifs de la zone registre qui est la référence.
Matériel et méthode
La période d’étude couvrait 2006-2008 et concernait 21 localisations cancéreuses (tableau) identifiées en utilisant la Classification internationale des maladies, 10e révision (CIM-10).
Trois informations différentes et une information de référence
Les séjours hospitaliers issus du PMSI (période 2004-2008)
Le PMSI enregistre exhaustivement les hospitalisations des établissements (privés et publics) de court séjour. Chacune produit un résumé de sortie anonyme comportant des informations administratives (âge, sexe, code postal de résidence) et médicales : code CIM-10 de diagnostics principal (DP), relié (DR) et associé significatif (DAS) enregistré sur quatre caractères, actes réalisés. Pour mémoire, le DP représente (jusqu’en 2009) le « motif de prise en charge qui a mobilisé l’essentiel de l’effort médical et soignant au cours de l’hospitalisation ». Le DR « a pour rôle, en association avec le DP et lorsque celui-ci n’y suffit pas, de rendre compte de la prise en charge du malade en termes médico-économiques » : il s’agit de tout diagnostic permettant d’éclairer le contexte pathologique, essentiellement lorsque le DP n’est pas lui-même une affection. Pour le cancer, il est fréquemment complété avec un code de cancer invasif lors de la réalisation de séances de chimiothérapie ou de radiothérapie, elles-mêmes étant codées en DP. Les DAS sont notamment « les diagnostics, symptômes et autres motifs de recours significatifs d’une majoration de l’effort de soins et de l’utilisation des moyens, par rapport aux DP et DR » : il peut s’agir d’une complication du DP ou du couple DP+DR, d’une complication du traitement ou d’une affection distincte supplémentaire (source : http://www.atih.sante.fr).
Chaque année l’Institut de veille sanitaire (InVS), dans le cadre de ses missions de surveillance, reçoit de l’Agence technique de l’information sur l’hospitalisation (Atih) une extraction du PMSI national. Pour cette étude, cinq bases annuelles de séjours PMSI pour cancers de 2004 à 2008 ont été utilisées. La base PMSI de chaque année N regroupe tous les séjours hospitaliers de l’année N, en lien avec un cancer.
Les consommations de soins pour cancer reconnu comme ALD, issues du Sniiram (période 2006-2008)
Le Sniiram (Système national d’information inter-régimes de l’assurance maladie) est un ensemble de bases de données informationnelles des régimes d’assurance maladie. Il est constitué des données d’activité et de dépenses détaillées, individualisées et chaînées, couvrant les soins de ville, les soins hospitaliers sanitaires et sociaux, publics et privés.
Dans ces bases figure l’information d’ALD, un dispositif financier de l’assurance maladie de prise en charge totale des soins et traitements en lien avec une maladie « dont la gravité et/ou le caractère chronique nécessitent un traitement prolongé et une thérapeutique particulièrement coûteuse » 10 comme les cancers. Ces données d’ALD contiennent des informations médicales (code CIM-10 de la pathologie ayant entraîné la mise en ALD, enregistré sur trois caractères, dates de début et de fin d’ALD). Ces informations peuvent être chaînées avec des informations administratives (année et mois de naissance, sexe, code postal de résidence, régime d’affiliation) présentes dans le Sniiram. Trois extractions du Sniiram 2006-2008 relatives aux cancers, transmises par l’assurance maladie, ont été utilisées. La base Sniiram de l’année N regroupe toutes les consommations de soins de l’année N associées à une ALD cancer, que celle-ci ait été accordée l’année N ou les années précédentes (exemple : la base Sniiram 2006 contient des informations sur les patients mis en ALD en 2006 ou avant 2006 qui ont consommé des soins en lien avec le cancer en 2006).
Les assurés sociaux bénéficiant pour la première fois du dispositif ALD de la Mutualité sociale agricole (MSA) en raison d’un cancer (période 2006-2008)
En raison de leur absence du Sniiram, les données des assurés sociaux de la MSA ont spécifiquement été extraites des bases des bénéficiaires d’ALD pour cancer de la MSA (informations administratives et médicales). Tout comme le Sniiram, trois extractions de bases MSA, correspondant chacune à une année, de 2006 à 2008, ont été utilisées. La base MSA de l’année N regroupe tous les patients atteints d’un cancer reconnu comme ALD par la MSA pour la première fois l’année N.
La référence : les cas de cancer invasif de la zone registre (période 2006-2008)
L’indicateur proxy de l’incidence issu du croisement PMSI-ALD a été comparé à l’incidence de la zone registre. Les données des registres ont été extraites de la base commune des registres des cancers.
Étape préliminaire : un identifiant anonyme commun
Les données des bases utilisées ont bénéficié d’une anonymisation qui reposait sur le numéro d’inscription au répertoire, le sexe et la date de naissance complète, grâce à la fonction d’occultation d’informations nominatives de l’assurance maladie. Il en est résulté un identifiant anonyme unique par personne, commun aux bases médico-administratives.
Sélection des patients hospitalisés ou admis en ALD atteints pour la première fois d’un cancer invasif
La méthode de sélection des patients diffère entre les bases PMSI, Sniiram et MSA en raison de leur mode de constitution non identique (figure 1).
Sélection dans les bases PMSI
Dans la base PMSI de l’année N, les séjours avec un code CIM-10 de cancer invasif en DP ont été sélectionnés et chaînés entre eux (même code CIM-10 en DP) puis avec ceux des deux années précédentes (mêmes codes CIM-10 en DP ou DR ou DAS) afin d’exclure les cancers invasifs prévalents. Les patients avec un code CIM-10 de cancer invasif l’année N sans séjour hospitalier pour ce même cancer en N-1 ou N-2 ont été retenus, permettant de constituer trois bases d’étude : PMSI 2006, PMSI 2007 et PMSI 2008.
Sélection dans les bases Sniiram et MSA
Dans la base Sniiram de l’année N, les consommations de soins avec un code CIM-10 de cancer invasif au niveau de la pathologie associée à l’ALD, et avec une date de mise en ALD l’année N, ont été chaînées entre elles pour obtenir les consommants de soins avec un code CIM-10 de cancer invasif dont la date de mise en ALD correspondait à l’année du fichier Sniiram. Au final, trois bases d’étude ALD-Sniiram ont été constituées, de 2006 à 2008.
Dans la base MSA de l’année N, la sélection reposait sur les assurés avec un code CIM-10 de cancer invasif au niveau de la pathologie associée à l’ALD. Au final, trois bases d’étude ALD-MSA ont été constituées, de 2006 à 2008.
Pour chacune des trois années, les consommants ALD-Sniiram ont été fusionnés avec les assurés ALD-MSA. Les doublons ont été éliminés afin de tenir compte des éventuels transferts d’assurés entre régimes.
Croisement des bases PMSI et ALD-Sniiram/MSA et traitement des non appariés
Les patients issus des bases d’étude PMSI et ALD-Sniiram/MSA (appelées dans la suite de l’article « bases ALD ») ont été croisés grâce à l’identifiant individuel anonyme commun et aux codes CIM-10 de cancer invasif (figure 2). À l’issue du croisement, trois groupes de patients ont été identifiés : patients PMSI-ALD appariés, patients PMSI non appariés aux bénéficiaires ALD et bénéficiaires ALD non appariés aux patients PMSI.
Pour chaque patient non apparié au sein d’une source, une vérification du caractère initial ou invasif du cancer a été réalisée à partir des informations contenues dans l’autre source. Elle consistait :
- pour le caractère initial du cancer d’un patient non apparié mis en ALD pour cancer, à rechercher parmi les bénéficiaires d’ALD non appariés de l’année N ceux qui avaient effectué un séjour hospitalier dans les deux années précédentes pour le même cancer, à l’aide des bases PMSI N-1 et PMSI N-2 ;
- pour le caractère initial du cancer d’un patient non apparié enregistré dans le PMSI, à rechercher parmi les patients PMSI non appariés de l’année N, ceux dont le cancer avait été reconnu comme ALD antérieurement à l’année N, enregistrés dans la base Sniiram de l’année N. Cette recherche ne pouvait pas être réalisée au sein des bases ALD-MSA en raison de leur indisponibilité pour les années antérieures à 2006 ;
- pour le caractère invasif du cancer d’un patient non apparié mis en ALD pour cancer, à rechercher parmi les bénéficiaires d’ALD non appariés de l’année N, ceux dont le diagnostic de cancer était identifié comme in situ (ou tumeur bénigne pour le système nerveux central) dans la base PMSI de l’année N (code CIM-10 en DP) ;
- pour le caractère invasif du cancer d’un patient non apparié enregistré dans le PMSI, la recherche n’a pas été réalisée en raison de la qualité du diagnostic final enregistré dans le PMSI (basé sur des informations histologiques ou hématologiques issues d’examens complémentaires), considérée a priori comme supérieure à celle accompagnant les mises en ALD.
Les patients PMSI ou ALD non appariés pour lesquels ces recherches étaient positives ont été exclus.
Obtention de la population d’étude : les patients hospitalisés ou admis en ALD considérés comme atteints pour la première fois d’un cancer invasif
Pour chaque cancer, le nouvel indicateur de surveillance était constitué de l’union :
- des patients PMSI appariés aux bénéficiaires ALD ;
- des patients PMSI non appariés aux bénéficiaires ALD, desquels ont été exclus ceux dont le cancer a été identifié comme prévalent grâce aux informations ALD ;
- des bénéficiaires ALD non appariés aux patients PMSI, desquels ont été exclus ceux dont le cancer a été identifié comme prévalent ou non invasif grâce aux informations PMSI.
Étude du nouvel indicateur : description et comparaison avec la référence
Une recherche de cohérence entre les patients appariés, concernant le sexe, l’âge et le lieu de résidence, a été réalisée. Le taux d’appariement (nombre de patients appariés divisé par le nombre de patients issus de l’union PMSI-ALD) a été également calculé. Enfin, l’indicateur a été comparé aux cas incidents de cancers de la zone registre à travers le calcul d’un ratio (figure 3).
Résultats
Sur la période d’étude, une stabilité relative dans le temps des effectifs issus du croisement était observée pour chaque cancer. Le nombre de patients hospitalisés ou admis en ALD considérés comme atteints pour la première fois d’un cancer invasif variait selon le cancer (tableau) de 6 800 (lymphome de Hodgkin) à 187 500 (cancer de la prostate).
Cohérence des informations entre les patients appariés
La comparaison individuelle des patients PMSI appariés aux bénéficiaires ALD montrait une cohérence parfaite sur le sexe et sur l’âge. La cohérence de l’information relative au département de résidence variait de 94% à 98% selon le cancer.
Exclusion des cancers prévalents ou non invasifs, et taux d’appariement
La majorité des patients exclus grâce au croisement étaient des patients hospitalisés mis en ALD avant leur hospitalisation. Le pourcentage de patients PMSI appariés aux bénéficiaires d’ALD variait selon la localisation cancéreuse. Le cancer du foie et le mélanome cutané présentaient un faible taux d’appariement (19% et 24%) et les cancers du sein et du testicule un taux élevé (59% et 60%). Ce taux variait de 30% à 46% pour les autres cancers (tableau).
Comparaison sur la zone registre, des effectifs issus du croisement PMSI-ALD avec l’incidence
Pour tous les cancers, le nombre de patients hospitalisés ou admis en ALD considérés comme atteints pour la première fois d’un cancer invasif dénombrés dans la base croisée PMSI-ALD était plus élevé que le nombre de cas incidents de cancer invasif de la zone registre (figure 3). Le rapport PMSI-ALD/Incidence variait avec l’âge.
Discussion
Les informations des bases médico-administratives ne sont pas recueillies à des fins épidémiologiques. Cependant, malgré leurs limites 11, elles présentent des avantages qui leur permettent d’alimenter certains systèmes de surveillance comme celui des cancers en France. L’interprétation des résultats doit toutefois rester prudente.
La description de l’indicateur issu du croisement montre un taux d’appariement variable de 19% à 60% selon le cancer et un indicateur supérieur à l’incidence de la zone registre, suggérant la persistance de cancers prévalents ou non invasifs parmi les patients non appariés, malgré les exclusions déjà réalisées. En effet, si un appariement faible était attendu pour quelques cancers comme ceux nécessitant un geste chirurgical sans traitement long et coûteux ou ceux essentiellement traités en ambulatoire (mélanome de la peau) ou encore ceux à pronostic sombre à court-terme ou siège de tumeur secondaire (foie et système nerveux central), il aurait dû être élevé pour les autres, ce qui n’est globalement pas observé.
Compte tenu de cette limite, la discussion sur l’appariement obtenu ne peut porter que sur ses valeurs extrêmes - élevées pour le testicule et le sein, faibles pour le foie et le mélanome cutané - et vise à confirmer des hypothèses sur le parcours et la prise en charge des patients.
Le cancer du testicule est un cancer rare, qui touche principalement les adultes jeunes entre 20 et 35 ans 12. Les jeunes atteints sont non seulement des primo-accédants aux ALD, mais également des patients nécessairement pris en charge en secteur hospitalier, compte tenu du mode radical de traitement de ce cancer.
Pour le cancer du sein, la nécessité d’une demande de mise en ALD liée à une prise en charge coûteuse et de longue durée, après un diagnostic de plus en plus précoce grâce au programme de dépistage organisé, expliquerait le taux d’appariement élevé.
Le pronostic du cancer du foie est très mauvais. La survie brute à un an est de 36% et de 16% à 3 ans (période 1989-2007) 13. Ce mauvais pronostic pourrait être à l’origine de peu de demandes spécifiques d’ALD pour ce cancer au profit de l’utilisation de l’ALD « maladies chroniques actives du foie et cirrhose » le plus souvent à l’origine de ce cancer.
Quant au mélanome cutané, son traitement chirurgical peut être réalisé en ambulatoire ou dans un cabinet privé (où il n’existe pas de PMSI). Par ailleurs, le traitement post-chirurgical peut ne pas s’avérer coûteux ou ne pas faire l’objet d’un long suivi.
Peu d’études françaises se sont intéressées à la qualité du PMSI ou des ALD comme indicateur de suivi épidémiologique des cancers à l’aide de données nominatives 6,14. Outre la persistance de cancers prévalents difficilement repérables, ces études évoquent aussi, pour expliquer la persistance de faux positifs, des erreurs de codage de certaines lésions tumorales en raison :
- de leur localisation à la frontière d’organes (œsophage-estomac, cancers ORL…) ;
- d’un cancer métastatique considéré comme primitif (foie, poumon, système nerveux central) ; par exemple, dans notre étude, le rapport élevé PMSI-ALD/Incidence pour le cancer du foie chez la femme reflète probablement le codage de métastases hépatiques de cancers gynécologiques primitifs ;
- de tumeurs bénignes du système nerveux central ou de tumeurs à stade inclassable de la vessie, codées en tumeurs malignes en raison d’une prise en charge hospitalière identique à celle des cancers invasifs, ce qui, dans notre étude, pourrait expliquer en partie le faible appariement observé (environ 30%) pour ces localisations.
Par ailleurs, le passage de la situation d’ayant-droit à celle d’assuré social serait également à l’origine de faux positifs. Le statut d’ayant-droit permet à une personne non reconnue comme assuré social par l’assurance maladie (enfant, conjoint qui n’a jamais travaillé…) de bénéficier d’une protection sociale. Dans les bases de données médico-administratives, les ayants-droits n’ont pas de numéro spécifique et sont enregistrés sous le numéro de l’assuré social dont ils dépendent. D’après une étude de l’assurance maladie, cette situation est très fréquente avant 25 ans et marginale ensuite (de l’ordre de 0,5% à 2%) 15. Son impact serait limité sur les tumeurs solides, qui surviennent principalement chez des personnes âgées.
Une des possibilités pour exclure davantage de faux positifs consisterait à rendre plus spécifique les algorithmes de sélection. Dans la littérature, l’utilisation épidémiologique du PMSI repose sur la sélection des séjours à partir des codes diagnostiques de la pathologie étudiée, associés ou non aux actes thérapeutiques. Ainsi, pour les tumeurs du système nerveux central, la sélection en « DP ou DR » permettrait d’observer une diminution des faux positifs avec une hausse de la valeur prédictive positive, mais au prix d’une diminution de la sensibilité 14. Dans notre étude, la sélection PMSI reposait sur le DP afin d’exclure d’emblée les cancers prévalents (patient en cours de suivi médical, patient dont le cancer est connu et qui est hospitalisé pour une autre pathologie, récidive) et de diminuer, pour certains cancers, le risque de variabilité géographique du rapport Incidence/PMSI par rapport à une sélection incluant les actes chirurgicaux 16. La sélection PMSI associant « DP ou DR » a été testée : la proportion de faux positifs exclus avec une sélection en « DP » variait, selon le cancer, de 4,4% à 17,3% contre 5,4% à 20,4% avec une sélection en « DP ou DR » sans gain sur le taux d’appariement, sauf pour le mélanome cutané (+1 point) et le cancer du poumon (+3 points).
Autre option envisageable au niveau de la sélection PMSI : l’allongement de la durée de chaînage, fixée à deux ans dans l’étude, afin d’exclure également d’emblée les cancers prévalents. Les travaux relatifs aux estimations d’incidence à partir du PMSI retrouvés dans la littérature 8,9 ne comportant pas de chaînage entre les années, il était difficile de se prononcer sur une durée de chaînage pertinente. Toutefois, l’extension du chaînage à quatre années antérieures, réalisée pour l’année 2008, permettait de montrer qu’au moins 90% des cancers prévalents étaient repérés dans les deux premières années de chaînage, sauf pour les cancers du sein, de la prostate et de la vessie, pour lesquels une année supplémentaire de chaînage était nécessaire pour atteindre ce résultat.
Dans le Sniiram, la sélection des bénéficiaires d’ALD reposait sur les patients mis en ALD une année donnée et ayant réalisé leur première consommation de soins en lien avec l’ALD la même année. Ce processus ne permettait pas de prendre en compte les 4% à 7% de bénéficiaires ayant débuté leur consommation de soins postérieurement à l’année de leur mise en ALD. Toutefois, la sélection élargie ne permettait ni d’exclure davantage de faux positifs ni d’augmenter le taux d’appariement.
Conclusion et perspectives
La méconnaissance de l’ampleur et du devenir des faux positifs issus des deux sources croisées semble poser davantage de questions qu’en résoudre, en termes d’impact sur les faux positifs : communs aux deux sources ou propres à une seule source ? En l’absence de littérature relative au croisement de bases médico-administratives, l’évaluation de la qualité de l’indicateur PMSI-ALD croisé pour le suivi épidémiologique des cancers devrait être envisagée à l’aide de données nominatives issues des registres. Ces travaux complèteraient la perspective prochaine de production d’estimations infranationales de l’incidence à partir de l’indicateur PMSI-ALD, sous réserve de sa validation.
Remerciements
Les auteurs remercient vivement Zoé Uhry, qui a réalisé la comparaison de l'indicateur avec la zone registre, Laurent Duchet, David Dias, Sophie Gosselin, Mathilde Risse-Fleury et Pascale Grosclaude pour leur aide précieuse, ainsi que les relecteurs pour leurs remarques pertinentes.