Question 19: Retracer et spatialiser l'épidémie au jour le jour. Quels pièges éviter ?

En cette période où les analyses 'en temps réel' de l'épidémie foisonnent, prenons le temps de discuter des données épidémiologiques diffusées quotidiennement en France et des interprétations souvent approximatives qui en sont issues.

Texte : Julie V., Delphine G., Sébastien R.-C. / Simulation : Pas de simulation / Illustration : Odile P., Sébastien R.-C., Julie V., Delphine G.
le 9 Juin 2020 · 35 minutes de lecture

L’ampleur de l’épidémie de la COVID-19 et son passage au statut de pandémie a systématisé la communication quotidienne du bilan épidémiologique des dernières 24 heures. Depuis le 21 janvier 2020, un point quotidien national sur le nombre de personnes décédées ou hospitalisées est effectué par le Ministère des Solidarités et de la Santé en lien avec la Direction Générale de la Santé (DGS). Ce rendez-vous largement relayé par les médias initie le grand public aux données épidémiologiques. La publication de graphiques et de cartes dans les journaux, la multiplication d’articles scientifiques déposés en preprint (c’est-à-dire sans être relus et acceptés par le comité de rédaction d’une revue scientifique) ou publiés dans des revues de vulgarisation témoignent des efforts déployés pour analyser “en temps réel” la dynamique de l’épidémie. Prenons cependant le temps de présenter les données épidémiologiques diffusées quotidiennement en France [1] et de discuter des limites des analyses temporelles, spatiales ou sociales qui en sont issues.

Des données communiquées et complétées chaque jour

Depuis le début du mois de mars, des données régionales voire départementales sont diffusées par certaines Agences Régionales de Santé. Parallèlement, le dispositif de surveillance a été progressivement adapté [2] pour permettre un recensement national des cas. Les données hospitalières sont publiées quotidiennement par Santé Publique France sur le site data.gouv.fr : le nombre de patients hospitalisés, de personnes en réanimation, de personnes décédées, et de personnes retournées à domicile après hospitalisation. Un tableau de bord associé à un dépôt collaboratif est également disponible. Initié de manière informelle par la société civile puis en lien avec des membres d’Etalab, ce site gouvernemental permet de suivre le nombre de cas COVID-19 confirmés par un test PCR positif, la situation hospitalière (nombres de patients hospitalisés, de personnes en réanimation, de personnes décédées à l’hôpital, et de personnes retournées à domicile après hospitalisation) mais aussi la situation dans les maisons de retraite et les établissements médico-sociaux (nombre de cas confirmés et nombre de décès dans ces établissements). Toutes ces données épidémiologiques, qui servent de base au suivi quotidien de l’évolution de l’épidémie en France, nécessitent toutefois quelques précautions d’usage.

(1) Les délais de collecte et de transmission. Les données hospitalières transmises le dimanche et les jours fériés sont systématiquement moins élevées que celles du lundi et du mardi. On observe ainsi une forte baisse des décès pour les trois jours du week-end de Pâques (11-12-13 avril 2020) suivies d’une forte hausse les deux jours d’après. Ces variations reflètent les délais dans les transmissions des décès et dans les décisions de sorties de l’hôpital au cours du week-end. Il est donc nécessaire de raisonner selon des moyennes mobiles sur sept jours pour gommer cet “effet week-end”. D’autres anomalies peuvent également exister : le 18 mai le nombre annoncé de décès cumulés en EHPAD est de 10650, le 19 mai il n’est plus que de 10308 et il reste stable (10350 décès) entre le 2 juin et le 8 juin. On peut se demander si ces anomalies tiennent à des délais de collecte ou à des changements dans les processus d’enregistrements mais quelle qu’en soit la raison, elles soulignent les imprécisions des chiffres diffusés au jour le jour.

(2) Des indicateurs dont la signification varie au cours du temps. Depuis le début de la pandémie, les connaissances sur la maladie évoluent : une des conséquences indirectes de cette évolution des connaissances est que les indicateurs sur lesquels on s’appuie évoluent qualitativement. La connaissance médicale a progressé, les stratégies de dépistage et de traitement ont changé. Une grande prudence s’impose alors lorsqu’on analyse les nombres de cas confirmés qui sont tout autant un reflet de la dynamique épidémique qu’un reflet de l’évolution de la politique nationale de dépistage.

(3) Des données progressivement diffusées. A partir du tableau de bord, on connait le nombre de cas confirmés à partir du 2 mars 2020, l’évolution par département (mais aussi par sexe et par classe d’âge) du nombre de patients en réanimation et du nombre de décès (par lieu de décès) à partir du 18 mars 2020 et la mortalité dans les EHPAD et les établissements médico-sociaux à partir du 1er avril 2020. Cependant ces dates ne correspondent pas forcément aux dates auxquelles les données ont été diffusées pour la première fois (souvent de manière rétroactive). De fait, deux dates sont attachées aux données épidémiologiques journalières : le jour de l’événement proprement dit (décès ou hospitalisation); et le jour où l’information sur cet évenemenent est diffusée pour la première fois. La date de diffusion témoigne du temps nécessaire pour centraliser l’information (notamment parce qu’elles sont issues de sources diverses - cf Figure 1), mais aussi de la période à laquelle ces informations sont devenues importantes pour le monde médical, politique et médiatique (la mortalité dans les EHPAD en est un bon exemple). La date de diffusion est importante à considérer sous peine de produire des interprétations anachroniques. Prenons l’exemple des données sur les hospitalisations et les décès au moment du premier tour des municipales (le dimanche 15 mars 2020). Ce jour-là, la situation épidémiologique n’était communiquée qu’au niveau des régions. Il n’y aurait donc guère de sens à qualifier l’intensité de la transmission au niveau départemental [3] afin de voir si celle-ci a eu un effet dissuasif sur la participation aux élections municipales puisque cette information départementale était en quelque sorte “anachronique” au moment des élections.

Aussi importantes soient-elles les dates de diffusion des données sont pourtant difficiles à retracer. Pour illustrer cette difficulté, prenons l’exemple des données hospitalières.

  • Les premières données journalières au niveau des départements (et par âge et sexe) ont été diffusées le 27 mars 2020 par Santé Publique France sur data.gouv.fr mais on ignore si les données sur la situation départementale entre le 18 et 26 mars ont été diffusées ce jour là ou bien ultérieurement : la date de diffusion des données n’est pas intégrée dans le fichier et l’historique des fichiers proposés au téléchargement n’est pas accessible.
  • En ce qui concerne le tableau de bord du suivi de l’épidémie, l’analyse des mises à jour (“commits”) des décès à l’hôpital révèle que la première diffusion de ces données (comit f326e5b8af00623fd0fe5dd463aac522dece09f6) date du 12 mars (pour les décès journaliers des 4, 5, 6, 7, 10, 11 et 12 mars). Le 20 mars, ce sont l’ensemble des décès ayant eu lieu entre le 2 mars et le 19 mars qui sont disponibles (après corrections de valeurs sur les données du 5, 7, 9 et 18 mars). A partir du 20 mars, le tableau de bord est mis à jour quotidiennement pour intégrer les décès à l’hôpital du jour précédent. Les données des décès au niveau départemental du 18 au 22 mars ont été diffusées le 23 mars et ensuite diffusées quotidiennement. Ces données départementales sont les mêmes que celles diffusées par Santé Publique France sur data.gouv.fr (cf. Figure 1).

(4) Des données corrigées rétroactivement ? Les données diffusées sur data.gouv.fr et sur le tableau de bord gouvernemental du suivi de l’épidémie ne sont pas corrigées (cf. Figure 1). Des ajustements peuvent être effectués en publiant des valeurs cumulées inférieures aux valeurs de la veille, mais aucune correction n’est apportée rétroactivement. Santé Publique France diffuse certes un rapport d’erreur qui correspond aux erreurs repérées sur les fichiers hospitaliers mais elle ne l’utilise pas pour corriger les données diffusées : c’est à l’utilisateur d’utiliser ce rapport d’erreur pour corriger les erreurs dans les fichiers qu’il télécharge. On peut alors craindre que les données téléchargées soient utilisées sans les corrections nécessaires. C’est évidemment le cas pour l’ensemble des données librement accessibles mais ce risque est particulièrement élevé en cette période où de nombreux savoirs sont produits et discutés “en live” par des personnes pas forcément expertes en la matière. Autre précision importante : comme l’historique des fichiers d’erreurs n’est pas disponible, il n’est pas possible de suivre la chronologie des corrections que les utilisateurs ont été en mesure d’apporter. Compte-tenu de ces limites, il est indispensable pour des questions de reproductibilité que ceux et celles qui utilisent ces données corrigent le fichier téléchargé sur data.gouv.fr à partir du rapport d’erreur et indiquent clairement la date de téléchargement du fichier de données et la date du rapport d’erreur utilisé.

Ce long développement sur les données souligne la prudence qui s’impose dès lors qu’on analyse des informations journalières sans considérer les délais de collecte et de consolidation des données et sans indiquer à quelle date elles ont été téléchargées et si elles ont été corrigées (et dans ce cas avec des informations de quelle date).

Figure 1. Etat des lieux de la chaîne de traitements des données traitées et affichées par Etalab et Santé Publique France

1 - Santé Publique France met à disposition les données départementales (D) au jour J. Ex: le 23/05 on récupère les données du 23/05.
2 - Un programme est lancé tous les jours pour récupérer ces données et les ajouter au fichier covid-hospi.csv
3 - Le programme build.js s'appuie sur les données journalières de (2) ainsi que sur les autres données qui ont pu être rassemblées (crowdsourcing) entre mars et aujourd'hui pour générer, tous les jours, le fichier chiffre.clef qui contient les informations et les sources correspondantes au niveau départemental, régional et national.
lien dans le code : https://github.com/opencovid19-fr/data/blob/master/build.js#L84 et https://github.com/opencovid19-fr/data/blob/master/lib/data-sources/spf.js#L14
4 - Le programme prepare-data/index.js récupère le fichier chiffre-clef, et réalise une opération de consolidation. A partir des différentes sources de données, l’idée est de combler les données manquantes, toutes dates et colonnes confondues, en utilisant la liste de priorités suivante :
const SOURCE_PRIORITIES = { 'ministere-sante': 1,  'sante-publique-france': 2,  'sante-publique-france-data': 3,  'agences-regionales-sante': 4,
  'prefectures': 5,  'opencovid19-fr': 6,  'lperez-historical-data': 7}
Ex : Si le 25/05/2020, les données décès ne sont pas disponibles ou la source est non disponible (NaN or Null) pour la source ministere-sante, le script va chercher à trouver des données à la même date sur les lignes sante-publique-france, puis les lignes sante-publique-france-data, etc.
lien vers le code : https://github.com/etalab/covid19-dashboard/blob/master/prepare-data/index.js#L58
5 - Avant l’affichage sur le dashboard Etalab, des filtres permettent d’écarter certaines données. Ainsi seules les données suivantes sont prises en compte pour les graphiques et cartes de l’étape 6 : 
ALLOWED_SOURCES= ministere-sante, sante-publique-france, sante-publique-france-data, opencovid19-fr
lien vers le code : https://github.com/etalab/covid19-dashboard/blob/master/prepare-data/index.js#L250kbg
6 - Les graphiques pour les variations quotidiennes affichées sur le site se basent sur un recalcul des données journalières à partir des données cumulées disponibles x_{day_t} = x_{cum_t} - x_{cum_{t-1}}
* - Attention, les données (5e7e104ace2080d9162b61d8) sur le site data.gouv.fr, et sur le dashboard (5e6a3c986f444152b12daadf) ne sont pas corrigées rétroactivement. Un opérateur d’Etalab génère le fichier de correction des données diffusées mais c'est à l'utilisateur des données d'appliquer ces corrections sur les données qu’il télécharge.

Lieux de décès et de résidence : des lieux à ne pas confondre

Les données diffusées par Santé Publique France concernent les hospitalisations et les décès à l’hôpital dans les zones où ont lieu les hospitalisations ou les décès. Le lieu de résidence des personnes ne figure pas (pour l’instant du moins) dans ces données [4]. De plus, ces données ne disent rien des malades à domicile, ni des décès qui ont pu s’y produire [5]. Cet ancrage géographique au lieu de décès s’explique par la remontée d’information qui est à la charge des structures de soins ou d’hébergement (hôpital, EHPAD etc.) où a eu lieu le décès. Il s’explique aussi par la volonté politique de surveiller et gérer la crise de saturation potentielle des hôpitaux en ‘monitorant’ finement l’activité hospitalière. La stratégie de confinement adoptée par la France a ainsi été très largement justifiée par la nécessité d’“aplatir la courbe épidémique” pour soulager le service de santé (cf. la question 7), raisonnement qui permettait de “matérialiser sous la forme la plus consensuelle, lisible et percutante possible, la nécessité d’une réaction méthodique, organisée, collective” [6]. La diffusion des données sur les hospitalisations au lieu de l’hospitalisation en lien avec la capacité hospitalière témoigne ainsi tout autant de la volonté politique de surveiller et gérer la crise de saturation potentielle des hôpitaux que de la volonté politique de convaincre la population du bien-fondé des mesures de confinement. Ce sont donc bien les dynamiques au niveau des lieux d’hospitalisations qui peuvent être étudiées avec les données hospitalières fournies par Santé Publique France, et non les dynamiques au niveau des lieux de résidence.

La localisation des cas aux seuls lieux d’hospitalisation et de décès est regrettable lorsque le virus ne circule pas ou plus activement et qu’il s’agit de limiter la propagation de l’épidémie (stade 2) puisqu’on s’intéresse à la surveillance des clusters qui sont hyper localisés (à l’échelle de la commune). Mais ignorer les lieux de résidence est également regrettable lorsqu’on souhaite analyser spatialement la dynamique au coeur même de l’épidémie (stade 3). Lorsqu’on s’interroge sur les potentiels décalages entre les lieux d’hospitalisation et les lieux de résidence, on pense souvent de prime abord aux transferts de patients entre les régions parfois lointaines organisés par les autorités : médiatisés ces transferts réalisés entre le 18 mars et le 10 avril ne concernent pourtant que 387 personnes [7] soit 5% des 7000 personnes hospitalisées en réanimation au 10 avril.

De fait, les décalages entre lieux de résidence et lieux d’hospitalisation sont bien plus importants. Pour les quantifier, les données hebdomadaires de l’Insee sur les décès rapportés au département de résidence des défunts sont précieuses - bien qu’on puisse regretter qu’elles n’aient été diffusées qu’à partir du 17 avril 2020 [8]. Si ces données de décès ne permettent pas de distinguer la cause du décès et d’isoler les morts de la COVID-19, elles ont l’avantage de comptabiliser les décès quel que soit le lieu où ils surviennent (hôpitaux et cliniques privées, maisons de retraite, domicile, voie publique, etc.) et de fournir pour chaque décès la date de décès, le sexe de la personne décédée, sa date de naissance et son département de résidence, le département et la commune de décès ainsi que le type de lieu (Hôpital; EHPAD/EMS; domicile) où s’est produit le décès. Comme le précise l’Insee dans une note du 11 mai 2020 à partir des données dématérialisées sur les décès enregistrés entre le 2 mars et le 19 avril 2020, “plus de 10 % des décès ont lieu hors du département de domicile pour un tiers des départements français. Pour deux départements, cet écart dépasse 20 % : la Seine-Saint-Denis et l’Eure. Dans ces derniers, plus d’un décès sur dix a lieu dans un département limitrophe, respectivement Paris et la Seine-Maritime. Dans l’autre sens, certains départements accueillant des malades d’autres départements connaissent un nombre de décès sur leur territoire supérieur au nombre de décès de leurs résidents. C’est le cas notamment du Territoire de Belfort, où plus de 60 % des décédés n’habitent pas ce département en 2020. Les hôpitaux terrifortains accueillent traditionnellement des malades des départements voisins du Doubs et de la Haute-Saône. Dans une moindre mesure, c’est également le cas de Paris, des Hauts-de-Seine et du Val-de-Marne, où plus de 30 % des décès enregistrés le sont pour des personnes domiciliées hors du département. Paris possède la particularité d’accueillir des patients de presque tous les départements, avec une spécificité pour les résidents des Hauts-de-Seine, du Val-de-Marne et de Seine-Saint-Denis.” En dépit de ce décalage important entre départements de résidence et de décès, seules les données de mortalité diffusées par l’Insee sur son site permettent actuellement de connaître le département de résidence : les données hospitalières diffusées par Santé Publique France et le tableau de bord gouvernemental sont uniquement rapportées au département d’hospitalisation ou de décès (cf. Figure 2).

Figure 2. Comparaison des données de décès disponibles selon différentes sources.

* si la commune de résidence a opté pour une transmission dématérialisée des décès
URL : 1; 2; 3; 4

On peut donc en conclure que toutes les analyses “départementales” produites jusqu’à maintenant à partir des données hospitalières diffusées par Santé Publique France se sont basées sur les départements d’hospitalisation ou de décès. Pourtant cette précision n’est que très rarement soulignée dans les analyses : on ignore bien souvent que les taux d’incidence, de mortalité ou de morbidité concernent les lieux de décès et non les lieux de résidence. Et cette confusion entre lieux de décès et lieux de résidence porte d’autant plus à conséquence que l’échelle d’observation est fine. A l’échelle régionale (et a fortiori à l’échelle nationale) les décalages sont minimes car les déplacements pour se faire hospitaliser se font essentiellement au sein des régions. En revanche, les analyses menées à l’échelle départementale sont périlleuses dès lors qu’elles consistent à associer les nombres de cas ou de décès enregistrés dans les hôpitaux des départements au nombre et au profil de la population résidente de ces mêmes départements [9]. On risque alors:

  • de produire des estimations faussées de la gravité de la situation,
  • de minimiser les inégalités entre départements,
  • et de fournir des conclusions biaisées sur les facteurs socio-économiques locaux susceptibles d’expliquer la dynamique épidémiologique.

(1) Des estimations faussées pour certains départements. En rapportant la morbidité ou la mortalité enregistrées au département de dépistage ou de décès à la population résidente, on compare des nombres qui ne se réfèrent pas aux mêmes populations. On ne calcule ainsi en aucun cas des taux de morbidité ou de mortalité départementaux, (i) puisqu’on surestime la transmission et la mortalité dans les départements dont les hôpitaux accueillent des patients qui n’y résident pas (les départements concentrant l’offre hospitalière et les services de réanimation) et (ii) qu’on sous-estime la transmission et la mortalité dans les départements dont bon nombre de résidents se font soigner dans un autre département (les départements sous-équipés ou saturés). Rien ne dit d’ailleurs que les sous-estimations ou surestimations observées pour certains départements à un moment donné soient stables au cours du temps : les hospitalisations hors du département de résidence ne sont en effet pas forcément de même ampleur au cours de l’épidémie.

(2) Des inégalités départementales minimisées. Cette sur- ou sous-estimation de la gravité de la transmission et de la mortalité conduit à minimiser les inégalités entre les départements. Si on prend l’exemple des départements d’Ile-de-France, les inégalités entre la Seine-Saint-Denis et Paris risquent d’être minimisées avec une sous-estimation du risque en Seine-Saint-Denis et une surestimation du risque à Paris. L’Observatoire Régional de Santé (ORS) d’Ile-de-France a bien pointé le problème dans son étude du 7 mai 2020 sur la surmortalité durant l’épidémie de COVID-19 dans les départements franciliens. Il convient donc de rester critique face aux comparaisons de la mortalité selon les départements de décès qui ont été relayées par les médias au début du mois d’avril. Des articles parus dans Libération (7 avril 2020) ou le Monde (4 avril 2020) comparent ainsi la surmortalité observée dans les départements d’Ile-de-France (à partir des données Insee au lieu de décès) en les rapportant à leur nombre d’habitants (très similaire par exemple pour les Hauts-de-Seine et la Seine-Saint-Denis) mais sans considérer que leur capacité hospitalière était très différente (pour ces deux départements un nombre de lits de réanimation de 184 dans les Hauts-de-Seine versus 100 en Seine-Saint-Denis selon les données de 2018). Ignorer la différence entre lieux de décès et lieux de résidence conduit ainsi à confondre taux d’équipement hospitalier et taux de mortalité et à tirer des conclusions qui minimisent la surmortalité dans certains départements et la surestiment dans d’autres. De plus, comme des lits d’hôpital ont été régulièrement ouverts lors du pic de surcharge hospitalière, on peut être amené à interpréter des évolutions comme des évolutions de mortalité alors qu’il s’agissait d’évolutions capacitaires.

(3) Des conclusions biaisées sur les facteurs socio-économiques locaux susceptibles d’expliquer la dynamique épidémiologique. Et au-delà de ce risque de mauvaises estimations de la gravité de la situation et des conclusions approximatives qu’on peut en tirer sur les inégalités entre les départements, la confusion spatiale entre les lieux de décès et les lieux de résidence des personnes décédées est encore plus problématique lorsque les décès enregistrés à l’hôpital sont mis en relation avec les caractéristiques de la population des zones de décès (densité démographique, structure sociale de la population). Lorsqu’une relation positive entre la morbidité ou la mortalité et la densité de population est apparemment observée, difficile alors de savoir si cela tient au fait que la densité est un facteur aggravant la contagion ou bien si les départements les plus denses sont aussi ceux concentrant l’offre hospitalière et les services de réanimation pour lesquels on surestime la contagion quand on utilise les informations aux lieux de décès.

Ce développement sur la distinction entre lieux de décès et de résidence s’impose en cette période où les organismes publics ne publient pas (à l’instar de Santé Publique France) ou n’ont publié que tardivement (c’est le cas de l’Insee) des informations aux départements de résidence. Cette absence de données domiciliaires interroge ainsi la capacité et/ou la volonté de l’appareil statistique national à produire et publier ces informations à un rythme accéléré alors qu’il y a un réel enjeu pour la science mais aussi pour l’orientation optimale de l’action publique.

Les données sociales : les grandes absentes du système de surveillance

Les données hospitalières mises en ligne par Santé Publique France comportent à ce jour des informations sur le sexe et l’âge des patients. À la différence des registres existant dans d’autres pays (par exemple au Royaume-Uni), ces données hospitalières recueillies « en routine » ne contiennent pas d’informations sur le profil social des patients (CSP, niveau d’éducation, revenus, etc.). C’est d’ailleurs également le cas pour les données de mortalité mises à disposition par l’Insee. Ce manque d’informations sociales individuelles dans les données de santé, depuis longtemps dénoncé, est d’autant plus dommageable en cette période où l’on devine que les inégalités sociales vont se creuser pendant et longtemps après la crise actuelle [10].

Face à ce manque de données sociales (qu’elle déplore depuis longtemps), la communauté scientifique a fait preuve d’inventivité. Des équipes se sont formées et ont élaboré dans l’urgence des projets de recherche à partir d’enquêtes en population générale afin de mesurer les inégalités sociales dans le risque d’infection, le développement de la maladie ou ses effets et le vécu du confinement. Citons par exemple les projets SAPRIS, EPIDEMIC ou COCONEL ou le baromètre COVID-19. De nombreuses enquêtes en ligne - aux objectifs et aux questions parfois redondants - ont aussi été diffusées sur les réseaux sociaux depuis la fin du mois de février. Ouvertes à toutes les bonnes volontés, ces enquêtes risquent toutefois de ne pas obtenir une quantité et une diversité sociale de participants nécessaires à la production d’un savoir scientifique.

Des équipes de recherche ont aussi cherché à voir ce qu’il était possible de faire “avec les moyens du bord” (i.e. sans nouvelle collecte de données). Certaines ont alors choisi de caractériser le profil social des individus hospitalisés/décédés à partir des caractéristiques administratives agrégées. Pour être scientifiquement valide, cette approche ne doit pas confondre les zones de résidence et d’hospitalisation (comme explicité précédemment). Elle nécessite également d’interpréter prudemment les résultats obtenus pour ne pas inférer au niveau individuel des observations ou des relations observées au niveau départemental ou régional (ce qu’on nomme l’erreur écologique).

D’autres équipes ont choisi de modéliser les inégalités sociales d’exposition au virus à partir de données des années antérieures. Citons par exemple l’analyse du gradient social d’exposition potentielle au virus à partir d’enquêtes sur les contacts des salariés avec le public au cours des années antérieures. La transmission différenciée selon les classes sociales a également été illustrée (cf. question 15) selon l’activité professionnelle habituelle (la distance au domicile, la fréquence des déplacements et le fait que cette activité puisse être réalisée en télétravail ou non en cas de confinement) et selon la situation résidentielle (résidence principale en habitat collectif ou individuel et possibilité de disposer d’une résidence secondaire isolée). Cette liste (non exhaustive) de stratégies déployées par les équipes de recherche pour analyser les inégalités sociales face à la COVID-19 témoigne de l’absence de données sociales, absence que les données spatio-temporelles de l’épidémie, aussi précises soient-elles, ne sauraient combler.

Entre ‘slow science’ et utilité sociale immédiate

Celles et ceux qui produisent et analysent les données relatives à la dynamique épidémique de la COVID-19 sont confrontés à deux injonctions contradictoires [11] : alimenter « en temps réel » les connaissances sur cette maladie ou prendre le temps de fournir des connaissances précises sur la maladie. Les efforts déployés par les instances publiques pour diffuser quotidiennement des données tout comme ceux déployés par la communauté scientifique pour produire rapidement des connaissances sont indéniables… mais cette course contre la montre n’est pas sans risque. En plus d’être imprécis, ces savoirs scientifiques ont pu être produits au détriment d’analyses de fond forcément plus chronophages. ‘Slow science’ ou utilité sociale immédiate ? Tel est le dilemme auquel les équipes de recherche sont confrontées avec la COVID-19, dilemme qui pourrait d’ailleurs se pérenniser si la vision utilitariste de la recherche (telle que proposée dans la Loi de programmation pluriannuelle de la recherche) venait à s’imposer. Seraient alors plébiscitées les recherches ‘flash’ (portant sur l’actualité et réalisées grâce au soutien de personnels précaires) au détriment des recherches sur le long terme.

Nous remercions Catherine Mangeney (ORS Ile-de-France) pour sa relecture et Jérôme Desboeufs (Etalab) pour ses réponses sur le tableau de bord gouvernemental associé au dépôt collaboratif.


Notes

[1] Cette discussion concerne spécifiquement le cas français: les difficultés des analyses internationales renvoient à des enjeux de normalisation des sources, de comparabilité des données, de contextes politiques qui seront laissés de côté ici mais qui ont déjà été souligné par exemple dans le journal les Echos le 26 avril 2020 ou dans un article de FranceTVInfo paru le 13 mai 2020.
[2] Pour plus de détail sur le dispositif de surveillance mis en place, voire le livret de présentation du suivi de l’épidémie de la COVID-19 rédigé conjointement par Santé Publique France, l’Insee et le Ministère des solidarités et de la santé et publié le 27 mars 2020.
[3] cf. l’article de Zeitoun et al. (Reciprocal association between participation to a national election and the epidemic spread of COVID-19 in France: nationwide observational and dynamic modeling study) déposé en preprint sur medrxiv.org et relayé dans un article du Monde du 15 mai 2020.
[4] On peut toutefois mentionner les collectivités d’outre mer de Saint-Martin et de Saint-Barthélémy dont la préfecture déléguée communique sur la provenance des malades / sur le devenir des malades contaminés sur leur territoire quel que soit leur lieu d’hospitalisation ou de décès (généralement en Martinique ou en Guadeloupe).
[5] Cf. l’article de Médiapart (Suivi de l’épidémie: le cafouillage de l’Insee sur les morts à domicile) du 19 mai 2020 et l’article de Hodak (les «malades à la maison» du Covid-19, entre oubli et euphémisation) publié le 20 mai 2020 dans AOC.
[6] Cf. l’article de Cahen, Cavalin et Ruiz (Des chiffres sans qualités ? Gouvernement et quantification en temps de crise sanitaire) publié en preprint sur l’archive ouverte HAL.
[7] Cf. données sur les tranferts sur data.gouv.fr.
[8] Avant le 17 avril 2020, les fichiers hebdomadaires de décès diffusés par l’Insee ne comportaient que le lieu de décès mais pas d’information sur le département de résidence des personnes décédées. Le 17 avril est diffusé un fichier individuel avec pour chaque décès ayant eu lieu jusqu’au 6 avril, la date de décès, le sexe, la date de naissance et le département de résidence de la personne décédée, le département et la commune de décès, le lieu de décès (hôpital ou clinique, domicile, maison de retraite, etc.). Seul le fichier individuel hebdomadaire le plus récent est toutefois accessible : les anciens fichiers individuels comportant des informations au département de résidence ne sont pas intégrés à l’historique.
[9] Voir par exemple l’article de Levratto et al. (Le coronavirus, révélateur des inégalités territoriales françaises) publié le 28 avril 2020 dans theconversation et qui fait écho à l’article publié en preprint: Covid-19 : analyse spatiale de l’influence des facteurs socio-économiques sur la prévalence et les conséquences de l’épidémie dans les départements français.
[10] Cf. une tribune parue dans Libération le 4 mai 2020.
[11] Cf. l’article de Pison et Mesle (La statistique publique face à l’urgence du décompte des morts) paru dans theconversation le 13 avril 2020.