29 mars 2020

Projet d'échantillonnage représentatif de la population

Mieux évaluer l'étendue de l'infection au SRAS-CoV-2

Projet coordonné par Josselin Garnier, Ecole polytechnique

Résumé
L'exploitation de résultats de campagnes de tests de dépistage du virus, sur des échantillons non biaisés aléatoires et représentatifs de la population générale, permettrait d'affiner notre connaissance de la situation présente et future via des modèles mathématiques de maladies infectieuses mieux calibrés.

Constat
Plusieurs études ont proposé des modèles mathématiques permettant de prédire l'évolution de l'épidémie due au coronavirus à une échelle nationale. Il s’agit principalement de modèles d'évolution temporelle de l'état de la population divisée en compartiments associés aux différents états possibles de la maladie : susceptibles, infectés, rétablis, etc. Ils peuvent prendre en compte des stratifications par âge et par région. Les règles d'évolution, écrites sous forme d'équations différentielles couplées, prennent en compte des mécanismes et des phénomènes validés du point de vue épidémiologique. On peut calibrer ces modèles, c'est-à-dire fixer leurs paramètres libres, tels que des taux d'infection, pour reproduire les données disponibles (cas détectés et décès). On peut également en déduire des prédictions, par exemple sur la date du pic d'infection et sur l'impact de mesures de type confinement ou distanciation physique (voir par exemple [1,2]).
Cependant, des études statistiques révèlent que les prédictions de ces modèles sont très peu fiables. En effet, des jeux de paramètres différents, tous compatibles avec les données disponibles, aboutissent à des prédictions très différentes. Même avec des modèles très simples (un seul compartiment national pour chaque catégorie) les incertitudes sont fortes, ce qui montre que les prédictions des modèles épidémiologiques doivent être utilisées avec une extrême prudence. Les procédures de quantification des incertitudes (connues et utilisées pour quantifier la qualité et la robustesse des simulations de gros codes numériques) permettent de mettre en évidence ces incertitudes de prédiction. Elles permettent aussi d'identifier, par des techniques d'analyse de sensibilité, les paramètres cruciaux des modèles. Ce sont les paramètres par rapport auxquels les modèles sont sensibles et qu'on ne peut pas extraire des données disponibles. Par exemple, la proportion de porteurs asymptomatiques n'est pas mesurée alors que c'est un paramètre critique[i].

Objectifs
Pour obtenir des prédictions plus robustes à partir des modèles mathématiques, il est nécessaire d'obtenir des informations sur les paramètres cruciaux de ces modèles. Par une analyse de leur sensibilité, on peut fixer un certain nombre de paramètres à leur maximum de vraisemblance et se concentrer sur les paramètres les plus influents. Certains de ces paramètres, comme la proportion de porteurs asymptomatiques, peuvent être estimés à l’issue d'une campagne de tests, menée sur un échantillon représentatif aléatoire et non biaisé de la population.  Ces données doivent compléter les données déjà disponibles (cas détectés et décès) pour affiner la robustesse des modèles et renforcer leur qualités prédictives. On lèverait ainsi un certain nombre d'incertitudes en mesurant la proportion de porteurs asymptomatiques, en intégrant une dimension spatiale, et en mesurant l'immunité déjà acquise.

Faisabilité
De telles campagnes de tests peuvent être organisées, dès maintenant. Il ne s'agit pas de tester toute la population, ce qui serait idéal mais impossible à l'heure actuelle, ni de faire un diagnostic individuel sur une petite partie de la population. Il s'agit d'obtenir des informations statistiques sur l'état de susceptibilité de la population. La France prévoit d’augmenter, dans les prochaines semaines, ses capacités de tests et on pourrait donc envisager de consacrer quelques dizaines de milliers de tests à une campagne sur un échantillon représentatif de la population générale.

Fiabilité
La fiabilité des tests disponibles dépend de leur sensibilité et de leur spécificité. Si elles sont connues, ces informations pourront être utilisées pour obtenir des informations statistiques sur l'état de la population. La question de la fiabilité des tests est différente dans le cadre d'un échantillonnage statistique, de celle de la fiabilité d’un diagnostic individuel, car on peut utiliser les informations de sensibilité et de spécificité pour effectuer un traitement statistique et exploiter les données. De plus, si on contrôle la sensibilité et la spécificité, la technique connue des tests de groupes permet d’effectuer des tests regroupés (group testing), ce qui réduit le nombre de tests effectués par rapport au nombre de prélèvements.
Il y a deux types de tests (détectant la charge virale ou les anti-corps) qui rendent compte de deux informations différentes. Ces deux types d’information peuvent être intégrés dans les modèles pour affiner les prédictions.  Les informations de tests effectués à différents instants peuvent aussi être intégrés dans les modèles car ceux-ci décrivent des évolutions temporelles.

Mise en œuvre
L’organisation de la campagne s’appuie sur trois actions à coordonner :
1) procéder, si possible simultanément, à des tests sérologiques et à des tests de charge virale, les tests à très bonne spécificité devant être privilégiés. Il importe de disposer de suffisamment d’informations sur les cohortes de patients pour évaluer les propriétés de spécificité et de sensibilité ;
2) mobiliser des acteurs capables de construire des cohortes aléatoires pour réaliser les échantillons (en fonction du nombre et de la fiabilité des tests disponibles) et pour traiter les données ;
3) mettre en place une logistique spécifique pour recueillir les consentements et faire les prélèvements. Idéalement, des prélèvements aléatoires en continu avec des résultats anonymisés pourraient être réalisés, avec des tags spatiaux (à l'échelle de la commune) et temporels (à l'échelle du jour du prélèvement).

Références
[1] Imperial College COVID-19 Response Team, The Global Impact of COVID-19 and Strategies for Mitigation and Suppressionhttps://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-Global-Impact-26-03-2020.pdf
[2] Magal P., Webb G., Predicting the number of reported and unreported cases for the COVID-19 epidemic in South Korea, Italy, France and Germany, 2020, https://www.medrxiv.org/content/10.1101/2020.03.21.20040154v1.full.pdf+html
  
Cette proposition est rédigée par un groupe de mathématiciens et de biologistes du plateau de Saclay (Ens Paris Saclay,  Inria Saclay et Polytechnique).



[[i]] Une estimation bayésienne des paramètres des modèles proposés dans la littérature montre que la distribution a posteriori de ce paramètre, en fonction des données actuelles est toujours quasiment égale à sa distribution a priori. Autrement dit, on ne peut  l'estimer, or les prédictions (de l'intensité du pic par exemple) dépendent fortement de lui. Il faut donc d'autres types de données pour l'estimer.

[[ii]] L'idée de base est de tirer dans la population générale des échantillons représentatifs. A titre d'illustration, dans le cadre le plus simple, si on s'attend à un taux de positifs de l'ordre de p dans une strate, alors il faut réaliser des prélèvements sur un échantillon de taille N=1/(pa²) pour avoir une précision relative a sur l'estimation de p (par exemple, si p=1 % et a=20 %, alors N=2500). On peut aussi tirer moins d'individus dans certaines strates ou sous-strates où on attend plus de tests positifs pour diminuer la variance des estimations (c'est classique en sondage stratifié). On peut aussi faire des tests groupés (où on teste des mélanges de prélèvements), qui permettent d'augmenter le nombre de prélèvements N en restant avec un nombre de tests effectués significativement réduit lorsque p est faible (c'est aussi classique, c'est la technique des tests regroupés ou group testing).

Pourquoi la comptabilité nationale résiste à la pandémie (mais pas les modèles de sa diffusion) ?

Visioconférence en ligne Présentations au séminaire Cournot du 21 juillet Josselin Garnier (Ecole polytechnique) Xavier Timbeau (OFCE) https...