Comment mieux évaluer l’étendue de l’infection par le coronavirus
Coordination : Josselin Garnier¤
Résumé
L'exploitation de résultats de campagnes de tests de dépistage du virus, sur des échantillons non biaisés aléatoires et représentatifs de la population générale, permettrait d'affiner notre connaissance de la situation présente et d’élaborer des stratégies de déconfinement à l’aide de modèles mathématiques de maladies infectieuses mieux calibrés.
Constat
Plusieurs études ont proposé des modèles mathématiques permettant de prédire l'évolution de l'épidémie à une échelle nationale. Il s’agit principalement de modèles d'évolution temporelle de l'état de la population divisée en compartiments associés aux différents états possibles de la maladie : susceptibles, infectés, rétablis, etc. Ils peuvent prendre en compte des stratifications par âge et par région. Les règles d'évolution, écrites sous forme d'équations différentielles couplées, prennent en compte des mécanismes et des phénomènes validés du point de vue épidémiologique. On peut calibrer ces modèles, c'est-à-dire fixer leurs paramètres libres, tels que des taux d'infection, pour reproduire les données disponibles (cas détectés et décès). On peut également en déduire des prédictions, par exemple sur la date du pic d'infection et sur l'impact de mesures de confinement ou distanciation physique (voir, parmi d’autres, les publications de l’Imperial College (1) ou de l’Université de Bordeaux (2)).
Des études statistiques révèlent que les prédictions de ces modèles sont très peu fiables. Des jeux de paramètres différents, tous compatibles avec les données disponibles, aboutissent à des prédictions très différentes. Même avec des modèles très simples (un seul compartiment national pour chaque catégorie) les incertitudes sont fortes, ce qui montre que les prédictions des modèles épidémiologiques doivent être utilisées avec une très grande prudence. Les procédures de quantification des incertitudes (connues et utilisées pour quantifier la qualité et la robustesse des simulations de gros codes numériques) permettent de mettre en évidence ces incertitudes de prédiction. Elles permettent aussi d'identifier, par des techniques d'analyse de sensibilité, les paramètres cruciaux des modèles. Ce sont les paramètres par rapport auxquels les modèles sont sensibles et qui ne peuvent être extraits des données disponibles. Par exemple, la proportion de porteurs asymptomatiques n'est pas mesurée alors que c'est un paramètre critique (3).
Objectifs
Pour obtenir des prédictions plus robustes à partir des modèles mathématiques, il est nécessaire d'obtenir des informations sur les paramètres cruciaux de ces modèles. Par une analyse de sensibilité des modèles, on peut fixer un certain nombre de paramètres à leur maximum de vraisemblance et se concentrer sur les paramètres les plus influents. Certains de ces paramètres, comme la proportion de porteurs asymptomatiques, pourraient être estimés à l’issue d'une campagne de tests, menée sur un échantillon représentatif aléatoire et non biaisé de la population. Ces données viendraient compléter les données déjà disponibles (cas détectés et décès) pour affiner la robustesse des modèles et renforcer leur qualités prédictives. On lèverait ainsi un certain nombre d'incertitudes en mesurant la proportion de porteurs asymptomatiques, en intégrant une dimension spatiale, et en mesurant l'immunité déjà acquise. Ces informations sont critiques pour élaborer des stratégies de déconfinement.
Faisabilité
De telles campagnes de tests peuvent être organisées, dès maintenant. Elles sont en cours dans trois départements de l’Île-de-France. Il ne s'agit pas de tester toute la population, ce qui serait idéal mais impossible dans un futur proche, ni de faire un diagnostic individuel sur une petite partie de la population. Il s'agit d'obtenir des informations statistiques sur l'état de susceptibilité de la population. Deux types de tests, l’un détectant la charge virale, l’autre, les anti-corps, permettent de disposer de deux informations différentes qui peuvent être intégrées dans les modèles pour affiner les prédictions. Les informations de tests effectués à différents instants peuvent aussi être intégrés dans les modèles car ceux-ci décrivent des évolutions temporelles.
Fiabilité
La fiabilité des tests disponibles dépend de leur sensibilité et de leur spécificité. La sensibilité rend compte de la fréquence des faux négatifs et la spécificité rend compte de la fréquence des faux positifs. Si elles sont connues, ces informations peuvent être utilisées pour obtenir des informations statistiques sur l'état de la population. La question de la fiabilité des tests est différente dans le cadre d'un échantillonnage statistique, de celle de la fiabilité d’un diagnostic individuel, car on peut utiliser la sensibilité et la spécificité pour effectuer un traitement statistique et exploiter les données. De plus, si on contrôle ces deux propriétés, on peut effectuer des tests regroupés, ce qui réduit le nombre de tests à effectuer par rapport au nombre de prélèvements (4).
Mise en œuvre
L’organisation de la campagne repose sur la coordination de trois actions :
1. procéder, si possible simultanément, à des tests sérologiques et à des tests de charge virale, les tests à très bonne spécificité devant être privilégiés. Il importe de disposer de suffisamment d’informations sur les cohortes de patients utilisées pour évaluer les propriétés de spécificité et de sensibilité ;
2. mobiliser des acteurs capables de construire des cohortes aléatoires pour réaliser les échantillons (en fonction du nombre et de la fiabilité des tests disponibles) et pour traiter les données 5 ;
3. mettre en place une logistique spécifique pour recueillir les consentements, soumettre un questionnaire médical et faire les prélèvements. Idéalement, des prélèvements aléatoires en continu avec des résultats anonymisés pourraient être réalisés, avec des tags spatiaux (à l'échelle de la commune) et temporels (à l'échelle du jour du prélèvement).
Cette proposition a été rédigée par un groupe de mathématiciens et de biologistes du plateau de Saclay (ENS Paris-Saclay, Inria Saclay, Centre Cournot et Polytechnique).
¤
École
polytechnique, Centre Cournot, LabEx Hadamard.
1
Imperial College COVID-19 Response Team, Estimating
the number of infections and the impact of nonpharmaceutical
interventions on COVID-19 in 11 European countries,
2020 30 mars.
2
Magal P., Webb G., Predicting
the number of reported and unreported cases for the COVID-19
epidemic in South Korea, Italy, France and Germany,
2020, https://doi.org/10.1101/2020.03.21.20040154
3
Une
estimation bayésienne des paramètres des modèles proposés dans
la littérature montre que la distribution a
posteriori
de ce paramètre, en fonction des données actuelles est toujours
quasiment égale à sa distribution a priori. Autrement dit, on ne
peut l’estimer,
or les prédictions (de l'intensité du pic par exemple) dépendent
fortement de lui. Il faut donc d'autres types de données pour
l'approximer.
4
Voir
l’article de l’Organisation mondiale de la Santé du 17 mars
2020 : Population-based
age-stratified seroepidemiological investigation protocol for
COVID-19 virus infection.
5
L'idée est de tirer dans la population générale des échantillons
représentatifs. A titre d'illustration, dans le cadre le plus
simple, si on s'attend à un taux de positifs de l'ordre de p
dans une strate, alors il faut réaliser des prélèvements sur un
échantillon de taille N=1/(pa²) pour avoir une précision relative
a
sur
l'estimation de p
(par
exemple, si p=1 % et a=20 %, alors N=2500). On peut aussi
tirer moins d'individus dans certaines strates ou sous-strates où
on attend plus de tests positifs pour diminuer la variance des
estimations (c'est classique en sondage stratifié). On peut aussi
lancer des tests groupés (des mélanges de prélèvements sont
alors testés), qui permettent d'augmenter le nombre de prélèvements
N en restant avec un nombre de tests effectués, significativement
réduit lorsque p est faible (c'est aussi classique, selon
la technique des tests regroupés).