Mieux évaluer l'étendue de l'infection au SRAS-CoV-2
Projet coordonné par Josselin
Garnier, Ecole polytechnique
Mieux évaluer l'étendue de l'infection au SRAS-CoV-2
Projet coordonné par Josselin Garnier, Ecole polytechnique
Résumé
L'exploitation de résultats de campagnes de tests de dépistage
du virus, sur des échantillons non biaisés aléatoires et représentatifs de la population générale,
permettrait d'affiner notre connaissance de la situation présente et future via
des modèles mathématiques de maladies infectieuses mieux calibrés.
Constat
Plusieurs études ont proposé des modèles mathématiques permettant
de prédire l'évolution de l'épidémie due au coronavirus à une échelle nationale. Il
s’agit principalement de modèles d'évolution temporelle de l'état de la
population divisée en compartiments associés aux différents états possibles de
la maladie : susceptibles, infectés, rétablis, etc. Ils peuvent prendre en
compte des stratifications par âge et par région. Les règles d'évolution,
écrites sous forme d'équations différentielles couplées, prennent en compte des
mécanismes et des phénomènes validés du point de vue épidémiologique. On peut
calibrer ces modèles, c'est-à-dire fixer leurs paramètres libres, tels que des
taux d'infection, pour reproduire les données disponibles (cas détectés et
décès). On peut également en déduire des prédictions, par exemple sur la date
du pic d'infection et sur l'impact de mesures de type confinement ou
distanciation physique (voir par exemple [1,2]).
Cependant, des études statistiques révèlent que les prédictions
de ces modèles sont très peu fiables.
En effet, des jeux de paramètres différents, tous
compatibles avec les données disponibles, aboutissent à des prédictions
très différentes. Même avec des modèles très simples (un seul compartiment
national pour chaque catégorie) les incertitudes sont fortes, ce qui montre que
les prédictions des modèles épidémiologiques doivent être utilisées avec une
extrême prudence. Les procédures de quantification des incertitudes (connues et
utilisées pour quantifier la qualité et la robustesse des simulations de gros
codes numériques) permettent de mettre en évidence ces incertitudes de
prédiction. Elles permettent aussi d'identifier, par des techniques d'analyse
de sensibilité, les paramètres cruciaux des modèles. Ce sont les paramètres par
rapport auxquels les modèles sont sensibles et qu'on ne peut pas extraire des
données disponibles. Par exemple, la proportion de porteurs asymptomatiques
n'est pas mesurée alors que c'est un paramètre critique[i].
Objectifs
Pour obtenir des prédictions plus robustes à partir des modèles mathématiques,
il est nécessaire d'obtenir des informations sur les paramètres cruciaux de ces
modèles. Par une analyse de leur sensibilité, on peut fixer un certain
nombre de paramètres à leur maximum de vraisemblance et se concentrer sur les
paramètres les plus influents. Certains de ces paramètres, comme la proportion
de porteurs asymptomatiques, peuvent être estimés à l’issue d'une campagne
de tests, menée sur un échantillon représentatif aléatoire et non biaisé de la
population. Ces données doivent compléter les données déjà disponibles (cas détectés et décès) pour affiner la
robustesse des modèles et renforcer leur qualités prédictives. On lèverait
ainsi un certain nombre d'incertitudes en mesurant la proportion de porteurs
asymptomatiques, en intégrant une dimension spatiale, et en mesurant l'immunité
déjà acquise.
Faisabilité
De telles campagnes de tests peuvent être organisées, dès
maintenant. Il ne s'agit pas de tester toute la
population, ce qui serait idéal mais impossible à l'heure actuelle, ni de faire
un diagnostic individuel sur une petite partie de la population. Il s'agit
d'obtenir des informations statistiques sur l'état de susceptibilité de la population.
La France prévoit d’augmenter, dans les prochaines semaines, ses capacités de tests et on pourrait donc envisager
de consacrer quelques dizaines de milliers de tests à une campagne sur
un échantillon représentatif de la population générale.
Fiabilité
La fiabilité des tests disponibles dépend de leur sensibilité et
de leur spécificité. Si elles sont connues, ces informations pourront être
utilisées pour obtenir des informations statistiques sur l'état de la
population. La question de la fiabilité des tests est différente dans le cadre
d'un échantillonnage statistique, de celle de la fiabilité d’un diagnostic
individuel, car on peut utiliser les informations de sensibilité et de
spécificité pour effectuer un traitement statistique et exploiter les données.
De plus, si on contrôle la sensibilité et la spécificité, la technique connue
des tests de groupes permet d’effectuer des tests regroupés (group testing), ce
qui réduit le nombre de tests effectués par rapport au nombre de prélèvements.
Il y a deux types de tests (détectant la charge virale ou les
anti-corps) qui rendent compte de deux informations différentes. Ces deux types
d’information peuvent être intégrés dans les modèles pour affiner les
prédictions. Les informations de tests effectués à
différents instants peuvent aussi être intégrés dans les modèles car ceux-ci
décrivent des évolutions temporelles.
Mise en œuvre
L’organisation de la campagne s’appuie sur trois actions à
coordonner :
1) procéder, si possible simultanément, à des tests sérologiques
et à des tests de charge virale, les tests à très bonne spécificité devant être
privilégiés. Il importe de disposer de suffisamment d’informations sur les
cohortes de patients pour évaluer les propriétés de spécificité et de
sensibilité ;
2) mobiliser des acteurs capables de construire des cohortes
aléatoires pour réaliser les échantillons (en fonction du nombre et de la
fiabilité des tests disponibles) et pour traiter les données ;
3) mettre en place une logistique spécifique pour recueillir les consentements et faire les prélèvements. Idéalement, des prélèvements aléatoires en continu avec des résultats anonymisés pourraient être réalisés,
avec des tags spatiaux (à l'échelle de la commune) et temporels (à l'échelle du
jour du prélèvement).
Références
[1]
Imperial College COVID-19 Response Team, The Global Impact of COVID-19 and Strategies for Mitigation and Suppression,
https://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-Global-Impact-26-03-2020.pdf
[2] Magal P.,
Webb G., Predicting the number of reported and unreported cases for the
COVID-19 epidemic in South Korea, Italy, France and Germany, 2020, https://www.medrxiv.org/content/10.1101/2020.03.21.20040154v1.full.pdf+html
Cette proposition est rédigée par un groupe de mathématiciens et de biologistes du plateau de Saclay (Ens Paris Saclay, Inria Saclay et Polytechnique).
[[i]] Une estimation bayésienne des paramètres des modèles proposés dans la littérature montre que la distribution a posteriori de ce paramètre, en fonction des données actuelles est toujours quasiment égale à sa distribution a priori. Autrement dit, on ne peut l'estimer, or les prédictions (de l'intensité du pic par exemple) dépendent fortement de lui. Il faut donc d'autres types de données pour l'estimer.
[[ii]] L'idée de base est de tirer dans la population générale des échantillons représentatifs. A titre d'illustration, dans le cadre le plus simple, si on s'attend à un taux de positifs de l'ordre de p dans une strate, alors il faut réaliser des prélèvements sur un échantillon de taille N=1/(pa²) pour avoir une précision relative a sur l'estimation de p (par exemple, si p=1 % et a=20 %, alors N=2500). On peut aussi tirer moins d'individus dans certaines strates ou sous-strates où on attend plus de tests positifs pour diminuer la variance des estimations (c'est classique en sondage stratifié). On peut aussi faire des tests groupés (où on teste des mélanges de prélèvements), qui permettent d'augmenter le nombre de prélèvements N en restant avec un nombre de tests effectués significativement réduit lorsque p est faible (c'est aussi classique, c'est la technique des tests regroupés ou group testing).
[[ii]] L'idée de base est de tirer dans la population générale des échantillons représentatifs. A titre d'illustration, dans le cadre le plus simple, si on s'attend à un taux de positifs de l'ordre de p dans une strate, alors il faut réaliser des prélèvements sur un échantillon de taille N=1/(pa²) pour avoir une précision relative a sur l'estimation de p (par exemple, si p=1 % et a=20 %, alors N=2500). On peut aussi tirer moins d'individus dans certaines strates ou sous-strates où on attend plus de tests positifs pour diminuer la variance des estimations (c'est classique en sondage stratifié). On peut aussi faire des tests groupés (où on teste des mélanges de prélèvements), qui permettent d'augmenter le nombre de prélèvements N en restant avec un nombre de tests effectués significativement réduit lorsque p est faible (c'est aussi classique, c'est la technique des tests regroupés ou group testing).