#Covid19, Articles et arguments « scientifiques ». Surprise, surprise
Je suis extrêmement surpris par la violence et les termes utilisés pour décrédibiliser le Professeur Raoult et les travaux de l’IHU de Marseille. Le profane que je suis regarde tout cela avec étonnement et s’interroge tout à la fois sur l’état du débat scientifique, et sur ses méthodes. Or nous ne sommes pas incapables de comprendre la nature même des travaux publiés et mis en avant dans un débat qui n’a plus grand chose de scientifique ni d’apaisé. En y regardant de plus près on s’interroge alors d’autant plus sur le radicalisme des propos de la presse, mais surtout de gens qu’on présente comme des scientifiques.
De la violence !
La critique se veut sévère, puisqu’on l’accuse de ne pas respecter les règles scientifiques, qu’on considère le traitement à base d’hydroxychloroquine (HCQ) comme « compassionnel » (https://www.numerama.com/sciences/614708-chloroquine-les-graves-erreurs-scientifiques-de-la-methode-raoult.html), tout en présentant l’étude Discovery comme extrêmement solide, alors qu’elle est un échec de la coopération européenne, et répond à des choix très contestés.
L’argumentaire a pris un tour nouveau avec la publication de deux études publiées par le B.M.J.(https://www.bmj.com/?utm_source=Corporate_site&utm_medium=Top_Nav&utm_campaign=link_change_Sept_2015) prétendant mettre en évidence l’inefficacité des traitements à l’HCQ.
Que reproche-t-on au Professeur Raoult ? De ne pas se livrer à des tests comparatifs thérapeutiques sur la base de groupes de patients dits « randomisés », et pour certains de ne pas disposer de groupe test auquel on administre un placebo. Le terme de randomisé devient magique (mais il ne sera plus à propos de l’étude M. Merah et alii, voir plus bas).
Ainsi on apprend que l’essai du « protocole Raoult » sur eux même par des médecins atteints a fait l’objet d’une interdiction ! En gros on nous explique que pour avoir la liberté de prescrire il faut qu’en amont on ait fait la preuve de l’efficacité des médicaments par un essai randomisé ! (Voir https://france3-regions.francetvinfo.fr/occitanie/coronavirus-collectif-medecins-reclame-retablissement-du-droit-prescrire-hydroxychloroquine-1831362.html).
On touche là au drame et au ridicule... puisque non seulement on se refuse à faire les études, mais qu’au surplus la fameuse randomisation masque des faiblesses statistiques majeures, comme je le rappelle plus loin. Mais que fait donc Didier Raoult de si répréhensible ? Il procède d’une part en partant d’observations anecdotiques (logiques en matière de nouvelle maladie), puis travaille sur ce qu’il appelle des séries observationnelles. En gros, il teste, il soigne, il observe, ce qui est la moindre des choses face à un nouveau virus.
Mais ça ne convient pas au dogme de la recherche médicale. Quand il parle de « baisse de la charge virale » liée à l’HCQ ou d’amélioration clinique liée à l’utilisation d’un antibiotique comme l’azithromicyne, il ne serait pas « scientifique » puisqu’il ne compare pas à une situation de référence (comme on dit dans les études d’investissement), et que le seul résultat compte : l’issue de la maladie. Le résultat, ou l’absence de résultat ne suffit pas à ceux qui gouvernent la médecine française.
Randomiser, Randomiser.. et s’endormir sur la réalité ?
Or que font les études dites scientifiques ?
Les deux premières études que l’on a présentées comme « anti-Raoult », et qui ont été publiées il y peu, sont bigrement intéressantes.
Problème de taille ..
En premier lieu la taille de leurs échantillons (ils parlent de « groupes » ou de « bras ») tirés au hasard sont de 75 dans un cas (Wei Tang et Alii, soit 150 pour 2 groupes), et de 84 et 89 dans l’autre cas (Mahevas et Alii). Au surplus ces études sont multi-centres suggérant d’éventuels sources possibles et significatives de variance.
Ceux qui ont déjà travaillé sur des sondages ou des enquêtes savent d’une part que de telles effectifs étudiés conduisent à des intervalles de confiance très (trop) importants, et donc une imprécision significative. Bon, se tromper de 6 ou 7 % pour un résultat estimé bon à 90 %, ça n’est pas dramatique diront certains (je rappelle que l’on a quand même pris en compte 5 % de chance de se tromper). Remarquons au passage qu’il ne s’agit pas de votes ou d’opinions sur le climat des affaires, mais de probabilités d’issues médicales, ce qui donne à la notion de probabilité ou d’intervalle une autre valeur ! De plus on aura la même marge d’erreur pour évaluer un taux de 10% que pour un taux de 90% ce qui conduit quand même à un grand écart pour une probabilité dite faible. J’invite les lecteurs à regarder les abaques (à 95%, les plus usitées, même en médecine !), ou à jouer avec le petit utilitaire du CNRS (et http://experiences.math.cnrs.fr/Intervalles-de-confiance.htm). Et n’hésitez pas à jouer sur le niveau d’exigence (testez 1% au lieu de 5% de marge d’erreur !!).
Plus de caractéristiques combinées que d’individus
Mais il y a pire. Une population de « patients » se caractérise nécessairement par un nombre important de paramètres qui peuvent avoir (ou pas) une incidence sur la maladie étudiée, comme l’âge, le sexe, les addictions, les pathologies préexistantes, le type de soins reçus avant le test, le groupe sanguin, l’état du patient au début du test (les anglais ajoutent l’ethnie) etc.. Je ne fais ici que reprendre ce qu’on trouve ici et là dans les articles.
Hélas, ces différents critères se combinent, s’ajoutent, se multiplient, qu’ils soient effectivement mesurés ou pas !! En d’autres termes ils peuvent par leur jeu commun avoir un effet multiplicateur. D’où la nécessité de prendre garde d’être représentatifs de cette diversité de combinaisons de caractéristiques.
Et du coup notre population devrait se subdiviser en de multiples groupes dont il faut s’assurer de la présence dans chaque bras... En conséquence, on arrive très vite à un nombre de combinaisons dépassant très largement le nombre d’individus par groupe étudié.
Là on a d’évidence un gros bug. Or l’influence des caractéristiques est parfaitement documentée, comme le montre l’étude britannique de Simon de Lusignan & Alii sur plus de 3800 personnes : « Risk factors for SARS-CoV-2 among patients in the Oxford Royal College of General Practitioners Research and Surveillance Centre primary care network: a cross-sectional study ».
Le problème qui en découle saute donc aux yeux.
Il y a véritablement un biais monumental dans les tests thérapeutiques menés sur de petits échantillons. Comment dès lors les comparer ? Faire confiance au hasard... ?
On sait très bien que ça ne fonctionne pas. Comment surtout en tirer des conclusions catégoriques ? Mais silence, c’est randomisé, n’est-ce pas !
De quoi les groupes sont-ils représentatifs ?
Derrière ces considérations s’en cache une autre.
Les groupes sélectionnés sont-ils représentatifs, et si oui de quoi ?
La lecture des articles montre d’évidence que les études que l’on compare ne portent pas, généralement, sur les mêmes « populations ». D’où des incompréhensions ou des erreurs commises autant pas les commentateurs (presse) que par certains « scientifiques ».
L’analyse des études montre que l’intégration des individus dans les tests peut intervenir à des stades très différents de la maladie (voir Wei Tang par exemple, où les moyennes en nombre de jour après la déclaration de la maladie sont de 16 à 17 jours et l’écart type de 10 à 11 !!), ce qui ajoute considérablement à l’hétérogénéité des groupes.
La question de la représentativité est pourtant centrale. On reproche par exemple au professeur Raoult de se féliciter de résultats... sur des malades peu malades. Singulière critique puisque le propre du traitement est d’éviter que les malades ne le deviennent trop ! S’agit-il de faire des tests sur une population « infectée » ou de faire des tests sur ceux passés par les urgences, après avoir (ou pas..) comme en France, dissuadé les malades peu graves d’appeler les urgences ? Et si oui selon quel protocole décidant de l’usage même des urgences ? Tient-on compte de ce qui s’est fait en amont sur le plan médical (l’étude Wei Tang comprend 60 % de patients préalablement traités) ?
Bien entendu les études répondent plus ou moins clairement au stade des publications (très normalisées !!) à ces questions. Ce qui nous conduit naturellement à ne pas être sûrs de pouvoir comparer les chiffres fournis, ni même de les interpréter. Et là on revient à l’extrême diversité des situations individuelles pouvant influer sur les résultats. Le tirage au hasard ne résout de ce point de vue rien du tout... et une faible taille des échantillons interdit une réelle stratification.
Et du coup on met en avant des études statistiquement critiquables pour dénigrer un travail « observationnel » d’ampleur. Curieux.
Le tsunami ou l’hystérie provoquée par l’étude Merah et Alii
Le débat a changé singulièrement de nature avec la publication de l’étude : « Mehra MR, Desai SS, Ruschitzka F, Patel AN. Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19: a multinational registry analysis. Lancet 2020 ».
Son intérêt scientifique apparent est en effet d’étudier de 96 032 patients traités dans 671 hôpitaux de par le monde. Sur cet ensemble, on compare un groupe « non traité » par HCQ et/ou macrolides (azithromycine ou clarithromycine; non détaillés), au groupe traité. Un sous-groupe de 3788 patients est traité par HCQ et Macrolide. Bien que très fortement concentrée aux USA (65,9%), l’étude repose ainsi sur une large base et permet théoriquement de comparer différents protocoles de traitement effectivement utilisés.
Les auteurs livrent leur interprétation de l’étude. : « Nous n'avons pas pu confirmer un bénéfice d'hydroxychloroquine ou de chloroquine, lorsqu'il est utilisé seul ou avec un macrolide, sur les résultats hospitaliers du COVID-19. Chacun de ces traitements a été associé à une diminution de la survie à l’hôpital et à une fréquence accrue des arythmies ventriculaires lorsqu’il est utilisé pour le traitement du COVID-19. » L’affirmation est ici forte et catégorique, mais est quelque peu écornée par le corps du texte et un interview de l’un des auteurs, M. Mehra.
Cette conclusion, et les éléments chiffrés produits ont aboutit à une réelle effervescence médiatique et des affirmations péremptoires allant de la dangerosité du « protocole Raoult », à la nocivité démontrée de l’usage de l’hydroxychloroquine. En résumé ce produit (l’HCQ) « tue » pense-t-on lire dans l’étude.
La presse a oscillé entre des affirmations au conditionnel, et des propos catégoriques. Ainsi, le titre du « Monde » est prudent : « Covid-19 : une étude internationale suggère un risque accru de mortalité sous hydroxychloroquine » , tandis que d’autres sont plus radicaux. « L’étude montre ! ».
Un déferlement des attaques, voire des injures, s’ensuit logiquement sur les réseaux sociaux.
Bien entendu, comme pour tout article, même scientifique, les questions ne sont pas closes pour autant. D’autant que rien n’indique qu’on a effectivement comparé l’application du « protocole Raoult » à d’autres traitements ou absence de traitement.
Au surplus, le collectif « #covid19-laissons les médecins prescrire », rappelle justement les interrogations sur l’état des patients pris en compte (on rappelle qu’ils sont hospitalisés, donc en état relativement grave, mais non précisé, mais sans doute variable d’un pays à l’autre).
Il rappelle aussi qu’il existe des différences d’approche thérapeutique entre pays, régions, hôpitaux, etc.. et souligne le fait que les patients sont en nombre important déjà traités par des anti-viraux à leur arrivée (sans savoir avec quel produit ni comment ?). Enfin, ils listent un ensemble important d’arguments médicaux mettant en cause largement les conclusions de l’étude.
De ces remarques, peu de traces dans les premiers jours suivant le tsunami médiatique provoqué par l’étude publiée par le « Lancet ».
Un article, cependant, éclaire doublement les choses. Il s’agit d’un interview de M. Mehra réalisé par France Soir le 23/5/2020 (http://www.francesoir.fr/opinions-entretiens-societe-sante/interview-exclusive-mandeep-mehra-lhydroxychloroquine-pas-efficace).
Ces propos sont doublement éclairants.
Sur la méthode statistique d’abord, où il explique que, confronté au problème classique lié à l’absence de randomisation a priori, ils ont choisi de mener un travail spécifique : « Les analyses effectuées sont ajustées pour plus de 35 facteurs différents. Dans l’annexe de l’étude, nous expliquons que nous avons effectué des analyses très sophistiquées où nous avons simulé la randomisation à l’aide d’une technique statistique qui simule un échantillonnage aléatoire. Cela permet de sélectionner les patients un à un pour qu’ils correspondent aux facteurs d’inclusion ou d’exclusion et d’échantillonnage. ».
Cette méthode peut être qualifiée d’économétrique (voir leurs inventeurs : Paul R. Rosenbaum, Donald B. Rubin, The central role of the propensity score in observational studies for causal effects, Biometrika, Volume 70, Issue 1, April 1983, Pages 41–55 », voir aussi : Lecocq, A., Ammi, M. & Bellarbre, É. (2014). « Le score de propension : un guide méthodologique pour les recherches expérimentales et quasi expérimentales en éducation. » Mesure et évaluation en éducation, 37 (2), 69–100.) Elle est par ailleurs contestée par certains auteurs (voir Robert Lalonde, « Evaluating the Econometric Evaluations of Training Programs with Experiment Data », American Economic Review · February 1986).
Nous avons donc à tout le moins un travail statistique a postériori (calcul des scores de propension, vérification, etc..) qu’on pourrait, au moins discuter. A surplus une remarque figurant dans l’étude elle-même n’est généralement pas citée : « Notre étude comporte plusieurs limites. L’association de la survie diminuée avec des régimes de traitement de hydroxychloroquine ou de chloroquine devrait être interprétée avec prudence. En raison de la conception de l’étude observationnelle, nous ne pouvons exclure la possibilité de facteurs de confusion non mesurés ». Or c’est précisément l’un des problèmes majeurs, si on passe sur les risques inhérents à la méthodologie retenue.
Une autre déclaration significative de M. Mehra à France-Soir est révélatrice : « Tout ce que nous disons, c’est qu’une fois que vous avez été infecté (5 à 7 jours après) au point de devoir être hospitalisé avec une charge virale grave, l’utilisation de l’hydroxychloroquine et dérivé n’est pas efficace. » En creux, cela signifie bien, comme l’indiquent les médecins du collectif cité ci-dessus, que les patients pris en compte ne sont pas traités dès le début de la maladie (ou du test positif), mais qu’ils sont malades « au point de devoir être hospitalisés avec une charge virale grave ». La seule chose sûre, c’est que le traitement hospitalier commence au plus 48 heures après le diagnostic (test) hospitalier. On est donc très loin d’un protocole de soin répondant à l’objectif de soigner rapidement les malades. Le rapprochement a priori avec le « protocole Raoult » est donc fallacieux et par la suite pratiquement difficile voire impossible.
On en est donc rendu à notre interrogation première : que compare-t-on véritablement, parle-t-on de « populations » comparables ? S’agit-il d’examiner des stratégies de soin ? A vrai dire, pas vraiment. On sent bien qu’on produit des études d’opportunité, mais que le contexte rend les publications singulièrement plus médiatiques...et que le débat est plus que limité et à tout le moins peu scientifique et pluraliste.
La forme prime trop souvent la réflexion
Du coup, je m’interroge la forme actuelle prise par les publications dans des revues à comité de lecture, et par la même occasion sur l’importance de leur médiatisation occasionnelle. D’autant que l’angle d’approche des critiques varie selon les conclusions des études tout comme « les vagues médiatiques ».
Sur la méthode, pour un non-médecin (réciproquement un non-économiste ou un non-sociologue etc.), ces articles, comme leur plan, sont extrêmement standardisés, jusqu’à fournir les mêmes tableaux, avec les mêmes tests, se fondant sur les mêmes méthodologies, et semblant rédigés de manière quasi-automatique. On a l’impression que cette norme doublée de la publication dans une revue « prestigieuse » à comité de lecture deviennent un objectif central de reconnaissance académique, et une sorte de brevet de scientificité. Personne ne semble en douter... Or, si rien ne semble échapper à la norme formelle, on peut regretter un manque de rigueur de la réflexion scientifique, le doute s’effaçant derrière le formalisme et la bénédiction des pairs. Les affirmations finales, parfois fort catégoriques, ne semblent supporter aucun doute, ou alors au seul détour d’une seule phrase. Les incertitudes, les intervalles de confiance, les problèmes d’échantillonnage et de biais, les réflexions sur les facteurs de variance, passent à l’as au profit d’une conclusion attendue : la méthode de soin ou la prétendue méthode testée est ou n’est pas « meilleure » que la méthode de référence. Cette façon de faire n’est pas propre à la médecine. Elle répond à une logique d’évaluation qui reporte ailleurs débats, doutes, pluralisme, discussions. Du coup, les grand enjeux se jouent ailleurs.
A dire vrai, tout ceci pousse finalement à une interrogation : à quoi sert cette pseudo concurrence sur le champ des publications. Nous sommes loin d’un débat scientifique pluraliste (et pluridisciplinaire) et apaisé. Dommage.
P.S. 25 mai 2020