La Medicina, come tutte le altre discipline, richiede sempre di più un lavoro di equipe, un lavoro di squadra, in cui devono convergere diverse competenze. Per motivi vari mi sono trovato a collaborare, una decina di anni fa, con la Facoltà di Medicina dell’Università degli Studi di Trieste. All’inizio si trattava di tenere prevalentemente dei corsi di statistica medica per studenti dei corsi di Laurea in Medicina, in Odontoiatria e delle Lauree sanitarie.
Da qui si è passati a delle collaborazioni per tesi di laurea, e quindi a collaborazioni e sperimentazioni con molti colleghi del mondo sanitario.
Sono stati anni molto stimolanti che hanno portato ad applicare le mie conoscenze matematiche e statistiche in questi ambiti, a mettermi a disposizione e a lavorare insieme a persone con conoscenze molto diverse dalle mie.
In questa breve conversazione, vorrei presentare alcuni primi semplici spunti sull’utilizzo della statistica nella pratica e nella ricerca biomedica e per fare ciò vorrei evidenziare alcuni errori che molto spesso vengono commessi in questo campo. Mi preme sottolineare come la statistica faccia sempre più parte della nostra vita quotidiana: non c’è giornale in cui non vi siano presenti grafici, sondaggi, previsioni. A scuola, fin dai primi anni, nei test di valutazione sono presenti anche domande di statistica. Quasi sempre poi gli articoli scientifici sono accompagnati da una analisi dei dati, cosa che rimane spesso un oggetto misterioso per il lettore e, pertanto, lasciata da parte...
Non molto tempo fa, ad una conferenza [1], il collega Simon Day si chiedeva in modo un po’ buffo: “What medical researchers know about statistics, and is it a losing battle to educate them?” . Potremmo commentare a lungo questa domanda, io però ne aggiungerei un’altra: “è importante che un medico, un operatore sanitario, abbia delle conoscenze di statistica e, se sì, quali?”
Per iniziare a rispondere a queste domande, in questa breve conversazione vedremo una prima lista di errori che solitamente si commettono utilizzando la statistica in maniera non appropriata, e che non è difficile ritrovare anche in articoli su riviste internazionali del mondo sanitario. La conferenza sarà comunque corredata e commentata con molti esempi tratti da giornali, riviste scientifiche e da quanto osservato in questi anni, in modo da cercare di rendere meno pesante e spero addirittura un po’ piacevole questa conversazione.
L’idea di mettere a fuoco gli errori che si commettono utilizzando la statistica, nasce dalla lettura di alcuni articoli che negli anni si sono occupati di tali questioni (si vedano ad esempio 20 Statistical errors even YOU can find in biomedical research articles [2], Statistical errors in medical research – a chronic disease? [3], Submission to radiology: our top 10 list of statistical errors [4]), e prende spunto da un seminario tenuto dal collega prof. Sergio Invernizzi alle scuole di specializzazione della Facoltà di Medicina dell’Università di Trieste, dal titolo “Misconcetti statistici nella pratica e nella ricerca biomedica”.
Si rimanda pertanto i lettori alla lettura di quanto riportato negli articoli sopra citati, mentre qui evidenzierò solo alcuni primi punti maggiormente significativi che mi sembra importante sottolineare.
Prima di iniziare con questi punti, voglio ricordare quanto un collega mi disse alcuni anni fa: “Noi medici viviamo nell’incertezza, voi matematici, voi statistici vivete nella certezza, quindi da voi noi ci aspettiamo delle certezze!”. Questo è un punto di vista che non mi sento assolutamente di condividere, e che probabilmente è la causa iniziale di molti errori: le applicazioni della matematica e della statistica al mondo sanitario devono tenere conto delle incertezze del problema che si stanno studiando (incertezze sulla misurazione dei dati e sulla loro ripetibilità, sulla scelta e sulla numerosità del campione, etc.) e tali incertezze devono essere in qualche modo contenute nel risultato, nell’output che il metodo matematico fornisce all’operatore sanitario. Al tempo stesso chi opera nella medicina deve sapere che la statistica può essere uno strumento utile per migliorare le proprie conoscenze, se adoperato in maniera opportuna e con buon senso.
Senza andare su argomenti troppo difficili, già l’uso delle percentuali può risultare non corretto. Vediamo qualche esempio:
- che informazioni abbiamo dal sapere che il 35,26% degli uomini ha contratto una certa malattia? Non basterebbe scrivere 35% o, addirittura, dire che i maschi malati sono poco più di un terzo?
- in una tesi di specialità, la candidata descriveva quanto osservato dicendo che nel 50% dei casi osservava un certo fenomeno… il tutto con numerosità pari a 2!!
Attenzione ad usare le percentuali con buon senso e in maniera opportuna.
- un altro esempio simpatico l’ho trovato su Il Piccolo, quotidiano della mia città, Trieste, in cui il giornalista, dalla lettura dei dati dei nuovi iscritti alle scuole superiori, arrivava a delle conclusioni sbagliate, in quanto calcolava le percentuali rispetto ad un totale non corretto [5].
Anche l’utilizzo di semplici grafici per descrivere i dati può rivelarsi non coerente con quanto vorremmo mostrare. Quante volte non riusciamo a decifrare un grafico oppure ci vuole molto tempo, o addirittura una spiegazione dell’autore per capirne il significato! Un grafico, a mio parere, deve in linea di principio essere una esemplificazione immediata per chi legge.
Continuiamo a parlare di elementi statistici di base: come ci ricordava il poeta Trilussa a metà degli anni 40 con i suoi famosi polli [6], già l’utilizzo della media, valore statistico molto comodo semplice da utilizzare e conosciuto da tutti, può essere ambiguo o addirittura sbagliato:
- che informazioni ci dà sapere che un gruppo di persone ha età media pari a 45 anni? Potremmo trovarci di fronte ad un gruppo di persone con più o meno quella età, ma anche con molti sessantenni e qualche quindicenne, oppure anche con dei bambini e qualche nonno… la sola conoscenza della media ci fornisce pochissime informazioni! Questa ambiguità secondo me spesso nasce dal fatto che inconsciamente diamo per scontato che non ci siano valori estremi (i cosiddetti outlier, che possono modificare anche notevolmente la media) e che i dati siano distribuiti come una gaussiana (cosa che non sempre accade, in particolare quando ci troviamo a lavorare con dati relativi ad una patologia).
- Non sempre i dati con cui stiamo lavorando sono numeri cardinali: pensiamo ad una scala di valutazione di un anziano in cui vengono assegnati, a diversi item, valori da 1 a 7 a seconda dell’abilità della persona a eseguire determinati compiti: i valori 1 e 2 indicano, a due diversi livelli, completa dipendenza, 6 e 7 completa indipendenza, ecc. Credo che siamo tutti d’accordo sul fatto che non è detto che questi valori, da 1 a 7 , siano in scala rapportale, uniformemente distribuiti, e pertanto non sono numeri cardinali, ma numeri ordinali… e con i numeri ordinali non è possibile eseguire le operazioni aritmetiche e tantomeno calcolare la media! Bisogna dire che alcune scale di valutazione considerano con grande attenzione tale problema e formulano il questionario in maniera opportuna per poter eseguire comunque alcune classiche operazioni statistiche ma, in generale, dobbiamo fare molta attenzione a capire che informazioni ci può dare lo score di un paziente in cui i valori dei singoli item vengono semplicemente sommati o in cui si calcola la media per ogni paziente. Questo è uno dei motivi per cui talvolta è più corretto utilizzare la mediana…
- Un errore molto diffuso negli articoli è quello di calcolare la media (un indice di centralità dei dati) e la deviazione standard (un indice di dispersione) e di conseguenza di scrivere µ ± s, evidenziando con il simbolo ± una simmetria nei dati, non solo quando media e deviazione standard non sono gli strumenti statistici più corretti da utilizzare (vedi sopra), ma anche quando i dati non presentano simmetria…
Un altro elemento che molto spesso non è chiaro negli articoli è la differenza tra deviazione standard (Standard Deviation - SD) e errore standard della media (Standard Error – SE). Mentre il primo è un indice di dispersione dei dati, il secondo, che si calcola dividendo la SD per la radice della numerosità del campione è, in parole povere, un indice di precisione.
Facciamo qualche piccolo passo in avanti e parliamo di stime. In termine tecnico diciamo che si può parlare di stime puntuali, di stime intervallari o dei cosiddetti confidence interval. Cosa significa? Io posso dire ad un paziente che potrà tornare a giocare tra 15 giorni (stima puntuale, in quanto fornisco un unico valore), ma posso anche dire che tornerà a giocare tra 10-15 giorni (stima intervallare in quanto non fornisco più un unico valore, ma un intervallo di valori). E’ evidente che la stima intervallare è maggiormente informativa in quanto dice anche l’incertezza di quanto sto affermando. Bisogna pertanto diffidare o quantomeno leggere con attenzione e buon senso le stime puntuali, anche se talvolta più semplici e più comode, in quanto in esse non si dice l’incertezza del risultato a cui siamo giunti. Mi chiedo ad esempio come mai nei giornali troviamo quasi esclusivamente stime puntuali: se da una parte una stima puntale è più immediata e permette di fare delle classifiche (i dati di ieri sera dicono che il Tg1 ha battuto La7…, da un sondaggio risulta che politico A ha un indice di gradimento più alto del politico B…, ecc.), dall’altra, non fornendo informazioni sull’incertezza, dovuta ad esempio alla scarsa numerosità del campione, potrebbe dare un’idea non corretta della realtà. Questo è uno dei motivi per cui, in periodo di elezioni, si parla di forchetta, proprio per intendere un intervallo di valori. Spesso nelle riviste scientifiche troviamo i confidence interval, che altro non sono che stime intervallari con fiducia (confidence), solitamente al 95%.
Un numero particolarmente importante nell’analisi statistica dei dati è il p-value. Spesso gli articoli contengono molti p-value e sembra che più ce ne sono, meglio è. Sembra valere inoltre la logica, perversa, per cui: p-value piccolo: bene, obiettivo dello studio raggiunto, possiamo pubblicare l’articolo…; p-value grande: non possiamo pubblicare!! Non molto tempo fa un collega ci ha chiesto un’analisi dei dati in cui voleva far vedere che il suo trattamento si equivaleva ad un altro utilizzato in altri reparti. L’analisi dei dati portò ad un output che forniva un p-value ‘grande’… Il collega rimase particolarmente scoraggiato da questo risultato, e insisteva per ripetere l’analisi dei dati. Mi venne il dubbio che stesse interpretando male quel del p-value… in quanto per me quel valore mostrava proprio la validità della sua ipotesi.
Ma cos’è, in parole povere, questo ‘mitico’ p-value? Il p-value è la riposta, codificata, di un test statistico, in base alla quale, rispetto ad un certo errore, respingiamo o non respingiamo un’ipotesi di lavoro (quella che gli anglosassoni chiamano l’ipotesi nulla H0). Ma per capire una risposta è importante, direi essenziale, sapere qual è la domanda! Ogni test statistico ha una sua domanda, una sua ipotesi H0, per cui ad esempio il test del chi-quadro si pone la domanda sulla possibile indipendenza di due variabili (H0=indipendenza, quindi test chi-quadro di indipendenza), un test t di Student cerca eventuali differenze significative tra due gruppi (H0=non c’è differenza, quindi test t di Student per la differenza tra medie in campioni indipendenti) e così via. Nel caso sopracitato, un p-value grande (relativamente alla significatività a), portava a concludere che i dati non potevano respingere l’ipotesi H0 del test t di Student, per cui non c’era differenza significativa tra i due trattamenti… proprio come voleva il collega!
Capitolo a parte, che qui solo accenno, è il fatto che per utilizzare un test statistico devo prima accertarmi che sia verificate delle opportune ipotesi. Mi spiego meglio: nessuno di noi oserebbe utilizzare il teorema di Pitagora in un triangolo non rettangolo! Eppure spesso capita di vedere test statistici applicati in maniera errata proprio perché a monte non sono soddisfatte le ipotesi del test stesso. Ad esempio solitamente per un test t di Student si chiede che i dati siano distribuiti come una gaussiana; se così non è, bisogna utilizzare un test differente… così come, tornando all’analogia con il teorema di Pitagora, è possibile, utilizzando alcuni risultati di trigonometria, trovare dei risultati anche in triangoli scaleni.
Ecco alcuni primi spunti, ma potremmo andare avanti ancora a lungo!
Tornando alla domanda iniziale: “è importante che un medico, un operatore sanitario abbia delle conoscenze di statistica e, se sì, quali?”, penso innanzitutto che ognuno deve fare bene il proprio mestiere: mi spaventa l’idea che il medico che mi sta per operare sia un eccellente statistico!
E’ importante avere chiare su alcune semplici cognizioni di base di statistica e poi bisogna imparare sempre più a lavorare insieme, a sapere come porci uno di fronte all’altro, anche se con conoscenze scientifiche differente, cercando un piano di lavoro comune in cui ognuno ha la sua specificità e al tempo stesso cerca di cogliere, di conoscere per quel che può quella dell’altro. Non credo quindi che bisogna educare chi opera in sanità alla statistica o viceversa, come pensa il collega Simon Day, ma crescere nello sforzo di mettersi insieme. La mia esperienza di questi dieci anni dice che la cosa non è per niente facile e neppure veloce, ma che ne vale la pena, anche per i risultati scientifici ottenuti.
Lucio Torelli
[1] Applied Statistics, Ribno (SLO) 2011;
[2] Tom Lang, 20 statistical errors even YOU can find in biomedical research articles, Croatian Medical Journal, 45(4): 361-370, 2004;
[3] James Young, Statistical errors in medical research – a chronic disease?, Swiss Medical Weekly, 137: 41-43, 2007;
[4] Deborah Levine, Alexander A. Bankier, Elkan F. Halpern, Submission to radiology: our top 10 list of statistical errors, Radiology, 253(2): 288-290, 2009
[5] Il Piccolo di Trieste, mercoledì 10 settembre 2008, vedi slide conferenza;
[6] Trilussa (Carlo Alberto Salustri), La Statistica, 1945 ca