Mesures humanes. IV. Abusos estadístics, una postdata personal
There are three kinds of lies: lies, damned lies and statistics
atribuït a Benjamin Disraeli
Do not put your faith in what statistics say
until you have carefully considered what they do not say
William W. Watt
Qui segueixi regularment Malaprensa o Wonkapistas sabrà els excessos que es cometen amb els estudis estadístics a la premsa generalista: errors en la interpretació de gràfics i percentatges, extracció de conclusions que no es deriven necessàriament dels resultats, menysteniment dels marges d'error, mostreigs insuficients... Malauradament, el problema s'estén també a àmbits especialitzats.
Stephen Jay Gould es queixa de que si bé existeixen assaigs on es qüestionen les dades obtingudes en els tests QI i les conseqüències que se n'extreuen, aquests no incideixen mai en la matemàtica subjacent: l'anàlisi factorial. Per això dedica tot el capítol 6 del La falsa medida del hombre –més de 70 pàgines– a explicar de forma planera, servint-se de representacions gràfiques, què és i què no és l'anàlisi factorial, així com a exposar els greus errors conceptuals en que van incórrer els seus principals desenvolupadors: Charles Spearman, Cyril Burt i L.L. Thurstone.
Les crítiques de Gould no m'han sorprès perquè coincideixen amb la meva experiència personal. Sense ser ni de bon tros un expert, durant el període en que vaig treballar com a investigador l'estadística multivariant va ser una de les eines fonamentals en la meva recerca. En l'àrea de la química computacional i, més concretament, en el disseny de fàrmacs assistit per ordinador i les relacions quantitatives estructura-activitat (QSAR), l'anàlisi factorial i llurs variants eren emprats freqüentment i es cometien també molts dels abusos que Gould denuncia.
La idea general del QSAR és que poden trobar-se descriptors de l'estructura molecular que presentin una bona correlació amb determinades propietats físico-químiques, amb l'activitat farmacològica o amb la toxicitat. Aquests descriptors poden ser utilitzats en un conjunt conegut de dades per a construir un model matemàtic (normalment mitjançant regressions multilineals, però també amb mètodes no lineals, com les xarxes neuronals) i ser aplicat posteriorment per a predir aquesta propietat en un conjunt de molècules d'estructura similar del que es desconeix el valor.
La majoria d'investigadors d'aquesta àrea s'havia centrat en la tasca de trobar descriptors adients per a cada cas, renunciant gairebé sempre a explicar perquè aquell conjunt de variables semblava relacionat amb la propietat estudiada. La simple correlació de les dades, reforçada per algunes validacions estadístiques addicionals, era condició suficient per a que els editors de les revistes de l'especialitat consideressin el treball d'interès i el publiquessin. A més, les dades que no eren ben descrites pel model matemàtic (outliers) s'eliminaven sovint amb explicacions pobres i sui generis.
Els treballs científics podien agrupar-se en dos grans blocs, depenent del tipus de descriptors utilitzat: un format per grans conjunts de propietats amb significació físico-química real i un algorisme de selecció d'aquell subconjunt que millor correlacionava; i un altre on els descriptors finals s'obtenien després d'aplicar algun tractament estadístic (anàlisi de components principals, escalat multidimensional). Malgrat que aparentment els resultats posseïen una significació estadística –es calculava el coeficient de correlació r², el coeficient de predicció q² per leave-one-out, es realitzava un test d'aleatorietat–, els científics cometien alguns dels errors comentats anteriorment: una pseudo-reïficació (assumir que les bones correlacions comporten que els components principals descriuen una realitat subjacent a les dades, sense preguntar-se què representen, en el cas que representin alguna cosa) i sobretot, confondre correlació amb causalitat. Hi havia en alguns casos, a més, seriosos problemes metodològics, com la sensible dependència dels resultats de paràmetres de configuració del model o el biaix en el test d'aleatorietat en aplicar-lo només sobre el subconjunt òptim i no sobre l'inicial.
En aquesta etapa, l'únic article que em va ser rebutjat va ser precisament un on qüestionava aquestes males pràctiques. Els comentaris dels referees foren pobres i pecaven de corporativistes, sense entrar a rebatre el fons de la crítica formulada, i em desmotivaren a enviar l'article a alguna altra revista. Després de llegir a Gould tinc la certesa de que les meves crítiques eren encertades, però que encara es quedaven curtes i no arribaven al fons de la qüestió. Alguns dels errors conceptuals –els més subtils i conseqüentment, aquells que és més fàcil no percebre com a errors– podien aplicar-se als meus propis treballs.
La majoria d'investigadors d'aquesta àrea s'havia centrat en la tasca de trobar descriptors adients per a cada cas, renunciant gairebé sempre a explicar perquè aquell conjunt de variables semblava relacionat amb la propietat estudiada. La simple correlació de les dades, reforçada per algunes validacions estadístiques addicionals, era condició suficient per a que els editors de les revistes de l'especialitat consideressin el treball d'interès i el publiquessin. A més, les dades que no eren ben descrites pel model matemàtic (outliers) s'eliminaven sovint amb explicacions pobres i sui generis.
Els treballs científics podien agrupar-se en dos grans blocs, depenent del tipus de descriptors utilitzat: un format per grans conjunts de propietats amb significació físico-química real i un algorisme de selecció d'aquell subconjunt que millor correlacionava; i un altre on els descriptors finals s'obtenien després d'aplicar algun tractament estadístic (anàlisi de components principals, escalat multidimensional). Malgrat que aparentment els resultats posseïen una significació estadística –es calculava el coeficient de correlació r², el coeficient de predicció q² per leave-one-out, es realitzava un test d'aleatorietat–, els científics cometien alguns dels errors comentats anteriorment: una pseudo-reïficació (assumir que les bones correlacions comporten que els components principals descriuen una realitat subjacent a les dades, sense preguntar-se què representen, en el cas que representin alguna cosa) i sobretot, confondre correlació amb causalitat. Hi havia en alguns casos, a més, seriosos problemes metodològics, com la sensible dependència dels resultats de paràmetres de configuració del model o el biaix en el test d'aleatorietat en aplicar-lo només sobre el subconjunt òptim i no sobre l'inicial.
En aquesta etapa, l'únic article que em va ser rebutjat va ser precisament un on qüestionava aquestes males pràctiques. Els comentaris dels referees foren pobres i pecaven de corporativistes, sense entrar a rebatre el fons de la crítica formulada, i em desmotivaren a enviar l'article a alguna altra revista. Després de llegir a Gould tinc la certesa de que les meves crítiques eren encertades, però que encara es quedaven curtes i no arribaven al fons de la qüestió. Alguns dels errors conceptuals –els més subtils i conseqüentment, aquells que és més fàcil no percebre com a errors– podien aplicar-se als meus propis treballs.
1 comentari:
Perseverar en l'error és, sembla, molt humà.
Publica un comentari a l'entrada