2. A második fajta hiba: A kutató kockázata
Ha az első fajta hibát a fogyasztó kockázatának nevezzük, akkor a második fajta hiba a kutató kockázata. Első fajta hibát akkor követünk el, ha az adatokból számolt statisztika alapján elvetjük a valójában igaz nullhipotézist. Második fajta hibát pedig akkor, ha elfogadjuk a hamis nullhipotézist, például hatástalannak véljük a hatékony gyógyszert. Jogi hasonlattal élve: a ténylegesen bűnös vádlottat bizonyítékok hiányában felmentik.
Az elsőfajta hiba alacsony szinten tartásáról maga a statisztikai próba gondoskodik (a gyakran bálványként tisztelt p-érték és elődei, a csillagok által). Talán az én generációm az utolsó, amelyik egykor – számítógépes eszközök híján – a *=p<0,05, **=p<0,01, ***=p<0,001 jelölésekkel „számlálta a csillagokat”.
A próba ereje
A második fajta hiba körül elnézőbb a légkör. Úgy illik, hogy 20 százalékos szint alatt maradjon, de mindenki úgy gondolja, hogy az ezzel való törődés a kutató érdeke (hiszen ha nem vigyáz, kihullhat a rostán egy hatásos gyógyszer). A fogyasztó ebből mit sem érzékel.
A második fajta hiba komplementere a próba ereje, vagyis annak valószínűsége, hogy hatásosnak ítéljük a gyógyszert, amely valóban az is. Mivel komplementerekről van szó, a 20 százalékos második fajta hibához 80 százalékos erő tartozik.
A második fajta hiba valószínűségét nem számítjuk ki, nem is tudjuk (mivel a számoláshoz szükségünk lenne a „valódi” hatás ismeretére). A mi erőnkből annyira futja, hogy előre gondoskodjunk a próba erejéről. Annyira sűrűre szőjük statisztikai rostánkat, hogy a klinikailag releváns hatású szerek 80%-os valószínűséggel fennmaradjanak rajta. Tegyük fel, hogy egy fogyókúrás szer placeboval való összehasonlító vizsgálatánál azt tartanánk klinikailag relevánsnak, ha az első hónap végén a két populáció átlagos súlyváltozása közt legalább 3 kg különbség lenne. Van is egy pont ilyen tulajdonsággal rendelkező gyógyszerünk. A két teljes populáció helyett azonban csak két kisebb csoportról vannak adataink, lehet, hogy ezek átlaga közt csak 2,8 kg a különbség, ezért nem vetjük el a nullhipotézist, de az is lehet, hogy 3,2-es különbséget mérünk és akkor a vizsgálat elérte a kitűzött célt.
A mintaelemszám növelése
Ismét beavatkozik hát az eredménybe a véletlen besorolás kisördöge, aki már az első fajta hibánál is megjelent. Munkájának hatását tompítja, ha a mintaátlag ingadozása kicsi a populációs átlag körül. Bármilyen nagy is a minta szórása (az adatoknak az átlagtól való átlagos eltérése), a mintaátlag szórása kicsivé tehető a mintaelemszám növelésével. Ha az előbb említett fogyókúrás példában az egyedi súlyváltozások szórása 2 kg, akkor egy 16 fős mintánál az átlag szórása 0,5 kg, míg egy 100 fős mintánál ez csak 0,2 kg.
Nem szeretnénk képletekbe bonyolódni, de kicsit egyszerűsítve azt mondhatjuk, hogy normális populáció esetén – ha rögzítjük a szignifikanciaszintet és a próba erejét – akkor a szükséges mintalemszám egyenesen arányos a populáció szórásnégyzetével és fordítottan arányos annak a különbségnek a négyzetével, melyet ki szeretnénk mutatni. Első látásra ez egyszerűsíti a dolgokat, hisz a statisztikai szignifikancia elérése jórészt mintaelemszám kérdése. Kellő ráfordítással a 0,01 kg-os különbség is szignifikánssá tehető. Pedig ez a példa nem a statisztika mindenható voltát, hanem épp a korlátait mutatja. Azt, hogy a „statisztikailag szignifikáns” és a „klinikailag releváns” eltérő fogalmak. Ha a kettő közel van egymáshoz, akkor jó a vizsgálat.
Amit a tervezéshez tudni kell
A tervezéshez és a jó mintaelemszám-meghatározáshoz tudnunk kell tehát a klinikailag releváns különbséget és az adatok variabilitásának valamilyen mértékszámát, valamint azt is, hogy az értékelést milyen statisztikai módszerrel végzik majd (és természetesen az első fajta hiba felső határát, meg azt, hogy hány csoportot hasonlítanak össze – a csoportok számának növelése nem mindig jelenti az erő növekedését).
A vizsgálatba beválasztott betegek számának elegendőnek kell lennie ahhoz, hogy a későbbi eredmény és az abból levont következtetés megalapozott legyen, ugyanakkor – az adott feltételek mellett – a lehető legkisebbnek kell lennie annak érdekében, hogy a placeboval vagy a kevésbé hatásos készítménnyel való kezelésben ne részesüljenek indokolatlanul sokan.