Statystyczne podstawy analizy danych w medycynie: kluczowe pojęcia dla lekarzy i badaczy

0
40
2/5 - (2 votes)

Z tego artykułu dowiesz się:

Dlaczego statystyka stała się „językiem” medycyny opartej na dowodach

Od medycyny autorytetów do medycyny opartej na danych

Przez wieki leczenie opierało się głównie na doświadczeniu pojedynczych lekarzy, reputacji mistrzów i tradycji szkoły. Jeśli znany klinicysta twierdził, że dana metoda działa, często po prostu mu wierzono. Problem w tym, że ludzka pamięć jest wybiórcza, a intuicja bywa myląca – zwłaszcza gdy chodzi o rzadkie powikłania czy odległe skutki terapii.

Rozwój badań klinicznych, randomizacji i metaanaliz stopniowo wymusił zmianę podejścia: zamiast „tak robił mój nauczyciel”, coraz częściej pada pytanie: „jakie są na to dane?”. Wytyczne towarzystw naukowych opierają się dziś na syntezie wielu badań, a wspólnym mianownikiem tej syntezy jest właśnie statystyka – to ona pozwala porównać wyniki, policzyć efekt terapii, oszacować niepewność.

Medycyna oparta na faktach (EBM) używa statystyki nie jako sztucznej ozdoby artykułu, ale jako narzędzia do odpowiedzi na kluczowe pytania kliniczne: czy lek działa, jak silny jest efekt, jak duża jest szansa, że wynik jest dziełem przypadku? Bez języka liczb trudno dziś brać udział w powstawaniu i świadomej interpretacji zaleceń.

Jak decyzje terapeutyczne opierają się na liczbach

Nawet jeśli lekarz nie liczy samodzielnie skomplikowanych modeli, wiele decyzji terapeutycznych w praktyce opiera się na prostych wielkościach statystycznych. Przykładowo:

  • Ryzyko względne (RR) – pokazuje, ile razy częściej (lub rzadziej) coś występuje w grupie leczonej w porównaniu z kontrolą. RR = 0,5 oznacza połowę ryzyka, RR = 2 oznacza dwukrotnie wyższe ryzyko.
  • Ryzyko bezwzględne – informuje, o ile punktów procentowych zmienia się ryzyko (z 10% do 5%, a nie „o 50% mniej”). Dla pacjenta ta liczba bywa bardziej zrozumiała.
  • NNT (number needed to treat) – ilu pacjentów trzeba leczyć, aby u jednego zapobiec niekorzystnemu zdarzeniu (np. zawałowi). Jeśli NNT = 20, to oznacza, że u 1 z 20 leczonych pacjentów unikniemy zdarzenia dzięki interwencji.
  • Przedziały ufności – zakres, w którym z określonym prawdopodobieństwem znajduje się prawdziwy efekt leczenia. Wąski przedział sugeruje precyzyjne oszacowanie, szeroki – dużą niepewność.

Gdy artykuł podaje, że nowe leczenie zmniejsza ryzyko zgonu o 30% (RR=0,7), ale przedział ufności to 0,4–1,2, interpretacja powinna być ostrożna: rzeczywisty efekt może być dużo większy, ale może też go w ogóle nie być (bo 1,0 leży wewnątrz przedziału).

Co traci lekarz, który „omija statystykę szerokim łukiem”

Lekarz nieobeznany ze statystycznymi podstawami analizy danych w medycynie często polega na streszczeniach i wnioskach autorów. Jeśli jednak badanie było źle zaprojektowane lub niepoprawnie zanalizowane, takie zaufanie bywa bardzo kosztowne.

Wyobraźmy sobie nowy „hitowy” lek obniżający ryzyko hospitalizacji w niewydolności serca. Głośna publikacja, efektowny slajd: „redukcja ryzyka o 40%”. Po bliższym przyjrzeniu się okazuje się, że:

  • wyjściowe ryzyko hospitalizacji było bardzo małe,
  • absolutna różnica ryzyka wyniosła zaledwie kilka punktów promilowych,
  • przedziały ufności są szerokie, a analiza podgrup sugeruje niestabilne wyniki.

Bez umiejętności przeczytania tabel i wykresów lekarz może przeszacować znaczenie takiego leczenia i rekomendować je tam, gdzie zysk jest znikomy w stosunku do kosztów lub działań niepożądanych.

Z drugiej strony, słaba znajomość statystyki sprzyja nadinterpretacji rzadkich, medialnych działań niepożądanych. Pojawia się kilka opisów przypadków, powstaje szum, pacjenci boją się terapii skutecznej i dobrze przebadanej, a lekarz – zamiast sięgnąć do danych z dużych kohort i badań rejestrów – ulega presji anegdot.

Współpraca lekarz–statystyk: co trzeba rozumieć samemu

W zespole prowadzącym badanie często uczestniczy statystyk, metodolog lub epidemiolog. Ich zadaniem jest dobrać metody, policzyć moc statystyczną, zaplanować analizy wtórne. Rolą lekarza nie jest zastąpienie statystyka, lecz:

  • jasne sformułowanie pytania klinicznego (co chcemy wykazać i dla kogo),
  • zrozumienie pojęć takich jak zmienna zależna, randomizacja, przedziały ufności, błąd pierwszego i drugiego rodzaju,
  • umiejętność krytycznej lektury wyników, które otrzymuje od statystyka,
  • świadomość ograniczeń projektu badania (dobór próby, kryteria włączenia/wyłączenia).

Lepsze zrozumienie statystki pozwala też sensowniej dyskutować z recenzentami i redakcją czasopisma. Pytania o wielkość próby, korektę na wielokrotne porównania czy sensowność analiz podgrup przestają być „czarną magią”, a stają się częścią warsztatu badacza.

Podstawowe pojęcia: populacja, próba, parametr, estymator

Populacja a próba – „świat” badania a rzeczywistość kliniczna

Populacja to zbiór wszystkich pacjentów, o których chcemy się czegoś dowiedzieć. Może to być „wszyscy dorośli z nadciśnieniem” albo „kobiety po 65. roku życia po zawale”. Do tak szerokiej grupy nie mamy bezpośredniego dostępu, więc badamy próbę – ograniczoną liczbę osób, które rzeczywiście wzięły udział w badaniu.

To rozróżnienie jest kluczowe, gdy chcemy uogólniać wnioski. Jeśli badanie z udziałem 200 pacjentów przeprowadzono w jednym ośrodku, w określonym kraju, z surowymi kryteriami włączenia, to wyniki odnoszą się przede wszystkim do tej zawężonej populacji. Mówienie później, że „lek działa u wszystkich chorych na świecie” wymaga ostrożności.

Kryteria włączenia i wyłączenia tworzą swego rodzaju „filtr”, który buduje „świat badania”. Pacjent z wielochorobowością, obecny w codziennej praktyce, bywa z niego wycięty. Statystyka pozwala policzyć efekty w obrębie badania, ale pytanie o to, na ile te efekty można przenieść na realną populację, to już kwestia uważnej interpretacji metodologicznej.

Parametr populacyjny a statystyka z próby

W praktyce klinicznej interesują nas parametry populacyjne, na przykład:

  • „prawdziwa” średnia wartość LDL u wszystkich pacjentów z danej grupy,
  • „prawdziwe” ryzyko zawału w ciągu roku w populacji przyjmującej dany lek,
  • „prawdziwy” odsetek powikłań po określonej procedurze chirurgicznej.

Problem polega na tym, że tych wartości nigdy nie znamy dokładnie. Mamy jedynie estymacje oparte na próbie. Średnia z próby, odsetek zdarzeń w badaniu, różnica między grupami – to wszystko to statystyki z próby, czyli przybliżenia parametrów populacyjnych.

Estymator to reguła pozwalająca z danych w próbie „wyprodukować” taki szacunek. Średnia arytmetyczna jest estymatorem wartości oczekiwanej, odsetek zdarzeń – estymatorem prawdopodobieństwa. Gdy mówimy, że leczenie obniża ciśnienie skurczowe o 8 mmHg, to w rzeczywistości mówimy: „nasz estymator sugeruje, że w tej próbie przeciętne obniżenie wyniosło 8 mmHg; prawdziwy efekt w populacji jest w pobliżu tej wartości, z pewną niepewnością”.

Coraz częściej wiedzę statystyczną porządkuje się tak jak inne dziedziny – w formie podręczników i kursów. Dobrze dobrana książka czy kurs, np. z oferty specjalistycznych księgarni takich jak Styczna, bywa realnym skrótem drogi w porządkowaniu tej wiedzy, bo prowadzi krok po kroku od podstaw po praktyczne przykłady z badań naukowych.

Losowy dobór próby a realia badań klinicznych

Ideał statystyczny to randomowe (losowe) pobranie próby z populacji. Gdyby każdy pacjent z grupy docelowej miał równą szansę trafić do badania, uogólnianie wyników byłoby prostsze, a obciążenia (bias) – mniejsze.

W praktyce medycznej rzadko udaje się tak idealnie dobierać uczestników. Często rekrutuje się pacjentów z konkretnych ośrodków, o określonym poziomie motywacji, zgody na udział, z wykluczeniem wielu chorób towarzyszących. Taka próba bywa bardziej „wyselekcjonowana” niż rzeczywista populacja.

Na etap doboru próby nakłada się jeszcze randomizacja do grupy badanej i kontrolnej, która ma z kolei zrównoważyć grupy wewnątrz badania. To dwie różne kwestie: losowy dobór uczestników do badania i losowy przydział uczestników do ramion terapii. Dobrze zaprojektowany proces rekrutacji, omówiony szerzej w literaturze dotyczącej projektowania badań, jest tak samo ważny jak sam plan statystyczny.

Przypadkowość a systematyczność: błąd losowy i błąd systematyczny

Błąd w badaniu nie zawsze oznacza „błąd popełniony przez badacza”. Dane „szumią” naturalnie: wartości glikemii jednego pacjenta mierzonego co godzinę nie będą identyczne, nawet przy stałym spożyciu pokarmu. Ten naturalny błąd losowy powoduje wahania i rozrzut wyników.

Błędem systematycznym (bias) nazywamy natomiast takie zniekształcenia, które faworyzują jedną stronę:

  • selekcja zdrowszych pacjentów do grupy leczonej,
  • nierównomierne raportowanie działań niepożądanych,
  • brak zaślepienia, który zmienia sposób oceny punktów końcowych.

Z błędem losowym walczymy głównie przez:

  • zwiększanie wielkości próby,
  • używanie lepszych, bardziej powtarzalnych narzędzi pomiarowych,
  • sprawdzenie rozkładów i odchyleń standardowych.

Błąd systematyczny ogranicza się natomiast przez:

  • dobre zaprojektowanie badania (randomizacja, zaślepienie),
  • standaryzację procedur,
  • monitorowanie danych i analiza wrażliwości.

Nawet najdoskonalsze testy statystyczne nie „naprawią” badania z głębokim biasem. Dlatego zrozumienie różnicy między szumem losowym a zniekształceniem systematycznym jest jednym z fundamentów czytania literatury naukowej.

Zmienne w badaniach medycznych i ich konsekwencje dla analizy

Typy zmiennych: ciągłe, porządkowe, kategoryczne

Pierwszym pytaniem, jakie zadaje statystyk, jest zwykle: „jakiego rodzaju są twoje dane?”. Typ zmiennej decyduje o tym, jakie testy i miary są odpowiednie.

  • Zmienna ciągła – może przyjmować wiele wartości w pewnym przedziale, np. ciśnienie tętnicze, stężenie cholesterolu, masa ciała, czas hospitalizacji.
  • Zmienna porządkowa (ordinalna) – wartości mają określoną kolejność, ale odległości między stopniami nie muszą być równe, np. skala NYHA, skale bólu 0–10, stopień zaawansowania choroby.
  • Zmienna kategoryczna (nominalna) – opisuje przynależność do kategorii bez naturalnego porządku, np. grupa krwi, płeć, rozpoznanie choroby (TAK/NIE, typ A/B/C).

Na pozór drobna różnica między skalą porządkową a zmienną ciągłą ma ogromne konsekwencje. Traktowanie skali 1–5 jako „prawdziwej” miary ilościowej (jak ciśnienie) może prowadzić do mylących średnich i odchyleń standardowych, a co za tym idzie – do źle dobranych testów.

Zmienna zależna, niezależna i mieszająca (confounder)

Gdy pada pytanie „czy palenie powoduje raka płuca?”, statystycznie oznacza to: czy istnieje związek między zmienną niezależną (palenie) a zmienną zależną (wystąpienie raka płuca). W prostym ujęciu:

  • zmienna niezależna – czynnik, którego wpływ badamy (interwencja, ekspozycja),
  • zmienna zależna – wynik, który mierzymy (punkt końcowy),
  • zmienna mieszająca (confounder) – czynnik powiązany zarówno z ekspozycją, jak i wynikiem, mogący zniekształcać obserwowany związek.

Dla związku palenie–rak płuca typowymi confounderami są wiek i płeć: starsi mężczyźni częściej palą i mają większe ryzyko raka niezależnie od palenia. Jeśli się ich nie uwzględni, można przeszacować (lub czasem niedoszacować) realny wpływ palenia.

Jak rozpoznać confounder w praktyce klinicznej?

Na poziomie intuicji zmienna mieszająca to czynnik, który „ciągnie” związek w jedną lub drugą stronę, bo jest powiązany i z ekspozycją, i z wynikiem. W codziennym czytaniu badań pojawia się często pytanie: czy to naprawdę działanie leku, czy po prostu różnica w pacjentach?

Typowy schemat rozpoznawania zmiennej mieszającej wygląda tak:

  • dany czynnik jest związany z ekspozycją (np. starsi częściej otrzymują określony typ leczenia),
  • ten sam czynnik wpływa na wynik (np. starszy wiek zwiększa ryzyko zgonu niezależnie od terapii),
  • czynnik ten nie leży na „ścieżce przyczynowej” między ekspozycją a wynikiem, czyli nie jest ogniwem pośrednim działania (np. ciśnienie krwi może być ogniwem pośrednim między lekiem a udarem, a nie confounderem).

Jeżeli po uwzględnieniu danego czynnika w analizie (np. po skorygowaniu o wiek i płeć) wskaźnik efektu wyraźnie się zmienia, mamy silny sygnał, że zmienna mieszająca grała dużą rolę. Gdy natomiast korekta niczego istotnego nie zmienia – confounding jest w danym aspekcie mniej prawdopodobny.

Prosty przykład z praktyki: porównujemy wyniki leczenia nowotworu w dwóch szpitalach. W jednym jest oddział referencyjny, do którego trafiają cięższe przypadki, w drugim – łagodniejsze. Surowe porównanie śmiertelności „kara” szpital referencyjny, choć to tam często stosuje się bardziej zaawansowane (i skuteczne) terapie. Tu zmienną mieszającą jest nasilenie choroby w chwili przyjęcia.

Efekt modyfikujący a zmienna mieszająca

Nie każdy czynnik, który wygląda na „przeszkadzający”, jest confounderem. Czasem mamy do czynienia z modyfikatorem efektu (efektem interakcji). Oznacza to, że realny wpływ leczenia lub ekspozycji jest inny w różnych podgrupach.

Klasyczny przykład: ten sam lek przeciwkrzepliwy może mieć wyższe względne ryzyko krwawień u osób starszych niż u młodszych, choć generalnie obniża ryzyko udaru w obu grupach. Wiek niekoniecznie „fałszuje” związek; on go zmienia.

Różnica praktyczna jest istotna:

  • confounder – chcemy go skorygować, aby uzyskać „oczyszczony” efekt ekspozycji,
  • modyfikator efektu – chcemy go pokazać, bo informuje, u kogo leczenie działa inaczej (silniej, słabiej, mniej bezpiecznie).

Dla lekarza klinicysty informacje o modyfikacji efektu są często cenniejsze niż uśredniony wynik całego badania. To dzięki nim można podjąć decyzję „u pacjentów w takim wieku i z takim profilem ryzyka korzyści przeważają nad ryzykiem, ale w innej grupie już niekoniecznie”.

Lekarz analizuje wyniki badań na wydrukowanych wykresach medycznych
Źródło: Pexels | Autor: cottonbro studio

Miary położenia i rozproszenia: jak opisywać dane liczbowe

Średnia, mediana i dominanta – co naprawdę „typowe”?

Gdy patrzymy na dane liczbowe, pierwszym odruchem jest policzenie średniej. Jest ona jednak wrażliwa na wartości skrajne. Jeśli w oddziale intensywnej terapii jedna osoba leży bardzo długo, „zawija” średnią długość hospitalizacji w górę, choć większość pacjentów wychodzi dużo wcześniej.

W takim kontekście często lepiej sprawdza się mediana – wartość dzieląca uporządkowany zbiór na połowę. Jeśli mediana długości pobytu wynosi 5 dni, oznacza to, że połowa pacjentów leży krócej, a połowa dłużej. Z kolei dominanta (moda) to wartość występująca najczęściej, np. najczęstsza kategoria BMI lub najczęściej stosowana dawka leku.

Dobrym nawykiem jest pytanie: „czy rozkład jest z grubsza symetryczny?”. Jeżeli tak – średnia i mediana będą blisko siebie i można śmiało raportować średnią. Jeżeli mamy mocno skośny rozkład (np. czas hospitalizacji, poziomy markerów zapalnych u części chorych), mediana wraz z zakresem kwartylowym często odda rzeczywistość lepiej niż sama średnia.

Odchylenie standardowe, rozstęp i kwartyle

Opis „średnia 140 mmHg” bez informacji o zmienności bywa zwodniczy. Średnia 140 może oznaczać, że prawie wszyscy mają ciśnienie w okolicy 140, ale też że połowa ma 110, a druga połowa 170. Klinicznie to dwie zupełnie różne sytuacje.

Najczęściej używane są trzy podstawowe miary rozproszenia:

  • odchylenie standardowe (SD) – opisuje przeciętną odległość obserwacji od średniej; wygodne przy rozkładach zbliżonych do normalnego,
  • rozstęp – różnica między wartością maksymalną a minimalną; dobra orientacyjnie, ale bardzo zależna od pojedynczych skrajnych obserwacji,
  • rozstęp międzykwartylowy (IQR) – różnica między 25. a 75. centylem; mówi, w jakim przedziale leży „środkowe” 50% obserwacji.

W raportach z badań medycznych dane o zbliżonym do normalnego rozkładzie prezentuje się często jako średnia ± SD, a dane skośne jako mediana (IQR). Sama konwencja zapisu już podpowiada uważnemu czytelnikowi, z jakim typem rozkładu ma do czynienia i jakie testy statystyczne mogły zostać użyte.

Procenty, ryzyko i częstość – różne sposoby mówienia o tym samym

Przy danych binarnych (np. „wystąpiło powikłanie – tak/nie”) pracujemy najczęściej z odsetkami. Te same informacje można jednak wyrażać na kilka sposobów:

  • ryzyko – prawdopodobieństwo zdarzenia w określonym czasie (np. 10% ryzyka zgonu w ciągu 30 dni),
  • częstość (incydencja) – liczba nowych przypadków na jednostkę czasu i populacji (np. 3 zawały/100 osobolat),
  • prewalencja – odsetek osób z daną cechą lub chorobą w danym momencie (np. 15% populacji ma cukrzycę).

Te subtelne różnice mają praktyczne konsekwencje. Prewalencja otyłości nie powie, ilu nowych pacjentów z otyłością przybędzie w ciągu roku, tak samo jak incydencja nie opisze „obciążenia” populacji chorobą w danym dniu. Przy interpretacji badań epidemiologicznych rozróżnienie tych pojęć chroni przed wyciąganiem pochopnych wniosków.

Rozkłady danych i prawo wielkich liczb w medycynie

Rozkład normalny i dlaczego statystycy tak go lubią

Wiele testów statystycznych (np. klasyczny test t) opiera się na założeniu, że dane mają rozkład zbliżony do normalnego, czyli „dzwonowaty”. W takim rozkładzie:

  • większość wartości skupia się wokół średniej,
  • średnia, mediana i dominanta są blisko siebie,
  • około 68% obserwacji mieści się w przedziale ±1 SD od średniej, a ok. 95% w ±2 SD.

Cechy takie jak wzrost, masa ciała w populacji ogólnej czy ciśnienie tętnicze u stabilnych pacjentów często przybliżają ten kształt, choć nigdy idealnie. Z tego powodu rozkład normalny stał się wygodnym modelem, a wiele procedur jest na niego „skalibrowanych”.

Kiedy rozkład jest wyraźnie skośny (np. stężenia troponiny, długość pobytu w OIT), stosowanie metod zakładających normalność bywa ryzykowne. Wtedy z pomocą przychodzą transformacje (np. logarytmiczna) albo testy nieparametryczne, mniej wrażliwe na kształt rozkładu.

Prawo wielkich liczb: dlaczego „więcej” znaczy „pewniej”

Intuicyjnie każdy lekarz to zna: im więcej pacjentów leczymy daną metodą, tym lepiej wiemy, czego się spodziewać. W statystyce opisuje to prawo wielkich liczb. Mówi ono, że wraz ze wzrostem wielkości próby średnia z próby zbliża się do prawdziwej średniej w populacji.

Jeśli w oddziale kardiologicznym porównamy śmiertelność po zawale na podstawie 10 pacjentów, wyniki będą skakać z miesiąca na miesiąc. Przy 100 czy 1000 pacjentów wartości ustabilizują się w okolicach pewnego typowego poziomu. To nie „magia doświadczenia”, lecz właśnie działanie prawa wielkich liczb.

Do kompletu polecam jeszcze: Fizyka półprzewodników: tytuły, które przydadzą się elektronikom i fizykom — znajdziesz tam dodatkowe wskazówki.

W praktyce oznacza to, że małe badania są szczególnie podatne na przypadkowe wahania. Medycznie kuszące jest wyciąganie daleko idących wniosków z niewielkich serii przypadków, ale statystycznie takie wnioski wymagają dużego dystansu – oraz zwykle potwierdzenia w większych próbach.

Centralne twierdzenie graniczne – niemy bohater testów statystycznych

Drugim filarem, z którego korzystamy niemal bezwiednie, jest centralne twierdzenie graniczne. W uproszczeniu: jeśli bierzemy wiele niezależnych próbek z tej samej populacji i liczymy z nich średnie, to rozkład tych średnich dąży do rozkładu normalnego, nawet jeśli pierwotne dane nie są normalne.

Dlatego przy wystarczająco dużych próbach można stosować testy „normalne” (np. test t) także dla zmiennych, które same w sobie nie mają idealnie dzwonowatego rozkładu. Kluczowe jednak jest słowo „wystarczająco dużych” – przy niewielkich próbach nadużywanie tego założenia prowadzi do zwiększonego ryzyka błędnych wniosków.

Błąd typu I i II, istotność statystyczna i moc badania

Hipoteza zerowa: punkt wyjścia każdej analizy

Większość klasycznych testów statystycznych opiera się na idei hipotezy zerowej. To założenie, że nie ma efektu lub różnice obserwowane w próbie są wyłącznie wynikiem przypadku. Przykłady hipotez zerowych:

  • „nowy lek nie różni się skutecznością od standardowego”,
  • „odsetek powikłań jest taki sam w obu grupach”,
  • „nie ma związku między ekspozycją a wystąpieniem choroby”.

Test statystyczny sprawdza, jak prawdopodobne byłyby nasze dane (lub bardziej skrajne) gdyby hipoteza zerowa była prawdziwa. Jeżeli okazuje się to bardzo mało prawdopodobne, decydujemy się hipotezę zerową odrzucić.

Błąd typu I (alfa): fałszywy alarm

Błąd typu I popełniamy, gdy odrzucamy hipotezę zerową, choć w rzeczywistości jest prawdziwa. To sytuacja: „uznajemy, że jest efekt, choć go nie ma”. W języku badań klinicznych – ogłaszamy lek skutecznym, mimo że w populacji nie daje on rzeczywistej poprawy.

Prawdopodobieństwo popełnienia tego błędu oznacza się literą α i z góry ustala, np. 0,05. Znany z publikacji poziom istotności 0,05 oznacza zgodę na 5% ryzyka fałszywego alarmu przy jednym teście. Jeśli przeprowadzamy wiele testów na raz (np. liczne analizy podgrup), sumaryczne ryzyko fałszywych sygnałów rośnie – stąd konieczność korekt na wielokrotne porównania.

Błąd typu II (beta) i moc badania

Błąd typu II to sytuacja odwrotna: nie odrzucamy hipotezy zerowej, choć w rzeczywistości jest fałszywa. Mówimy: „nie ma efektu”, chociaż w populacji efekt istnieje. Prawdopodobieństwo popełnienia takiego błędu oznaczamy literą β.

Z błędem typu II bezpośrednio wiąże się moc badania – 1−β. Moc to prawdopodobieństwo wykrycia rzeczywistego efektu, jeśli on faktycznie istnieje. Standardem w medycynie stało się planowanie badań z mocą ok. 80–90%. Niższa moc oznacza, że badanie może być „za słabe”, by udowodnić realnie obecny efekt.

Przykład: jeśli nowe leczenie rzeczywiście zmniejsza śmiertelność, ale próba jest zbyt mała, porównanie może okazać się „statystycznie nieistotne”. Wtedy merytorycznie dobry pomysł terapeutyczny może zostać przedwcześnie odrzucony tylko dlatego, że nie zaplanowano odpowiedniej wielkości próby.

Planowanie wielkości próby – mniej „magii”, niż się wydaje

Obliczenie liczebności próby wydaje się często zarezerwowane dla biostatystyków, ale ogólna logika jest prosta. Do wyznaczenia potrzebnej liczby pacjentów potrzebujemy kilku elementów:

  • oczekiwanej wielkości efektu (np. różnica w ciśnieniu o określoną liczbę mmHg),
  • akceptowanego poziomu błędu typu I (zwykle α=0,05),
  • docelowej mocy badania (np. 80% lub 90%),
  • zmienności w populacji (np. odchylenie standardowe ciśnienia).

Na tej podstawie można określić, ilu pacjentów trzeba zrekrutować do każdej grupy. Klinicznie ważna decyzja dotyczy tego, co uznajemy za „istotną” wielkość efektu: czy różnica 2 mmHg w ciśnieniu jest tego warta, by prowadzić duże badanie, czy ma sens celować w większą, realnie odczuwalną zmianę?

p-wartości, przedziały ufności i kliniczne znaczenie wyników

p-wartość: co mówi, a czego nie mówi

Jak rozumieć p-wartość w badaniach klinicznych

p-wartość to prawdopodobieństwo otrzymania wyniku co najmniej tak „skrajnego”, jak zaobserwowany, przy założeniu, że hipoteza zerowa jest prawdziwa. Mówiąc bardziej po ludzku: zakładamy, że między grupami nie ma różnic ani efektu. Następnie pytamy, jak często przypadek mógłby wygenerować tak duże (lub większe) odchylenie od „braku różnicy”.

Jeśli to prawdopodobieństwo jest bardzo małe, np. p=0,01, uznajemy, że wyjaśnienie „to tylko przypadek” jest mało przekonujące i odrzucamy hipotezę zerową. Jeżeli p=0,3, dane są całkowicie zgodne z założeniem „różnic nie ma” – brak podstaw, by je kwestionować.

Najczęstsze nieporozumienia związane z p-wartością to:

  • p < 0,05 nie znaczy, że „prawdopodobieństwo, że wynik jest prawdziwy, wynosi 95%”,
  • p > 0,05 nie dowodzi, że „efektu nie ma” – często mówi tylko, że badanie nie miało dość danych, by go wykazać,
  • p nie mówi nic o wielkości efektu – bardzo małe różnice w ogromnych próbach także mogą dawać „istotność statystyczną”.

Wyobraźmy sobie duże badanie, w którym nowy lek obniża skurczowe ciśnienie średnio o kilka mmHg względem placebo, z p<0,001. Statystycznie wynik jest nie do podważenia, ale z klinicznego punktu widzenia może nie mieć większego znaczenia dla chorego konkretnego pacjenta. Stąd potrzeba spojrzenia dalej niż tylko na p-wartość.

Przedziały ufności: ile niepewności wokół szacunku

Przedział ufności (PU, najczęściej 95%) pokazuje zakres wartości, w którym – w świetle danych – z dużym prawdopodobieństwem leży prawdziwa wartość parametru w populacji. Można myśleć o nim jak o „ramce niepewności” wokół punktowego oszacowania (średniej, różnicy, ilorazu).

Jeżeli 95% PU dla różnicy ciśnień między grupami wynosi np. od −1 do −9 mmHg, oznacza to, że dane są zgodne zarówno z niewielkim, jak i wyraźnym spadkiem ciśnienia, ale wykluczają wzrost (bo cały przedział jest poniżej zera). Jeśli natomiast PU przecina zero (np. od −2 do +5 mmHg), wynik jest niejednoznaczny: dane pasują zarówno do scenariusza braku efektu, jak i zwiększenia wartości.

Kilka praktycznych sygnałów, które ułatwiają czytanie przedziałów ufności:

  • dla różnic średnich: przedział w całości powyżej zera – efekt dodatni, w całości poniżej – efekt ujemny, obejmujący zero – wynik niepewny,
  • dla ilorazu szans (OR) czy ilorazu ryzyka (RR): przedział w całości powyżej 1 sugeruje zwiększone ryzyko, w całości poniżej 1 – zmniejszone, przecinający 1 – brak jednoznaczności,
  • szerokość przedziału odzwierciedla precyzję: wąski PU to większa pewność szacunku, szeroki – duża niepewność, zwykle przy małej próbie.

Przedziały ufności łączą w jednym obiekcie trzy elementy: kierunek efektu, jego możliwą wielkość i precyzję oszacowania. To dlatego dla doświadczonych badaczy są zwykle ważniejsze niż sama p-wartość.

Istotność statystyczna a istotność kliniczna

Statystyka odpowiada głównie na pytanie: „czy to, co widzimy, da się racjonalnie wytłumaczyć przypadkiem?”. Klinicystę interesuje raczej: „czy ma to znaczenie dla życia pacjenta, decyzji terapeutycznej, organizacji opieki?”. Te dwa światy spotykają się w pojęciach istotności statystycznej i klinicznej – i nie zawsze idą w parze.

Wyobraźmy sobie terapię, która skraca hospitalizację średnio o kilkanaście minut, przy p<0,001. Przy bardzo dużej próbie nawet minimalne różnice urastają do rangi „istotnych”. Pytanie brzmi: czy ta oszczędność ma znaczenie dla pacjenta, obłożenia oddziału, kosztów? Z drugiej strony badanie małe, ale dobrze zaplanowane, może pokazywać wyraźnie istotną różnicę, która nie osiąga konwencjonalnego poziomu istotności (np. p=0,07), bo zabrakło kilkunastu pacjentów.

Przy lekturze wyników pomocne jest zadanie sobie trzech prostych pytań:

Jeśli interesują Cię konkrety i przykłady, rzuć okiem na: Projektowanie badań w medycynie: randomizacja, zaślepienie i punkty końcowe.

  1. Jaka jest skala efektu? (ile mmHg, ile punktów w skali, jaka różnica w ryzyku?)
  2. Czy ta skala jest odczuwalna i ważna dla pacjenta lub systemu?
  3. Na ile pewne jest to oszacowanie (szerokość przedziału ufności, moc badania)?

Dopiero złożenie tych elementów – a nie samo „p<0,05” – tworzy solidną podstawę do zmiany praktyki klinicznej.

Ręce w rękawiczkach analizujące wydrukowane wyniki badań laboratoryjnych
Źródło: Pexels | Autor: Pavel Danilyuk

Miary efektu w badaniach klinicznych: od ryzyka względnego do NNT

Ryzyko względne (RR) i bezwzględna różnica ryzyk (ARR)

Gdy wynik dotyczy częstości zdarzeń (np. zgon, zawał, powikłanie), kluczowe stają się miary porównujące ryzyko między grupami. Dwie najważniejsze to:

  • ryzyko względne (RR) – iloraz ryzyka w grupie interwencji do ryzyka w grupie kontrolnej,
  • bezwzględna różnica ryzyk (ARR) – prosta różnica: ryzyko w kontroli minus ryzyko w interwencji (lub odwrotnie, zależnie od definicji).

Ryzyko względne dobrze oddaje proporcjonalną zmianę ryzyka, ale potrafi być mylące, jeśli nie znamy ryzyka bazowego. Przykładowo, redukcja ryzyka o 50% (RR=0,5) brzmi imponująco, lecz co innego oznacza przy spadku z 40% do 20% niż z 2% do 1%. W pierwszym scenariuszu unikamy realnie wielu zdarzeń, w drugim – niewielu.

Bezwzględna różnica ryzyk (ARR) odpowiada bezpośrednio na pytanie: „o ile punktów procentowych mniej (lub więcej) zdarzeń wystąpiło w grupie leczonej?”. To właśnie z ARR wylicza się liczbę pacjentów, których trzeba leczyć, by uzyskać dodatkową korzyść.

Liczba pacjentów do leczenia (NNT) i do zaszkodzenia (NNH)

NNT (Number Needed to Treat) to odwrócona wartość bezwzględnej różnicy ryzyk:

NNT = 1 / ARR

Jeżeli terapia zmniejsza ryzyko zgonu z, powiedzmy, 10% do 5%, ARR wynosi 0,05 (5 punktów procentowych). NNT będzie wynosiło 1 / 0,05 = 20. Interpretacja jest intuicyjna: trzeba leczyć 20 pacjentów, aby u jednego z nich uniknąć zdarzenia, którego doświadczyłby przy standardowym postępowaniu.

Analogiczną miarą dla działań niepożądanych jest NNH (Number Needed to Harm) – liczba pacjentów, których trzeba poddać interwencji, aby u jednego wystąpiło dodatkowe działanie niepożądane. Im niższe NNT i im wyższe NNH, tym korzystniejszy bilans terapii.

Zestawienie NNT i NNH pozwala prowadzić rzeczową rozmowę z pacjentem: „u około jednego na kilkudziesięciu chorych ta terapia zapobiegnie zawałowi, ale u jednego na kilkuset może wywołać poważne krwawienie”. Ostateczna decyzja często zależy wtedy od preferencji pacjenta, jego sytuacji życiowej i indywidualnego profilu ryzyka.

Iloraz szans (OR) – kiedy i jak go interpretować

Iloraz szans (odds ratio, OR) porównuje nie tyle same ryzyka, co szanse zdarzenia (odds), czyli stosunek prawdopodobieństwa zdarzenia do prawdopodobieństwa jego braku. Dla niskich ryzyk OR jest zbliżony do RR, ale przy wyższych częstościach może znacząco je przeszacowywać.

OR powstaje naturalnie w:

  • badaniach kliniczno-kontrolnych, gdzie bezpośrednie wyliczenie ryzyka nie jest możliwe,
  • modelach regresji logistycznej, opisujących zależność między wieloma czynnikami a zmienną binarną (np. wystąpiło powikłanie – tak/nie).

Przy interpretacji OR przydaje się prosty nawyk: sprawdzić, jak duża jest częstość zdarzenia w badanej populacji. Jeśli zdarzenia są rzadkie (np. kilka procent), OR i RR są do siebie zbliżone. Jeżeli jednak zdarzenia dotyczą znacznego odsetka pacjentów, OR 2,0 nie znaczy, że „ryzyko podwaja się” – realny wzrost ryzyka może być dużo mniejszy.

Dobór testu statystycznego do pytania badawczego

Rodzaj zmiennej i struktura danych jako punkt wyjścia

Zanim padnie pytanie „jaki test zastosować?”, trzeba zidentyfikować kilka kluczowych elementów:

  • typ zmiennej: ciągła (np. ciśnienie), porządkowa (skale Likerta, stopnie zaawansowania), kategoryczna (tak/nie, typ choroby),
  • liczbę porównywanych grup: dwie (np. lek vs placebo) czy więcej (kilka dawek, wiele ramion badania),
  • powiązanie obserwacji: grupy niezależne (różni pacjenci) czy powtarzane pomiary u tych samych osób (przed i po leczeniu),
  • kształt rozkładu: zbliżony do normalnego czy wyraźnie skośny, z obecnością wartości odstających.

Dopiero na takim tle można sensownie dobrać narzędzie. Zasada jest prosta: nie tyle „który test jest modny”, lecz „jaki test pasuje do mojego pytania i danych”.

Najczęstsze scenariusze w praktyce klinicznej

Da się wyróżnić kilka typowych układów, które pojawiają się w większości prac klinicznych:

  • Porównanie dwóch niezależnych grup przy zmiennej ciągłej (np. wartości ciśnienia w grupie leczonej i kontrolnej):
    • rozkład zbliżony do normalnego, podobna wariancja – test t dla prób niezależnych,
    • rozkład skośny, obecne wartości skrajne, mała próba – test Manna-Whitneya (Wilcoxona).
  • Porównanie tej samej grupy „przed” i „po” (np. HbA1c przed i po wdrożeniu terapii):
    • przybliżona normalność różnic – test t dla prób zależnych,
    • brak normalności – test par Wilcoxona.
  • Porównanie więcej niż dwóch grup (np. trzy różne dawki leku):
    • zmienna ciągła, normalność, zbliżone wariancje – ANOVA jednoczynnikowa,
    • brak normalności – test Kruskala-Wallisa z ewentualnymi porównaniami parami.
  • Dane kategoryczne (tak/nie) w dwóch grupach (np. odsetek powikłań):
    • wystarczające liczebności w komórkach tabeli 2×2 – test chi-kwadrat,
    • małe liczebności – dokładny test Fishera.
  • Dane czas-do-zdarzenia (np. czas do zgonu, czas do nawrotu choroby):
    • opis przebiegu – krzywe Kaplana-Meiera,
    • porównanie dwóch krzywych – test log-rank,
    • jednoczesne uwzględnienie wielu czynników – model regresji Coxa.

Takie „mapy decyzji” nie zastępują konsultacji ze statystykiem, ale porządkują myślenie: test ma być narzędziem dopasowanym do pytania, a nie odwrotnie.

Parametryczne kontra nieparametryczne – o co w tym chodzi

Testy parametryczne (np. test t, ANOVA) zakładają, że dane pochodzą z określonych rozkładów, zwykle zbliżonych do normalnego, przy pewnych założeniach o wariancji. Testy nieparametryczne (Manna-Whitneya, Wilcoxona, Kruskala-Wallisa) są mniej wrażliwe na kształt rozkładu, bo opierają się na rangach, a nie na surowych wartościach.

W praktyce, jeśli:

  • próba jest duża,
  • rozkład nie jest skrajnie skośny,
  • nie występuje kilka skrajnych wartości, które „ciągną” średnią,

testy parametryczne sprawdzają się bardzo dobrze i mają wyższą moc. Przy małych próbach, dziwnych rozkładach i dużej liczbie wartości odstających lepiej sprawdzają się testy nieparametryczne, choć płaci się za to nieco niższą czułością na wykrywanie subtelnych efektów.

Modele wieloczynnikowe i rola regresji w badaniach medycznych

Dlaczego jednowymiarowe porównania często nie wystarczają

Najważniejsze wnioski

  • Statystyka stała się podstawowym „językiem” medycyny opartej na faktach (EBM) – to dzięki niej można porównywać badania, szacować rzeczywisty efekt terapii i jego niepewność, a nie opierać się wyłącznie na autorytecie czy intuicji.
  • Nawet proste miary, takie jak ryzyko względne, ryzyko bezwzględne, NNT i przedziały ufności, bezpośrednio przekładają się na decyzje przy łóżku chorego: pomagają oszacować, ilu pacjentów faktycznie skorzysta i jak pewny jest zaobserwowany efekt.
  • Skupienie się wyłącznie na „procentowej redukcji ryzyka” (RR) bez zrozumienia ryzyka bezwzględnego i szerokości przedziałów ufności prowadzi do przeszacowania korzyści terapii – lek może wyglądać spektakularnie na slajdzie, a w praktyce dawać zysk na granicy błędu statystycznego.
  • Brak przygotowania statystycznego sprzyja zarówno nadmiernemu entuzjazmowi wobec „hitowych” terapii, jak i uleganiu anegdotom o rzadkich działaniach niepożądanych; lekarz, który nie sięga do dużych badań i rejestrów, łatwo ulega szumowi medialnemu.
  • Współpraca z biostatystykiem nie zwalnia lekarza z rozumienia podstaw: musi on jasno formułować pytanie kliniczne, kojarzyć pojęcia typu randomizacja, błąd I i II rodzaju czy analiza podgrup oraz krytycznie czytać wyniki, które dostaje „z działu statystyki”.