Signifikanz
Definition
- In der Statistik verwendeter Begriff, der, basierend auf einer Nullhypothese, darüber eine Aussage trifft, ob ein betrachteter Unterschied
zwischen zwei Gruppen, aufgrund einer vorher festgelegten Irrtumswahrscheinlichkeit, als noch zufällig zustande gekommen
betrachtet werden kann. Bei signifikanten Unterschieden wird diese Zufälligkeit als so
unwahrscheinlich angesehen, dass man nun von einer kausalen Abhängigkeit
ausgeht.
Bemerkungen
Allgemeines
- Bei den Ergebnissen einer Stichprobe kann man sich nie vollkommen sicher sein, dass
die Ergebnisse nicht durch zufällige Faktoren verfälscht sind. Man kann aber berechnen, wie wahrscheinlich es ist, dass die gemessenen Ergebnisse nur aufgrund eines ungünstigen Zufalls auftreten.
- Dieser zufällige Fehler wird allgemein als Fehler 1. Art und die bedingte Wahrscheinlichkeit seines Auftretens unter der Voraussetzung, dass die Nullhypothese richtig ist, als Irrtumswahrscheinlichkeit bezeichnet.
- Es hat sich eingebürgert, die Irrtumswahrscheinlichkeit
auf 5 % festzulegen. Somit ergibt sich im Gegenzug
eine Wahrscheinlichkeit für die Korrektheit der getroffenen Aussage von
95 %. Diese Wahrscheinlichkeit wird als Konfidenzniveau
bezeichnet.
- Die Wahl des Wertes 5 % ist daraus abgeleitet, dass er in etwa dem
Anteil der Messwerte entspricht, die sich bei Vorliegen einer Normalverteilung außerhalb des Bereiches von
±2 Standardabweichungen um
den Erwartungswert befinden müssten.
- Bei einer berechneten Irrtumswahrscheinlichkeit von < 5 % spricht man nun von
Signifikanz.
- Als "hochsignifikant" bezeichnet man ein Ergebnis, das auf
einer Irrtumswahrscheinlichkeit von 0,3 % beruht. Bei Annahme einer
Normalverteilung fallen nur ca. 0,3 % aller Testergebnisse in den
Bereich außerhalb 3 Standardabweichungen um den Erwartungswert.
- Die statistische Signifikanz beschreibt somit den Informationsgehalt eines
beobachteten Ereignisses bzw. einer
Messung.
Überprüfung
Probleme
Allgemeines
- Auch bei - tatsächlich oder vorgeblich - statistisch signifikanten Aussagen ist
stets eine kritische Überprüfung der Versuchsanordnung und -durchführung notwendig.
- Nur selten genügen wissenschaftliche Untersuchungen wirklich den
mathematisch geforderten Bedingungen für einen aussagefähigen statistischen Test.
- Bei vielen Studien steht hingegen der Wunsch des oder der Studiendurchführenden (z.B. im Rahmen einer
Doktorarbeit oder einer Zulassungsstudie) nach einem
"signifikanten" Ergebnis bei der Studiendurchführung zu sehr im Vordergrund.
- Eine bloße Bestätigung der Nullhypothese
wird allgemein (und hier besonders) häufig als uninteressant und überflüssig,
ja z.T. sogar als negativ angesehen.
- Im schlimmsten Fall werden so Studien nachtäglich in ihrem
Design so weit abgeändert, bis doch irgendwo statistisch signifikante
Ergebnisse auftreten (und sei es durch Fehler 2. Art...)
- Als Hinweise auf die Qualität einer Studie können im medizinischen Umfeld die Eigenschaften
"randomisiert", "kontrolliert" und "doppelblind" gelten. Ohne diese sind Aussagen etwa zur Wirksamkeit von Therapien mit äußerster Vorsicht zu behandeln.
- Sehr schwierig und problematisch ist insbesondere die Interpretation signifikanter Korrelationen in retrospektiven Studien. Zu bedenken ist
darüber hinaus stets, dass aus statistisch signifikanten Korrelationen oft fälschlich auf eine vermeintliche Kausalität geschlossen wird.
"Publikationsbias"
- Vielfach wurde die Signifikanz als Maß dafür genommen, ob ein
wissenschaftlicher Artikel veröffentlicht werden sollte. Dies führt jedoch
zum sogenannten "Publikationsbias", da mögliche Zufallsergebnisse
nicht durch Publikation der gesamten Bandbreite der durchgeführten
Untersuchungen relativiert werden können.
- In der Publikation von Ergebnissen klinischer Studien sind derzeit
Anstrengungen durch internationale Fachzeitschriften wie auch der
forschenden Institutionen (insbesondere Pharmaunternehmen) im Gange, öffentlich
zugängliche Datenbanken, in welchen verbindlich alle durchgeführten
Studien sowie ihre prospektiv definierten Zielparameter enthalten sind, zu
schaffen.
- Dadurch sollen die Komplettheit der Veröffentlichung auch unangenehmer
Resultate überprüfbar und eine Einschätzung des Publikationsbias möglich
werden.
Aussagewert und Teststärke (Beispiel klinische Forschung)
- Statistisch signifikante Studien können trotzdem einen geringen
praktischen Aussagewert haben.
- Studien mit großer Fallzahl führen aufgrund der hohen statistischen Teststärke oft zu hoch signifikanten Ergebnissen.
Solche Studien können aber trotzdem einen geringen Aussagewert haben, wenn die
Größe des beobachteten Effekts (oder der gemessene Parameter) nicht
klinisch relevant ist.
- Statistische Signifikanz ist also ein notwendiges
Kriterium, aber noch kein hinreichender Beweis für Wirkung eines
Medikaments von praktischer Relevanz!
- Weitere kritische Prüfsteine vom methodologischen Gesichtspunkt aus sind:
- Die Korrektheit der statistischen Modellannahmen (beispielsweise die
Verteilungsannahme)
- Die Anzahl der durchgeführten statistischen Tests (bei mehreren Tests,
von welchen nicht einer eindeutig als primärer Test gekennzeichnet ist,
sollte eine Adjustierung des Signifikanzniveaus durchgeführt werden)
- Die prospektive Definition der Analysemethoden vor der "Entblindung"
doppelblinder Studien.
Irrige Überzeugungen
- Entgegen weit verbreiteter Meinung ist Signifikanz nicht mit der Irrtumswahrscheinlichkeit gleich zu setzen. Nicht zutreffend sind die
Annahmen, das Signifikanzniveau (bzw. der beobachtete p-Wert) lege fest
|