Dtsch Med Wochenschr 2002; 127(Suppl. Statistik): T 4-T 7
DOI: 10.1055/s-2002-32816
Statistik
© Georg Thieme Verlag Stuttgart · New York

Multiples Testen

- Artikel Nr. 12 der Statistik-Serie in der DMW -R. Bender1 , St Lange2 , A. Ziegler3
  • 1AG Epidemiologie und Medizinische Statistik (Leitung: Prof. Dr. M. Blettner), Fakultät für Gesundheitswissenschaften, Universität Bielefeld
  • 2Abteilung für Medizinische Informatik, Biometrie u. Epidemiologie (Direktor: Prof. Dr. H. J. Trampisch), Ruhr-Universität Bochum
  • 3Institut für Medizinische Biometrie und Statistik (Direktor: Prof. Dr. A. Ziegler), Universitätsklinikum Lübeck, Medizinische Universität zu Lübeck
Further Information

Publication History

Publication Date:
16 July 2002 (online)

Irrtumswahrscheinlichkeiten bei multiplen Signifikanztests

Häufig werden in der biomedizinischen Forschung zum Nachweis von Effekten oder Zusammenhängen statistische Signifikanztests [9] verwendet und das Ergebnis in Form von p-Werten [4] angegeben. Ist dieser p-Wert kleiner als das vorgegebene Signifikanzniveau α (häufig α = 0,05), so wird die Nullhypothese, dass kein Effekt existiert, verworfen. Das Signifikanzniveau α begrenzt die Wahrscheinlichkeit für den Fehler 1. Art, nämlich beim Ablehnen der Nullhypothese eine falsche Entscheidung zu treffen. Die Kontrolle dieser Irrtumswahrscheinlichkeit ist die wesentliche Eigenschaft eines Signifikanztests zum Niveau α. Die Begrenzung der Irrtumswahrscheinlichkeit auf höchstens α gilt allerdings nur beim Testen einer Hypothese mit Hilfe eines Signifikanztests. Werden zur Untersuchung einer Fragestellung mehrere Tests jeweils zum Niveau α durchgeführt (Mehrhypothesenproblem), so wird zwar für jeden einzelnen Test die individuelle Irrtumswahrscheinlichkeit (engl.: individual error rate) kontrolliert, die versuchsbezogene Irrtumswahrscheinlichkeit (engl.: experimentwise error rate) für das gesamte Mehrhypothesenproblem ist jedoch größer als α.

Zur Beschreibung der Testeigenschaften im Rahmen von Mehrhypothesenproblemen müssen verschiedene Signifikanzniveaus unterschieden werden. Bei der Anwendung multipler Tests hält man das lokale Signifikanzniveau (engl.: local significance level) von α ein, wenn jede individuelle Nullhypothese höchstens mit Wahrscheinlichkeit α irrtümlich abgelehnt wird. Die versuchsbezogene Irrtumswahrscheinlichkeit ist jedoch durch die Wahrscheinlichkeit gegeben, mindestens eine der individuellen Nullhypothese irrtümlich abzulehnen; um diese zu kontrollieren, genügt nicht die Einhaltung des lokalen Signifikanzniveaus. Ein multiples Testverfahren hält das globale Signifikanzniveau (engl.: global significance level) von α ein, wenn die Wahrscheinlichkeit, mindestens eine der einzelnen Nullhypothesen abzulehnen, unter der Annahme, dass alle Nullhypothesen zutreffen, höchstens α beträgt. Die Annahme der globalen Nullhypothese, nämlich dass alle einzelnen Nullhypothesen gleichzeitig richtig sind, ist jedoch in der Praxis meist unrealistisch. In der Regel möchte man sich vor der Fehlentscheidung schützen, mindestens eine wahre Nullhypothese abzulehnen, und zwar unabhängig davon, welche der anderen Nullhypothesen wahr oder falsch sind. Daher ist das multiple Signifikanzniveau (engl.: multiple significance level) definiert als die maximale Wahrscheinlichkeit mindestens eine der einzelnen Nullhypothesen irrtümlich abzulehnen, unabhängig davon, welche der anderen Nullhypothesen richtig sind und welche nicht. Die Einhaltung des multiplen Signifikanzniveaus ist das stärkste Kriterium, um sich bei der Anwendung multipler Signifikanztests vor Fehlentscheidungen zu schützen [3] [8] .

Literatur

  • 1 Aickin M, Gensler H. Adjusting for multiple testing when reporting research results: The Bonferroni vs Holm methods.  Am J Public Health. 1996;  86 726-728
  • 2 Altman D G, Bland J M. Comparing several groups using analysis of variance.  Br med J. 1996;  312 1472-1473
  • 3 Bauer P. Multiple testing in clinical trials.  Stat Med. 1991;  10 871-890
  • 4 Bender R, Lange S. Was ist der p-Wert?.  Dtsch Med Wochenschr. 2001;  126 T39-T40
  • 5 Bender R, Lange S. Verlaufskurven.  Dtsch Med Wochenschr. 2001;  126 T45-T46
  • 6 Bender R, Lange S. Adjusting for multiple testing - when and how?.  J Clin Epidemiol. 2001;  54 343-349
  • 7 Bland J M, Altman D G. Multiple significance tests: The Bonferroni method.  Br med J. 1995;  310 170
  • 8 Horn M, Vollandt R. Multiple Tests und Auswahlverfahren. Fischer, Stuttgart 1995
  • 9 Lange S, Bender R. Was ist ein Signifikanztest?.  Dtsch Med Wochenschr. 2001;  126 T42-T44
  • 10 O’Brien P C, Fleming T R. A multiple testing procedure for clinical trials.  Biometrics. 1979;  35 549-556
  • 11 Pocock S J. Group sequential methods in the design and analysis of clinical trials.  Biometrika. 1977;  64 191-199
  • 12 Proschan M A, Waclawiw M A. Practical guidelines for multiplicity adjustment in clinical trials.  Control Clin Trials. 2000;  21 527-539
  • 13 Sachs L. Angewandte Statistik. Anwendung statistischer Methoden (9. überarbeitete Auflage). Heidelberg: Springer 1999
  • 14 Sonnemann E. Allgemeine Lösungen multipler Testprobleme.  EDV Med Biol. 1982;  13 120-128
  • 15 The UK Prospective Diabetes Study (UKPDS) Group . Tight blood pressure control and risk of macrovascular and microvascular complications in type 2 diabetes: UKPDS 38.  Br med J. 1998;  317 703-713
  • 16 Westfall P H, Young S S. Resampling-Based Multiple Testing. New York: Wiley 1993

PD Dr. rer. biol. hum. Ralf Bender

AG Epidemiologie und Medizinische Statistik, Fakultät für Gesundheitswissenschaften, Universität Bielefeld

Postfach 100131

33501 Bielefeld

Email: Ralf.Bender@uni-bielefeld.de

    >