PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Implicitly adaptive FDR control based on the asymptotically optimal rejection curve
Thorsten Dickhaus
In: Mathematical Colloquium, Bremen, Germany(2011).

Abstract

Sollen im Rahmen eines statistischen Experimentes mehrere Hypothesenpaare simultan geprüft werden, so wird dies als multiples Testproblem bezeichnet. In den Fünfzigerjahren des 20. Jahrhunderts begann die theoretische Untersuchung multipler Testprobleme, insbesondere im Kontext biometrischer Fragestellungen. Ziel war die Entwicklung von Testprozeduren, die das multiple Niveau $\alpha$ (englisch: Family-Wise Error Rate, FWER) kontrollieren, d.h., die mit einer Wahrscheinlichkeit von mindestens $(1-\alpha)$ keine einzige wahre Nullhypothese ablehnen. Bedingt durch rasante technische Fortschritte in vielen Wissenschaftsbereichen kann die Mächtigkeit zu bearbeitender Hypothesensysteme in heutigen Anwendungsfällen jedoch nahezu beliebig groß werden. Typische Beispiele sind genetische Assoziationsstudien (500.000 bis 1 Mio. SNPs pro Microarray) Proteomanalysen (ca. 5000 Protein-Spots pro Gelplatte) oder Signalerkennung in der Kosmologie (mehr als 1 Mio. Bildpunkte werden am Himmel erfasst). In solchen, teilweise explorativen Charakter tragenden Analysen ist die FWER ein zu konservatives Fehlermaß und kann zu vielen falsch negativen Resultaten führen. Im Jahre 1995 wurde von Benjamini und Hochberg die Verwendung der False Discovery Rate (FDR) als alternatives Fehlermaß in solchen Situationen propagiert. Die FDR misst den erwarteten Anteil fälschlicher Verwerfungen (also Typ I-Fehlern) an allen Ablehnungen. Insbesondere durch Einführung der FDR hat sich die multiple Testtheorie in den letzten etwa 15 Jahren zu einem der Top-Forschungsgebiete im Bereich Statistik entwickelt, das momentan etwa 8% aller Publikationen in den vier höchstrangigen methodisch orientierten Statistik-Zeitschriften ausmacht (Daten aus [1]). Wir präsentieren aktuelle Forschungsarbeit zur Entwicklung von FDR-kontrollierenden Testverfahren mit hoher Güte. Neben explizit daten-adaptiven Ansätzen wie in [2] steht die asymptotisch optimale Ablehnkurve (AORC, siehe [3]) im Mittelpunkt, die für schrittweise Testprozeduren unter Unabhängigkeitsannahmen asymptotisch ideale kritische Werte induziert, wenn die Anzahl simultan zu prüfender Hypothesen gegen unendlich strebt. Neben den asymptotischen Resultaten aus [3] werden auch die in [4] untersuchten Modifikationen der AORC für finite Hypothesensysteme diskutiert.

EPrint Type:Conference or Workshop Item (Invited Talk)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Computational, Information-Theoretic Learning with Statistics
Learning/Statistics & Optimisation
ID Code:7879
Deposited By:Thorsten Dickhaus
Deposited On:17 March 2011