PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Wahrscheinlichkeitstheoretische Grundlagen für False Discovery Rate-kontrollierende multiple Testprozeduren
Thorsten Dickhaus
In: Mathematical Colloquium at Department of Mathematics, Saarland University, 06 Jul 2009, Saarbrücken, Germany.

Abstract

Sollen im Rahmen eines statistischen Experimentes mehrere Hypothesenpaare simultan geprüft werden, so wird dies als multiples Testproblem bezeichnet. In den Fünfzigerjahren des 20. Jahrhunderts begann die theoretische Untersuchung multipler Testprobleme, insbesondere im Kontext biometrischer Fragestellungen. Ziel war die Entwicklung von Testprozeduren, die das multiple Niveau $\alpha$ (englisch: Family-Wise Error Rate, FWER) kontrollieren, d.h., die mit einer Wahrscheinlichkeit von mindestens $(1-\alpha)$ keine einzige wahre Nullhypothese ablehnen. Bedingt durch rasante technische Fortschritte in vielen Wissenschaftsbereichen kann die Mächtigkeit $n$ zu bearbeitender Hypothesensysteme in heutigen Anwendungsfällen jedoch nahezu beliebig groß werden. Typisch sind Größenordnungen wie $n \sim 5.000$ (Proteomanalysen), $n \sim 500.000$ (Genetik, Assoziationsstudien) oder $n > 1.000.000$ (Kosmologie, Signalerkennung). In solchen, teilweise explorativen Charakter tragenden Analysen ist die FWER ein zu konservatives Fehlermaß und klassische multiple Testprozeduren haben demzufolge ungenügende Güteeigenschaften. Im Jahre 1995 wurde von Benjamini und Hochberg die Verwendung der False Discovery Rate (FDR) als alternatives Fehlermaß in solchen Situationen propagiert. Die FDR misst den erwarteten Anteil fälschlicher Verwerfungen $V_n$ an allen Ablehnungen $R_n$, d.h., sie ist als Erwartungswert des Quotienten $V_n / max(R_n, 1)$ definiert. Dieser Quotient wird als False Discovery Proportion (FDP) bezeichnet. Ein multipler Test heißt FDR-kontrollierend zum Niveau $\alpha$, falls seine FDR für alle Parameterkonstellationen innerhalb eines statistischen Modells durch $\alpha$ beschränkt ist. Die multiple Testtheorie (insbesondere zur FDR) hat sich in den letzten etwa 15 Jahren zu einem der Top-Forschungsgebiete im Bereich Statistik entwickelt, das momentan etwa 8% aller Publikationen in den vier höchstrangigen methodisch orientierten Statistik-Zeitschriften ausmacht (Daten aus [1]). Besondere methodische Herausforderungen ergeben sich in Beweisen für FDR-Kontrolle aus der Struktur der FDP, die innovative Beweistechniken und den Einsatz anspruchsvoller wahrscheinlichkeitstheoretischer Konzepte erforderlich macht. Wir erläutern die Bedeutung stochastischer Grundlagen für die FDR-Theorie. Im Kontext schrittweiser multipler Testprozeduren, die auf Ablehnkurven basieren, wird die Glivenko-Cantelli Theorie eingesetzt, um minimale Modellannahmen für die FDR-Kontrolle von step-up-down Tests herauszuarbeiten (vgl. [2] und [3]). Für adaptive Testprozeduren, die eine Vorschätzung des Anteils wahrer Nullhypothesen verwenden, werden Martingaltechniken aus der stochastischen Prozesstheorie als geeignete methodische Werkzeuge vorgestellt (siehe [5] und [7]). Schließlich thematisieren wir einen Bayesianischen Zugang zur FDR (vgl. u.a. [4]) und darin begründete Verbindungen zur Klassifikationstheorie (siehe [6]). Literatur: [1] Benjamini, Y. (2009). Simultaneous and selective inference: current successes and future challenges. Keynote lecture at 6th International Conference on Multiple Comparison Procedures. Tokyo, 25.03.2009. [2] Finner, H., Dickhaus, T., Roters, M. (2009). On the False Discovery Rate and an Asymptotically Optimal Rejection Curve. The Annals of Statistics, Vol. 37, No. 2, 596-618. [3] Dickhaus, T. (2008). False Discovery Rate and Asymptotics. Dissertation. Online unter http://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=6736. [4] Efron, B. (2003). Robbins, empirical Bayes and microarrays. The Annals of Statistics, Vol. 31, No. 2, 366-378. [5] Genovese, C., Wasserman, L. (2004). A stochastic process approach to false discovery control. The Annals of Statistics, Vol. 32, No. 3, 1035-1061. [6] Storey, J. D. (2003). The positive false discovery rate: A Bayesian interpretation and the $q$-value. The Annals of Statistics, Vol. 31, No. 6, 2013-2035. [7] Storey, J. D., Taylor, J. E., Siegmund, D. (2004). Strong control, conservative point estimation and simultaneous conservative consistency of false discovery rates: a unified approach. Journal of the Royal Statistical Society, Series B, Statistical Methodology, Vol. 66, No. 1, 187-205.

EPrint Type:Conference or Workshop Item (Invited Talk)
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Computational, Information-Theoretic Learning with Statistics
Learning/Statistics & Optimisation
ID Code:6806
Deposited By:Thorsten Dickhaus
Deposited On:08 March 2010