PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning

Maschinelles Lernen zur Genom-Sequenzanalyse
Sören Sonnenburg
Ausgezeichnete Informatikdissertationen 2008 Volume D-9, pp. 281-290, 2009.

Abstract

Die Entwicklung neuer Sequenziertechnologien ebnete den Weg f\"ur kosteneffiziente Genomsequenzierung. Allein im Jahr 2008 wurden etwa 250 neue Genome sequenziert. Es ist offensichtlich, dass diese gewaltigen Mengen an Daten effektive und genaue computer-gest\"utzte Methoden zur Sequenzanalyse erfordern. Diese werden ben\"otigt, um eines der wichtigsten Probleme der Bioinformatik zu l\"osen: die akkurate Lokalisation von Genen auf der DNA. In meiner Doktorarbeit habe ich auf Basis von Support Vector Machines (SVMs) genaueste genomische Signalerkenner entwickelt, die in Gensuchmaschinen verwendet werden k\"onnen. Dazu wurden Datenstrukturen und Algorithmen entwickelt, die besonders effizient mit DNA-Sequenzen umgehen k\"onnen. Durch Parallelisierung der Algorithmen wurde eine weitere Beschleunigung erreicht, die eine Anwendung auf gesamten Genomen erm\"oglicht. Einer der von mir entwickelten Genom-Signalerkenner ist Sieger in einem demn\"achst erscheinenden unabh\"angigen Vergleich von 17 Erkennern. In der Gensuchmaschine \texttt{mGene} werden nun die auf meinen Methoden basierenden Signalerkenner eingesetzt. \texttt{mGene} gewann in der Kategorie ab-initio Gensuche k\"urzlich einen internationalen Wettbewerb.

EPrint Type:Article
Project Keyword:Project Keyword UNSPECIFIED
Subjects:Learning/Statistics & Optimisation
ID Code:3263
Deposited By:Sören Sonnenburg
Deposited On:08 April 2010