Methoden in der Statistischen Genetik für Assoziationsstudien und Prädiktion
Institut für Genetische Epidemiologie
Assoziationsstudien sind ein wichtiges Werkzeug um genetische Risikofaktoren komplexer Krankheiten zu finden. Dazu wird meist anhand einer Fall-Kontroll Studie die Häufigkeit einer Genvariante innerhalb der erkrankten und gesunden Proband*innen miteinander verglichen. Ein gehäuftes Vorkommen einer Genvariante innerhalb der Fälle deutet dabei auf eine Beteiligung an der Krankheitsentstehung hin. Dabei kann unterschieden werden zwischen Kandidatengen-Studien, in denen nur eine kleine Menge von Genen gezielt untersucht wird, und genomweiten Assoziationstudien (GWAS), die das gesamte Genom abdecken.
Im Institut für Genetische Epidemiologie befassen wir uns mit der Entwicklung neuer statistischer Methoden zum Auffinden prädisponierender genetischer Varianten im Rahmen von Kandidatengen- und genomweiten Assoziationstudien, sowie der Ermittlung von Krankheitsrisiken anhand genetischer Marker.
Unsere Forschungsschwerpunkte in der Methodik
Skalenprobleme in der Statistischen Genetik
Eines der zentralen theoretischen wie praktischen Probleme genomweiter Assoziationsstudien (GWAS) ist die große Datenmenge. Standardarrays starten heutzutage bei 500.000 genetischen Markern; nach Imputation mit Hilfe von öffentlich zugänglichen Datenbanken für Referenzpopulationen, wie HapMap oder dem „1000 Genome Projekt“, liegen häufig circa 9 Millionen Marker vor. Sequenzanalysen ergeben noch größere Mengen an genetischem Material. Dies führt zu Problemen bei der Datenaufbereitung sowie der späteren Assoziationsanalyse. Wir arbeiten an der Entwicklung statistischer Methoden für solche hochdimensionalen genetischen Daten.
Gen-Gen und Gen-Umwelt Interaktion
Biologische Prozesse, die zur Entstehung einer Krankheit führen können, setzen sich in der Regel sowohl aus Genprodukten als auch Umweltfaktoren zusammen. Insbesondere spielen daher auch Interaktionen zwischen mehreren Genen oder auch zwischen Genen und Umwelt eine wichtige Rolle bei der Krankheitsentstehung.
Interaktionen sind jedoch leider nur sehr schwer aufzufinden, da die dafür existierenden statistischen Tests entweder eine zu geringe Power aufweisen – insbesondere im genomweiten Kontext, oder Probleme mit der Einhaltung des Fehlers erster Art haben.
Daher arbeiten wir an der Entwicklung besserer Methoden, um so auch Interaktionen zu entdecken. Beispiele hierfür sind Gen-Radon-Interaktion (siehe Lungenkrebs und Radon), Gen-Zeit-Interaktion (siehe Psychose) und Gen-Gen-Interaktion in Pathways.
Pathway Analysen
Das Zusammenspiel zahlreicher genetischer Faktoren und Umweltfaktoren in biologischen Prozessen verläuft bei komplexen Krankheiten in Pathways. Daher sollen mittels Pathway-Informationen die Ergebnisse aus genomweiten Assoziationsstudien (GWAS) verbessert werden. Gene Set Analyse Methoden legen ihren Schwerpunkt auf die Identifikation ganzer signifikanter Pathways statt einzelner Marker.
Durch die Fokussierung auf den Pathway kann erreicht werden, dass einzelne Genvarianten mit nur kleinen Effekten im gleichen Pathway sich gemeinsam stark machen können.
Wir verwenden maschinelles Lernen mit Kernen (Kernel Machine Learning), eine methodische Verbindung zweier statistischer Teilgebiete, welche auf Reproducing Kernel Hilbert Spaces basieren: gemischte Modelle und Geostatistik. Hierdurch lassen sich z.B. Gen-Gen-Interaktionen innerhalb des Netzwerks eines Pathways untersuchen. Auch Weiterentwicklungen für longitudinale Daten sowie die Einbindung weiterer –omics Daten und Baysianische Ansätze sind von Interesse.
Prädiktion
Es wäre im klinischen Alltag wünschenswert, genetische Assoziationen zur besseren Vorhersage von Krankheitsrisiken, der Weiterentwicklung einer Krankheit, oder dem Therapieverlauf mit zu verwenden.
Anhand von Risikomodellen guter Qualität kann das individuelle Risiko von Patienten eingeschätzt werden, um dann Entscheidungen über Präventionsmaßnahmen oder Therapiemöglichkeiten zu treffen. Im Allgemeinen wird die Richtigkeit der Prädiktion anhand neuer Daten überprüft, die unabhängig von den zur Modellanpassung verwendeten Daten sind. Im Kontext genetischer Daten sind solche unabhängigen Datensätze für die Validierung jedoch nur selten vorhanden.
Daher werden Methoden zur Validierung von Modellen ohne weitere unabhängige Daten entwickelt. Hierbei interessieren insbesondere genetische Risikomodelle für Überlebenszeiten von Patient*innen.
Wir beschäftigen uns weiterhin mit polygenen Risikoscores und Kernelverfahren einschließlich der Entwicklung von Methoden zur Untersuchung des longitudinalen Verlaufs eines Merkmals.
Das könnte Sie auch interessieren