Maskinlæring for prediksjon av epigenetiske elementer i DNA
Bjørn André Bredesen disputerer 20.11.2020 for ph.d.-graden ved Universitetet i Bergen med avhandlingen "Modelling the structure, function and evolution of Polycomb/Trithorax Response Elements".
Hovedinnhold
Det brede mangfoldet av livsformer på jorden kan forstås i lys av evolusjonskrefter og arvestoffet. Nesten alle dine celler inneholder en kopi av ditt arvestoff i form av DNA-sekvens. Denne sekvensen inneholder gener som koder for ulike komponenter, samt andre regioner tidligere kjent som "junk DNA" fordi deres funksjoner var ukjente. Flercellet liv kan ha et mangfold av celletyper, som hudceller, leverceller og nerveceller, til tross for et identisk arvestoff i de ulike cellene. Dette mangfoldet er gjort mulig av komplekse systemer som styrer uttrykket av gener gjennom elementer som finnes i "junk DNA".
PREer (forkortelse av Polycomb/Trithorax Response Elements) er elementer som gjør det mulig for celler å huske hvilke gener som skal være av eller på. Denne hukommelsen finnes over informasjonen i arvestoffet, noe som kalles epigenetikk. PREer finnes i alt fra fruktfluer til pattedyr, men er best forstått i fruktfluen, der titalls PREer er bekreftet. Et kjennetegn av PREer er at deres sekvenser inneholder korte gjengående sekvenser. Forskere har tidligere brukt ulike former for maskinlæring – algoritmer som kan lære fra eksempler og antagelser – for å predikere nye PREer i fruktfluen. Prediksjon av PREer i pattedyr har hatt mindre suksess, ettersom antallet kjente pattedyr-PREer og forståelsen av disse er begrenset. Det finnes også eksperimentelle metoder som kan hjelpe med å oppdage PREer, men resultatene av disse er avhengige av hvilke celler som studeres.
I denne avhandlingen presenteres nye metoder som forbedrer prediksjonen av PREer i fruktfluens genom ved hjelp av maskinlæring og genomvide eksperimentelle data, samt en ny metode som muliggjør genomvid prediksjon av Polycomb-mål i pattedyr. I tillegg presenteres to verktøy: et program for motiv-basert prediksjon av regulatoriske elementer ved hjelp av maskinlæring, samt en Python-pakke for interaktiv analyse og maskinlæring av regulatoriske elementer.
Personalia
Bjørn Bredesen (f. 1986) har bachelorgrad i kognitiv vitenskap og mastergrad i bioinformatikk, begge fra Universitetet i Bergen. Han har vært doktorgradsstudent ved Computational Biology Unit ved institutt for informatikk siden januar 2014.