Maskinlæring, miljøgifter og torsk
Xiaokang Zhang disputerer 30.10.2020 for ph.d.-graden ved Universitetet i Bergen med avhandlingen "Biomarker Discovery Using Statistical and Machine Learning Approaches on Gene Expression Data".
Hovedinnhold
Torsk er en viktig fisk for Norge, men er utsatt for mange giftstoffer i miljøet. Torsk brukes som en modell-organisme for å lære om hvordan miljøgifter påvirker biologiske system som fisk og andre dyr. I prosjektet dCod1.0 har vi studert hvordan fisken reagerer på giftstoff på et molekylært nivå. Ved bruk av sekvenserings-teknologi har vi målt uttrykket til flere tusen gen samtidig i prøver fra lever fra torsk eksponert i laboratoriet eller fra forurensede miljø. Et interessant spørsmål er hvilke gener og system som aktiveres når fisken blir utsatt for miljøgifter.
En teknologi for å måle genuttrykk er RNA-sekvensering (RNA-seq). Dataene som produseres må gå gjennom en rekke steg før man har genuttrykkingsprofiler som kan analyseres. Det finnes mange verktøy for å automatisere denne prosessen. Imidlertid er mange av dem laget for spesielle anvendelser og for data fra populære modellorganismer som menneske eller mus. Derfor har vi laget en arbeidsflyt (workflow) med navnet RASflow som enkelt kan brukes uten spesielle programmeringskunnskaper og med ulike forskningsinteresser.
Når genuttrykksprofilene er klare, kan man finne markør-gener, det vil si gener som karakteriserer reaksjon på visse giftstoffer. En tradisjonell metode er å gjøre statistisk hypotesetesting for hvert enkelt gen for å undersøke om det er ulikt uttrykt ved ulike betingelser. Imidlertid kan ikke slike metoder finne sett av gener som sammen viser en reaksjon på giftstoffet. Innen maskinlæring finnes det metoder som kan brukes på denne typen problemer. Ytelsen til den enkelte metode er veldig avhengig av datasettet og det er krevende å finne en som passer godt for et konkret datasett. I tillegg er metodene ofte ustabile når antall prøver er lavt og antall gener er høyt. Motivert av dette har vi i denne PhD-avhandlingen utviklet et rammeverk som gjør det mulig å kombinere ulike metoder for å identifisere relevante gen og som viser stabil oppførsel på tvers av alle datasettene vi har analysert.
Personalia
Xiaokang Zhang (f. 1989) har et ingeniør-diplom fra Ecole Centrale Paris og en mastergrad i Engineering fra Xi’an Jiaotong University. Han har foretatt sine doktorgradsstudier ved Computational Biology Unit, Institutt for informatikk, Universitetet i Bergen. Han hadde også et seks måneders opphold ved University of California, San Diego. Hans doktorgrad er tilknyttet forskerskolen NORBIS og Digitalt Liv Norge. Studiet har blitt veiledet av professorene Inge Jonassen og Anders Goksøyr.