Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Algorithms and Models in Nanopore DNA Sequencing

Advanced Decoding and Modeling with Hierarchical Hidden Markov Models

Tid: Fr 2024-05-24 kl 13.00

Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm

Språk: Engelska

Ämnesområde: Elektro- och systemteknik

Respondent: Xuechun Xu , Teknisk informationsvetenskap, Division of Information Science and Engineering

Opponent: Professor Broňa Brejová, Department of Computer Science, Faculty of Mathematics, Physics and Informatics, Comenius University in Bratislava

Handledare: Joakim Jaldén, Teknisk informationsvetenskap, ACCESS Linnaeus Centre

Exportera till kalender

QC 20240502

Abstract

Inom mindre än fyra decennier har nanopore-sekvenseringsteknologin accelererat från en otrolig idé som skissades i en antckningsbok till en avgörande teknologi som bidragit till den kompletta sekvensensieringen av det mänskliga genomet. Denna snabba utveckling, särskilt under de senaste åren, drivs inte bara av innovation kring nanoporer utan också av synergistiska framsteg inom kompletterande områden, såsom GPU-acceleration och djupa neurala nätverk, samt tvärvetenskapligt inflytande från domäner som taligenkänning. Under denna snabba utveckling har do vissa metoder inom nanopore sekvensering förblivit relativt outforskade. Detta förbiseende riskerar att skapa flaskhalsar i teknologins vidareutveckling.

I denna avhandling utforskar vi dessa outforskade områden, i syfte att fylla kritiska luckor och utveckla tekniken mot nya fronter. Vårt mål är att frigöra dess fulla potential och möjliggöra ytterligare genombrott inom genomisk forskning och därutöver.

Som del av vår forskning har vi utvecklat två nya algoritmer och två innovativa modeller anpassade för att adressera dessa underutredda aspekter av nanopore sekvensering. De två algoritmerna, GMBS och LFBS, som är instanser av det mer generella ramverket av MBS-algorithmer (\emph{eng.} marginalised beam search), erbjuder innovativa lösningar på de utmanande avkodningsproblemen som är inneboende i HHMM:er. De är två distinkta variationer anpassade för olika scenarier. Medan GMBS är speciellt lämpad för avkodning av långa sekvenser, såsom de som stöts på vid läsning av långa sekvenser, är LFBS optimerad för parallell programmering och utmärker sig i bearbetning av korta sekvenser.

De två innovativa modellerna som utvecklats i denna forskning, vilka båda utnyttjar variationer av HHMM:er och använder en ``end-to-end''-ansats, uppvisar distinkta strukturer. Den första modellen, en hybrid av EDHMM och DNN, visar effektiviteten av att integrera både kunskapsdrivna och datadrivna tekniker. I kontrast till detta, drar den andra modellen, en anpassad Helicase HMM, inspiration från pionjärstudier om motorproteiner som finns i sekvenseringsenheter. Med sin detaljerade hierarkiska tillståndsarkitektur med över fem miljoner emissivtillstånd, erbjuder denna modell en omfattande egenskapsrymd jämfört med sina föregångare.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-346051