Opzioni
Machine Learning algorithm for single-cell genomics from long-reads sequencing technologies
SCOLORINA
PRIN
operative
Data di inizio
30 Novembre 2023
Data di fine
28 Febbraio 2026
Abstract
Le moderne tecnologie di sequenziamento stanno rivoluzionando la nostra comprensione dei sistemi viventi, consentendo la misurazione dei processi cellulari e delle molecole coinvolte, ad esempio DNA e RNA, a risoluzioni senza precedenti su scala spaziale e temporale. Di conseguenza, i metodi computazionali sono oggigiorno fondamentali per organizzare ed estrarre grandi risultati dai moderni saggi di sequenziamento. Non è esagerato affermare che la biologia computazionale è diventata la pietra angolare della biologia moderna e, in generale, di tutte le scienze della vita. Queste considerazioni sono particolarmente vere per due moderni sviluppi delle tecnologie di sequenziamento, i saggi a cella singola ea lunga lettura, che superano i limiti degli "approcci standard" in termini di cosa sequenziamo e come lo sequenziamo. Un numero significativo di compiti di bioinformatica è stato influenzato dall'avvento separato di queste due tecnologie e, in un futuro molto prossimo, i due test saranno uniti per ottenere molte più risoluzioni delle nostre misurazioni (letture lunghe a cella singola). In questa sovvenzione proponiamo di costruire nuovi algoritmi di Machine Learning per l'analisi di saggi a letture lunghe implementati su misurazioni di RNA unicellulare. Grazie alla nostra esperienza ortogonale in Data Science per la genomica del cancro e Deep Learning per la previsione della struttura dell'RNA, mireremo a sviluppare soluzioni allo stato dell'arte per mezzo di modelli probabilistici bayesiani e modelli di Deep Learning. Svilupperemo nuovi modelli matematici e statistici per descrivere i segnali di espressione e aneuploidia specifici dell'allele da dati a cella singola a lunga lettura, producendo infine algoritmi per pre-elaborare, pulire e dedurre le informazioni da questi dati di sequenziamento. Implementeremo questi algoritmi in pacchetti software open source sviluppati professionalmente per la comunità di biologi computazionali e bioinformatici. Utilizzeremo sia R che Python, utilizzando i moderni principi della programmazione probabilistica e sfruttando architetture di calcolo altamente parallele (ad es. GPU). Grazie alle nostre continue collaborazioni con scienziati clinici di prim'ordine negli ospedali nazionali dell'IRCCS e grazie al coinvolgimento della struttura di genomica dell'Area Science Park, utilizzeremo parte del finanziamento per generare nuovi dati di RNA unicellulare a lunga lettura per ottimizzare il nostro algoritmi. Gli algoritmi forniti da questa sovvenzione diventeranno tecnologie sanitarie efficaci, consentendo ai professionisti di tutto il mondo di affrontare malattie complesse, fornendo strumenti pratici per ridurre efficacemente il carico di malattia grazie a una migliore comprensione delle dinamiche della malattia.
Modern sequencing technologies are revolutionising our understanding of living systems, allowing measurement of cellular processes and the molecules involved, e.g., DNA and RNA, at unprecedented resolutions across both spatial and temporal scales. As a consequence, computational methods are nowadays pivotal to organise and mine large outputs from modern sequencing assays. It is not exaggerated to state that computational biology has become the cornerstone of modern biology and, overall, of all Life Sciences. These considerations are particularly true for two modern developments of sequencing technologies, single-cell and long-reads assays, which overcome limitations of “standard approaches” in terms of what we sequence, and how we sequence it. A significant number of bioinformatics tasks have been impacted by the separate advent of these two technologies and, in the very near future, the two assays will be joined to achieve far more resolutions of our measurements (single-cell long-reads). In this grant we propose to build new Machine Learning algorithms for the analysis of long-reads assays implemented over single-cell RNA measurements. Thanks to our orthogonal expertise in Data Science for cancer genomics and Deep Learning for RNA structure prediction, we will aim at developing solutions at the state-of-the-art by means of both Bayesian probabilistic models and Deep Learning models. We will be developing novel mathematical and statistical models to describe allele-specific signals of expression and aneuploidy from long-reads single-cell data, eventually producing algorithms to pre-process, clean and infer information from this sequencing data. We will implement these algorithms into professionally-developed open-source software packages for the community of computational biologists and bioinformaticians. We will be using both R and Python, using the modern principles of probabilistic programming and leveraging highly-parallel computing architectures (e.g., GPUs). Thanks to our ongoing collaborations with top-notch clinical scientists in national IRCCS hospitals and thanks to the involvement of the genomics facility of Area Science Park, we will use part of the funding to generate new long-reads single-cell RNA data to optimise our algorithms. Algorithms delivered by this grant will become effective health technologies, allowing practitioners around the world to tackle complex diseases, giving practical tools to reduce the disease burden effectively thanks to better understanding of disease dynamics.
Parole chiave
CER
LS2_11 - Bioinformatics and computational biology
PE6_13 - Bioinformatics, bio-inspired computing, and natural computing
PE6_7 - Artificial intelligence, intelligent systems, natural language processing
SSD
Settore INF/01 - Informatica
Finanziatore
MINISTERO DELL'UNIVERSITA' E DELLA RICERCA
Grant number
P2022XMRPJ_001
Importo
145923
Contributore(i)
EGIDI LEONARDO
CASAGRANDE ALBERTO
Partner(i)
Università degli Studi di TRIESTE
Ruolo
Coordinatore