The development of next-generation sequencing technologies in the past ten years has deeply revolutionized all the branches of genetic, including population genetics. The possibility to produce a huge amount of data at reasonable price has changed the focus of population genetic studies, moving from few markers to whole-genomes or representations of the genome. The improvement of the sequencing technologies is still ongoing, and the so-called “second-generation sequencing technologies”, the engines of this decade of huge improvements, are nowadays being challenged by a new generation of technologies, which promise higher throughput, lower sequencing times, longer reads lengths, smaller amount of starting materials (single-molecule approach) and lower costs. Notable examples of these new sequencing technologies, the third-generation, are Pacific Biosciences SMRT and Oxford Nanopore. Like most technological innovations in science, NGS approaches required the development of new statistical methods. For example, when genomes are sequenced in non-model organisms (lacking reliable polymorphism information) or at low coverage, high level of uncertainty in genotype calling has to be properly considered. This problem led for example to the development of ANGSD, a software able to deal with this uncertainty by estimating genotype likelihoods from multiple reads. Massive information about genomes required also the development of specific methods for the inference of demographic history or for genomic scans of selection. These new methods takes into account features like the allele frequency spectrum or the local density of heterozygous sites changes across the genome to estimate demographic parameters, or are able to detect alleles that have risen to high frequency rapidly enough that long-range association with nearby polymorphisms has not been eroded by recombination. The evaluation of the performances of these methods is necessary but rather difficult, and often produce contrasting results. This is definitely a rapidly developing research area, where new approaches able to deal with conceptually simple but practically very relevant problems such as the speed of computation of simple statistics in large data sets, or with more complex issues such as the rate of false positives or the identification of the best statistics to identify selection signatures, are strongly wanted. In my thesis I tried to address some of these general problems in four different projects focused on A) the efficient estimation of population genetics statistics from large data sets using parallel computation; B1) the identification of genes in the common bean (Phaseolus vulgaris) under selection explicitly modeling the neutral demographic processes; B2) a refined version of the previous selection analysis in a smaller dataset of genes in the common bean (Phaseolus vulgaris); C) the identification of genes under selection in the lizard (Zootoca vivipara) using a consensus approach among different statistics; D) the assembly of complex genomic regions using a combined experimental approach based on Illumina and Nanopore sequencing. These approaches represent ad hoc solutions developed by exploiting the specific information available in each project.

Lo sviluppo delle tecnologie di sequenziamento di nuova generazione negli ultimi dieci anni ha profondamente rivoluzionato tutti i rami della genetica, inclusa la genetica di popolazioni. La possibilità di produrre una grande quantità di dati a prezzi ragionevoli ha cambiato l’oggetto degli studi genetici, spostatosi da pochi marcatori a interi genomi o sottorappresentazioni del genoma. Lo sviluppo di nuove tecnologie di sequenziamento è un processo ancora in corso, e le tecnologie di sequenziamento di seconda generazione, il motore di questa decade di forte sviluppo, sono oggi incalzate da una nuova generazione di tecnologie, che promettono una lunghezza maggiore delle letture, una minore quantità di materiale di partenza (approccio a singola molecola) e costi inferiori. Esempi importanti di queste nuove tecnologie, che fanno parte cosiddetta terza generazione, sono le tecnologie Pacific Biosciences SMRT e Oxford Nanopore. Come tutte le innovazioni tecnologiche, i dati genomici prodotti da tecnologie di nuova generazione richiedono lo sviluppo di nuove metodologie per la loro analisi. Ad esempio, quando i genomi sono sequenziati in organismi non modello (dove mancano informazioni sui polimorfismi nella specie) o con un basso livello di copertura, vi è una forte incertezza legata alla chiamata dei genotipi. Questo problema ha portato per esempio allo sviluppo di ANGSD, una suite di software che permette di tenere in considerazione questa incertezza stimando le verosimiglianze dei genotipi dalle letture dirette del genoma. L’enorme quantità di informazione genomica richiede anche lo sviluppo di metodi specifici per l’inferenza della storia demografica o per la ricerca di geni o regioni del genoma implicati in processi adattativi. Questi nuovi metodi prendono in considerazione caratteristiche dell’intero genoma, come lo spettro delle frequenze alleliche, o la densità locale dei siti eterozigoti, o sono in grado di individuare alleli che hanno aumentato la loro frequenza così velocemente che l’associazione a lungo raggio con i polimorfismi vicini non è stata ancora erosa dalla ricombinazione. La valutazione dell’efficacia di questi metodi è necessaria ma difficoltosa, e produce risultati contrastanti. L’analisi dei dati genomici è quindi un’area in forte sviluppo, improntata alla ricerca di nuovi approcci capaci di gestire problemi teoricamente più semplici ma di difficile risoluzione pratica, come la velocità di calcolo di statistiche semplici in grandi dataset, o in grado di rispondere a problemi concettualmente più complessi come la valutazione del tasso di falsi postivi o l’identificazione della miglior statistica per identificare segnali di selezione. In questa tesi ho cercato di rispondere ad alcuni di questi problemi generali in quattro progetti focalizzati su: A) Il calcolo efficiente di statistiche di genetica di popolazione su dataset estesi usando il calcolo parallelo; B) L’identificazione di geni selezionati nel fagiolo comune (Phaseoulus vulgaris) integrando mediante simulazioni l’informazione della storia demografica della specie; C) L’identificazione di geni legati al cambiamento delle modalità riproduttiva in Zootoca vivipara usando un consenso tra diversi metodi; D) L’assemblaggio di una regione genomica complessa usando un approccio sperimentale combinato basato su tecnologie di sequenziamento di seconda e di terza generazione.

Nuove metodologie in genomica di popolazioni, e applicazioni a dati reali

PANZIERA, Alex
2015

Abstract

The development of next-generation sequencing technologies in the past ten years has deeply revolutionized all the branches of genetic, including population genetics. The possibility to produce a huge amount of data at reasonable price has changed the focus of population genetic studies, moving from few markers to whole-genomes or representations of the genome. The improvement of the sequencing technologies is still ongoing, and the so-called “second-generation sequencing technologies”, the engines of this decade of huge improvements, are nowadays being challenged by a new generation of technologies, which promise higher throughput, lower sequencing times, longer reads lengths, smaller amount of starting materials (single-molecule approach) and lower costs. Notable examples of these new sequencing technologies, the third-generation, are Pacific Biosciences SMRT and Oxford Nanopore. Like most technological innovations in science, NGS approaches required the development of new statistical methods. For example, when genomes are sequenced in non-model organisms (lacking reliable polymorphism information) or at low coverage, high level of uncertainty in genotype calling has to be properly considered. This problem led for example to the development of ANGSD, a software able to deal with this uncertainty by estimating genotype likelihoods from multiple reads. Massive information about genomes required also the development of specific methods for the inference of demographic history or for genomic scans of selection. These new methods takes into account features like the allele frequency spectrum or the local density of heterozygous sites changes across the genome to estimate demographic parameters, or are able to detect alleles that have risen to high frequency rapidly enough that long-range association with nearby polymorphisms has not been eroded by recombination. The evaluation of the performances of these methods is necessary but rather difficult, and often produce contrasting results. This is definitely a rapidly developing research area, where new approaches able to deal with conceptually simple but practically very relevant problems such as the speed of computation of simple statistics in large data sets, or with more complex issues such as the rate of false positives or the identification of the best statistics to identify selection signatures, are strongly wanted. In my thesis I tried to address some of these general problems in four different projects focused on A) the efficient estimation of population genetics statistics from large data sets using parallel computation; B1) the identification of genes in the common bean (Phaseolus vulgaris) under selection explicitly modeling the neutral demographic processes; B2) a refined version of the previous selection analysis in a smaller dataset of genes in the common bean (Phaseolus vulgaris); C) the identification of genes under selection in the lizard (Zootoca vivipara) using a consensus approach among different statistics; D) the assembly of complex genomic regions using a combined experimental approach based on Illumina and Nanopore sequencing. These approaches represent ad hoc solutions developed by exploiting the specific information available in each project.
BERTORELLE, Giorgio
BARBUJANI, Guido
File in questo prodotto:
File Dimensione Formato  
Tesi_AlexPanziera.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: PUBBLICO - Pubblico senza Copyright
Dimensione 2.58 MB
Formato Adobe PDF
2.58 MB Adobe PDF Visualizza/Apri

I documenti in SFERA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11392/2403419
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact