I long non coding RNA (lncRNAs) sono coinvolti in numerosi processi cellulari durante la trascrizione genica o in meccanismi post-trascrizionali. I lncRNAs, controllando l’espressione genica, svolgono un ruolo chiave nello sviluppo del cancro. Allo stato attuale possono essere identificati e studiati attraverso la tecnologia del sequenziamento dell’RNA (RNA-seq), mentre nell’ultimo decennio molto utilizzati erano i microarrays. I microarray si basano su sonde specifiche attaccate a una superficie solida, che vengono ibridizzate al cDNA derivato dal RNA target. Il target ibridizzato con la sonda viene individuato e misurato tramite fluorescenza. Il limite fondamentale della tecnologia a microarray è che le sonde sono disegnate sulle sequenza geniche, relative sia a sequenze codificanti che non codificanti, ma in una percentuale limitata rispetto all’estensione del genoma totale. Ne deriva che i microarrays sono meno efficienti dell’ RNA-seq (che è genome wide) nella ricerca di nuovi trascritti. Tuttavia, Affymetrix ha sviluppato un chip (Human Exon) per studiare le varianti di splicing, in cui le sonde sono state disegnate non solo sui trascritti noti ma anche nelle regioni circostanti, negli introni e sui geni predetti. In uno studio precedente abbiamo utilizzato un dataset analizzato con Affymetrix Human Exon microarray, per studiare un lncRNA situato nel primo introne del gene TGM2. Quindi abbiamo pensato di estendere lo studio a tutto il genoma, utilizzando datasets pubblicati in GEO, di campioni di cancro analizzato con Affymetrix Human Exon chip. Spesso gli studi di questo tipo, si concentrano su un tumore alla volta. Noi abbiamo costruito una pipeline per lavorare su un modello di ‘pan-cancer’. Per l’analisi bioinformatica abbiamo disegnato e applicato scripts in R e Python. Abbiamo costruito due dataset, uno composto da campioni di tessuto tumorale e tessuto normale, accoppiati per paziente, l’altro formato da tessuti tumorali di diversi pazienti, linee cellulari di cancro, considerando leucociti (PBMC) come campioni normali. La pipeline ci ha permesso di individuare le sonde che sono differenzialmente espresse nei tumori rispetto ai normali e che non rientrano in trascritti già annotati. Abbiamo individuato circa 9000 sonde con queste caratteristiche. Le abbiamo validate con un dataset indipendente sia per campioni che per tecnologia, analizzato in RNA-seq e derivato da ENCODE. Infine per confermare la specificità della pipeline abbiamo ri-annotato le sonde cosi’ identificate con l’ultima versione di Gencode, recentemente pubblicata, V29. Al fine di suggerire la funzione di questi nuovi trascritti nel cancro abbiamo svolto ulteriori analisi bioinformatiche, incluso la conservazione interspecifica, la potenzialità codificante e la correlazione trascrizionale con geni implicati nei processi tumorali (Cancer Census).

Long non-coding RNAs (lncRNAs) are involved in numerous processes regulating locally protein-coding gene expression, acting at levels of chromatin, transcription and post- transcriptional mechanisms. LncRNAs control multiple cellular processes and are also involved in cancer pathway. Normally lncRNAs are detected with RNA-seq technology. Microarray technology is based on DNA fluorescent probes of specific sequence attached to a solid surface, that are used to hybridize a cDNA derived from RNA (target), under high stringent conditions. The probe-target hybridization produces fluorescence that is detected and quantified, determining the relative abundance of nucleic acid sequences. The limit of microarray technology is that probes are designed considering known genes, both protein or non-coding transcripts, but in a limited percentage compared to the extension of total genome. It follows that the microarray technology is less efficient than the RNA-seq (which is genome wide) in the search for new transcripts. However, Affymetrix has developed a chip, initially thought to study the splicing variants of genes, containing a huge number of probesets designed along the entire length of known transcripts, but also within intron region and based on predictive dataset. In our previous study, working on dataset analyzed with Affymetrix Human Exon chip, we were able to validate the lncRNA LOC107987281 situated in the first intron of the TGM2 gene. So we thought about extending the study to the whole genome, using datasets published in GEO, of cancer samples analyzed with Affymetrix Human Exon chip. Often this type of studies focuses on one tumor at a time. We have built a pipeline to work on a ‘pan-cancer’ model. For the bioinformatics analysis we designed and applied scripts in R and Python. We have constructed two datasets, one composed of tumor samples and normal tissues, coupled by patient, the other dataset formed by tumor tissue of several patients, cancer cell lines, considering leukocytes (PBMC) as normal samples. The pipeline allowed us to identify the probes that are differentially expressed in tumors compared to normal and which do not fall into already annotated transcripts. We have identified about 9000 probes with these characteristics. We have validated them with an independent dataset, both for samples and technology, analyzed in RNA-seq and derived from ENCODE. Finally, to confirm the specificity of the pipeline we re-annotated the probes identified with the latest version of Gencode, recently published, V29. In order to suggest the function of these new transcripts in cancer we carried out further bioinformatics analyses, including interspecific preservation, coding potentiality and transcriptional correlation with genes implicated in tumor processes (Cancer Census).

Novel RNAs in cancer: large scale analysis of Affymetrix Human Exon chips and Next Generation Sequencing

MINOTTI, Linda
2019

Abstract

I long non coding RNA (lncRNAs) sono coinvolti in numerosi processi cellulari durante la trascrizione genica o in meccanismi post-trascrizionali. I lncRNAs, controllando l’espressione genica, svolgono un ruolo chiave nello sviluppo del cancro. Allo stato attuale possono essere identificati e studiati attraverso la tecnologia del sequenziamento dell’RNA (RNA-seq), mentre nell’ultimo decennio molto utilizzati erano i microarrays. I microarray si basano su sonde specifiche attaccate a una superficie solida, che vengono ibridizzate al cDNA derivato dal RNA target. Il target ibridizzato con la sonda viene individuato e misurato tramite fluorescenza. Il limite fondamentale della tecnologia a microarray è che le sonde sono disegnate sulle sequenza geniche, relative sia a sequenze codificanti che non codificanti, ma in una percentuale limitata rispetto all’estensione del genoma totale. Ne deriva che i microarrays sono meno efficienti dell’ RNA-seq (che è genome wide) nella ricerca di nuovi trascritti. Tuttavia, Affymetrix ha sviluppato un chip (Human Exon) per studiare le varianti di splicing, in cui le sonde sono state disegnate non solo sui trascritti noti ma anche nelle regioni circostanti, negli introni e sui geni predetti. In uno studio precedente abbiamo utilizzato un dataset analizzato con Affymetrix Human Exon microarray, per studiare un lncRNA situato nel primo introne del gene TGM2. Quindi abbiamo pensato di estendere lo studio a tutto il genoma, utilizzando datasets pubblicati in GEO, di campioni di cancro analizzato con Affymetrix Human Exon chip. Spesso gli studi di questo tipo, si concentrano su un tumore alla volta. Noi abbiamo costruito una pipeline per lavorare su un modello di ‘pan-cancer’. Per l’analisi bioinformatica abbiamo disegnato e applicato scripts in R e Python. Abbiamo costruito due dataset, uno composto da campioni di tessuto tumorale e tessuto normale, accoppiati per paziente, l’altro formato da tessuti tumorali di diversi pazienti, linee cellulari di cancro, considerando leucociti (PBMC) come campioni normali. La pipeline ci ha permesso di individuare le sonde che sono differenzialmente espresse nei tumori rispetto ai normali e che non rientrano in trascritti già annotati. Abbiamo individuato circa 9000 sonde con queste caratteristiche. Le abbiamo validate con un dataset indipendente sia per campioni che per tecnologia, analizzato in RNA-seq e derivato da ENCODE. Infine per confermare la specificità della pipeline abbiamo ri-annotato le sonde cosi’ identificate con l’ultima versione di Gencode, recentemente pubblicata, V29. Al fine di suggerire la funzione di questi nuovi trascritti nel cancro abbiamo svolto ulteriori analisi bioinformatiche, incluso la conservazione interspecifica, la potenzialità codificante e la correlazione trascrizionale con geni implicati nei processi tumorali (Cancer Census).
VOLINIA, Stefano
File in questo prodotto:
File Dimensione Formato  
PhD_Thesis_Minotti.pdf

accesso aperto

Descrizione: Tesi
Tipologia: Tesi di dottorato
Dimensione 11.61 MB
Formato Adobe PDF
11.61 MB Adobe PDF Visualizza/Apri

I documenti in SFERA sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11392/2488087
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact