A RNA-Seq é unha técnica de bioloxía molecular que utiliza secuenciación de seguinte xeración para revelar a presenza e cantidade de ARN nunha mostra biolóxica nun momento dado, analizando o transcritoma celular en constante cambio.[2][3]
Especificamente, a RNA-Seq facilita a capacidade de observar transcritos de xenes de empalme alternativo, modificacións postranscricionais, fusións de xenes, mutacións/SNPs e cambios na expresión xénica co tempo ou diferenzas en expresión xénica entre diferentes grupos ou tratamentos.[4] Ademais dos transcritos e ARNm, a RNA-Seq pode analizar diferentes poboacións de ARN, incluíndo o ARN total, o ARN pequeno, como o miARN, o ARNt e o perfil ribosómico.[5] A RNA-Seq pode tamén ser usado para determinar as fronteiras exón/intrón e verificar ou emendar os límites 3' e 5' anotados previamente. Os avances recentes en RNA-Seq inclúen a secuenciación de célula única e a secuenciación in situ de tecidos fixados.[6]
Antes da aparición da RNA-Seq, os estudos de expresión xénica facíanse con hibridacións baseadas en micromatrices. Algúns problemas que tiñan as micromatrices son: artefactos de hibridación cruzada, deficiente cuantificación de xenes que se expresan pouco ou moito e necesidade de coñecer a secuencia a priori.[7] Debido a estas técnicas, a transcritómica fixo a transición a métodos baseados na secuenciación. Estes progresaron desde a secuenciación de Sanger de bibliotecas de marcadores de secuencia expresada (ETS, Expressed Sequence Tag), a métodos baseados en etiquetas químicas (por exemplo, a análise en serie da expresión xénica) e finalmante á tecnoloxía actual, a secuenciación de xene seguinte de ADNc (notablemente a RNA-Seq).
Os pasos xerais que hai que seguir para preparar unha biblioteca de ADN complementario (ADNc) para secuenciar descríbense máis abaixo, pero adoitan variar entre plataformas, e son:[3][8][9]
Illamento do ARN: o ARN é illado dun tecido e mesturado con desoxirribonuclease (DNase). A DNase reduce a cantidade de ADN xenómico. O grao de degradación do ARN compróbase con electroforese en xel e electroforese de capilaridade e é utilizado para asignar un número de integridade do ARN á mostra. Esta calidade do ARN e a cantidade total de ARN do comezo téñense en consideración durante os subseguintes pasos de preparación da biblioteca, secuenciación e análise.
Selección/depleción do ARN: para analizar os sinais de interese, o ARN illado pode ser mantido como tal, filtrado para obter ARN con colas 3' poliadeniladas (poli(A)) para así incluír só os ARNm, eliminándose o ARNr), e/ou filtrado para ARN que se una a secuencias específicas (ver métodos de selección e depleción de ADN na táboa de máis abaixo). Os ARN con colas 3' poli(A) son secuencias codificantes procesadas maduras. A selección de poli(A) realízane mesturando ARN con oligómeros poli(T) unidos covalentemente a un substrato, normalmente boliñas magnéticas.[10][11] A selección de poli(A) ignora o ARN non codificante e introduce un nesgo 3',[12] o cal se evita coa estratexia de depleción de ARN ribosómico. O ARNr é eliminado porque supón un 90% do ARN da célula, que se se mantivese daría lugar a outros datos no transcritoma.
Síntese de ADNc: o ARN é reversotranscrito a ADNc porque o ADN é máis estable e permite a amplificación (a cal usa ADN polimerases) e facer uso da tecnoloxía de secuenciación de ADN máis maduro. A amplificación que segue á transcrición inversa ten como resultado a perda da direccionalidade ou sentido da febra (strandedness), o cal se pode evitar co etiquetado químico ou secuenciación de molécula única. Realízanse a fragmentación e selección de tamaños para purificar secuencias que son da lonxitude axeitada para a máquina de secuenciación. O ARN, o ADNc, ou ambos son fragmentados con enzimas, por sonicación ou con nebulizadores. A fragmentación do ARN reduce o nesgo 5' da transcrición inversa cebada aleatoriamente e a influencia de sitios de unión ao cebador,[11] co inconveniente de que os extemos 5' e 3' son convertidos en ADN menos eficientemente. Despois da fragmentación faise a selección por tamaños, na que ou ben se eliminan pequenas secuencias ou ben é seleccionado un estreito rango de lonxitudes de secuencias. Como se perden os pequenos ARNs como os microARNs, estes son analizados independentemente. O ADNc para cada experimento pode ser indexado cun código de barras hexámero ou octámero, para que estes experimentos poidan poñerse nun só carreiro de secuenciación multiplexada.
Cando se secuencian outros ARNs que non son ARNm, a biblioteca é modificada. O ARN celular é seleccionado baseándose no rango de tamaños desexado. Para dianas de ARN pequeno, como o miRNA, o ARN íllase por selección de tamaños. Isto pode ser realizado cun xel de exclusión por tamaños, por medio de boliñas magnéticas de selección de tamaños ou cun kit desenvolvido comercialmente. Unha vez illado, engádense linkers aos extremos 3' e 5' e despois son purificados. O paso final é a xeración de ADNc por transcrición inversa.
Como se viu que a conversión de ARN en ADNc, a ligación, amplificación e outras manipulacións da mostra introducen nesgos e artefactos que poden interferir tanto coa propia caracterización e a cuantificación de transcritos,[13] A secuenciación de ARN directa de molécula única foi explorada por compañías como Helicos (que xa cerrou), Oxford Nanopore Technologies,[14] e outras. Esta tecnoloxía secuencia as moléculas de ARN directamente de maneira masivamente paralela.
Os métodos estándar como as micromatrices e a análise RNA-Seq en masa estándar analizan a expresión de ARNs a partir de grandes poboacións de células. En poboacións de células mesturadas, estas medidas poden ocultar diferenzas esenciais entre células individuais nesas poboacións.[15][16]
A secuenciación de ARN de célula única ou scRNA-Seq (do inglés single-cell RNA sequencing) proporciona os perfís de expresión de células individuais. Aínda que non é posible obter a información completa de todo o ARN expresado por cada célula, debido á pequena cantidade de material dispoñible, os padróns de expresión xénica poden ser identificados por análises de clústeres de xenes. Isto pode desvelar a existencia de tipos raros de células dentro dunha poboación de células que nunca puideron observarse antes. Por exemplo, en 2018 foron identificados células especializadas raras do pulmón chamadas ionocitos pulmonares que expresan o regulador de condutancia de membrana da fibrose quística por dos grupos que realizaron unha scRNA-Seq dos epitelios das vías aéreas plmonares.[17][18]
Os protocolos actuais de scRNA-Seq comprenden os seguintes pasos: o illamento de célula única e ARN, transcrición inversa, amplificación, xeración de bibliotecas e secuenciación. Os métodos que apareceron inicialmente separaban as células individuais en pozos separados; os métodos máis recentes encapsulan as células individuais en pingas nun aparello microfluídico, onde ten lugar a reacción da transcrición inversa, convertendo os ARNs en ADNc. Cada pinga leva un "código de barras" de ADN que etiqueta unicamente o ADNc derivado dunha soa célula. Unha vez que se completa a transcrición inversa, pode mesturarse todo o ADNc de moitas células para a secuenciación; os transcritos dunha célula determinada identifícanse polo código de barras exclusivo.[19][20]
Os retos aos que se enfronta a scRNA-Seq inclúen a conservación da abundancia inicial de ARNm nunha célula e a identificación de transcritos raros.[21] A etapa da transcrición inversa é fundamental, xa que a eficiencia da reacción de reversotranscrición (RT) determina canta poboación de ARN da célula será finalmente analizado polo secuenciador. A procesividade das transcriptases inversas e as estratexias de cebado usadas poden afectar á produción de ADNc de lonxitude completa e a xeración de bibliotecas nesgadas cara aos extremos 3’ ou 5' dos xenes.
No paso de amplificación, úsanse actualmetne tanto a PCR coma a transcrición in vitro (IVT) para amplificar o ADNc. Unha das vantaxes de métodos baseados na PCR é a capacidade de xerar ADNc de lonxitude completa. Porén, as diferentes eficiencias da PCR sobre secuencias determinadas (por exemplo, o contido GC) poden tamén ser amplificadas exponencialmente, producindo bibliotecas con cobetura desigual. Por outra parte, mentres que as bibliotecas xeradas por IVT poden evitar o nesgo de secuencias inducido pola PCR, unha secuencia específica pode ser transcrita ineficazmente, causando así a desaparición (drop-out) de secuencias ou a xeración de secuencias incompletas.[15][22]
Publicáronse varios protocolos para a scRNA-Seq:
Tang et al.,[23]
STRT,[24]
SMART-seq,[25]
CEL-seq,[26]
RAGE-seq,[27]
, Quartz-seq.[28]
e C1-CAGE.[29] Estes protocolos diferéncianse nas súas estratexias para a transcrición inversa, síntese de ADNc e a amplificación, e a posibilidade de aloxar códigos de barra específicos de secuencia (é dicir, UMIs) ou a capacidade de procesar mostras combinadas.[30]
En 2017, introducíronse dúas estratexias para medir simultaneamente o ARNm e expresión proteica de célula única por medio de anticorpos etiquetados con oligonucleótidos coñecidas como REAP-seq,[31] e CITE-seq.[32]
A scRNA-Seq propiciou moitos avances na comprensión do desenvolvemento de embrións e organismos, como o verme Caenorhabditis elegans,[39] e a planaria rexenerativa Schmidtea mediterranea.[40][41] Os primeiros vertebrados que foron mapados desta maneira foron o peixe cebra[42][43] e o anfibio Xenopus laevis.[44] En cada caso foron estudados múltiples estadios do desenvolvemento do embrión, o que permite que o proceso de desenvolvemento completo sexa mapado célula por célula.[8] A revista Science recoñeceu estes avances como o Logro do ano 2018.[45]
Cando se deseñan e realizan experimentos de RNA-Seq considéranse unha serie de parámetros:
Especificidade de tecido: a expresión xénica varía dentro dun tecido e entre diferentes tecidos, e a RNA-Seq mide esta mestura de tipos de células. Isto pode facer difícil illar o mecanismo biolóxico de interese. A secuenciación de célula única pode utilizarse para estudar cada célula individualmente, o que atenúa este problema.
Dependencia do tempo: a expresión xénica cambia co tempo e o que fai a RNA-Seq soamente é sacar unha instantánea. Poden realizarse experimentos que teñen en conta o decurso do tempo para observar cambios no transcritoma.
Cobertura (tamén chamada profundidade): o ARN contén as mesmas mutacións observadas no ADN e a detección require unha cobertura máis profunda. Cunha cobertura suficientemente alta, a RNA-Seq pode utilizarse para estimar a expresión de cada alelo. Isto pode roporcionar coñecementos sobre fenómenos como a impresión xenética ou os efectos regulatorios en cis. A profundidade de secunciación que cómpre para aplicacións específicas pode ser extrapolada dun experimento piloto.[46]
Artefactos de xeración de datos (tamén chamados varianza técnica): os reactivos (por exemplo, o kit de preparación de bibliotecas), persoal implicado e tipo de secuenciador (por exemplo, Illumina, Pacific Biosciences) poden orixinar artefactos técnicos que poderían ser mal interpretados como resultados significativos. Como ocore con calquera experimento científico, é prudente realizar a RNA-Seq nunha instalación ben controlada. Se isto non é posible ou o estudo é unha metaanálise, outra solución é detectar artefactos técnicos por inferencia de variables latentes (tipicamente a análise de compoñentes principais ou análise de factores) e seguidamente corrixir estas variables.[47]
Xestión de datos: un só experimento de RNA-Seq en humanos é xeralmente da orde de 1 Gb.[48] Este gran volume de datos pode presentar problemas de almacenamento. Unha solución é comprimir os datos usando esquemas computacionais multiuso (por exemplo, gzip) ou esquemas específicos de xenómica. Estes últimos poden estar baseados en secuencias de referencia ou secuencias de novo. Outra solución é realizar experimentos de micromatrices, que poden ser dabondo para un traballo baseado nunha hipótese ou estudos de replicación (opostos á investigación exploratoria).
Utilízanse dous métodos para asignar lecturas de secuencia brutas a características xenómicas (é dicir, ensamblar o transcritoma):
De novo: esta estratexia non require un xenoma de referencia para reconstruír o transcritoma e úsase normalmente cando o xenoma é descoñecido, incompleto ou está alterado substancialmente en comparación coa referencia.[49] As dificultades que se poden presentar cando se usan lecturas curtas para a ensamblaxe de novo son: 1) determinar que lecturas deberían unirse en secuencias contiguas (cóntigos), 2) a robustez para secuenciar erros e outros artefactos, e 3) a eficiencia computacional. O principal algoritmo utilizado para a ensamblaxe de novo fixo a transición desde gráficos de solapamento, que identifican todos os solapamentos por pares entre lecturas, a gráficos de de Bruijin, que rompen as lecturas en secuencias de lonxitude k e colapsan todos os k-meros nunha táboa hash.[50] Os gráficos de solapamento eran usados coa secuenciación de Sanger, pero non escalan ben os millóns de lecturas xeradas con RNA-Seq. Exemplos de ensambladores que usan gráficos de de Bruijn son Velvet,[51] Trinity,[49] Oases,[52] e Bridger.[53] A secuenciación de lecturas longas e de extremos apareados da mesma mostra pode mitigar os déficits na secuenciación de lecturas curtas o servir como molde ou esqueleto. Entre as métricas para estimar a calidade dunha ensamblaxe de novo están a lonxitude de cóntigo media, o número de cóntigos e a N50.[54]
Guiado polo xenoma: esta estratexia baséase nos mesmos métodos utilizados para o aliñamento de ADN, coa complexidade adicional de aliñar lecturas que cobren porcións non continuas do xenoma de referencia.[55] Estas lecturas non continuas son o resultado de secuenciar transcritos empalmados (ver figura). Tipicamente, os algoritmos de aliñamento constan de dous pasos: 1) aliñar porcións curtas da lectura (é dicir, sementar o xenoma), e 2) usar programación dinámica para encontrar un aliñamento óptimo, ás veces en combinación con anotacións coñecidas. Entre as ferramentas de software que usan o aliñamento guiado polo xenoma están Bowtie,[56] TopHat (que se basea en resultados de BowTie para aliñar unións de empalme),[57][58] Subread,[59] STAR,[55] HISAT2,[60] Sailfish,[61] Kallisto,[62] e GMAP.[63] A calidade dunha ensamblaxe guiada polo xenoma pode medirse tanto con métricas de ensamblaxe de novo (por exemplo, N50) coma con comparacións para coñecer secuencias de transcritoe, unióne de empalme, xenomas e proteínas usando precisión e exhaustividade (precision and recall), ou as súas combinacións (por exemplo, o valor F1).[54] Ademais, pode realizarse a estimación in silico usando lecturas simuladas.[64][65]
Unha nota sobre a calidade da ensamblaxe: o consenso actual é que: 1) a calidade de ensamblaxe pode variar dependendo da métrica que se utilizou, 2) as ensamblaxes que teñen bos valores nunha especie non necesariamente cadran ben noutras especies, e 3) combinar diferentes estratexias podería ser o máis fiable.[66][67]
A expresión cuanifícase para estudar os cambios celulares en resposta a estímulos externos, as diferenzas entre os estados de saúde e enfermidade, e outras cuestións a investigar. A expresión xénica utilízase a miúdo como un equivalente da abundancia de proteínas, pero estes a miúdo non son equivalentes debido a eventos postranscricionais como a interferencia de ARN e a degradación do ARNm mediada por unha mutación sen sentido.[68]
A expresión é cuantificada contando o número de lecturas que se maparon en cada locus no paso de ensamblaxe do transcritoma. A expresión pode ser cuantificada para os exóns ou xenes utilizando cóntigos ou anotacións de transcritos de referencia.[8] Estes recontos de lecturas de RNA-Seq observadas foron solidamente validadas respecto a tecnoloxías máis vellas, incluíndo as micromatrices de expresión e a qPCR.[46][69] Exemplos de ferramentas que cuantifican os recontos son HTSeq,[70] FeatureCounts,[71] Rcount,[72] maxcounts,[73] FIXSEQ,[74] e Cuffquant. Os recontos de lecturas son despois convertidos en métricas apropiadas para a comprobación de hipóteses, regresións e outras análises. Os parámetros para esta conversión son:
Profundidade/cobertura da secuenciación: aínda que a profundidade está pre-especificada cando se realizan experimentos de RNA-Seq múltiples, esta seguirá variando moito entre un experimento e outro.[75] Por tanto, o número total de lecturas xerado nun só experimento está normalmente normalizado ao converter recontos en fragmentos, lecturas ou recontos por millón de lecturas mapadas (FPM, RPM ou CPM). A profundidade de secunciación denomínase ás veces tamaño de biblioteca, o número de moléculas de ADNc intermediario no experimento.
Lonxitude do xene: os xenes máis longos terán máis fragmentos/lecturas/recontos que os máis curtos se a expresión de transcritos é a mesma. Isto é axustado dividindo a FPM pola lonxitude dun xene, o que ten como resultado os fragmentos métricos por quilobase de transcrito por millón de lecturas mapadas (FPKM).[76] Cando se examinan grupos de xenes en mostras, o FPKM é convertido a transcritos por millón (TPM) dividindo cada FPKM pola suma de FPKMs que hai nunha mostra.[77][78][79]
Rendemento de ARN total na mostra: como se extrae a mesma cantidade de ARN de cada mostra, as mostras con máis ARN total terán menos ARN por xene. Estes xenes parecen ter unha expresión diminuída, orixinando falsos positivos nas análises posteriores "augas abaixo".[75]
Varianza para a expresión de cada xene: esta é modelada para ter en conta o erro de mostraxe (importante para xenes con baixos recontos de lecturas), aumentar a potencia e diminuír os falsos positivos. A varianza pode estimarse como unha distribución normal, de Poisson ou binomial negativa[80][81][82] e é frecuentemente descomposta en varianza técnica e varianza biolóxica.
A cuantificación absoluta da expresión xénica non é posible coa maioría dos experimentos de RNA-Seq, que cuantifican a expresión relativa a todos os transcritos. É posible realizar unha RNA-Seq con spike-ins en mostras de ARN a concentracións coñecidas. Despois de secuenciar, os recontos de lecturas de secuencias spike-in utilízanse para determinar as relacións entre os recontos das lecturas de cada xene e as cantidades absolutas de fragmentos biolóxicos.[11][83] Nun exemplo, esta técnica foi utilizada en embrións do anfibio Xenopus tropicalis para determinar a cinética de transcrición.[84]
O uso máis simple pero xeralmente o máis potente da RNA-Seq é atopar diferenzas na expresión xénica entre dúas ou máis condicións (por exemplo, suxeito tratado ou non tratado); este proceso denomínase expresión diferencial. Os resultados refírense frecuentemente a xenes expresados diferencialmente (DEGs) e estes xenes poden estar regulados á alza ou á baixa (é dicir, máis altos ou máis baixos na condición de interese). Hai moitas ferramentas que realizan esta expresión diferencial. A maioría funcionan en linguaxe de programación R, Python ou a liña de comando Unix. Entre as ferramentas usadas comunmente están DESeq,[81] edgeR,[82] e voom+limma,[80][85] todas as cales están dispoñibles por medio de R/Bioconductor.[86][87] Estas son as consideracións comúns a ter en conta cando se realiza a expresión diferencial:
Entradas (inputs): as entradas en expresión diferencial inclúen: (1) unha matriz de expresión de RNA-Seq (M xenes × N mostras) e (2) unha matriz de deseño que contén as condicións experimentais para N mostras. A matriz de deseño máis simple contén unha columna, que corresponde a etiquetas para a condición que se está a comprobar. Outros covariados (tamén denominados factores, características, etiquetas ou parámetros) poden incluír efectos en lote, coñecidos como artefactos e calquera metadato que puidese confundir ou mediar a expresión xénica. Ademais dos covariados coñecidos, os covariados descoñecidos poden tamén estimarse por estratexias de aprendizaxe de máquina non supervisada como análises de compoñente principal, variable surrogada,[88] e PEER.[47] A miúdo empréganse análises de variable oculta para datos de RNA-Seq de tecidos humanos, que tipicamente teñen artefactos adicionais non capturados nos metadatos (por exemplo, o tempo isquémico, fontes de datos de múltiples institucións, características clínicas subxacentes, recollida de datos ao longo de moitos anos con moito persoal implicado).
Métodos: a maioría das ferramentas usan a regresión ou estatística non paramétrica para identificar xenes expresados diferencialmente e están ou baseados en reconto (DESeq2, limma, edgeR) ou baseados en ensamblaxe (por cuantificación sen aliñamento, sleuth (indagación),[89] Cuffdiff,[90] Ballgown[91]).[92] Seguindo a regresión, a maioría das ferramentas empregan axustes de valor p de taxa de erro por familia (FWER) ou taxa de descubrimento falso (FDR) para considerar hipóteses múltiples (en estudos humanos, ~20000 xenes codificantes de proteínas ou ~50000 biotipos).
Resultados (outputs): un resultdo típico consiste en filas que corresponden co número de xenes e polo menos tres columnas, o logaritmo do "cambio de veces" (log fold change) de cada xene (transformada logarítmica da proporción de expresión entre condicións, unha medida do tamaño do efecto), valor p, e valor p axustado para comparacións múltiples. Os xenes son definidos como bioloxicamente significativos se pasan os puntos de corte para o tamaño do efecto (logaritmo do "cambio de veces") e significación estatística. Idealmente, estes puntos de corte deberían ser especificados a priori, pero a natureza dos experimentos de RNA-Seq é con frecuencia exploratoria polo que é difícil predicir os tamaños do efecto e os pertinentes cortes con antelación.
Inconvenientes: a razón de ser destes métodos complexos é evitar os milleiros de dificultades que poden levar a cometer erros estatísticos e interpretacións enganosas. Entre estas dificultades están o incremento das taxas de falsos positivos (debido a comparacións múltiples), artefactos da preparación das mostras, heteroxeneidade da mostra (como fondos xenéticos mesturados), mostras altamente correlacionadas, non ter en conta deseños experimentais multinivel e un mal deseño experimental. Un notable inconveniente é ver os resultados en Microsoft Excel.[93] Aínda que é un programa cómodo, Excel converte automaticamente algúns nomes de xenes (SEPT1, DEC1, MARCH2) en datos ou números con comas flotantes.
Elección de ferramentas e punto de referencia: hai numerosos xeitos de comparar os resultados destas ferramentas, e DESeq2 adoita ser algo mellor que outros métodos.[92][94][95][96][97][98][99] Igual que con outros métodos, a elección do punto de referencia (benchmarking) consiste en comparar os resultados das ferramentas unhas con outras e con estándares de referencia coñecidos.
As análises posteriores (augas abaixo) dunha lista de xenes expresados diferencialmente son de dous tipos: validar as observacións e facer inferencias biolóxicas. Debido aos inconvenientes da expresión diferencial e a RNA-Seq, as observacións importantes son replicadas con: (1) un método ortogonal nas mesmas mostras (como a PCR en tempo real) ou (2) outro experimento, ás veces prerrexistrado, nunha nova cohorte. Este último axuda a asegurarse da xeneralizabilidade e pode normalmente ir seguido dunha metaanálise de todas as cohortes do pool. O método máis común para obter unha comprensión biolóxica de nivel máis alto dos resultados é a análise de enriquecemento do conxunto de xenes, aínda que ás veces se empregan estratexias de xenes candidatos. O enriquecemento do conxunto de xenes determina se o solapamento entre dous conxuntos de xenes é estatisticamente significativo; nese caso vese o solapamento entre xenes expresados diferencialmente e conxuntos de xenes a partir de vías/bases de datos coñecidas (por exemplo, Gene Ontology, KEGG, Human Phenotype Ontology) ou a partir de análises complementarias dos mesmos datos (como as redes de coexpresión). Ferramentas comúns para o enriquecemento de conxuntos de xenes son interfaces web (por exemplo, ENRICHR, g:profiler) e paquetes de software. Cando se avalían os resultados de enriquecemento, unha heurística uilizada é primeiro buscar o enriquecemento da bioloxía coñecida como comprobación sensata e despois expandir o alcance para buscar bioloxía nova.
O empalme de ARN é un proceso típico dos eucariotas e contribúe significativamente á regulación de proteínas e a súa diversidade, e ocorre en >90% dos xenes humanos.[100] Hai múltiples modos de empalme alternativo: omisión de exón (o modo de empalme máis común en humanos e eucariotas superiores), exóns mutuamente excluíntes, doante alternativo ou sitios aceptores, retención de exóns (o modo de empalme máis común en plantas, fungos e protozoos), sitio alternativo de comezo da transcrición (promotor), e poliadenilación alternativa.[100] Un obxectivo da RNA-Seq é identificar eventos de empalme alternativo e comprobar se difiren entre distintas condicións. A secuenciación de lecturas longas captura o transcrito completo e así minimiza moitos dos problemas que se presentan na estimación da abundancia de isoformas, como o mapado de lecturas ambiguas. Para a RNA-Seq de lecturas curtas, hai múltiples métodos para detectar o empalme alternativo que pode ser clasificado en tres grupos principais:[101][102][103]
Baseado no reconto (tamén baseado no evento, empalme diferencial): estima a retención de exóns. Exemplos son DEXSeq,[104] MATS,[105] e SeqGSEA.[106]
Baseado en isoformas (tamén módulos de multilectura, expresión de isoformas diferencial): estima primeiro a abundancia de isoformas e despois a abundancia relativa entre condicións. Exemplos son Cufflinks 2[107] e DiffSplice.[108]
Baseado na escisión de intróns: calcula o empalme alternativo usando lecturas que foron divididas. Exemplos son MAJIQ[109] e Leafcutter.[103]
As ferramentas de expresión diferencial de xenes poden utilizarse tamén para a expresión diferencial de isoformas se as isoformas están cuantificadas con antelación con outras ferramentas como RSEM.[110]
As redes de coexpresión son representacións derivadas de datos de xenes que se comportan de maneira similar en distintos tecidos e distintas condicións experimentais.[111] O seu principal propósito é a xeración de hipóteses e estratexias de "culpa por asociación" para inferir as funcións de xenes previamente descoñecidos.[111] Os datos de RNA-Seq foron utiizados para inferir xenes implicados en vías específicas baseándose na correlación de Pearson, tanto en plantas[112] coma en mamíferos.[113] A principal vantaxe dos datos de RNA-Seq neste tipo de análises sobre as plataformas de micromatrices é a capacidade de cubrir o transcritoma enteiro, permitindo, por tanto, a posibilidade de obter representacións máis completas das redes regulatorias de xenes. A regulación diferencial das isoformas de empalme do mesmo xene pode detectarse e usarse para predicir e saber as súas funcións biolóxicas.[114][115]
Utilizáronse con éxito a análises de redes de coexpresión de xenes ponderada para identificar módulos de coexpresión e xenes centrais intramodulares baseándose en datos de RNA seq. Os módulos de coexpresión poden corresponder a tipos celulares ou vías. Os centros intramodulares altamente conectados poden ser interpretados como representativos dos seus respectivos módulos. Un eigengene é unha suma ponderada da expresión de todos os xenes nun módulo. Os eigengenes son biomarcadores útiles (features) para a diagnose e prognóstico.[116] Propuxéronse estratexias de Transformación Estabilizadora da Varianza para estimar os coeficientes de correlación baseados en datos de RNA seq.[112]
A RNA-Seq captura a variación no ADN, incluíndo as variantes de nucleótido único, pequenas insercións/delecións, e as variacións estruturais. A Variant calling en RNA-Seq é similar ao callind de variantes de ADN e a miúdo emprega as mesmas ferramentas (como SAMtools mpileup[117] e GATK HaplotypeCaller[118]) con axustes para te en conta o empalme. Unha dimensión única das variantes de ARN é expresión específica de alelo (ASE): asvariantes dun só haplotipo poderían expresarse preferencialmente debido a efectos reguladores como a impresión xenómica e a expresión de loci de trazos cuantitativos e as variantes raras non codificantes.[119][120] Entre as limitacións na identificación de variantes de ARN está que só reflicte rexións expresadas (en humanos <5% do xenoma) e ten unha calidade peor cando a comparamos coa secuenciación de ADN directa.
Ter as secuencias transcritómicas e xenómicas que se corresponden entre si dun individuo pode axudar a detectar edicións post-transcricionais (edición do ARN).[3] Un evento de modificación post-transcricional é identificado se o transcito do xene ten un alelo/variante non observada nos datos xenómicos.
Os xenes de fusión, causados por diferentes modificacions estruturais no xenoma, están recibindo moita atención debido á súa relación co cancro.[121] A capacidade da RNA-Seq de analizar o transcritoma completo dunha mostra de modo non nesgado faina unha ferramenta atractiva para buscar este tipo de eventos comúns no cancro.[4]
A idea dedúcese do proceso de aliñar as lecturas transcritómicas curtas cun xenma de referencia. A maioría das lecturas curtas están comprendidas dentro dun exón completo, e esperaríase que un conxunto menor pero aínda grande se mapase a unións exón-exón coñecidas. O resto das lecturas curtas non mapadas serían despois analizadas para determinar se coinciden con unións exón-exón nas que os exóns proceden de diferentes xenes. Isto sería unha evidencia dun posible evento de fusión, pero, debido á lonxitude das lecturas, isto podería resultar moi ruidoso. Unha aproximación alternativa é usar lecturas de extremos apareados, cun número potencialmente grande de lecturas apareadas que se maparían a un exón diferente, dando unha mellor cobertura para estes eventos (ver figura). Non obstante, o resultado final consiste en combinacións múltiples e potencialmente novas de xenes que proporcionan un punto de comezo ideal para ulteriores validacións.
A RNA-Seq empezou a desenvolverse a metade da década de 2000 coa aparición da tecnoloxía de secuenciación de seguinte xeración.[122] Os primeiros artigos que falaban da RNA-Seq aínda que sen usar aínda o termo trataban sobre liñas celulares do cancro de próstata[123] (datadas en 2006), a planta Medicago truncatula[124] (2006), o millo[125] (2007), e Arabidopsis thaliana[126] (2007), mentres que o termo "RNA-Seq" foi mencionado por primeira vez en 2008.[127] O número de artigos que se refiren á RNA-Seq no título ou no resumo (na figura a liña azul) está incrementándose constantemente e en 2018 publicáranse 6754 artigos (ligazón á busca de PubMed).
A RNA-Seq ten o potential de identificar nova bioloxía sobre doenzas, perfilar biomarcadores para indicacións clínicas, inferir vías tratables con fármacos e facer diagnósticos xenéticos. Estes resultados poderían despois ser personalizados para subgrupos de pacientes ou incluso individuos, o que serviría para facer unha prevención máis efectiva e mellores diagnósticos e terapias. A aplicabilidade destas estratexias está en parte determinada polo custo en diñeiro e tempo; unha limitación importante é o tempo que cómpre para que o equipo de especialistas (bioinformáticos, médicos, investigadores básicos e técnicos) interpreten completamente a enorme cantidade de datos xerados por estas análises.
Estáselle dando grande importancia aos datos de RNA-Seq desde que os proxectos Encyclopedia of DNA Elements (ENCODE) e The Cancer Genome Atlas (TCGA) utilizaron este enfoque para caracterizar ducias de liñas celulares[128] e miles de mostras de tumores primarias,[129] respectivamente. ENCODE trata de identificar rexións regulatorias en todo o xenoma en diferentes cohortes de liñas celulares e os datos transcritómicos son fundamentais para entender os efectos augas abaixo destas capas regulatorias xenética e epixenética. Ao contraio, o TCGA trata de recoller e analizar milleiros de mostras tomadas de pacientes de 30 tipos de tumores para comprender os mecanismos subxacentes da transformación maligna e a súa progresión. Neste contexto os datos de RNA-Seq proporcionan unha instantánea única do status transcritómico da doenza e examinan unha poboación non nesgada de transcritos que posibilita a identificación de novos transcritos, transcritos de fusión e ARN non codificante, que poderían ser indetectados con outras tecnoloxías.
↑Garalde DR, Snell EA, Jachimowicz D, Sipos B, Lloyd JH, Bruce M, et al. (March 2018). "Highly parallel direct RNA sequencing on an array of nanopores". Nature Methods15 (3): 201–206. PMID29334379. doi:10.1038/nmeth.4577.
↑ 15,015,1"Shapiro E, Biezuner T, Linnarsson S (September 2013). "Single-cell sequencing-based technologies will revolutionize whole-organism science". Nature Reviews. Genetics14 (9): 618–30. PMID23897237. doi:10.1038/nrg3542."
↑Kolodziejczyk AA, Kim JK, Svensson V, Marioni JC, Teichmann SA (May 2015). "The technology and biology of single-cell RNA sequencing". Molecular Cell58 (4): 610–20. PMID26000846. doi:10.1016/j.molcel.2015.04.005.
↑Eberwine J, Sul JY, Bartfai T, Kim J (January 2014). "The promise of single-cell sequencing". Nature Methods11 (1): 25–7. PMID24524134. doi:10.1038/nmeth.2769.
↑Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N, et al. (May 2009). "mRNA-Seq whole-transcriptome analysis of a single cell". Nature Methods6 (5): 377–82. PMID19349980. doi:10.1038/NMETH.1315.
↑Dal Molin A, Di Camillo B (January 2018). "How to design a single-cell RNA-sequencing experiment: pitfalls, challenges and perspectives". Briefings in Bioinformatics: bby007. PMID29394315. doi:10.1093/bib/bby007.
↑Peterson VM, Zhang KX, Kumar N, Wong J, Li L, Wilson DC, et al. (October 2017). "Multiplexed quantification of proteins and transcripts in single cells". Nature Biotechnology35 (10): 936–939. PMID28854175. doi:10.1038/nbt.3973.
↑Olmos D, Arkenau HT, Ang JE, Ledaki I, Attard G, Carden CP, et al. (January 2009). "Circulating tumour cell (CTC) counts as intermediate end points in castration-resistant prostate cancer (CRPC): a single-centre experience". Annals of Oncology20 (1): 27–33. PMID18695026. doi:10.1093/annonc/mdn544.
↑Wu TD, Watanabe CK (May 2005). "GMAP: a genomic mapping and alignment program for mRNA and EST sequences". Bioinformatics21 (9): 1859–75. PMID15728110. doi:10.1093/bioinformatics/bti310.
↑Lu B, Zeng Z, Shi T (February 2013). "Comparative study of de novo assembly and genome-guided assembly strategies for transcriptome reconstruction based on RNA-Seq". Science China Life Sciences56 (2): 143–55. PMID23393030. doi:10.1007/s11427-013-4442-z.
↑Liao Y, Smyth GK, Shi W (April 2014). "featureCounts: an efficient general purpose program for assigning sequence reads to genomic features". Bioinformatics30 (7): 923–30. PMID24227677. arXiv:1305.3347. doi:10.1093/bioinformatics/btt656.
↑Wagner GP, Kin K, Lynch VJ (December 2012). "Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples". Theory in Biosciences = Theorie in den Biowissenschaften131 (4): 281–5. PMID22872506. doi:10.1007/s12064-012-0162-3.
↑Wang X, Cairns MJ (June 2014). "SeqGSEA: a Bioconductor package for gene set enrichment analysis of RNA-Seq data integrating differential expression and splicing". Bioinformatics30 (12): 1777–9. PMID24535097. doi:10.1093/bioinformatics/btu090.
↑Merino GA, Conesa A, Fernández EA (March 2019). "A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies". Briefings in Bioinformatics20 (2): 471–481. PMID29040385. doi:10.1093/bib/bbx122.
↑ 112,0112,1Giorgi FM, Del Fabbro C, Licausi F (March 2013). "Comparative study of RNA-seq- and microarray-derived coexpression networks in Arabidopsis thaliana". Bioinformatics29 (6): 717–24. PMID23376351. doi:10.1093/bioinformatics/btt053.