View markdown source on GitHub

Introducción al análisis de datos de scRNA-seq

Contributors

AvatarMehmet Tekman AvatarWendi Bacon

Questions

Objectives

last_modification Last modification: Oct 19, 2021

RNA-seq de una sola célula

Introducción al análisis de datos de scRNA-seq

Speaker Notes


Secuencia de ARN a granel

.pull-left[! [Se muestran dos manchas etiquetadas como tejido A y tejido B, a la derecha se resumen en tablas de Gen A, B y X y su diferente expresión promedio por tejido.] (../../images/scrna-intro/rna_cells_bulkrez.svg)]

.pull-right[ .reduce90[

| Atributo | Resumen | | -: |: - | | Resolución | Tejidos enteros | | Señal | Expresión génica media por tejido | | Expresión diferencial | Diferencia entre la expresión génica media entre tejidos | ] ]

Speaker Notes

RNA-Seq de célula única

.pull-left[! [Se muestran grupos de células rojas y azules que se asemejan a la mancha de tejido de la diapositiva anterior. Ahora los gráficos de la derecha para la expresión en los genes A, B, X se muestran por celda en lugar de por tejido.] (../../images/scrna-intro/rna_cells_singlerez.svg)]

.pull-right[ .reduce90[

Atributo Resumen
Resolución Células individuales dentro de los tejidos
Señal Expresión de genes individuales por célula
Expresión diferencial Algunas células expresan el mismo conjunto de genes de la misma manera; comparar un conjunto de células con otro

] ]

Speaker Notes


De ARN a granel a ARN unicelular

.image-50[![Los tejidos A y B de la primera diapositiva se muestran como las colecciones de células de la segunda diapositiva.] (../../images/scrna-intro/rna_cells_bulk2single.svg)]

.reduce90[

Speaker Notes


Captura de células y réplicas

.center[¿Cómo preparamos las muestras para la secuenciación?]

Speaker Notes Por ejemplo, ¿cómo se capturan y secuencian las células?

.pull-left[ .reduce90[

Secuencia de ARN a granel

  1. Corta una rodaja fina de un pañuelo
  2. Agregue enzimas para romper las paredes celulares.
  3. Enjuague el material de ADN / ARN no deseado
  4. Realice una secuenciación en el pegote sobrante

] ]

Speaker Notes En el análisis de secuencia de ARN a granel, el proceso implica tomar una muestra, eliminar moléculas no deseadas y secuenciar todo lo demás.

.pull-left[ .reduce90[

Secuencia de ARN unicelular

  1. Corta una rodaja fina de un pañuelo
  2. Descomponer un tejido en células
  3. Aislar cada celda
    • Agrega enzimas para romper las paredes celulares.
    • Realizar código de barras
  4. Realice la secuenciación en un grupo común

] ]

Speaker Notes

Réplicas biológicas

.center[ .reduce90[

Tipo Notas
** Secuencia de ARN a granel ** Cada corte de tejido es una muestra, se puede tomar otro corte
** RNA-secuencia unicelular ** Cada celda es una muestra, no se puede replicar directamente porque es única

] ]

Speaker Notes


Captura / Clasificación:

Speaker Notes El aislamiento celular se puede realizar de diferentes formas.

.pull-right[.image-90[! [Una imagen en blanco y negro de una mujer en el laboratorio que usa su boca para pipetear células de un tubo de ensayo a otro.] (../../images/scrna-intro/mouthpipette.jpg)]]

.pull-left[ .reduce90[

Speaker Notes Un método es el pipeteado manual, en el que los científicos de laboratorio húmedo succionan células individuales utilizando un tubo largo y delgado.

.pull-left[ .reduce90[

Speaker Notes Pueden hacer esto cientos de veces para aislar cientos de células, pero es propenso a errores y, a menudo, se aíslan varias células juntas.

.pull-left[ .reduce90[

Speaker Notes Otro método es la citometría de flujo, que reduce el componente de error humano de esta etapa.


Captura / Clasificación: Citometría de flujo

.pull-right[! [Dibujo de un sistema de fluídica con dos láseres apuntando a través del sistema de fluídica y filtros y detectores que detectan la cantidad de luz reflejada fuera del sistema con un sistema óptico. Esto pasa por un detector a un sistema electrónico.] (../../images/scrna-intro/opticssystem.png)]

.pull-left[ .reduce90[

.pull-left[ .reduce90[

.pull-left[ .reduce90[

Speaker Notes


Captura / Clasificación: Tamaño y tipo

.pull-right[ ! [La misma caricatura que antes] (../../images/scrna-intro/opticssystem.png) ]

.pull-left[

]

Speaker Notes


Captura / Clasificación: Tamaño y tipo

.pull-left[ .reduce90[

.image-75[.pull-right[! [Un diagrama de dispersión de color que muestra dos grupos de puntos etiquetados como monocitos y linfocitos.] (../../images/scrna-intro/FlowJo_Layouts__01-Mar-2017.jpg)]]

Speaker Notes

.pull-left[ .reduce90[

.image-75[.pull-right[! [El mismo diagrama de dispersión, pero ahora los monocitos y graunlocitos se muestran como manchas.] (../../images/scrna-intro/Granulocytes_vs_Monocytes_scatter.jpg)]]

Speaker Notes La dispersión lateral es perpendicular al láser principal y mide la granularidad de la célula, ideal para distinguir células con estructuras internas menos definidas, como los granulocitos en el eje Y de la imagen de ejemplo.


Captura / Clasificación: FACS

.pull-left[ ![Un diagrama de dispersión cortado en cuatro regiones de CD4 +/- y CD8 +/-] (../../images/scrna-intro/CD8vsCD3.png) .footnote [.reduce70 [Imagen de BD Biosciences]] ]

.pull-right[ .reduce90[

] ]

Speaker Notes


Células de código de barras

.center[![Se agregan grupos de GGG y TCT a dos celdas diferentes para etiquetarlos.] (../../images/scrna-intro/scrna_pbb_barcodes_add.svg)]

.footnote[Agregue códigos de barras únicos a cada transcripción en una celda]

Speaker Notes


Células de código de barras

.footnote[Coloque las células en la placa de secuenciación]

.pull-left[![Las celdas con códigos de barras se colocan en placas en pocillos individuales según su código de barras.] (../../images/scrna-intro/scrna_pbb_barcodes_overview.svg)]

.pull-right[ .reduce90[

Speaker Notes Una vez que las moléculas de ARN han sido etiquetadas por códigos de barras de células, pueden amplificarse, ya sea por separado o agrupadas, donde los productos amplificados comparten los mismos códigos de barras de células que sus contrapartes originales.


Problemas de secuenciación: amplificación

.center[.image-75[![Una caricatura de una celda con una hebra roja y azul. La hebra roja se amplifica bien, la azul no.] (../../images/scrna-intro/amplification errors.svg)]]

.reduce90[

Speaker Notes


Problemas de secuenciación: Amp. + UMI

.pull-left[![La misma caricatura, pero ahora las hebras rojas y azules están etiquetadas con adaptadores rosas y grises. El rojo y el azul se amplifican pero a diferentes velocidades.] (../../images/scrna-intro/scrna_amplif_errors_umis.svg)]

.pull-right[ .reduce90[

Speaker Notes


Problemas de secuenciación: Amp. + UMI

.pull-left[![La misma caricatura, rojo y azul se amplifican a diferentes velocidades.] (../../images/scrna-intro/scrna_amplif_errors_umis.svg)]

.pull-right[

.center[Contando lecturas

  Lee
** Rojo ** 6
** Azul ** 3

] ]

Speaker Notes

.pull-left[

.center[Agrupación de lecturas por gen y UMI

  ** UMI ** ** Lee **
** Rojo ** Rosa 2
  Cyan 4
** Azul ** Rosa 1
  Verde 2

] ]

.pull-right[

.center[Contando lecturas desduplicadas

  ** UMI (agrupados) ** ** # UMI **
** Rojo ** {Rosa, Cian} 2
** Azul ** {Rosa, Verde} 2

] ]

Speaker Notes Sin embargo, si agrupamos las lecturas por sus UMI, y luego contamos solo el número de UMI únicas por transcripción, eliminando la duplicación de las lecturas que comparten la misma transcripción y UMI, llegamos a 2 lecturas rojas y 2 lecturas azules que representan mejor el verdadero número de transcripciones.


Problemas de secuenciación: ¿UMI únicos?

.pull-left[![La misma caricatura, rojo y azul se amplifican a diferentes velocidades.] (../../images/scrna-intro/scrna_amplif_errors_umis.svg)] .pull-right[

  ** UMI ** ** # lecturas **
** Rojo ** {Rosa, Cian} 2
** Azul ** {Rosa, Verde} 2

.reduce90[

]

Speaker Notes


.reduce90[

Speaker Notes Esto se debe a que a menudo hay más transcripciones que UMI disponibles, que dependen de la cantidad de transcripciones en una celda y de la longitud del código de barras.


Problemas de secuenciación: ¿UMI únicos?

.center[Códigos de barras de longitud * N * con distancia de edición de * B *:]

.pull-left[

.center[* N = 5 * y * B = 1 *]

AAAAA AAAAC AAAAG AAAAT AAACA ····
CCCCC CCCCA CCCCG CCCCT CCCAC ····
              ·
              ·
              ·

.center[* 4⁵ = 1024 * códigos de barras]

]

.pull-right[

.center[* N = 5 * y * B = 2 *]

AAAAA AAACC AAAGG AAATT AACCA ····
CCCCC CCCAA CCCGG CCCTT CCCAA ····
              ·
              ·
              ·

.center[* 4⁵⁻¹ = 512 * códigos de barras]

]

.footnote[

Las distancias de edición protegen contra ** errores de secuenciación. **

]

Speaker Notes


Problemas de secuenciación: ¿UMI únicos?

.pull-left[![La misma caricatura, rojo y azul se amplifican a diferentes velocidades.] (../../images/scrna-intro/scrna_amplif_errors_umis.svg)] .pull-right[

  ** UMI ** ** # lecturas **
** Rojo ** {Rosa, Cian} 2
** Azul ** {Rosa, Verde} 2

.reduce90[



]

]

.reduce90[

Speaker Notes En el contexto de la amplificación, las UMI no necesitan ser únicas, solo necesitan ser lo suficientemente aleatorias para deduplicar las transcripciones a fin de dar una estimación más precisa del número de transcripciones dentro de una celda.


Códigos de barras de celda y UMI (resumen)

Para cada celda:

  1. Agregar códigos de barras de celda a celdas ! [Se agregan grupos de GGG y TCT a dos celdas diferentes para etiquetarlas.] (../../images/scrna-intro/scrna_pbb_barcodes_add.svg)

Speaker Notes Así que recapitulemos lo que hemos aprendido: primero, cada celda tiene códigos de barras de celda agregados a cada molécula de ARN en cada celda.


Códigos de barras de celda y UMI (resumen)

Para cada celda:

  1. Agregar códigos de barras de celda a celdas
  2. Agregar UMI a celdas con código de barras de celda ! [Se muestran mezclas aleatorias de códigos de barras de tres letras, además de las dos celdas de la última caricatura que tenían GGG en una y lecturas etiquetadas TCT en la otra celda. Ahora todos tienen prefijos aleatorios antes del GGG en una celda y TCT en la otra.] (../../images/scrna-intro/scrna_umi_add.svg)

Speaker Notes


QC: Superar el ruido de fondo

.center[![Una matriz de genes 1, 2, 3 y células por columna se cambia en dos matrices, una con recuentos de genes detectados por célula y recuentos de células detectadas por gen] (../../images/scrna-intro/raceid_libsize.svg)]

Speaker Notes


Normalización: Bulk vs Single-Cell

.pull-left[

  T1 T2 T3
** GeneA ** 100 80 40
** GeneB ** 45 30 40

.reduce70[* La expresión genética media es alta]


  C1 C2 C3 C4 C5
** GeneA ** 0 0 2 0 1
** GeneB ** 2 0 15 0 0

.reduce70[* La expresión genética media es cero]

]

.pull-right[

¿Por qué es esto un problema?

.center[ \(R(s,g) = \frac{X\_{sg}}{(\prod\_{s} X\_{s})^{\frac{1}{n}}}\)

\[DESeq(s,g) = \frac{X\_{sg}}{Med(R\_{s})}\]

] ]

Speaker Notes

.pull-right[ ¡No se puede dividir por cero! ]

Speaker Notes


Normalización: método SCRAN

.footnote[.small[[* Combinación de células para normalizar los datos de secuenciación de ARN de una sola célula con muchos recuentos cero *, Lun et al., 2016] (https://doi.org/10.1186/s13059-016-0947-7)]]

.pull-left[![Las burbujas azules y rojas se mezclan, luego se separan en dos grupos y luego se organizan alrededor de un círculo, el rojo va de pequeño a grande alrededor de la mitad derecha, azul de pequeño a grande alrededor de la izquierda. La parte inferior del círculo tiene la etiqueta 6, la parte superior tiene la etiqueta 12.] (../../images/scrna-intro/scran_pooling_left.svg)]

.pull-right[ .reduce90[

  1. Calcule el tamaño de la biblioteca de todas las celdas.

  2. Calcule el tamaño de la biblioteca de una celda de pseudo referencia (promedio)

  3. Separe los tamaños impares (rojo) y los tamaños pares (azul) en dos grupos

  4. Ordene cada grupo por tamaño de biblioteca y colóquelo en lados opuestos de un “anillo” ] ]

Speaker Notes


Normalización: método SCRAN

.footnote[.small[[* Combinación de células para normalizar los datos de secuenciación de ARN de una sola célula con muchos recuentos cero *, Lun et al., 2016] (https://doi.org/10.1186/s13059-016-0947-7)]]

.pull-right[![El mismo gráfico final con círculos azules y rojos de tamaño creciente con una flecha que apunta a una gran cantidad de fórmulas que se superponen.] (../../images/scrna-intro/scran_pooling_right.svg)]

.pull-left[ .reduce90[

  1. Defina grupos superpuestos de celdas adyacentes de tamaño * k *

  2. Para cada grupo
    1. Sume los tamaños de biblioteca de todas las celdas dentro
    2. Obtenga un factor de tamaño dividiendo por la celda de referencia
  3. Para cada celda
    1. Encuentra las piscinas a las que pertenece
    2. Construya un modelo lineal usando estos factores de tamaño
    3. Estime el factor de tamaño de la celda en este modelo lineal ] ]

Speaker Notes


Normalización: método SCRAN

.footnote[.small[[* Combinación de células para normalizar los datos de secuenciación de ARN de una sola célula con muchos recuentos cero *, Lun et al., 2016] (https://doi.org/10.1186/s13059-016-0947-7)]]

.center[![Los dos gráficos anteriores ahora en un gráfico.] (../../images/scrna-intro/scran_pooling.svg)]

Speaker Notes


Variación deseada vs no deseada

.pull-right[![Tres gráficos de líneas superpuestos que mapean la variación que contribuye a la densidad. Se muestra que los genes Top N aumentan en densidad a medida que aumenta la varianza contribuyente, que genes por célula, transcripciones y fuente de lote disminuyen.] (../../images/scrna-intro/variance.svg)]

.pull-left[ .reduce90[

Speaker Notes


Variación confusa: biológica

.center[![Una caricatura a la izquierda muestra un signo de interrogación con flechas que indican nada y se muestran las transcripciones. A la derecha están las fases del ciclo celular y diferentes cantidades de transcripciones en cada fase.] (../../images/scrna-intro/raceid_cellcycle.svg)]

.pull-left[ .reduce90[ .center [* Transcripción por ráfagas *]

.pull-right[ .reduce90[ .center[Ciclo celular]

Speaker Notes


Variación confusa: técnica

.center[![La variación del tamaño de la biblioteca apunta a dos celdas con transcripciones rojas y azules en números idénticos. Sin embargo, durante la amplificación en una celda produce resultados, mientras que en la otra se elimina el azul.] (../../images/scrna-intro/raceid_technical_variation.svg)]

.pull-left[ .reduce90[

.pull-left[ .reduce90[ Eventos de abandono

Speaker Notes


Variación confusa: técnica

.center[![La variación del tamaño de la biblioteca apunta a dos celdas con transcripciones rojas y azules en números idénticos. Sin embargo, durante la amplificación en una celda produce resultados, mientras que en la otra se elimina el azul.] (../../images/scrna-intro/raceid_technical_variation.svg)]

Speaker Notes


Relaciones entre celdas

Considerar:

Apuntar:

Nota:

Speaker Notes


Matriz de distancia

! [Se traza una matriz de recuento de genes frente a células en un espacio N-dimensional con cada gen representando los diferentes ejes. Se muestra una fórmula de distancia para 3 dimensiones, y luego se muestra una tabla final de la matriz de conteo con las distancias entre cada una de las celdas. según sus genes.] (../../images/scrna-intro/raceid_distance.svg)

Speaker Notes


Relación de células: KNN

! [Se muestra un gráfico de células en tres genes con la etiqueta conjunto de datos de alta dimensión de células. Esto produce una matriz de distancia (simétrica) y luego a través de KNN con k = 2, una matriz no simétrica. Esto luego se traza nuevamente en el espacio de dimensión genética para mostrar las conexiones entre las células.] (../../images/scrna-intro/scrna_knn.svg)

Speaker Notes


Reducción dimensional

! [La matriz de genes frente a células se traza en dimensiones genéticas y luego se reduce a 2 dimensiones.] (../../images/scrna-intro/raceid_dimred.svg)

.pull-left[ .reduce90[ Apuntar:

.pull-right[ .reduce90[ Restricción

Speaker Notes


Agrupación

.pull-left[.image-100[! [Un diagrama de dispersión con muchos grupos de celdas etiquetadas con diferentes colores. Las células están agrupadas en gran parte bien, con pocas células periféricas.] (../../images/scrna-intro/singlecellplot3.png)]]

.pull-right[ .reduce90[

  1. Proyección 2D
    • Cada punto es una celda
    • Agrupar colorea los puntos, donde las celdas de diferentes colores pertenecen a diferentes grupos
    • Los diferentes grupos representan diferentes tipos de células. ] ]

Speaker Notes


Agrupación

.pull-left[.image-100[! [El mismo diagrama de dispersión con agrupamiento que antes, pero ahora los grupos están etiquetados como Neuronas, NSC, Glial Prog., Astrocitos, etc.] (../../images/scrna-intro/singlecellplot4.png)] ]

.pull-right[ .reduce90[

  1. Proyección 2D
  2. Tipos de células discretas
    • Cada grupo debe representar un tipo diferente
    • Busque la mayor cantidad de genes DE en cada grupo
      • Encuentra los genes marcadores → Tipo de célula ] ]

Speaker Notes


Agrupación

.pull-left[.image-100[![El mismo gráfico etiquetado, pero ahora las flechas conectan los siguientes grupos de tipos de celdas más cercanos.] (../../images/scrna-intro/single cell plot 6.png)]]

.pull-right[ .reduce90[

  1. Proyección 2D
  2. Tipos de células discretas
  3. Las relaciones infieren linaje
    • Las células madre neurales se diferencian en tipos de células maduras.
    • Los árboles de linaje se construyen teniendo en cuenta
      • Entropía del racimo
      • Proximidad de cluster ] ]

Speaker Notes También podemos derivar aún más las relaciones entre estos grupos calculando árboles de linaje en función de la cantidad de ruido en cada grupo, con la expectativa de que las células madre tengan perfiles de expresión ruidosos que produzcan grupos más amplios, y las células maduras tengan perfiles de expresión muy claros que produzcan grupos más ajustados.


Agrupación: Difícil vs Suave

   
.image-100[![Mismo conjunto de grupos distintos con una separación muy clara] (../../images/scrna-intro/singlecellplot3.png)] .image-100 [! [Los clústeres ahora se mezclan entre sí, y la separación no es clara.] (../../images/scrna-intro/10xdata.png)]
.center[Duro] .center[Suave]
Grandes espacios entre clusters Los racimos se mezclan entre sí
Los tipos de células están bien definidos y la agrupación refleja que Los tipos de células parecen entremezclarse entre sí.

Speaker Notes


Fenotipos continuos:

.center[![El gráfico muestra el tiempo de desarrollo de los reticulocitos a medida que pasan por una fase celular intermedia o rara, hasta su forma final: glóbulos rojos.] (../../images/scrna-intro/raceid_contpheno.svg)] .reduce90[

Speaker Notes Es de esperar un agrupamiento suave, ya que aunque el agrupamiento es un método estadístico para dividir datos de manera discreta, la biología celular subyacente de los datos es un proceso continuo, donde las células pasan de un estado bien definido a otro a través de etapas intermedias que se representan en entre dos centros de grupos.


Realización de agrupación en clústeres

.pull-left[ ! [Perfiles de expresión discretos: Se muestran tres montañas con nubes, solo vemos tres picos. Las celdas en rojo, verde y azul se muestran en los picos. Paisaje de expresión continua: las nubes se eliminan y vemos que las montañas están realmente conectadas y hay celdas intermedias en varios colores intermedios.] (../../images/scrna-intro/raceid_mountains.svg) ]

.pull-right[ .reduce90[

Speaker Notes


Realización de agrupación en clústeres: K-means

.pull-right[![Una figura animada que muestra varias iteraciones de un algoritmo que optimiza una división de 3 vías entre un diagrama de dispersión de celdas. No hay un límite claro que haga que el resultado final parezca solo un poco mejor.] (../../images/scrna-intro/kmeans.gif)]

.pull-left[ .reduce90[

] ]

Speaker Notes


Realización de clústeres: jerárquico

.pull-left[![Una cifra de muchos pasos que comienza con varios puntos individuales. El texto dice “identificar los dos grupos más cercanos” y “fusionar los dos grupos más similares”. El proceso se repite varias veces hasta que todos los clústeres se absorben en un blob grande.] (../../images/scrna-intro/hierarchal1.png)]

.pull-right[ .reduce90[

.image-90[![Varios puntos en un cuadrado están etiquetados de la A a la F, a la derecha se muestra un dendrograma con longitudes que indican qué tan cerca están las letras entre sí.] (../../images/scrna-intro/Jerárquico 2.png)] ]

Speaker Notes


Agrupación comunitaria: Louvain

.center[![Se muestra un gráfico con puntos conectados por líneas. Abajo, esos puntos se han expandido y el rosa toca naranja y casi toca morado. ¿Pregunta rosa por sí mismo? Y anota 4 enlaces externos y 0 enlaces internos. Se muestran dos opciones hipotéticas, si el rosa absorbe el morado, vemos 5 conexiones externas y 1 interna, entonces, se agregan nuevas conexiones. Una X sugiere que esto está mal. A continuación se muestra la opción naranja absorbe rosa, donde vemos 3 conexiones externas y 1 interna, por lo que una conexión se ha convertido en interna y no hay nuevos nodos conectados. Una marca de verificación indica que esto era correcto.] (../../images/scrna-intro/commgraph1.svg)]

.reduce90[ Objetivo: maximizar los enlaces internos y minimizar los enlaces externos ]

Speaker Notes


Agrupación comunitaria: Louvain

.center[![El mismo gráfico que antes, pero ahora hay más grupos más grandes. El azul y el violeta se absorbieron, el amarillo y el rojo se absorbieron, y vemos un gráfico simplificado de 4 nodos.] (../../images/scrna-intro/commgraph2.svg)]

.reduce90[

Speaker Notes Si, en cambio, la nueva configuración ha aumentado el número de enlaces externos, la configuración se rechaza y se selecciona y prueba otra celda. Al realizar esto varias veces, se construye una estructura comunitaria de células con el grado de especificidad que desee el usuario.


Resumen

.pull-left[![Se muestran grupos de células rojas y azules que se asemejan a las manchas de tejido. Los gráficos de la derecha para la expresión en los genes A, B, X se muestran por celda] (../../images/scrna-intro/rna_cells_singlerez.svg)]

.pull-right[ .reduce90[

Speaker Notes


Análisis de datos de scRNA-seq adicional

![Captura de pantalla de los materiales de entrenamiento de la galaxia que cubren una sola celda] (../../images/scrna-intro/training_single_cell.png)

Speaker Notes


Key Points

curriculum Do you want to extend your knowledge?

Follow one of our recommended follow-up trainings: - [Transcriptomics](/archive/2021-11-01/topics/transcriptomics) - Pre-processing of Single-Cell RNA Data: [slides slides](/archive/2021-11-01/topics/transcriptomics/tutorials/scrna-preprocessing/slides.html) - [tutorial hands-on](/archive/2021-11-01/topics/transcriptomics/tutorials/scrna-preprocessing/tutorial.html)

Thank you!

This material is the result of a collaborative work. Thanks to the Galaxy Training Network and all the contributors! Galaxy Training Network This material is licensed under the Creative Commons Attribution 4.0 International License.