View markdown source on GitHub

Una introducción al análisis de datos scRNA-seq

Contributors

AvatarMehmet Tekman AvatarAlejandra Escobar-Zepeda AvatarIrelka Colina

Questions

Objectives

last_modification Last modification: Nov 24, 2021

Single-cell RNA-seq

Una introducción al análisis de datos scRNA-seq

Speaker Notes

RNA-seq conjunto

.pull-left[Se muestran dos manchas etiquetadas como tejido A y tejido B, a la derecha se muestra la expresión promedio de los genes A, B y X por tejido. ]

.pull-right[ .reduce90[ .center[Resumen]

| | | |-:|:-| | Resolución| Tejido entero | | Señal | Expresión génica promedio por tejido | | Expresión diferencial | Diferencia entre la expresión génica promedio entre los tejidos | ] ]

Speaker Notes


Single Cell RNA-Seq

.pull-left[Se muestran grupos de células rojas y azules que se asemejan a las manchas de tejido de la diapositiva anterior. Los gráficos de la derecha muestran la expresión de los genes A, B, X por célula en lugar de por tejido.]

.pull-right[ .reduce90[ .center[Resumen]

| | | |-:|:-| | Resolución | Células individuales dentro de los tejido | | Señal | Expresión individual de un gen por cada célula | | Expresión Diferencial | Algunas células expresan de la misma manera el mismo grupo de genes; comparando un grupo de células contra otro | ] ]

Speaker Notes


From Bulk RNA to Single Cell RNA

.image-50[Los tejidos A y B de la primera diapositiva se muestran como colecciones de células de la segunda diapositiva.]

.reduce90[

Speaker Notes


Captura Celular y Replicados

.center[¿Cómo preparamos las muestras para la secuenciación?]

Speaker Notes Por ejemplo, ¿Cómo se capturan y secuencian las células?

.pull-left[ .reduce90[

Bulk RNA-seq

  1. Corta finamente una parte el tejido
  2. Agrega la enzima para degradar la pared celular
  3. Enjuaga el ADN / ARN no deseado
  4. Realiza la secuenciación del material restante (Perform sequencing on leftover goop )

] ]

Speaker Notes En el análisis bulk RNA-seq, el proceso incluye tomar una muestra, remover las moléculas no deseadas y secuenciar todo lo demás.

.pull-left[ .reduce90[

Single-cell RNA-seq

  1. Corta finamente una parte el tejido
  2. Descomponer el tejido en células
  3. Aislar cada célula
    • Agrega la enzima para degradar la pared celular
    • Realizar el “barcoding”
  4. Realizar la secuenciación en un grupo común

] ]

Speaker Notes

Replicados Biológicos

.center[ .reduce90[

| | | |——–:|:———–| | Bulk RNA-seq | Cada corte del tejido es una muestra, puede tomar otro corte | | Single-cell RNA-seq | Cada célula es una muestra, no puede tener un replicado porque es única | ] ]

Speaker Notes


Captura / Clasificación:

¿Cómo se aíslan las células?

Speaker Notes La separación de las células puede llevarse a cabo de diferentes maneras.

.pull-right[.image-90[Imagen en blanco y negro de una mujer en el laboratorio usando la boca para pipetear células de un tubo de ensayo a otro.]]

.pull-left[ .reduce90[

Speaker Notes Un método es el pipeteo manual, donde el laboratorista succiona cada célula usando un tubo largo y fino.

.pull-left[ .reduce90[

Speaker Notes Pueden hacer esto cientos de veces para aislar cientos de células, pero es propenso a errores yy a menudo se aíslan varias células juntas.

.pull-left[ .reduce90[

Speaker Notes Otro método es la citometría de flujo, en el que se reduce el error humano como componente de esta etapa.


Captura / Clasificación: Citometría de Flujo

.pull-right[Caricatura de un sistema de flujo con dos láseres apuntando a un lente que dirige el rayo de luz para incidir en el flujo de células. La luz pasa por filtros y detectores ópticos para medir la cantidad de luz reflejada mediante un detector acoplado a un sistema electrónico.]

.pull-left[ .reduce90[

.pull-left[ .reduce90[

.pull-left[ .reduce90[

Speaker Notes


Captura / Clasificación: Tamaño y Tipo

.pull-right[ Misma caricatura mostrada anteriormente. ]

.pull-left[ Dispersión Óptica

]

Speaker Notes


Captura / Clasificación: Tamaño y Tipo

.pull-left[ .reduce90[

.image-75[.pull-right[Mismo diagrama de dispersión, pero ahora los monocitos y granulocitos se muestran como zonas coloreadas.]]

Speaker Notes

.pull-left[ .reduce90[

Dispersion Lateral (SSC)

.image-75[.pull-right[Mismo diagrama de dispersión, pero ahora los monocitos y granulocitos se muestran como zonas coloreadas.]]

Speaker Notes La dispersión lateral es perpendicular al láser principal y mide la granularidad de la célula, ideal para distinguir las que tienen estructuras internas menos definidas, por ejemplo como los granulocitos que se observan en el eje Y de la imagen.


Captura / Clasificación: FACS

.pull-left[ Diagrama de dispersión dividido en cuatro regiones mostrando CD4+/- y CD8+/-. .footnote[.reduce70[Image from BD Biosciences]] ]

.pull-right[ .reduce90[ Fluorescence-Activated Cell Sorting (FACS)

] ]

Speaker Notes


Barcoding Cells

.center[Grupos de GGG y TCT se agregan a dos células diferentes para etiquetarlas.]

.footnote[Agregar un código de barras único a cada transcrito en la célula]

Speaker Notes


Barcoding Cells

.footnote[Coloque las células en la placa de secuenciación]

.pull-left[Las células con códigos de barras se colocan en placas con pozos individuales según su código de barras.]

.pull-right[ .reduce90[

Speaker Notes Una vez que las moléculas de ARN han sido etiquetadas con los códigos de barras de las células, pueden ser amplificadas, ya sea por separado o agrupadas, donde los productos amplificados comparten los mismos códigos de barras de células que sus contrapartes originales.


Problemas de secuenciación: Amplificación

.center[.image-75[Caricatura de una célula donde se muestran dos transcritos representados con una hebra roja y una azul. La hebra roja se amplifica bien mientras que la azul no.]]

.reduce90[

Speaker Notes


Problemas de secuenciación: Amp. + UMIs

.pull-left[La misma caricatura, pero ahora las hebras rojas y azules están etiquetadas con adaptadores rosas y grises. Ambas hebras rojo y azul se amplifican pero a diferentes velocidades.]

.pull-right[ .reduce90[

Speaker Notes


Problemas de secuenciación: Amp. + UMIs

.pull-left[La misma caricatura, con las hebras rojas y azules que se amplifican a diferentes velocidades.]

.pull-right[

.center[Cuantificación de fragmentos

  Reads
Rojo 6
Azul 3

] ]

Speaker Notes

.pull-left[

.center[Agrupación de fragmentos de acuerdo con los genes y UMI

  UMIs Reads
Rojo Rosa 2
  Cyan 4
Azul Rosa 1
  Verde 2

] ]

.pull-right[

.center[Cuantificación los fragmentos desduplicados (únicos)

  UMIs (Grouped) # UMIs
Rojo {Rosa, Cyan} 2
Azul {Rosa, Verde} 2

] ]

Speaker Notes Sin embargo, si agrupamos los fragmentos por sus UMIs, y luego contamos solo el número de los UMIs únicos por transcripción, eliminando la duplicación de los fragmentos que comparten la misma transcripción y UMIs, llegamos a 2 fragmentos rojas y 2 lecturas azules que representan mejor el verdadero número de transcritos.


Problemas de secuenciación: ¿UMIs únicos?

.pull-left[La misma caricatura, con las hebras rojas y azules que se amplifican a diferentes velocidades.] .pull-right[

  UMIs #Fragmentos
Rojo {Rosa, Cyan} 2
Azul {Rosa, Verde} 2

.reduce90[

]

Speaker Notes


.reduce90[

Speaker Notes Esto se debe a que a menudo hay más transcripciones que UMI disponibles, que dependen de la cantidad de transcripciones en una célula y de la longitud del código de barras.


Problemas de secuenciación: ¿UMIs únicos?

.center[Códigos de barras de longitud N Con Distancia de Edición B:]

.pull-left[

.center[N = 5 y B = 1]

AAAAA AAAAC AAAAG AAAAT AAACA ····
CCCCC CCCCA CCCCG CCCCT CCCAC ····
              ·
              ·
              ·

.center[4⁵ = 1024 códigos de barras]

]

.pull-right[

.center[N = 5 y B = 2]

AAAAA AAACC AAAGG AAATT AACCA ····
CCCCC CCCAA CCCGG CCCTT CCCAA ····
              ·
              ·
              ·

.center[4⁵⁻¹ = 512 códigos de barras]

]

.footnote[

Las Distancias de Edición protegen contra ** errores de secuenciación**.

]

Speaker Notes


Problemas de secuenciación: ¿UMIs únicos?

.pull-left[La misma caricatura, con las hebras rojas y azules que se amplifican a diferentes velocidades.] .pull-right[

  UMIs # Fragmentos
Rojo {Rosa, Cyan} 2
Azul {Rosa, Verde} 2

.reduce90[



]

]

.reduce90[ ¿En qué contexto son los UMIs únicos?

Speaker Notes En el contexto de la amplificación, las UMI no necesitan ser únicas, solo necesitan ser lo suficientemente aleatorias para deduplicar las transcripciones a fin de dar una estimación más precisa del número de transcripciones dentro de una celda.


Códigos de Barra de las Células y los UMIs (Recap)

Para cada célula:

  1. Agrega el código de barras a la célula ![Se agregan grupos de GGG y TCT a dos células diferentes para etiquetarlas.]](../../images/scrna-intro/scrna_pbb_barcodes_add.svg)

Speaker Notes Así que recapitulemos lo que hemos aprendido: primero, cada célula tiene un código de barras celular que a su vez es agregado a cada molécula de ARN en cada célula.


Códigos de Barra de las Células y los UMIs (Recap)

Para cada célula:

  1. Agrega el código de barras celular
  2. Agrega los UMIs a la células que ya tienen el código de barra celular Se muestran mezclas aleatorias de códigos de barras de tres letras. Además de las células mostradas en la caricatura anterior donde las lecturas estaban etiquetadas con GGG en una célula y TCT en la otra, ahora todas tienen prefijos aleatorios antes del GGG y TCT.

Speaker Notes


Control de calidad (QC): Superando el ruido de fondo

.center[Una matriz de genes 1, 2, 3 y células por columna se convierte en dos matrices, una con recuentos de genes detectados por célula y otra con recuentos de células detectadas por gen.]

Speaker Notes


Normalización: Bulk vs Single-Cell

.pull-left[

Bulk RNA-seq: Alta Cobertura

  T1 T2 T3
GenA 100 80 40
GenB 45 30 40

.reduce70[* La expresión genética media es alta]


scRNA-seq: Muy baja profundidad de secuenciación

  C1 C2 C3 C4 C5
GenA 0 0 2 0 1
GenB 2 0 15 0 0

.reduce70[* La expresión genética media es cero]

]

.pull-right[

¿Por qué esto es un problema?

.center[ \(R(s,g) = \frac{X\_{sg}}{(\prod\_{s} X\_{s})^{\frac{1}{n}}}\)

\[DESeq(s,g) = \frac{X\_{sg}}{Med(R\_{s})}\]

] ]

Speaker Notes

.pull-right[ ¡No se puede dividir entre cero! ]

Speaker Notes


Normalización: método SCRAN

.footnote[.small[Pooling across cells to normalize single-cell RNA sequencing data with many zero counts, Lun et al., 2016]]

.pull-left[Las burbujas azules y rojas se mezclan, luego se separan en dos grupos y a continuación se organizan alrededor de un círculo, el rojo va de pequeño a grande alrededor de la mitad derecha y el azul de pequeño a grande alrededor de la izquierda. La parte inferior del círculo tiene la etiqueta 6 y la parte superior tiene la etiqueta 12.]

.pull-right[ .reduce90[

  1. Calcula el tamaño de la biblioteca de todas las células.

  2. Calcula el tamaño de la biblioteca de una célula de pseudo referencia (promedio)

  3. Separa los tamaños impares (rojo) y los tamaños pares (azul) en dos grupos

  4. Ordena cada grupo por tamaño de biblioteca y lo coloca en lados opuestos de un “anillo” ] ]

Speaker Notes


Normalización: método SCRAN

.footnote[.small[Pooling across cells to normalize single-cell RNA sequencing data with many zero counts, Lun et al., 2016]]

.pull-right[El mismo gráfico final con círculos azules y rojos de tamaño creciente con una flecha apuntando a una gran cantidad de fórmulas que se superponen.]

.pull-left[ .reduce90[

  1. Define grupos superpuestos de células adyacentes de tamaño k

  2. Para cada grupo
    1. Suma los tamaños de biblioteca de todas las células dentro del grupo
    2. Obtiene un factor de tamaño dividiendo por la célula de referencia
  3. Para cada célula
    1. Encuentra los grupos a los que pertenece
    2. Construye un modelo lineal usando estos factores de tamaño
    3. Estima el factor de tamaño de la célula en dicho modelo lineal

] ]

Speaker Notes


Normalización: método SCRAN

.footnote[.small[Pooling across cells to normalize single-cell RNA sequencing data with many zero counts, Lun et al., 2016]]

.center[Las dos figuras anteriores integradas en una sola.]

Speaker Notes


Variación deseada vs no deseada

.pull-right[Tres gráficos de líneas superpuestas mapean la contribución de la varianza a la densidad. Se muestra que en los genes N con más cambio aumenta la densidad a medida que la contribución de la varianza aumenta, mientras que los genes por célula, el número de transcritos y la fuente del lote disminuyen.]

.pull-left[ .reduce90[ Variación deseada

] ]

Speaker Notes


Variables de confusión: Biológicas

.center[La caricatura de la izquierda muestra un signo de interrogación con flechas que apuntan a un resultado vacío y a los transcritos generados. A la derecha están las fases del ciclo celular y diferentes cantidades de transcritos sintetizados en cada fase.]

.pull-left[ .reduce90[ .center[Transcripción en ráfagas (“Transcription bursting”)]

.pull-right[ .reduce90[ .center[Ciclo Celular]

Speaker Notes


Variables de confusión: Técnicas

.center[La variación del tamaño de la biblioteca apunta a dos células con transcritos rojos y azules en números idénticos. Sin embargo, durante la amplificación, en una célula se produce un número de copias distinto al esperado mientras que en la otra se elimina por completo uno de los transcritos.]

.pull-left[ .reduce90[ Sesgo de Amplificación

.pull-left[ .reduce90[ Eventos de marginación

Speaker Notes


Variables de confusión: Técnicas

.center[La variación del tamaño de la biblioteca apunta a dos células con transcritos rojos y azules en números idénticos. Sin embargo, durante la amplificación, en una célula se produce un número de copias distinto al esperado mientras que en la otra se elimina por completo uno de los transcritos.]

Variación del tamaño de la biblioteca

Speaker Notes


Relaciones entre Células

Considera:

Objetivo:

Nota:

Speaker Notes


Matriz de Distancias

Se muestra una matriz de recuento de genes para cada célula en un espacio N-dimensional con cada gen representando los diferentes ejes. Con base en la fórmula de distancia para 3 dimensiones, se obtiene la tabla final de la matriz de conteos con las distancias entre cada una de las células basada en su conteo de genes.

Speaker Notes


Relación de las células: KNN

Se muestra una gráfica de distancias entre células a través de tres genes con la etiqueta ‘high dimensional dataset of cells’. Esto produce una matriz de distancias simétrica y luego a través de KNN con k = 2, se genera una matriz no simétrica, y se traza nuevamente en el espacio dimensional de genes para mostrar las conexiones entre las células.

Speaker Notes


Reducción dimensional

La matriz de genes contra células se traza en tantas dimensiones como genes y luego se reduce a 2 dimensiones.

.pull-left[ .reduce90[ Objetivo:

.pull-right[ .reduce90[ Restricción:

] ]

Speaker Notes


Agrupamiento

.pull-left[.image-100[Diagrama de dispersión con muchos grupos de celdas etiquetadas con diferentes colores. Las células están en gran parte agrupadas, con pocas células periféricas.]]

.pull-right[ .reduce90[

  1. Proyección en dos dimensiones
    • Cada punto es una célula
    • Agrupar puntos por color, donde las células de diferentes colores pertenecen a diferentes grupos
    • Diferentes grupos representan diferentes tipos de células ] ]

Speaker Notes


Agrupamiento

.pull-left[.image-100![Mismo diagrama de dispersión mostrando el agrupamiento de células, pero ahora los grupos están etiquetados de acuerdo al tipo de célula como ‘Neurons’, ‘NSC’, ‘Glial Prog.’, ‘Astrocytes’, etc.]]]

.pull-right[ .reduce90[

  1. Proyección en dos dimensiones
  2. Tipos discretos de células
    • Cada grupo debe representar un diferente tipo de célula
    • Buscar los genes expresados de manera más diferencial en cada grupo
    • Encontrar los genes marcadores → Tipo de Célula ] ]

Speaker Notes


Agrupamiento

.pull-left[.image-100[Mismo diagrama de dispersión mostrando el agrupamiento de células con los grupos etiquetados de acuerdo al tipo de célula y con flechas indicando al grupo vecino más cercano. ]]

.pull-right[ .reduce90[

  1. Proyección en dos dimensiones
  2. Tipos discretos de células
  3. Relaciones inferidas por Linaje
    • Células madre neuronales (Neural Stem Cells) diferenciadas en tipos de células maduras
    • Los árboles de linaje se construyen teniendo en cuenta:
    • La entropía del grupo
    • La proximidad del grupo ] ]

Speaker Notes También podemos derivar aún más las relaciones entre estos grupos calculando árboles de linaje en función de la cantidad de ruido en cada grupo, con la expectativa de que las células madre tengan perfiles de expresión ruidosos que produzcan grupos más amplios, y las células maduras tengan perfiles de expresión muy claros que produzcan grupos más apretados.


Agrupamiento: Duro vs Suave

   
.image-100![Mismo conjunto de datos mostrando grupos distintos con una separación muy clara]] .image-100[Los grupos ahora se mezclan entre sí y la separación no es clara.]
.center[Duro] .center[Suave]
Espacios grandes entre grupos Los grupos sobrelapan
Los tipos de células están bien definidos y el agrupamiento lo refleja Los tipos de células parecen entremezclarse

Speaker Notes


Fenotipos Continuos:

.center[El gráfico muestra el tiempo de desarrollo de los reticulocitos a medida que pasan por una fase celular intermedia o rara hasta su forma final: glóbulos rojos.] .reduce90[

Speaker Notes Es de esperar un agrupamiento suave, ya que aunque el agrupamiento es un método estadístico para dividir datos de manera discreta, la biología celular subyacente de los datos es un proceso continuo, donde las células pasan de un estado bien definido a otro a través de etapas intermedias que se representan en entre dos centros de grupos.


Agrupando

.pull-left ![Perfiles de expresión discretos: Se muestran tres montañas con nubes de las que sólo vemos tres picos. En rojo, verde y azul se representan tipos de células en los picos. Paisaje de expresión continua: las nubes se eliminan y vemos que las montañas están realmente conectadas y hay células intermedias en varios colores de transición.] ]

.pull-right[ .reduce90[ Conjuntos de datos dinámicos con grupos continuamente dinámicos

Variedad de métodos de agrupación

Speaker Notes


Agrupando: K-means (K-medias)

.pull-right[Figura animada que muestra varias iteraciones de un algoritmo que optimiza una división de 3 vías en un diagrama de dispersión de células. No hay un límite claro que haga que el resultado final parezca solo un poco mejor.]

.pull-left[ .reduce90[ K-means (K-medias)

  1. Inicializar k posiciones aleatorias
  2. Paso de iteración:
    1. Calcule la distancia desde cada célula a cada posición k
    2. Asigna cada célula a su k más cercano
    3. Establecer nuevas posiciones k en la posición media de todas las células de ese grupo

K-medians (K-medianas)

] ]

Speaker Notes


Agrupando: Tipo jerárquico

.pull-left[Una figura de muchos pasos que comienza con varios grupos o ‘clusters’ individuales. El texto dice ‘Identificar los dos grupos más cercanos’ y ‘Fusionar los dos grupos más similares’. El proceso se repite varias veces hasta que todos los grupos quedan absorbidos en uno solo.]

.pull-right[ .reduce90[

.pull-right[.image-90[Varios puntos están etiquetados de la A a la F, a la derecha se muestra un dendrograma donde las longitudes de las ramas indican la distancia entre las letras.]

Speaker Notes


Agrupación comunitaria: Louvain

.center[Se muestra un gráfico con puntos conectados por líneas. Abajo, esos puntos se han expandido quedando el rosa muy cerca del naranja y del morado. Cuando se cuantifica el número de enlaces que tiene el nodo rosa se obtienen 4 enlaces externos y 0 enlaces internos. A continuación se muestran dos opciones hipotéticas: si el rosa absorbe el morado, vemos 5 conexiones externas y 1 interna, entonces, se agregan nuevas conexiones, que no es lo deseable. En cambio, si el rosa absorbe al naranja, vemos 3 conexiones externas y 1 interna, por lo que una conexión se ha convertido en interna y no hay nuevos nodos conectados. Esta reducción de enlaces externos es la opción correcta.]

.reduce90[ Objetivo: Maximizar los enlaces internos y minimizar los enlaces externos ]

Speaker Notes


Agrupación comunitaria: Louvain

.center[El mismo gráfico de antes mostrando más pasos permitidos de absorción entre los nodos, lo que deriva en un gráfico simplificado de 4 nodos con dos conexiones cada uno.]

.reduce90[

Speaker Notes Si, en cambio, la nueva configuración ha aumentado el número de enlaces externos, la configuración se rechaza y se selecciona y prueba otra célula. Al realizar esto varias veces, se construye una estructura comunitaria de células con el grado de especificidad que desee el usuario.


Resumen

.pull-left[Se muestran grupos de células rojas y azules que se asemejan a las manchas de tejido mostradas en las primeras diapositivas. A la derecha, se muestran gráficos de la expresión de los genes A, B, X por célula.]

.pull-right[ .reduce90[

Speaker Notes


Análisis adicionales de datos de scRNA-seq

Captura de pantalla de los materiales de apoyo disponibles en Galaxy que cubren el análisis de datos de Single Cell.

Speaker Notes


Key Points

curriculum Do you want to extend your knowledge?

Follow one of our recommended follow-up trainings: - [Transcriptomics](/archive/2021-12-01/topics/transcriptomics) - Pre-processing of Single-Cell RNA Data: [slides slides](/archive/2021-12-01/topics/transcriptomics/tutorials/scrna-preprocessing/slides.html) - [tutorial hands-on](/archive/2021-12-01/topics/transcriptomics/tutorials/scrna-preprocessing/tutorial.html)

Thank you!

This material is the result of a collaborative work. Thanks to the Galaxy Training Network and all the contributors! Galaxy Training Network This material is licensed under the Creative Commons Attribution 4.0 International License.