音乐网站建设方案,上海二手房,购物网站开发实战,电子商务网站建设讯息单细胞技术的最新进展使跨模态和组织位置的细胞高通量分子分析成为可能。单细胞转录组数据现在可以通过染色质可及性、表面蛋白表达、适应性免疫受体库分析和空间信息进行补充。跨模态单细胞数据的可用性越来越高#xff0c;推动出新的计算方法#xff0c;以帮助科学家获得生…单细胞技术的最新进展使跨模态和组织位置的细胞高通量分子分析成为可能。单细胞转录组数据现在可以通过染色质可及性、表面蛋白表达、适应性免疫受体库分析和空间信息进行补充。跨模态单细胞数据的可用性越来越高推动出新的计算方法以帮助科学家获得生物学见解。随着该领域的发展驾驭浩瀚的工具和分析步骤变得越来越困难。因此作者总结了单模态和多模态的单细胞分析基准研究以发现通用的分析工作流程。这篇文章可作为单细胞多组学分析领域新手的切入点也可以指导高级用户了解最新进展。
来自Best practices for single-cell analysis across modalities, nature reviews genetics, 2023 转录组数据描述通过转录过程将DNA转录成RNA的结果它反映了细胞中基因的表达水平。表观遗传组数据可以通过多种方式影响转录组的形成和变化从而调控基因表达。两者密切相关。 目录 背景概述转录组染色质可及性共可及性识别顺式调节相互作用TF-motif分析 表面蛋白质多模态数据整合利用空间解析单细胞数据 背景概述
单细胞RNA测序scRNA-seq技术以前所未有的规模和分辨率测量转录组谱从而彻底改变了分子生物学。实验技术的进步推动了计算方法的大规模创新导致目前有1400多个工具可用于分析scRNA-seq。计算框架和软件存储库如Bioconductor、Seurat和Scanpy使数据分析人员能够在这个空间中快速构建管道。这种实验和计算创新的相互作用使得揭示组织细胞异质性的生物学里程碑式发现成为可能。
然而scRNA-seq只捕获了关于细胞功能和状态信息的一层。为了补充这一点已经做出了很大努力来测量单细胞分辨率下的其他模态包括染色质可及性、表面蛋白、T细胞受体TCR和B细胞受体BCR库和空间信息使得能够发现诸如2型糖尿病的regulatory signatures内脏和适应性免疫系统对SARS-CoV-2的反应失调并在空间分辨率上更好地理解肿瘤微环境的免疫抑制作用。测量实验的创新激发了许多用于各种单细胞模态的新计算工具但由于算法开发人员缺乏全局的工作流程认知改进或开发新工具依然具有挑战性。该文中作者引导读者认识单模态和多模态单细胞数据分析的各个步骤并分析挑战图1。 图1跨模态单细胞分析。细胞被不同模态描述包括但不限于RNA转录、染色质可及性、以T细胞受体TCRs和B细胞受体BCRs在内的表面蛋白和空间位置坐标。目前已经开发了涵盖重要分析步骤的各种框架。转录组学数据可以用Scanpy、Seurat和SingleCellExperiment进行分析用muon、ArchR、snapATAC和Signac进行染色质可及性分析使用Scirpy、Dandelion和scRepertoire进行TCR和BCR分析muon、Seurat和CiteFuse可以分析表面蛋白表达Squidpy、Seurat、Giotto可以分析空间数据。
转录组
scRNA-seq测量每个细胞的mRNA分子丰度。提取的生物组织样本构成了单细胞实验的输入。在单细胞解离dissociation过程中消化组织然后进行单细胞分离以分别分析每个细胞的mRNA。基于平板plate-based的方法将细胞分离到平板上的孔中而基于液滴droplet-based的方法在微流体液滴中捕获细胞。
以液滴方法为例因为液滴方法更流行将获得的mRNA序列读数映射到原始数据处理管道中的基因和源细胞该管道使用细胞条形码或唯一分子标识符UMI和参考基因组来产生基因细胞的计数矩阵图2a。我们将计数矩阵视为单模态的scRNA-seq数据分析工作流程的起点。
图2scRNA-seq分析步骤概述。
对于图2a为了确保只捕获高质量的细胞需要对RNA计数矩阵进行校正并对双重细胞和低质量或濒死细胞进行过滤可以通过去除质量控制指标方面的异常值来完成。所有计数都代表mRNA分子的成功捕获。考虑到实验噪声当比较细胞之间的基因表达时差异可能仅源于采样效应。我们可以通过标准化来获得细胞之间正确的相对基因丰度缓解该问题。
scRNA-seq数据集可以包含多达30000个基因的计数。然而大多数基因并没有提供信息。因此我们需要选择表达变化最大的基因。此外我们需要对不同批次的数据进行集成以获得跨样本的校正数据矩阵。为了减轻计算负担和减少噪声通常应用降维技术。这进一步帮助我们将转录组数据的低维嵌入用于可视化。
对于图2b我们可以将嵌入空间组织成簇这些簇表示具有相似基因表达谱的细胞组并由感兴趣的标签如细胞类型进行注释。注释可以使用先验知识手动进行或者使用自动注释方法进行。连续过程轨迹推断如分化可以看作细胞身份的转换。 自动注释可以分为基于分类器直接预测方法有监督训练和参考映射方法KNN将reference标签映射到query数据集。
手动注释利用每个簇的基因特征来注释细胞簇。这些基因特征通常被称为标记基因可以使用简单的差异表达测试方法例如 t 检验或 Wilcoxon 检验来识别。 对于图2c根据感兴趣的问题和实验设置揭示具体问题的机制具体做法通常包括差异基因表达分析基因富集分析推断细胞-细胞通信。
对于差异基因表达DGE分析可以根据DGE来鉴定标记基因或在特定条件下上调或下调的基因。目前DGE工具的一致性和稳健性较低因此必须对通过DGE测试获得的p值进行多次测试校正以获得q值q值用于控制误报率。
对于基因富集分析scRNAseq数据的高通量性质使其难以解释。基因集富集分析可以将大量基因总结为可解释的术语如pathway即现有研究已知的基因集。常见的数据库包括MSigDB、Gene Ontology、KEGG或Reactome。常见的富集方法包括超几何测试和GSEAGene Set Enrichment Analysis。富集分析对基因集的选择比对统计学方法更敏感建议仔细选择数据库以确保潜在的基因集被覆盖。
对于细胞-细胞通信细胞之间不断相互作用以促进组织发育。如果这种相互作用受损疾病就会随之而来。细胞-细胞通信推理方法通常使用配体、受体及其相互作用的存储库来预测注释簇之间的相互作用。这些数据库偏向于特定pathway、功能类别的蛋白质。
染色质可及性
分析调控元件对于解读细胞多样性和理解细胞行为至关重要。基因表达受调控机制的控制包括表观遗传学比如染色质可及性。为了深入了解单细胞水平上的染色质状态转座酶可及染色质测序的单细胞分析scATAC-seq测量单个细胞中全基因组染色质的可及性图3。
图3scATAC-seq分析步骤概述。
对于图3ascATAC-seq测量单细胞染色质可及性。数据可以用几种不同的方式表示。两种最常见的选择是cell-by-peak矩阵和cell-by-bin矩阵具体见图3a并对比用于scATAC-seq有监督分类的Cellcano。
对于图3b为了确保后续分析侧重于有生物学意义的特征而不是噪声对特征矩阵进行质量控制。需要控制每个细胞的片段总数和相关信号的其他几个测试的数据每个细胞具有非零计数的峰的数量、转录起始位点TSS富集分数。然后通过归一化来校正稀疏分布的scATAC-seq矩阵。随后的预处理和可视化工作流程紧密遵循scRNA-seq分析的步骤。 批次整合变成模态整合由于RNA和ATAC特征不对齐需要专业的模态整合方法。 对于图3c如果是手动注释scATAC-seq数据可以基于已知的 “差异可及区域-细胞类型” 关系进行注释。如果是自动注释可以将RNA模态的细胞类型参考映射到ATAC模态的细胞上。然后我们可以利用注释的细胞通过轨迹推断来分析连续过程。
对于图3d根据特定问题揭示对应机制。我们可以根据共可及性co-accessibility确定顺式调节相互作用cis-regulatory interaction根据转录因子transcription factorTF活性确定关键调节因子根据motif用于确定用作TF结合位点的DNA序列模式。
共可及性识别顺式调节相互作用
对于co-accessibility共可及性是指基因组中不同区域的开放性或可及性之间的相关性。在scATAC-seq中共可及性指的是不同细胞中开放染色质区域的相似性或共同出现的模式。这意味着在某些细胞中特定的基因组区域或染色质区段呈现开放状态并且这种开放状态在其他细胞中也得到保留。GLUE中的guidance Graph在ATAC对应特征下的子图能反映共可及性。
顺式调节相互作用cis-regulatory interaction是指在基因组中调控元件调控区域与其附近的目标基因所在区域之间的相互作用。这种相互作用发生在同一染色体上即在顺式上。
根据共可及性确定顺式调节相互作用
共可及性峰值定义从scATAC-seq数据中首先需要获取co-accessibility peaks或scores。这些peak代表了在多个细胞中共同出现的开放染色质区域。基因定位确定感兴趣的目标基因或基因集合。可以使用基因注释数据库或基因组注释信息来确定基因的位置。peak与基因的关联计算每个共可及性pair与目标基因之间的距离。可以根据基因的TSS转录起始位点或其他相关的区域来计算距离。统计分析对于每个目标基因可以计算其周围共可及性的富集程度。筛选和验证根据统计分析的结果可以设定一定的阈值来筛选出具有显著共可及性的顺式调节相互作用。进一步的验证可以使用其他实验技术如用染色质构象捕获Hi-C来验证这些相互作用。 Hi-C是一种常用的染色质构象捕获技术用于研究基因组中染色体间的相互作用。Hi-C数据通常以矩阵的形式表示其中行和列代表基因组的不同区域矩阵中的元素表示这些区域之间的相互作用频率。通过分析Hi-C数据可以识别顺式调节相互作用即具有较高的相互作用频率的染色体区域对。 TF-motif分析
TF转录因子是一类能够结合到DNA上调控基因表达的蛋白质可以促进也可以抑制而motif基序则是指在DNA序列中存在的具有特定模式的短序列通常与TF的结合位点相关联。研究转录因子结合位点的基序可以帮助我们理解具体基因调控机制的物理过程可以想象为建模配体-受体的相互作用。 从scRNA-seq中获取TF使用基因注释数据库将scRNA-seq数据中的基因与已知的转录因子基因进行比对和注释。基因注释数据库提供了基因的功能注释和分类信息其中包括转录因子的注释。 确定关键调节因子Key Regulators关键的转录因子的方法通常涉及以下步骤
转录因子活性分析首先需要对转录因子的活性进行评估。这些分析可以表明转录因子是否活跃。网络分析构建基因调控网络网络可以显示基因和转录因子之间的相互作用关系并帮助确定关键调节因子。
对于motif发现根据感兴趣TF找到基因调控网络中的相关基因根据基因发现染色质区域在该区域上进一步发现motif。
表面蛋白质
实际产生的产物即蛋白质承担细胞内或细胞外的任务蛋白质的一个子集出现在细胞表面。表面蛋白表达有助于识别细胞类型如免疫系统的造血细胞。用于结合scRNA-seq和表面蛋白分析的最广泛使用的方案是CITE-seq和REAP-seq图4a。 图4CITE-seq数据分析流程。图4a抗体衍生标签ADTAntibody-derived tags携带标签并处于抗体上抗体与表面蛋白质结合测序的ADT计数代表某类蛋白质的表达水平。图4bADT数据通常与RNA联合测量。因此基因表达和ADT的配对计数矩阵经过质量控制和标准化然后进行联合嵌入。图4cCITE-seq数据的注释可以在转录组数据、ADT数据的水平上进行也可以通过将聚类与标记基因和标记ADT匹配来联合进行。图4d为了了解生物学机制可以测试ADT数据的差异丰度推断细胞-细胞通信并构建RNA和ADT信息的相关网络。
ADT相比RNA数据不会过度稀疏在预处理时应与RNA数据单独分开进行。 细胞特性导致异质性捕获效率从而导致偏差。只有表达靶向蛋白的细胞才会导致Tag计数的增加这可能只是特定的细胞类型。 多模态数据整合 图5多模态数据整合。根据输入整合方法分为三类配对整合不配对整合混合整合或马赛克整合。
对于配对的测量比如联合测量输入表现为细胞配对但特征不匹配。细胞维度充当整合锚点见图5a。
整合未配对的多组学数据即对角整合见图5b的主要困难在于不同的特征空间并且没有细胞维度的anchor信号。GLUE 将细胞状态建模为通过模态特定变分自动编码器学习的低维嵌入这些变分自动编码器使用到基于先验知识的指导图。
尽管实验测定取得了进展但同时从同一细胞中捕获几种模态仍然具有挑战性。另外对来自同一生物样本的不同个体细胞进行测量更为常见这导致配对数据和未配对数据混合存在因此称为马赛克整合或混合整合见图5c。
图5d为多模态场景下的参考映射。该领域的最新发展来自于多模态reference和query的出现。
利用空间解析单细胞数据
到目前为止所有讨论的模态都是基于解离的单细胞组学技术用于表征细胞身份和状态。然而在多细胞生物中细胞具有相互作用并形成空间结构的微环境这些微环境可能因样本和条件而异。这使得能够发现新的细胞功能并产生了新的计算挑战需要不同的分析方法。空间组学在单细胞基因组学中添加两种额外的模态组织学成像和空间特征测量。单个细胞的空间定位有助于了解组织微环境。细胞的空间坐标可以作为非分子特征。目前分析空间数据需要专门针对空间模态定制的分析工具。 图6空间转录组学预处理和下游分析步骤概述。图6a基于阵列的空间转录组学测量技术用条形码BCbarcode区域量化基因表达区域跨越 10μm 和 200μm 之间的区域。 BC 区域包含来自多个细胞的测量值从而产生计数矩阵和空间坐标其中每个观察值都是一个 BC 区域。细胞类型反卷积方法分解单个 BC 区域的细胞组以获得计数矩阵和空间坐标其中每个观察值都是单个细胞。进一步的预处理可以类似于scRNA-seq数据集的分析来执行。图6b基于图像的空间转录组学测量技术例如荧光原位杂交FISH和原位测序ISS技术在多轮顺序杂交中捕获转录组的各个位置。可以聚合转录物位置以获得单细胞水平的计数矩阵和空间坐标。随后的处理再次以与 scRNA-seq 类似的方式进行。图6c空间转录组中的细胞结构可以在单个细胞或 BC 区域的分辨率下识别。图6d空间转录组学中的机制可以通过识别跨空间变化的基因、分析细胞邻域并根据受体和配体、紧密连接或间接机制推断通信事件。