近日,图书馆VIP瞿昆教授课题组成功开发了一种基于深度学习的空间转录组数据分析算法,命名为SPACEL。该算法能够快速高效地处理多个空间转录组切片数据,包括准确预测单个空间点内的细胞类型组成、精准识别跨切片的功能性空间域,以及有效重构复杂组织的三维结构。研究成果以《SPACEL: deep learning-based characterization of spatial transcriptome architectures》为题,发表于2023年11月22日的《自然-通讯》(Nature Communications)杂志。
空间转录组技术具备同时获取基因表达水平和其空间位置信息的能力,目前被广泛应用于生物医学研究的各个领域。然而,有效分析由空间转录组技术产生的大量数据仍然面临着巨大挑战,例如如何准确识别在基因表达和空间位置上相互关联的细胞或点的集群,即所谓的空间域,以描绘组织切片内的全转录组空间结构。此外,如何精确鉴定类似于肿瘤微环境这样复杂系统中的功能性空间域,以及如何整合多个切片的数据进行上述分析也是挑战之一。
瞿昆教授课题组开发的SPACEL算法包括三个核心模块:Spoint、Splane和Scube,分别对应空间转录组数据分析的三个关键任务。Spoint模块用于预测基于测序的空间转录组数据(如10X Visium)中空间点的细胞类型组成。Spoint采用了单细胞数据模拟的空间点、神经网络模型和统计模型的组合,为估算真实空间转录组数据中的细胞类型比例提供了更稳健和准确的框架。Splane模块则使用细胞类型组成和空间坐标信息,引入了对抗训练到图卷积神经模型中,显著减少了批次效应,从而实现更稳健和高效的空间域识别。对于包含连续切片的空间转录组数据集,Scube模块使用Splane识别的空间域坐标进行对齐,以构建组织的三维结构。Scube采用全局优化策略来实现三维对齐,同时保持整体结构的完整性,使其能够实现更精确的对齐。
研究人员将SPACEL应用于11个包括10X Visium、STARmap、MERFISH、Stereo-seq和Spatial Transcriptomics技术的空间转录组数据集,总计156个切片。SPACEL在细胞类型组成预测、空间域识别以及组织三维结构重构等三个核心分析任务上表现出色,明显优于其他同类算法。
图1.SPACEL算法的工作流程
生医部瞿昆教授、林俊副研究员和北京生命科学研究所黎斌研究员为本文的通讯作者,微尺度研究中心博士生许浩和大数据学院硕士生王姝妍为本文的共同第一作者。生医部薛天教授课题组为该工作提供了重要支持。这一研究工作得到了基金委杰出青年基金、国家重点研发计划、基金委自然科学基金、中国科学院基础研究青年团队以及安徽省科技重大专项等多个项目的资助。
论文链接:https://www.nature.com/articles/s41467-023-43220-3
(合肥微尺度物质科学国家研究中心)