首发于生信宝典
Nat Mach Intell | 江瑞课题组提出首个针对单细胞染色质开放性数据的细胞类型辨识神经网络模型EpiAnno

Nat Mach Intell | 江瑞课题组提出首个针对单细胞染色质开放性数据的细胞类型辨识神经网络模型EpiAnno

2022年2月10日,清华大学自动化系江瑞课题组在Nature Machine Intelligence发表了题为“Cell type annotation of single-cell chromatin accessibility data via supervised Bayesian embedding”的论文 (点击文末“阅读原文”下载PDF全文),提出了整合细胞图谱与单细胞染色质开放性数据(single-cell chromatin accessibility sequencing, scCAS)辨识细胞类型的贝叶斯神经网络模型 EpiAnno该模型不仅能以极高精度辨识数据中的细胞类型,还能有效提取细胞类型的特征,应用于基因和信号通路富集分析、致病遗传因素识别等生物医学研究中。




全文概要


基于单细胞数据辨识细胞类型是目前生物信息学的研究前沿和热点,然而绝大部分计算方法都针对单细胞转录组数据提出,针对单细胞染色质开放性数据专门设计的分析方法还十分罕见。针对这一瓶颈,江瑞课题组巧妙地融合使用统计学模型与神经网络框架,提出了EpiAnno模型(图1),有效克服了单细胞染色质开放性数据极高维度、极度稀疏、极度二值化等处理难点。



图1. EpiAnno模型示意图

EpiAnno是一个概率生成模型,它通过一个高斯混合分布来生成中间数据,再通过一个贝叶斯神经网络将其映射为观测到的单细胞染色质开放性数据。该模型基于高质量标注的细胞图谱来进行训练,从而保证了在进行细胞类型辨识时具有极高的精度,并且能够有效降低批次效应的影响(图2)。不仅如此,生成模型的特点使得EpiAnno能够进行单细胞染色质开放性数据的高精度仿真,生成数据的统计特征和细胞异质性均比已有方法更接近于真实数据。



图2. EpiAnno准确辨识细胞类型

EpiAnno模型具有极佳的生物学可解释性,能够对多个生物医学问题提供辅助解释。如:

1. EpiAnno模型能够准确识别细胞类型特异的染色质开放片段(图2e),而这些片段具有明显的组织特异性,可以帮助科研人员理解组织中细胞的异质性(图3a)。

2. EpiAnno能够有效挖掘细胞类型特异的调控元件(图3c),进而准确识别细胞类型特异的染色体共开放位点(图3d),为进一步探索细胞的调控网络提供了有力工具。

3. EpiAnno可以帮助解析与细胞功能高度相关的信号通路,有效富集细胞类型特异的基因组基序 (motif),从而辅助细胞功能的注释

4. EpiAnno模型还能够促进医学遗传学的研究。例如,EpiAnno识别出的细胞类型特异染色质开放区域与阿尔茨海默病、自闭症、双相情感障碍和神经质等四种神经系统疾病高度关联(图3b)。这种从单细胞数据出发,建立特定疾病与特定细胞类型之间关联性的思路,是对传统全基因组关联研究(GWASs)的有益补充。



图3. EpiAnno有效提取细胞类型特异性特征

综上所述,EpiAnno是首个针对单细胞染色质开放性数据的细胞类型自动辨识算法,在准确进行细胞类型注释的同时,提供了全面的模型解释性,并成功应用于基础生物学和医学遗传学研究中。江瑞课题组一年来,在深度学习基础理论研究的基础上 [2],针对细胞类型辨识问题相继提出了降维与聚类协同求解的非监督学习模型scDEC [3]、基于参考数据进行表示学习的弱监督方法RA3 [4],以及相应的全基因组染色质开放性注释平台[5],这些方法与此次提出的EpiAnno一同构成了从非监督学习到弱监督学习再到监督学习的单细胞染色质开放性数据计算分析体系,将会成为构建人类细胞参照系的重要技术。

论文链接:

nature.com/articles/s42

参考文献:

1. Xiaoyang Chen, Shengquan Chen, Shuang Song, Zijing Gao, Lin Hou, Xuegong Zhang, Hairong Lv, Rui Jiang *. Simultaneous deep generative modelling and clustering of single-cell genomic data. Nature machine intelligence, 2022, doi.org/10.1038/s42256-.

2. Qiao Liu, Jiaze Xu, Rui Jiang *, Wing Hung Wong *, Density estimation using deep generative neural networks, Proc Natl Acad Sci USA, 2021, 118(15): e2101344118.

3. Qiao Liu, Shengquan Chen, Rui Jiang *, Wing Hung Wong *. Simultaneous deep generative modelling and clustering of single-cell genomic data. Nature machine intelligence, 2021, 3(6): 536-544.

4. Shengquan Chen, Guanao Yan, Wenyu Zhang, Jinzhao Li, Rui Jiang *, Zhixiang Lin *. RA3 is a reference-guided approach for epigenetic characterization of single cells. Nature communications, 2021, 12(1): 2177.

5. Shengquan Chen, Qiao Liu, Xuejian Cui, Zhanying Feng, Chunquan Li, Xiaowo Wang, Xuegong Zhang, Yong Wang, Rui Jiang *. OpenAnnotate: a web server to annotate the chromatin accessibility of genomic regions. Nucleic acids research, 2021, 49(W1): W483-W490.




本研究得到科技部重点研发计划“生物与信息融合”专项的资助,所属课题“细胞多组学数据解析方法及心血管病示范应用”(2021YFF1200902)。清华大学自动化系的江瑞副教授为本文的通讯作者,清华大学自动化系2020级直博生陈晓阳和2017级直博生陈盛泉为本文的共同第一作者,清华大学自动化系的张学工教授、闾海荣副研究员、博士生高子靖、清华大学统计学研究中心的侯琳副教授、博士生宋爽、浙江大学研究生雷舒心为本研究作出了重要贡献。陈盛泉已于2022年1月加入南开大学数学科学学院信息与数据科学系任副教授,诚挚欢迎有兴趣的学生加盟(shengquanchen.github.io)。







本文使用 文章同步助手 同步
发布于 2022-03-02 18:17