单细胞转录组数据中dropout的填补方法_《生物医学工程学杂志》

作者：

姜超 ^1,3 , 胡龙飞 ² , 徐春祥 ¹ , 葛芹玉 ¹ ,  赵祥伟 ¹

1. 东南大学生物科学与医学工程学院生物电子学国家重点实验室（南京 210096）;
2. 新格元生物科技有限公司（南京 210018）;
3. 南京中医药大学医学院·整合医学学院（南京 210023）;

关键词：

单细胞转录组测序 dropout 统计模型低秩矩阵补全深度学习

DOI：

10.7507/1001-5515.202301009

视频：

导出 下载 收藏 扫码 引用

摘要 全文 图表 视频 参考文献 施引文献 补充材料

单细胞转录组测序（scRNA-seq）可以在单细胞精度下解析组织中细胞的表达特征，使得研究人员能以更高的分辨率定量群体内的细胞异质性，揭示潜在的异质细胞群体和复杂组织的动态。然而scRNA-seq数据中存在的大量技术零值，将对下游的细胞聚类、差异基因、细胞注释、拟时序等分析造成影响，阻碍了对有意义的生物学信号的发现。利用细胞与细胞、基因与基因之间潜在的关联性，通过已观测到的数据来对技术零值进行填补是解决这个问题的主要思路。基于此，本文综述了scRNA-seq数据中填补技术零值的基本方法，并讨论了现有方法的优势和不足，最后对方法的使用和开发进行了推荐和展望。

引用本文： 姜超, 胡龙飞, 徐春祥, 葛芹玉, 赵祥伟. 单细胞转录组数据中dropout的填补方法. 生物医学工程学杂志, 2023, 40(4): 778-783, 791. doi: 10.7507/1001-5515.202301009 复制

0 引言

单细胞转录组测序（single-cell RNA sequencing，scRNA-seq）是将分离的单个细胞的转录组RNA反转录为cDNA，在cDNA上添加细胞标签（Barcode）和特异性分子标签（unique molecular indentifier，UMI），然后利用高通量测序技术进行cDNA测序，从而获得特定器官或组织在某一状态下的转录本的测序技术。该方法克服了传统基于整体组织块RNA（Bulk RNA）测序中无法解析细胞异质性的问题，使得研究人员能够在单细胞分辨率下检测基因表达信息，从而能更精确地从细胞占比、细胞特异性基因表达等层面去解析组织的状态与RNA的关系。

scRNA-seq自2008年发表以来不断发展^[1]，涌现出许多不同的方法。这些方法之间的差异主要在于对原始转录本的标记和生成测序文库的方式不同，这也导致了不同的检测效率。基于板的技术，如SMART-seq2^[2]，在单个实验中可以捕获数百个细胞，每个细胞测序的数据量较高，通常能获得全长cDNA的信息，是一种低通量的方法。基于磁珠或微珠的技术，如10X Chromium^[3]，通量可以达到数千甚至数万个细胞，使用Barcode标记细胞从而在测序数据中区分细胞来源，使用UMI对每个细胞的转录本进行无偏定量。该类方法通量虽高但通常不会获得转录本全长的测序信息。

随着scRNA-seq技术的发展，它在胚胎发育^[4]、神经元多样性^[5]等生物学领域的应用越来越广泛，但每个细胞检测到的基因数量仍然受到技术限制^[6]。在测序实验中，因为单个细胞中所含mRNA非常微量，反转录成cDNA的过程中大量的mRNA丢失，只有少量的cDNA被扩增。因此，扩增偏倚、低RNA捕获率等技术因素，导致scRNA-seq实验存在大量假0值，称为dropout现象，即一些细胞在测序过程中检测不到真实表达的转录本^[7]。这将对细胞聚类、差异表达基因、拟时序分析等造成影响。如何有效地降低数据中的技术噪声，从而更充分地挖掘有意义的生物信号，已成为当前scRNA-seq数据算法研究中的一个热点问题。

近年来，不同学者开发了多种算法来填补表达矩阵中的dropout。我们将这些方法归为四类，分别是基于模型、基于平滑、基于矩阵重构、基于深度学习的方法。本文就当前国内外针对scRNA-seq数据中dropout的填补方法、原理和优缺点进行综述，并对未来的发展予以展望，以期为方法开发和应用提供参考。

1 基于模型的方法

基于模型的方法的基本思想是将每个细胞中每个基因的表达值看成随机变量并假设其分布，通过借用内部或外部信息来估计分布的参数（例如均数）以用于填补。常用的一些分布假设包括负二项分布、Gamma-Normal混合分布等。还有一些方法虽然会假设表达值的概率分布，但仅限于对dropout概率的计算，并未直接用分布参数的估计值进行填补，故未将其分入此类。

scRNA-seq数据分析通常以表达矩阵作为输入。首先会进行质控、归一化、选取高变异基因等预处理步骤。之后再进行降维、细胞聚类、寻找差异基因、拟时序分析等分析流程。

基于模型的方法在解决dropout问题时有两种策略。一种是在数据归一化、降维或聚类的过程中考虑dropout的影响；另一种是开发算法对数据进行填补，然后用填补后的数据进行分析。例如，Tang等^[8]提出的bayNorm，采用贝叶斯的方法进行降噪，令真实表达的后验分布由观察到的转录本的似然以及每个基因表达值的先验组成，假设潜在的真实基因表达水平的先验服从负二项分布，通过参数的局部或全局估计，最后以细胞中每个基因真实表达的后验分布的均值作为填补值。其他方法的概述见表1^[7-10]。

表1 基于模型的填补方法概览 Table1. Summary of model-based methods

表选项

下载CSV

算法名称	分布假设	主要算法	区分真假0值	借用外部信息	语言
VIPER^[7]	零膨胀 Poisson 分布	非负稀疏回归、EM算法	否	否	R
bayNorm^[8]	Poisson-Gamma 分布	经验贝叶斯方法	否	否	R
SAVER^[9]	Poisson-Gamma 分布	惩罚的泊松 LASSO 回归、经验贝叶斯方法	否	否	R
SCC^[10]	零-Normal-Binomial 混合分布	EM 算法	区分	否	R

2 基于平滑的方法

基于平滑的方法的主要思想是借用相似细胞或基因的信息来进行填补。其主要计算思路为：首先对表达矩阵进行主成分分析降维以减少矩阵的稀疏性，然后计算相似性指标构建细胞或基因的相似性矩阵，再在相似性矩阵中通过K近邻（k nearest neighbors，KNN）等算法选取最接近的K个对象构建亲和矩阵，最后对最接近的K个对象中的表达信息进行平均、加权平均、回归等处理来填补当前对象中的dropout。该类方法主要有两个重要关键点：① 准确地衡量细胞间或基因间的相似性。常用的相似性指标包括余弦距离、Pearson相关系数、Spearman相关系数等。② 有效地整合最接近的K个细胞或基因的表达信息。不同的研究者在这两个方面进行了不同的创新。根据借用信息方式的不同这些方法可以分为借用相似细胞、相似基因以及同时借用相似细胞和基因的信息三种策略。例如，Li等^[11]提出了scImpute方法，首先将细胞聚类到不同的亚群中，然后仅使用同一亚群中的细胞进行填补。先通过Gamma-Normal混合模型识别受dropout事件影响的值，然后根据不太可能受影响的基因选择其他类似细胞中相同基因的信息通过LASSO模型来填补一个细胞中的dropout值。Zand等^[12]提出的netImpute通过Pearson相关系数构建基因相似矩阵，将KNN算法作用于相似矩阵建立共表达网络，然后利用重启随机游走算法从共表达网络中得到转移概率矩阵，最终对共表达网络中基因本身的表达和相邻基因的表达进行加权平均，以转移概率为权重。其他各种方法的概述见表2^[11-21]。

表2 基于平滑的填补方法概览 Table2. Summary of smoothing-based methods

表选项

下载CSV

算法名称	策略	主要算法	区分真假0值	借用外部信息	语言
scImpute^[11]	借用细胞相似性	非负最小二乘回归、稀疏回归模型、EM算法	区分	否	R
MAGIC^[13]	KNN、马尔可夫归一化、图扩散	否	否	Python、R/Matlab
scPSM^[14]	KNN、倾向性评分、加权均值填补	否	借用不同批次数据信息	R
scESI^[15]	KNN、稀疏表示模型、多目标进化算法	否	否	R
CDSImpute^[16]	均值填补	区分	否	R
ccImpute^[17]	K-means聚类、加权均值填补	区分	否	R
netImpute^[12]	借用基因相似性	KNN、重启随机游走算法、加权均值填补	否	借用基因共表达网络、细胞共表达网络、蛋白互作网络信息	Python
scISR^[18]	模糊聚类、回归填补	区分	否	R
ADImpute^[19]	LASSO、回归填补	否	借用Bulk RNA数据	R
scTSSR^[20]	借用细胞相似性&借用基因相似性	双侧稀疏自表示模型、惩罚最小二乘法、坐标下降算法、回归填补	否	否	R
scMTD^[21]	加权均值填补	区分	否	R

3 基于矩阵重构的方法

基于矩阵重构的方法的主要思想是利用scRNA-seq表达矩阵的非负性、低秩性和稀疏性的特点，将dropout的填补看成是低秩矩阵补全的问题，通过对表达矩阵进行分解将它投影到低维潜在空间，然后通过构建不同的目标函数在低秩性、非负性等不同信息的约束下重构表达矩阵以达到填补dropout的目的。常用的矩阵分解方法包括奇异值分解（singular value decomposition，SVD）和非负矩阵分解（non-negative matrix factorization，NMF）。SVD是一种常用的矩阵分解技术，可以将高维矩阵降维成低维矩阵，找出其中所隐含的“模式”。设X是一个m × n（m > n）的矩阵，通过SVD可以分解为U、S、V三个矩阵，使得X = U × S × V^T。其中U是一个m × m的正交矩阵，V是一个n × n的正交矩阵。S是一个m × n的对角矩阵，其对角线上的元素大于0且按照从大到小的顺序排列，称为X的奇异值。通过设定标准可以选取前k大的奇异值用于矩阵的恢复或对S矩阵进行其他修改。R是恢复后的矩阵，它与X的奇异值非常相近。示意图见图1。

图1 奇异值分解示意图 Figure1. Diagram of singular value decomposition

图选项

下载全尺寸图像

下载幻灯片

NMF是在矩阵中所有元素均为非负数的约束条件下进行矩阵分解的方法，基本思想为：给定一个m × n（m > n）的非负矩阵X，通过NMF能够找到两个低秩的非负矩阵W和H，使得W和H的乘积近似等于矩阵X中的值，即X_{m × n} ≈ W_{m × r}H_{r × n}。其中W为基矩阵，H为系数矩阵。最常用的基于欧式距离的目标函数为：。

在此类方法中，常用交替方向乘子法（alternating direction method of multipliers，ADMM）、核范数最小化（nuclear norm minimization，NNM）等算法来求解符合约束条件的分解矩阵。不同的方法主要通过设计不同的目标函数或设置不同的约束条件来求解分解矩阵。例如，Peng等^[22]提出了SCRABBLE，该方法通过借用相同组织Bulk RNA的数据作为约束条件来进行填补。其目标函数包括三项内容：第一项要求非零表达的基因的估计值尽可能接近其原始值，从而最大限度地减少对表达基因的不必要修改；第二项要求填补后的矩阵的秩尽可能小，目的是希望在给定的组织样本中只有有限数量的细胞类型；第三项要求填补后的平均基因表达量与Bulk RNA数据的平均基因表达量之间尽可能一致。该方法通过ADMM来优化目标函数以求解重构的矩阵。其他各种方法的概述见表3^[22-30]。

表3 基于矩阵重构的填补方法概览 Table3. Summary of matrix reconstruction-based methods

表选项

下载CSV

算法名称	主要算法	区分真假0值	借用外部信息	语言
SCRABBLE^[22]	矩阵正则化、ADMM算法	否	借用Bulk RNA数据	R/Matlab
McImpute^[23]	核范数最小化	否	否	Matlab
CMF-Impute^[24]	协同矩阵分解、ADMM算法	否	否	Matlab
PBLR^[25]	非负矩阵分解、ADMM算法	否	否	Matlab
WEDGE^[26]	加权非负矩阵分解、ADMM算法	否	否	Python/Matlab
ScLRTC^[27]	低秩张量补全、ADMM算法	否	否	Matlab
ALRA^[28]	SVD	区分	否	R
scMOO^[29]	多目标优化、坐标下降算法	否	否	R
scWMC^[30]	SVD、ADMM算法、正则化	否	否	Matlab

4 基于深度学习的方法

随着深度学习的发展，它在数据填补领域也有越来越多的研究，凭借着对非线性关系的提取能力，许多学者也将它应用在dropout的填补问题上。该类方法主要使用自编码器的学习框架。此外，近年来，基于图论的方法也逐渐成为另一个重要的研究方向。

自编码器是一种无监督的神经网络模型，它可以学习输入数据的隐含特征，称为编码。同时利用学习到的隐含特征再重构回原始输入数据，称为解码。通过最小化重构误差函数引导模型学习潜在的参数。其中均方误差（mean squared error，MSE）是最常用的量化指标。

自编码器用于dropout填补的基本思想是将含有dropout的表达矩阵压缩到潜在低维空间，然后在低维空间上进行矫正，最后通过解码器重构表达矩阵。不同的学者设计了不同的重构误差损失函数或训练过程，以迫使模型学习不同的信息。例如，Chi等^[31]提出的scSDAEs，采用堆叠自编码器，即把前一个自编码器的隐藏层作为下一个自编码器的输入，以此逐层编码和解码进行降噪。其损失函数包括：最小化非0值的重构误差以及对0值的L1稀疏惩罚，这样可以有效约束重构矩阵中填补值的稀疏性。Chen等^[32]提出的Bubble，借用了相同组织的Bulk RNA数据，其损失函数除了包括重构矩阵与原矩阵的MSE外还增加了基因合计结果与Bulk RNA数据的MSE，这样约束了基因表达的整体分布。在设计损失函数时，除了可以衡量原始数据与重构数据之间的MSE外，另一类方法是基于分布的似然，例如DCA^[33]等。

在深度学习的方法中，除了以表达矩阵的形式输入模型外，最近，越来越多的方法开始使用图论的方法将表达矩阵转换成图的数据结构输入模型。在图中可将细胞（或基因）的表达值作为顶点，细胞与细胞（或基因与基因）之间的相关关系作为边。相比表达矩阵的数据结构，基于图的数据结构可以同时利用细胞（或基因）的表达信息以及它们之间的相关性。例如，Wu等^[34]提出的GE-Impute将原始矩阵转变为细胞图，通过偏随机游走和skip-gram模型将所有细胞嵌入低维向量，通过学习嵌入的特征表示重建细胞图，最终将细胞图中所有相邻表达值的均数作为填补值。Wu等^[35]提出的G2S3将原始表达矩阵转换为加权基因图，通过最优化算法搜索获得加权邻接矩阵，然后通过在图上进行随机游走获得随机游走矩阵，填补的矩阵即为在图上进行t步随机游走得到。各种方法的概述见表4^[31-46]。

表4 基于深度学习的填补方法概览 Table4. Summary of deep learning-based methods

表选项

下载CSV

算法名称	主要算法	区分真假0值	借用外部信息	语言
scSDAEs^[31]	堆叠自编码器	否	否	Python
Bubble^[32]	自编码器	区分	借用Bulk RNA数据	Python
DCA^[33]	自编码器、负二项分布模型	否	否	Python
GE-Impute^[34]	图嵌入（细胞图）、偏随机游走	否	否	Python
G2S3^[35]	图的方法（基因图）、随机游走	否	否	R/Matlab
AutoImpute^[36]	自编码器	否	否	Python
DeepImpute^[37]	自编码器	否	否	Python
TRANSLATE^[38]	自编码器、迁移学习	否	否	Python
AutoClass^[39]	自编码器、分类器	否	否	Python
DURIAN^[40]	反卷积、多目标学习、回归填补	否	借用Bulk RNA数据	R
SEDIM^[41]	深度神经网络、自动调参	否	否	Python
SERM^[42]	自编码器、自一致性	否	否	Python/Matlab
GNNImpute^[43]	图注意网络、图卷积（细胞图）、自编码器	否	否	Python
GraphSCI^[44]	图卷积（基因图）、自编码器	否	否	Python
scGNN^[45]	多模态自编码器、图神经网络（细胞图）、左截断混合高斯模型	否	否	Python
SCDD^[46]	收缩自编码器、图卷积神经网路（细胞图）	区分	否	Python/R

5 总结与展望

scRNA-seq数据dropout的填补算法，消除了测序方法造成的假零值噪声，一定程度上为更充分地挖掘有意义的生物信号提供了帮助。近年来，针对dropout的填补算法已积累了丰富的成果，但是不同方法又具有各自的局限性。

基于模型的方法往往假设表达数据服从某种分布，如果数据分布接近这种假设，则分布的先验信息将有助于提高填补性能。但分布的假设缺乏一定的共识，并非对所有数据集都适用。此外，由于我们对技术噪声和偏差的可能来源也缺乏了解，因此在对数据的参数化建模过程中可能忽略某些重要变异来源。在计算方面，该类方法常常需要采用EM等算法来进行参数估计，在处理大规模数据时就不具有时间优势了。基于平滑的方法通常需要先对数据进行聚类，但是我们往往并不能提前知晓聚类数等先验信息，在有大量缺失的情况下聚类的准确性也无法保障。基于矩阵重构的方法虽然不对数据的分布进行假设，通过将分解后的矩阵相乘从而重构表达矩阵，但是矩阵的分解也依赖于矩阵的低秩假设。此外，无论基于模型、基于平滑还是基于矩阵重构的方法主要采用的都是线性的方式来提取表达矩阵中的信息，对于非线性特征的提取能力尚有欠缺。而基于深度学习的方法通过激活函数或卷积的方式可以更好地提取数据中的非线性信息，并且也无需对数据的分布或低秩性进行假设。随着数据规模的快速增长，可以用于训练的数据也越来越丰富，这也更有利于发挥深度学习提取数据内在特征的优势，但是深度学习的方法也存在可解释性和超参数优化等问题。

为了综合测评不同方法的性能，有学者^[47-48]在大量的真实数据和模拟数据中测试了不同方法在多种分析任务中的性能。结果显示，TRANSLATE^[38]在计算时间方面的性能最好；SCC^[10]、G2S3^[35]等内存效率最高；AutoImpute^[36]、GraphSCI^[44]、scImpute^[11]、TRANSLATE^[38]、MAGIC^[13]等随着数据集中细胞数的增加而表现出较高的可扩展性。基于对时间、内存、可扩展性以及在不同分析任务中的综合比较，MAGIC^[13]、SAVER^[9]等提供了最佳的整体性能。

通过对现有方法的综述，我们认为在开发新方法的时候需要同时考虑以下几个问题：① 填补的方法能够识别真零值和假零值，并且仅对假零值进行填补而保留真实的生物零值。② 填补方法应减少对已观测数据的改变，避免引入新的噪声。③ 借用外部或先验信息将有助于提高填补的性能。④ 填补的方法应具有规模可拓展性，能够在尽可能少地消耗内存和时间的情况下，提高下游分析的性能。在未来我们期待会有更有效和更高效的方法被开发出来，以帮助我们更好地挖掘scRNA-seq数据中的信息，解决有意义的生物学问题。

重要声明

利益冲突声明：本文全体作者均声明不存在利益冲突。

作者贡献声明：赵祥伟构思了想法；赵祥伟、葛芹玉、徐春祥设计并指导了文献研究、解释、数据收集、图表绘制和论文修改；姜超、胡龙飞撰写了论文。

0 引言

1 基于模型的方法

表1 基于模型的填补方法概览 Table1. Summary of model-based methods

表选项

下载CSV

算法名称	分布假设	主要算法	区分真假0值	借用外部信息	语言
VIPER^[7]	零膨胀 Poisson 分布	非负稀疏回归、EM算法	否	否	R
bayNorm^[8]	Poisson-Gamma 分布	经验贝叶斯方法	否	否	R
SAVER^[9]	Poisson-Gamma 分布	惩罚的泊松 LASSO 回归、经验贝叶斯方法	否	否	R
SCC^[10]	零-Normal-Binomial 混合分布	EM 算法	区分	否	R

2 基于平滑的方法

表2 基于平滑的填补方法概览 Table2. Summary of smoothing-based methods

表选项

下载CSV

算法名称	策略	主要算法	区分真假0值	借用外部信息	语言
scImpute^[11]	借用细胞相似性	非负最小二乘回归、稀疏回归模型、EM算法	区分	否	R
MAGIC^[13]	KNN、马尔可夫归一化、图扩散	否	否	Python、R/Matlab
scPSM^[14]	KNN、倾向性评分、加权均值填补	否	借用不同批次数据信息	R
scESI^[15]	KNN、稀疏表示模型、多目标进化算法	否	否	R
CDSImpute^[16]	均值填补	区分	否	R
ccImpute^[17]	K-means聚类、加权均值填补	区分	否	R
netImpute^[12]	借用基因相似性	KNN、重启随机游走算法、加权均值填补	否	借用基因共表达网络、细胞共表达网络、蛋白互作网络信息	Python
scISR^[18]	模糊聚类、回归填补	区分	否	R
ADImpute^[19]	LASSO、回归填补	否	借用Bulk RNA数据	R
scTSSR^[20]	借用细胞相似性&借用基因相似性	双侧稀疏自表示模型、惩罚最小二乘法、坐标下降算法、回归填补	否	否	R
scMTD^[21]	加权均值填补	区分	否	R

3 基于矩阵重构的方法

图1 奇异值分解示意图 Figure1. Diagram of singular value decomposition

图选项

下载全尺寸图像

下载幻灯片

表3 基于矩阵重构的填补方法概览 Table3. Summary of matrix reconstruction-based methods

表选项

下载CSV

算法名称	主要算法	区分真假0值	借用外部信息	语言
SCRABBLE^[22]	矩阵正则化、ADMM算法	否	借用Bulk RNA数据	R/Matlab
McImpute^[23]	核范数最小化	否	否	Matlab
CMF-Impute^[24]	协同矩阵分解、ADMM算法	否	否	Matlab
PBLR^[25]	非负矩阵分解、ADMM算法	否	否	Matlab
WEDGE^[26]	加权非负矩阵分解、ADMM算法	否	否	Python/Matlab
ScLRTC^[27]	低秩张量补全、ADMM算法	否	否	Matlab
ALRA^[28]	SVD	区分	否	R
scMOO^[29]	多目标优化、坐标下降算法	否	否	R
scWMC^[30]	SVD、ADMM算法、正则化	否	否	Matlab

4 基于深度学习的方法

表4 基于深度学习的填补方法概览 Table4. Summary of deep learning-based methods

表选项

下载CSV

算法名称	主要算法	区分真假0值	借用外部信息	语言
scSDAEs^[31]	堆叠自编码器	否	否	Python
Bubble^[32]	自编码器	区分	借用Bulk RNA数据	Python
DCA^[33]	自编码器、负二项分布模型	否	否	Python
GE-Impute^[34]	图嵌入（细胞图）、偏随机游走	否	否	Python
G2S3^[35]	图的方法（基因图）、随机游走	否	否	R/Matlab
AutoImpute^[36]	自编码器	否	否	Python
DeepImpute^[37]	自编码器	否	否	Python
TRANSLATE^[38]	自编码器、迁移学习	否	否	Python
AutoClass^[39]	自编码器、分类器	否	否	Python
DURIAN^[40]	反卷积、多目标学习、回归填补	否	借用Bulk RNA数据	R
SEDIM^[41]	深度神经网络、自动调参	否	否	Python
SERM^[42]	自编码器、自一致性	否	否	Python/Matlab
GNNImpute^[43]	图注意网络、图卷积（细胞图）、自编码器	否	否	Python
GraphSCI^[44]	图卷积（基因图）、自编码器	否	否	Python
scGNN^[45]	多模态自编码器、图神经网络（细胞图）、左截断混合高斯模型	否	否	Python
SCDD^[46]	收缩自编码器、图卷积神经网路（细胞图）	区分	否	Python/R

5 总结与展望

重要声明

利益冲突声明：本文全体作者均声明不存在利益冲突。

表1 基于模型的填补方法概览
Table1. Summary of model-based methods

算法名称	分布假设	主要算法	区分真假0值	借用外部信息	语言
VIPER^[7]	零膨胀 Poisson 分布	非负稀疏回归、EM算法	否	否	R
bayNorm^[8]	Poisson-Gamma 分布	经验贝叶斯方法	否	否	R
SAVER^[9]	Poisson-Gamma 分布	惩罚的泊松 LASSO 回归、经验贝叶斯方法	否	否	R
SCC^[10]	零-Normal-Binomial 混合分布	EM 算法	区分	否	R

表选项

下载CSV

表2 基于平滑的填补方法概览
Table2. Summary of smoothing-based methods

算法名称	策略	主要算法	区分真假0值	借用外部信息	语言
scImpute^[11]	借用细胞相似性	非负最小二乘回归、稀疏回归模型、EM算法	区分	否	R
MAGIC^[13]	KNN、马尔可夫归一化、图扩散	否	否	Python、R/Matlab
scPSM^[14]	KNN、倾向性评分、加权均值填补	否	借用不同批次数据信息	R
scESI^[15]	KNN、稀疏表示模型、多目标进化算法	否	否	R
CDSImpute^[16]	均值填补	区分	否	R
ccImpute^[17]	K-means聚类、加权均值填补	区分	否	R
netImpute^[12]	借用基因相似性	KNN、重启随机游走算法、加权均值填补	否	借用基因共表达网络、细胞共表达网络、蛋白互作网络信息	Python
scISR^[18]	模糊聚类、回归填补	区分	否	R
ADImpute^[19]	LASSO、回归填补	否	借用Bulk RNA数据	R
scTSSR^[20]	借用细胞相似性&借用基因相似性	双侧稀疏自表示模型、惩罚最小二乘法、坐标下降算法、回归填补	否	否	R
scMTD^[21]	加权均值填补	区分	否	R

表选项

下载CSV

图1 奇异值分解示意图

Figure1. Diagram of singular value decomposition

图选项

下载全尺寸图像

下载幻灯片

表3 基于矩阵重构的填补方法概览
Table3. Summary of matrix reconstruction-based methods

算法名称	主要算法	区分真假0值	借用外部信息	语言
SCRABBLE^[22]	矩阵正则化、ADMM算法	否	借用Bulk RNA数据	R/Matlab
McImpute^[23]	核范数最小化	否	否	Matlab
CMF-Impute^[24]	协同矩阵分解、ADMM算法	否	否	Matlab
PBLR^[25]	非负矩阵分解、ADMM算法	否	否	Matlab
WEDGE^[26]	加权非负矩阵分解、ADMM算法	否	否	Python/Matlab
ScLRTC^[27]	低秩张量补全、ADMM算法	否	否	Matlab
ALRA^[28]	SVD	区分	否	R
scMOO^[29]	多目标优化、坐标下降算法	否	否	R
scWMC^[30]	SVD、ADMM算法、正则化	否	否	Matlab

表选项

下载CSV

表4 基于深度学习的填补方法概览
Table4. Summary of deep learning-based methods

算法名称	主要算法	区分真假0值	借用外部信息	语言
scSDAEs^[31]	堆叠自编码器	否	否	Python
Bubble^[32]	自编码器	区分	借用Bulk RNA数据	Python
DCA^[33]	自编码器、负二项分布模型	否	否	Python
GE-Impute^[34]	图嵌入（细胞图）、偏随机游走	否	否	Python
G2S3^[35]	图的方法（基因图）、随机游走	否	否	R/Matlab
AutoImpute^[36]	自编码器	否	否	Python
DeepImpute^[37]	自编码器	否	否	Python
TRANSLATE^[38]	自编码器、迁移学习	否	否	Python
AutoClass^[39]	自编码器、分类器	否	否	Python
DURIAN^[40]	反卷积、多目标学习、回归填补	否	借用Bulk RNA数据	R
SEDIM^[41]	深度神经网络、自动调参	否	否	Python
SERM^[42]	自编码器、自一致性	否	否	Python/Matlab
GNNImpute^[43]	图注意网络、图卷积（细胞图）、自编码器	否	否	Python
GraphSCI^[44]	图卷积（基因图）、自编码器	否	否	Python
scGNN^[45]	多模态自编码器、图神经网络（细胞图）、左截断混合高斯模型	否	否	Python
SCDD^[46]	收缩自编码器、图卷积神经网路（细胞图）	区分	否	Python/R

表选项

下载CSV

1.	Tang F, Barbacioru C, Wang Y, et al. mRNA-Seq whole-transcriptome analysis of a single cell. Nat Methods, 2009, 6(5): 377-382..
2.	Picelli S, Bjorklund A K, Faridani O R, et al. Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nat Methods, 2013, 10(11): 1096-1098..
3.	Zheng G X, Terry J M, Belgrader P, et al. Massively parallel digital transcriptional profiling of single cells. Nat Commun, 2017, 8: E14049..
4.	Yu J, Cheng W, Jia M, et al. Toxicity of perfluorooctanoic acid on zebrafish early embryonic development determined by single-cell RNA sequencing. J Hazard Mater, 2022, 427: E127888..
5.	Petitpre C, Faure L, Uhl P, et al. Single-cell RNA-sequencing analysis of the developing mouse inner ear identifies molecular logic of auditory neuron diversification. Nat Commun, 2022, 13(1): E3878..
6.	Hou W, Ji Z, Ji H, et al. A systematic evaluation of single-cell RNA-sequencing imputation methods. Genome Biol, 2020, 21(1): E218..
7.	Chen M, Zhou X. VIPER: variability-preserving imputation for accurate gene expression recovery in single-cell RNA sequencing studies. Genome Biol, 2018, 19(1): E196..
8.	Tang Wenhao, Bertaux F, Thomas P, et al. bayNorm: Bayesian gene expression recovery, imputation and normalization for single-cell RNA-sequencing data. Bioinformatics, 2020, 36(4): 1174-1181..
9.	Huang M, Wang J, Torre E, et al. SAVER: gene expression recovery for single-cell RNA sequencing. Nat Methods, 2018, 15(7): 539-542..
10.	Zheng Y, Zhong Y, Hu J, et al. SCC: an accurate imputation method for scRNA-seq dropouts based on a mixture model. BMC Bioinformatics, 2021, 22(1): E5..
11.	Li W V, Li J J. An accurate and robust imputation method scImpute for single-cell RNA-seq data. Nat Commun, 2018, 9(1): E997..
12.	Zand M, Ruan J. Network-based single-cell RNA-seq data imputation enhances cell type identification. Genes (Basel), 2020, 11(4): E377..
13.	van Dijk D, Sharma R, Nainys J, et al. Recovering gene interactions from single-cell data using data diffusion. Cell, 2018, 174(3): 716-729..
14.	Xu X, Yu X, Hu G, et al. Propensity score matching enables batch-effect-corrected imputation in single-cell RNA-seq analysis. Brief Bioinform, 2022, 23(4): Ebbac275..
15.	Liu Q, Luo X, Li J, et al. scESI: evolutionary sparse imputation for single-cell transcriptomes from nearest neighbor cells. Brief Bioinform, 2022, 23(5): Ebbac144..
16.	Azim R, Wang S, Dipu S A. CDSImpute: An ensemble similarity imputation method for single-cell RNA sequence dropouts. Comput Biol Med, 2022, 146: E105658..
17.	Malec M, Kurban H, Dalkilic M. ccImpute: an accurate and scalable consensus clustering based algorithm to impute dropout events in the single-cell RNA-seq data. BMC Bioinformatics, 2022, 23(1): E291..
18.	Tran D, Tran B, Nguyen H, et al. A novel method for single-cell data imputation using subspace regression. Sci Rep, 2022, 12(1): E2697..
19.	Leote A C, Wu X, Beyer A. Regulatory network-based imputation of dropouts in single-cell RNA sequencing data. PLoS Comput Biol, 2022, 18(2): Ee1009849..
20.	Jin K, Ou-Yang L, Zhao X M, et al. scTSSR: gene expression recovery for single-cell RNA sequencing using two-side sparse self-representation. Bioinformatics, 2020, 36(10): 3131-3138..
21.	Qi J, Sheng Q, Zhou Y, et al. scMTD: a statistical multidimensional imputation method for single-cell RNA-seq data leveraging transcriptome dynamic information. Cell Biosci, 2022, 12(1): E142..
22.	Peng T, Zhu Q, Yin P, et al. SCRABBLE: single-cell RNA-seq imputation constrained by bulk RNA-seq data. Genome Biol, 2019, 20(1): E88..
23.	Mongia A, Sengupta D, Majumdar A. McImpute: Matrix completion based imputation for single cell RNA-seq Data. Front Genet, 2019, 10: E9..
24.	Xu J, Cai L, Liao B, et al. CMF-Impute: an accurate imputation tool for single-cell RNA-seq data. Bioinformatics, 2020, 36(10): 3139-3147..
25.	Zhang L, Zhang S. Imputing single-cell RNA-seq data by considering cell heterogeneity and prior expression of dropouts. J Mol Cell Biol, 2021, 13(1): 29-40..
26.	Hu Y, Li B, Zhang W, et al. WEDGE: imputation of gene expression values from single-cell RNA-seq datasets using biased matrix decomposition. Brief Bioinform, 2021, 22(5): Ebbab085..
27.	Pan X, Li Z, Qin S, et al. ScLRTC: imputation for single-cell RNA-seq data via low-rank tensor completion. BMC Genomics, 2021, 22(1): E860..
28.	Linderman G C, Zhao J, Roulis M, et al. Zero-preserving imputation of single-cell RNA-seq data. Nat Commun, 2022, 13(1): E192..
29.	Jin K, Li B, Yan H, et al. Imputing dropouts for single-cell RNA sequencing based on multi-objective optimization. Bioinformatics, 2022, 38(12): 3222-3230..
30.	Su Y, Wang F, Zhang S, et al. scWMC: weighted matrix completion-based imputation of scRNA-seq data via prior subspace information. Bioinformatics, 2022, 38(19): 4537-4545..
31.	Chi W, Deng M. Sparsity-penalized stacked denoising autoencoders for imputing single-cell RNA-seq data. Genes (Basel), 2020, 11(5): E532..
32.	Chen S, Yan X, Zheng R, et al. Bubble: a fast single-cell RNA-seq imputation using an autoencoder constrained by bulk RNA-seq data. Brief Bioinform, 2023, 24(1): Ebbac580..
33.	Eraslan G, Simon L M, Mircea M, et al. Single-cell RNA-seq denoising using a deep count autoencoder. Nat Commun, 2019, 10: E390..
34.	Wu X, Zhou Y. GE-Impute: graph embedding-based imputation for single-cell RNA-seq data. Brief Bioinform, 2022, 23(5): Ebbac313..
35.	Wu W, Liu Y, Dai Q, et al. G2S3: A gene graph-based imputation method for single-cell RNA sequencing data. PLoS Comput Biol, 2021, 17(5): Ee1009029..
36.	Talwar D, Mongia A, Sengupta D, et al. AutoImpute: Autoencoder based imputation of single-cell RNA-seq data. Sci Rep, 2018, 8: E16329..
37.	Arisdakessian C, Poirion O, Yunits B, et al. DeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq data. Genome Biol, 2019, 20(1): E211..
38.	Badsha M B, Li R, Liu B, et al. Imputation of single-cell gene expression with an autoencoder neural network. Quant Biol, 2020, 8(1): 78-94..
39.	Li H, Brouwer C R, Luo W. A universal deep neural network for in-depth cleaning of single-cell RNA-Seq data. Nat Commun, 2022, 13(1): E1901..
40.	Karikomi M, Zhou P, Nie Q. DURIAN: an integrative deconvolution and imputation method for robust signaling analysis of single-cell transcriptomics data. Brief Bioinform, 2022, 23(4): Ebbac223..
41.	Li X, Li S, Huang L, et al. High-throughput single-cell RNA-seq data imputation and characterization with surrogate-assisted automated deep learning. Brief Bioinform, 2022, 23(1): Ebbab368..
42.	Islam M T, Wang J Y, Ren H, et al. Leveraging data-driven self-consistency for high-fidelity gene expression recovery. Nat Commun, 2022, 13(1): E7142..
43.	Xu C, Cai L, Gao J. An efficient scRNA-seq dropout imputation method using graph attention network. BMC Bioinformatics, 2021, 22(1): E582..
44.	Rao J, Zhou X, Lu Y, et al. Imputing single-cell RNA-seq data by combining graph convolution and autoencoder neural networks. iScience, 2021, 24(5): E102393..
45.	Wang J, Ma A, Chang Y, et al. scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses. Nat Commun, 2021, 12(1): E1882..
46.	Liu J, Pan Y, Ruan Z, et al. SCDD: a novel single-cell RNA-seq imputation method with diffusion and denoising. Brief Bioinform, 2022, 23(5): Ebbac398..
47.	Patruno L, Maspero D, Craighero F, et al. A review of computational strategies for denoising and imputation of single-cell transcriptomic data. Brief Bioinform, 2021, 22(4): Ebbaa222..
48.	Wang M, Gan J, Han C, et al. Imputation methods for scRNA sequencing data. Appl Sci, 2022, 12(20): E10684..

1. Tang F, Barbacioru C, Wang Y, et al. mRNA-Seq whole-transcriptome analysis of a single cell. Nat Methods, 2009, 6(5): 377-382..
2. Picelli S, Bjorklund A K, Faridani O R, et al. Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nat Methods, 2013, 10(11): 1096-1098..
3. Zheng G X, Terry J M, Belgrader P, et al. Massively parallel digital transcriptional profiling of single cells. Nat Commun, 2017, 8: E14049..
4. Yu J, Cheng W, Jia M, et al. Toxicity of perfluorooctanoic acid on zebrafish early embryonic development determined by single-cell RNA sequencing. J Hazard Mater, 2022, 427: E127888..
5. Petitpre C, Faure L, Uhl P, et al. Single-cell RNA-sequencing analysis of the developing mouse inner ear identifies molecular logic of auditory neuron diversification. Nat Commun, 2022, 13(1): E3878..
6. Hou W, Ji Z, Ji H, et al. A systematic evaluation of single-cell RNA-sequencing imputation methods. Genome Biol, 2020, 21(1): E218..
7. Chen M, Zhou X. VIPER: variability-preserving imputation for accurate gene expression recovery in single-cell RNA sequencing studies. Genome Biol, 2018, 19(1): E196..
8. Tang Wenhao, Bertaux F, Thomas P, et al. bayNorm: Bayesian gene expression recovery, imputation and normalization for single-cell RNA-sequencing data. Bioinformatics, 2020, 36(4): 1174-1181..
9. Huang M, Wang J, Torre E, et al. SAVER: gene expression recovery for single-cell RNA sequencing. Nat Methods, 2018, 15(7): 539-542..
10. Zheng Y, Zhong Y, Hu J, et al. SCC: an accurate imputation method for scRNA-seq dropouts based on a mixture model. BMC Bioinformatics, 2021, 22(1): E5..
11. Li W V, Li J J. An accurate and robust imputation method scImpute for single-cell RNA-seq data. Nat Commun, 2018, 9(1): E997..
12. Zand M, Ruan J. Network-based single-cell RNA-seq data imputation enhances cell type identification. Genes (Basel), 2020, 11(4): E377..
13. van Dijk D, Sharma R, Nainys J, et al. Recovering gene interactions from single-cell data using data diffusion. Cell, 2018, 174(3): 716-729..
14. Xu X, Yu X, Hu G, et al. Propensity score matching enables batch-effect-corrected imputation in single-cell RNA-seq analysis. Brief Bioinform, 2022, 23(4): Ebbac275..
15. Liu Q, Luo X, Li J, et al. scESI: evolutionary sparse imputation for single-cell transcriptomes from nearest neighbor cells. Brief Bioinform, 2022, 23(5): Ebbac144..
16. Azim R, Wang S, Dipu S A. CDSImpute: An ensemble similarity imputation method for single-cell RNA sequence dropouts. Comput Biol Med, 2022, 146: E105658..
17. Malec M, Kurban H, Dalkilic M. ccImpute: an accurate and scalable consensus clustering based algorithm to impute dropout events in the single-cell RNA-seq data. BMC Bioinformatics, 2022, 23(1): E291..
18. Tran D, Tran B, Nguyen H, et al. A novel method for single-cell data imputation using subspace regression. Sci Rep, 2022, 12(1): E2697..
19. Leote A C, Wu X, Beyer A. Regulatory network-based imputation of dropouts in single-cell RNA sequencing data. PLoS Comput Biol, 2022, 18(2): Ee1009849..
20. Jin K, Ou-Yang L, Zhao X M, et al. scTSSR: gene expression recovery for single-cell RNA sequencing using two-side sparse self-representation. Bioinformatics, 2020, 36(10): 3131-3138..
21. Qi J, Sheng Q, Zhou Y, et al. scMTD: a statistical multidimensional imputation method for single-cell RNA-seq data leveraging transcriptome dynamic information. Cell Biosci, 2022, 12(1): E142..
22. Peng T, Zhu Q, Yin P, et al. SCRABBLE: single-cell RNA-seq imputation constrained by bulk RNA-seq data. Genome Biol, 2019, 20(1): E88..
23. Mongia A, Sengupta D, Majumdar A. McImpute: Matrix completion based imputation for single cell RNA-seq Data. Front Genet, 2019, 10: E9..
24. Xu J, Cai L, Liao B, et al. CMF-Impute: an accurate imputation tool for single-cell RNA-seq data. Bioinformatics, 2020, 36(10): 3139-3147..
25. Zhang L, Zhang S. Imputing single-cell RNA-seq data by considering cell heterogeneity and prior expression of dropouts. J Mol Cell Biol, 2021, 13(1): 29-40..
26. Hu Y, Li B, Zhang W, et al. WEDGE: imputation of gene expression values from single-cell RNA-seq datasets using biased matrix decomposition. Brief Bioinform, 2021, 22(5): Ebbab085..
27. Pan X, Li Z, Qin S, et al. ScLRTC: imputation for single-cell RNA-seq data via low-rank tensor completion. BMC Genomics, 2021, 22(1): E860..
28. Linderman G C, Zhao J, Roulis M, et al. Zero-preserving imputation of single-cell RNA-seq data. Nat Commun, 2022, 13(1): E192..
29. Jin K, Li B, Yan H, et al. Imputing dropouts for single-cell RNA sequencing based on multi-objective optimization. Bioinformatics, 2022, 38(12): 3222-3230..
30. Su Y, Wang F, Zhang S, et al. scWMC: weighted matrix completion-based imputation of scRNA-seq data via prior subspace information. Bioinformatics, 2022, 38(19): 4537-4545..
31. Chi W, Deng M. Sparsity-penalized stacked denoising autoencoders for imputing single-cell RNA-seq data. Genes (Basel), 2020, 11(5): E532..
32. Chen S, Yan X, Zheng R, et al. Bubble: a fast single-cell RNA-seq imputation using an autoencoder constrained by bulk RNA-seq data. Brief Bioinform, 2023, 24(1): Ebbac580..
33. Eraslan G, Simon L M, Mircea M, et al. Single-cell RNA-seq denoising using a deep count autoencoder. Nat Commun, 2019, 10: E390..
34. Wu X, Zhou Y. GE-Impute: graph embedding-based imputation for single-cell RNA-seq data. Brief Bioinform, 2022, 23(5): Ebbac313..
35. Wu W, Liu Y, Dai Q, et al. G2S3: A gene graph-based imputation method for single-cell RNA sequencing data. PLoS Comput Biol, 2021, 17(5): Ee1009029..
36. Talwar D, Mongia A, Sengupta D, et al. AutoImpute: Autoencoder based imputation of single-cell RNA-seq data. Sci Rep, 2018, 8: E16329..
37. Arisdakessian C, Poirion O, Yunits B, et al. DeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq data. Genome Biol, 2019, 20(1): E211..
38. Badsha M B, Li R, Liu B, et al. Imputation of single-cell gene expression with an autoencoder neural network. Quant Biol, 2020, 8(1): 78-94..
39. Li H, Brouwer C R, Luo W. A universal deep neural network for in-depth cleaning of single-cell RNA-Seq data. Nat Commun, 2022, 13(1): E1901..
40. Karikomi M, Zhou P, Nie Q. DURIAN: an integrative deconvolution and imputation method for robust signaling analysis of single-cell transcriptomics data. Brief Bioinform, 2022, 23(4): Ebbac223..
41. Li X, Li S, Huang L, et al. High-throughput single-cell RNA-seq data imputation and characterization with surrogate-assisted automated deep learning. Brief Bioinform, 2022, 23(1): Ebbab368..
42. Islam M T, Wang J Y, Ren H, et al. Leveraging data-driven self-consistency for high-fidelity gene expression recovery. Nat Commun, 2022, 13(1): E7142..
43. Xu C, Cai L, Gao J. An efficient scRNA-seq dropout imputation method using graph attention network. BMC Bioinformatics, 2021, 22(1): E582..
44. Rao J, Zhou X, Lu Y, et al. Imputing single-cell RNA-seq data by combining graph convolution and autoencoder neural networks. iScience, 2021, 24(5): E102393..
45. Wang J, Ma A, Chang Y, et al. scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses. Nat Commun, 2021, 12(1): E1882..
46. Liu J, Pan Y, Ruan Z, et al. SCDD: a novel single-cell RNA-seq imputation method with diffusion and denoising. Brief Bioinform, 2022, 23(5): Ebbac398..
47. Patruno L, Maspero D, Craighero F, et al. A review of computational strategies for denoising and imputation of single-cell transcriptomic data. Brief Bioinform, 2021, 22(4): Ebbaa222..
48. Wang M, Gan J, Han C, et al. Imputation methods for scRNA sequencing data. Appl Sci, 2022, 12(20): E10684..

《生物医学工程学杂志》

单细胞转录组数据中dropout的填补方法

摘要 全文 图表 视频 参考文献 施引文献 补充材料

0 引言

1 基于模型的方法

2 基于平滑的方法

3 基于矩阵重构的方法

4 基于深度学习的方法

5 总结与展望

0 引言

1 基于模型的方法

2 基于平滑的方法

3 基于矩阵重构的方法

4 基于深度学习的方法

5 总结与展望

上一篇

下一篇

Format

Content

《生物医学工程学杂志》

单细胞转录组数据中dropout的填补方法

摘要 全文 图表 视频 参考文献 施引文献 补充材料

0 引言

1 基于模型的方法

2 基于平滑的方法

3 基于矩阵重构的方法

4 基于深度学习的方法

5 总结与展望

0 引言

1 基于模型的方法

2 基于平滑的方法

3 基于矩阵重构的方法

4 基于深度学习的方法

5 总结与展望

上一篇

下一篇

Format

Content

摘要全文图表视频参考文献施引文献补充材料