加州大学洛杉矶分校(UCLA)的两名研究人员提出了一种新型计算工具,它能帮助研究人员测量单个细胞内基因表达强度的可靠性,特别是针对那些细胞几乎不读取的基因。这项研究发表在近期出版的《Nature Communications》。
人体细胞以不同方式表达自己,一种细胞选择表达的遗传密码,另一种细胞反而完全忽略相同信息。理解这些信息有助于刺激新干细胞疗法生成,或者窥视更深层的生命发育基本原则。迄今为止,研究细胞-细胞之间基因表达差异仍然是具有挑战性的。
DNA的阅读和执行任务在于RNA,移动的RNA将一长串的遗传指令传送到细胞其他部位,通过计算细胞内各种RNA分子,研究人员可得知哪些基因是活跃的或表达到什么程度。
然而,对于非常微量的RNA分子,许多分析工具可能误以为相应的基因根本不活跃,这些“失漏”将导致错误的细胞间差异绘图。
现在,加州大学洛杉矶分校(UCLA)的两名研究人员提出了一种新型计算工具,它能帮助研究人员测量单个细胞内基因表达强度的可靠性,特别是针对那些细胞几乎不读取的基因。这项研究发表在近期出版的《Nature Communications》。
“脑细胞、肝细胞和心脏细胞的DNA序列完全相同,”这项研究的通讯作者、UCLA统计学助理教授Jingyi "Jessica" Li说。“为什么细胞与细胞看起来如此不同?基因表达是关键。”
“如果你想在单细胞水平上获得有用生物信息,那么,你需要做一些统计推断,”Li教授说。“否则你的结论可能就是错的。”
UCLA统计系博士生Wei "Vivian" Li与Li教授共同设计了一款用于处理RNA测序“失漏”的统计分析软件,这款工具名叫“scImpute”。
“估算并不新鲜,然而,现有的可用工具要么过于宽泛,将一种细胞的全部基因表达套用于另一种细胞;要么太局限,专门针对某一特定类型研究。scImpute的优点是兼备通用性和灵活性,”Jessica Li说。该工具具有外科手术般的精度,仅选取最有可能遗漏的丰度区间,可用于任何类型的单细胞基因表达分析。
Vivian Li利用模拟和实际数据对scImpute进行测试,其中一些是实际基因表达水平的实验证据,scImpute比其他任何方法更准确。该软件可靠地将“失漏”基因与那些根本没有表达的基因区分开来,并提供了基因实际丰度的精确估值。
目前,采用R语言编程,作为一个通用科学统计计算平台的scImpute开源软件是免费的。
两位研究员已经在一小群细胞中证明,scImpute丢失率很低,但是对大规模细胞群来说,它的丢失率可能超过90%。因此,研究小组的下一步目标是扩大使用情境,进一步提高可靠性。通过从网上吸纳其他基因信息,她们相信scImpute将成为一个更强大的工具。
原文检索:An accurate and robust imputation method scImpute for single-cell RNA-seq data