Kaggle比赛—预测 DNA、RNA 和蛋白质测量如何在单细胞中共同变化

Kaggle比赛—预测 DNA、RNA 和蛋白质测量如何在单细胞中共同变化

本次比赛的目标是预测随着骨髓干细胞发育成更成熟的血细胞,DNA、RNA 和蛋白质测量值如何在单个细胞中共同变化。您将开发一个模型,该模型在 300,000 个细胞时间过程数据集的子集上进行训练,该数据集来自四个人类供体的 CD34+ 造血干细胞和祖细胞 (HSPC),该数据集由以细胞为中心的药物研发公司 Cellarity 为本次比赛生成的五个时间点。

在测试集中,取自数据集中不可见的较晚时间点,将向参赛者提供一种模态,并负责预测在同一单元格中测量的配对模态。这场比赛的额外挑战是测试数据将来自比训练数据中的任何时间点更晚的时间点。

您的工作将有助于加速跨细胞状态层映射遗传信息的方法的创新。如果我们能够从另一种模式中预测一种模式,我们可能会扩大我们对管理这些复杂监管过程的规则的理解。

背景

在过去的十年中,单细胞基因组学的出现使得能够测量单细胞中的 DNA、RNA 和蛋白质成为可能。这些技术允许以前所未有的规模和分辨率研究生物学。结果包括早期人类胚胎发育的详细地图、新疾病相关细胞类型的发现以及细胞靶向治疗干预。此外,随着实验技术的最新进展,现在可以测量同一细胞中的多种基因组模式。

虽然多模态单细胞数据越来越多,但数据分析方法仍然稀缺。由于单个单元的体积小,测量结果稀疏且嘈杂。细胞之间分子采样深度的差异(测序深度)和批量处理细胞的技术效果(批处理效果)通常会压倒生物学差异。在分析多模态数据时,必须考虑不同的特征空间,以及模态之间和批次之间的共享和独特变化。此外,当前用于单细胞数据分析的管道将细胞视为静态快照,即使存在潜在的动态生物过程。考虑时间动态以及状态随时间的变化是单细胞数据科学中的一个公开挑战。

一般来说,遗传信息从 DNA 到 RNA 再到蛋白质。DNA 必须是可访问的(ATAC 数据)才能产生 RNA(GEX 数据),而 RNA 又被用作模板来产生蛋白质(ADT 数据)。这些过程受到反馈的调节:例如,一种蛋白质可能会结合 DNA 以防止产生更多的 RNA。这种遗传调控是动态细胞过程的基础,使生物体能够发展和适应不断变化的环境。在单细胞数据科学中,动态过程已通过捕获生物过程进展的所谓伪时间算法进行建模。然而,将这些算法推广到同时考虑伪时间和实时仍然是一个悬而未决的问题。

竞赛主办单位 Open Problems in Single-Cell Analysis 是一项开源、社区驱动的工作,旨在标准化单细胞方法的基准测试。Open Problems 的核心工作包括将现有挑战形式化为可衡量的任务、高质量数据集的集合、社区贡献方法的集中基准测试以及以社区为中心的活动,这些活动将不同的方法开发人员聚集在一起以改进单细胞算法。他们很高兴与 Cellarity、Chan Zuckerbeg Biohub、Chan Zuckerberg Initiative、Helmholtz Munich 和耶鲁大学合作,看看通过跨学科合作预测遗传动力学随时间的变化可以取得哪些进展。

人体内大约有 37 万亿个细胞,它们都具有不同的行为和功能。了解单个基因组如何产生细胞状态的多样性是获得对组织如何在健康和疾病中发挥功能或功能障碍的机制洞察力的关键。您可以帮助解决单细胞生物学的这一基本挑战。随着时间的推移,能够解决预测问题可能会对基因调控如何影响血液和免疫细胞成熟时的分化产生新的见解。


版权声明:本文为weixin_42486623原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。