How to build the virtual cell with artificial intelligence: Priorities and opportunities

作者:
Charlotte Bunne,1,2,3,4,50 Yusuf Roohani,1,3,5,50 Yanay Rosen,1,3,50 Ankit Gupta,3,6 Xikun Zhang,1,3,7 Marcel Roed,1,3
Theo Alexandrov,8,9 Mohammed AlQuraishi,9 Patricia Brennan,3 Daniel B. Burkhardt,11 Andrea Califano,
期刊:cell
重要指数:⭐️⭐️⭐️⭐️⭐️
时间:25.12.16
关键词:虚拟细胞\人工智能
摘要:细胞是理解健康与疾病的关键要素,但传统模型在模拟其功能与行为方面仍存在不足。人工智能与组学领域的突破性进展为构建人工智能虚拟细胞(AIVC)提供了全新机遇——这种基于多尺度、多模态大型神经网络的模型,能够跨状态表征并模拟分子、细胞及组织的行为。本观点阐述了其设计愿景,以及通过构建AI虚拟细胞的协作研究如何推动生物学研究:既能实现高保真模拟、加速科学发现,又能为实验研究提供指导,从而为理解细胞功能开辟新途径,并促进开放科学领域的跨学科合作。
1.研究背景
-
每个细胞都是一个动态适应系统,其复杂行为源自无数分子间的相互作用。某些特性对扰动表现出惊人稳健性(基因的消除)、一些非常敏感(点突变)
-
定义虚拟细胞模型(AIVC),难题:多尺度、多维过程、非线性动力学
-
相比之下,新辅助免疫化疗(nICT)已成为治疗EC的一种有前景的方法。(PD-1)抑制剂,显示出令人鼓舞的病理完全缓解(pCR)率,尤其是在局部晚期 ESCC 中。然而,nICT仅能对20%-40%的患者达到最佳效果,过度治疗可能会增加不良反应的风险。
-
这些挑战凸显了对可靠生物标志物的迫切需求,这些标志物可以预测治疗反应,从而改善患者预后并减少不必要的毒性。预测EC免疫治疗反应的可靠生物标志物仍然缺乏。这些传统生物标志物未能捕捉肿瘤免疫微环境(TIME)的复杂动态。多模态深度学习已成为医疗领域中一种变革性工具,通过利用多样化的数据源来提升预测性能。
2.研究框架
AIVC是一个多尺度、多模态、基于大神经网络的计算模型,能够:
模拟分子、细胞、组织在不同状态下的行为;
预测细胞对扰动(如基因突变、药物处理)的反应;
生成可实验验证的科学假设;
整合来自基因组、转录组、蛋白质组、成像、空间组学等多种数据类型。
它不是传统基于规则或微分方程的模型,而是数据驱动、AI学习的“细胞数字孪生”。

分子层:用序列语言模型(DNABERT、ProteinBERT)或原子级结构模型(AlphaFold、RoseTTAFold All-Atom)编码DNA/RNA/蛋白质。
细胞层:整合单细胞转录组、染色质状态、蛋白定位、活细胞成像,得到单细胞状态向量。
组织层:用图神经网络或视觉Transformer处理空间转录组、H&E切片、3D体积数据,捕捉细胞-细胞相互作用与微环境。
Box 1 – Grand challenges for building the AIVC
1. 能力界定与评估:为 AIVC 的每一项核心能力(跨尺度预测、跨模态翻译、动态模拟等)设计可量化的指标和配套基准数据集,并随模型迭代持续更新。
2. 跨尺度/跨模态自洽:无论输入是原子结构、基因表达还是组织图像,模型内部表示必须保持一致;同一扰动在分子、细胞、组织层面的预测结果需逻辑自洽。
3. 可解释性与生物效用权衡:在保证预测精度的同时,用因果建模、稀疏特征、反事实推理等手段提供可实验验证的机制线索。
4. 协作框架:建设开放、互联的 AIVC 平台,支持数据、模型、虚拟仪器(VI)的共享与复用,并提供教育、培训、公众参与接口。
5. 伦理与公平:确保训练数据涵盖人类多样性,防止伪造数据污染模型,建立监管与伦理审查流程,推广负责任的 AI 使用。
6. 数据优先级:系统评估不同数据类型(单细胞、空间、成像、扰动)对模型泛化的边际贡献,指导大规模数据生产的资源分配。
Box 2 – Vignettes(应用情景)
1. 细胞工程与药物发现:构建患者或疾病特异性的 AIVC,进行虚拟表型筛选,优化细胞治疗(如 1 型糖尿病个体化 β 细胞)。
2. 空间肿瘤免疫:利用 AIVC 解析肿瘤微环境(TME)的空间异质性,识别跨癌种共享的免疫逃逸机制,指导精准免疫治疗。
3. 个体化诊断数字孪生:整合患者基因组、单细胞图谱、影像与临床记录,创建随时间更新的“虚拟患者”,预测疾病进展并推荐干预。
4. 假设生成框架:让 AIVC 主动提出可实验验证的假设,通过“自驱动实验室”循环迭代,实现从被动数据分析到主动科学发现的范式转变。
Box 3 – AI techniques for building the AIVC
1. Transformer:以自注意力机制捕捉序列(DNA、RNA、蛋白)或细胞-基因关系,支持掩码语言建模与长程依赖建模。
2. CNN:用于显微图像、空间切片等网格数据,自动学习空间层次特征;在多重免疫荧光、H&E 分析中已成熟。
3. Diffusion & Flow Matching:生成高维、多模态数据(如细胞状态分布、时间序列演化),适合动态过程建模。
4. GNN:把细胞或分子视为节点,物理或功能邻近关系为边,处理空间转录组、蛋白相互作用网络等图结构数据,实现节点/边/图级预测。
