跳转到内容
Go back
A

食管癌个体化新辅助免疫化疗的多模态协同模型

| Edit page

A multimodal synergistic model for personalized neoadjuvant immunochemotherapy in esophageal cancer

作者:

Zihan Zhao, Dexia Chen, Xiaolong Wei, …,

Wenqun Xing, Jian Zhou, Muyan Cai

期刊:cell reports medecine

重要指数:⭐️⭐️⭐️⭐️⭐️

时间:25.12.15

关键词:多模态深度学习框架eSPARK\整合了常规CT影像、组织病理学和细胞学语义学的多中心队列研究

摘要:新辅助免疫化疗(nICT)显著改善了局部晚期食管癌(EC)的治疗效果,但准确识别患者的治疗反应仍是一个重大挑战。在本研究中,我们介绍了eSPARK,这是一个多模态框架,旨在整合常规可用的临床数据,以支持EC新辅助免疫化疗治疗的知情决策。该模型基于来自三个独立地区的344例患者数据构建,每例患者均配有治疗前配对的计算机断层扫描(CT)影像和病理切片,以及术后病理完全缓解(pCR)结果。通过整合细胞学语义信息,eSPARK展现出卓越的泛化能力,超越单一模态模型,并在多中心数据集中实现稳健的预测准确性。此外,一个多尺度可解释性模块识别出多个与新辅助免疫化疗反应相关的生物标志物,包括肿瘤微环境中的中性粒细胞与淋巴细胞比值(NLR)。我们的研究结果强调了eSPARK作为局部晚期EC个性化治疗决策的强大工具的潜力,以及通过多学科数据整合推进精准肿瘤学的更广泛意义。


1.研究背景

  1. 食管癌(EC)在全球范围内是第11大常见恶性肿瘤,也是第七大癌症相关死亡原因。其中,食管鳞状细胞癌(ESCC)约占病例的80%。

  2. 尽管治疗手段有所进展,但 ESCC 的预后仍然不佳,主要原因是常在晚期才被诊断出来。且仅靠手术治疗已被证明对晚期 ESCC 效果有限。

  3. 相比之下,新辅助免疫化疗(nICT)已成为治疗EC的一种有前景的方法。(PD-1)抑制剂,显示出令人鼓舞的病理完全缓解(pCR)率,尤其是在局部晚期 ESCC 中。然而,nICT仅能对20%-40%的患者达到最佳效果,过度治疗可能会增加不良反应的风险。

  4. 这些挑战凸显了对可靠生物标志物的迫切需求,这些标志物可以预测治疗反应,从而改善患者预后并减少不必要的毒性。预测EC免疫治疗反应的可靠生物标志物仍然缺乏。这些传统生物标志物未能捕捉肿瘤免疫微环境(TIME)的复杂动态。多模态深度学习已成为医疗领域中一种变革性工具,通过利用多样化的数据源来提升预测性能。

2.研究框架

(C) eSPARK框架的结构特征。该框架通过多模态融合技术,将多尺度影像学信息与细胞学组织学数据进行整合。

(D) eSPARK在临床场景中的工作流程。该模型整合常规治疗前评估数据以预测治疗获益。通过可解释性模块,为临床医生提供实时多尺度可视化报告、潜在生物标志物及多模态治疗建议,以支持最终临床决策。

3.研究实验与数据分析

Fig 2 CytoPath模型的性能

队列情况:344例晚期ESCC病人,每位患者都有完整的治疗前CT图像和活检切片,术后接受新辅助治疗后确定了病理完全缓解状态。211例用于内部队列,其中40例用于验证,其余用于模型训练。外部队列的话建立了两个额外队列:外部HN队列,包含来自郑州大学附属肿瘤医院(HN)的75例病例;外部ST队列,包含来自汕头大学医学院肿瘤医院(ST)的58例病例。治疗前的基线临床特征在pCR和非pCR患者之间基本相当。

评估了治疗前组织病理学特征对免疫治疗反应的预测价值

CytoPath的语义增强多模态框架

该模型集成了一个文本编码模块,用于整合主要 ESCC 微环境成分的细胞学数据与全切片图像(WSIs),提供治疗反应的病例级预测(图S2A)。值得注意的是,在21次比较中,有18次CytoPath与语义模块相比,基于补丁和 WSI 的模型表现更差,显示出更高的预测准确性。

细胞群聚类、AUC曲线、pCR和non-pCR的反应分数也是很准确的预测和区分了。

Fig 3 MScaleCT模型的性能

评估了治疗前对比增强胸部CT扫描的预测性能

使用我们先前建立的方法自动分割食管和局部 ESCC 区域(图3A),并从每个分割区域提取2,164个放射组学特征,进行多尺度分析(表S5)。在训练队列中进行的单变量逻辑回归分析确定了100个 ESCC 特征和114个食管特征与治疗结果显著相关,其中96个特征(61.9%)仅在一个分析尺度上出现(图3B和3C)。在其他数据集中也观察到了类似的结果(图S3),这突显了多尺度融合在提供互补预测见解中的重要性。

为了进一步评估多尺度特征的影响,我们构建了一个多尺度融合成像模型,MScaleCT。

和传统机器学习相比,性能好(AUC高)

Fig 4 eSPARK的预测性能

10折交叉验证,投票机制整合10个模型的预测结果以获得最终预测

该模型整合了组织病理学、放射学和细胞学特征以评估nICT疗效

AUC三个数据集效果都好

多模态和单模态相比预测效果好

多模态融合模型在两个外部数据集中分别将假阳性病例减少了31例(86.1%)和20例(76.9%),相较于仅使用CT的模型有效降低了过度治疗风险

Fig 5 CT与病理学模态的多尺度可解释性

评估了CT影像特征在整个食管和 ESCC 特异性尺度上的预测贡献(图5A)。关键特征,如肿瘤区域内的大面积强调和食管区域内的大面积高灰度强调,被发现对治疗成功具有最大影响,且与治疗成功呈负相关。

可视化分析显示,非病理完全缓解(non-pCR)患者的灰度值升高,肿瘤及瘤周区域增强更为显著(图5B),这表明存在与治疗反应相关的独特影像学特征。接下来,针对组织学数据,我们在 WSI 、切片和细胞尺度上评估了模型的可解释性。基于注意力机制的热图识别出 WSI 上的预测区域(图5C),模型主要关注鳞状细胞癌周围淋巴细胞浸润区域。为进一步探究这一点,我们研究了切片层面的详细形态学特征与免疫治疗结果之间的关系。高注意力区域聚类显示局部组织结构(图5D)。由多模态大语言模型生成的这些切片层面特征的描述与 WSI 观察结果一致,确保了组织学数据的客观和自动化解读。

Fig 6 细胞水平生物标志物的发现

细胞水平的模式为预测性生物标志物提供了信息。研究了TIME中细胞成分对免疫治疗结果的影响(图6A)。结果显示,在所有三个多中心测试集中,免疫细胞类型始终贡献最大,其中两个外部测试集中的贡献最高。

相比之下,肿瘤细胞在内部测试中贡献最大,在外部数据集中排名第二和第三。鳞状细胞和内皮细胞的参与度相对较低。

这些发现促使我们进一步探索特定免疫细胞和肿瘤细胞亚型的影响(图6B)。

淋巴细胞在所有数据集中均表现出比中性粒细胞更高的评分,而分化良好的肿瘤细胞比分化不良的肿瘤细胞贡献更大。这些观察结果表明,TIME中较低的中性粒细胞与淋巴细胞比值(NLR)和较高的肿瘤分化水平可能表示ESCC 患者治疗反应更好。

为了验证这一假设,我们进行了针对不同细胞类型的消融实验(图6C)。结果显示,移除免疫细胞导致所有数据集中的性能显著下降,而移除肿瘤细胞类型对内部和外部数据集的影响尤为明显。同时删除两种细胞类型会导致预测性能的更大下降。有趣的是,仅去除淋巴细胞就导致了性能的显著下降。这些发现表明, NLR 和 TIME 中低分化细胞的比例可能作为不良 nICT 反应的潜在细胞学标志物。

4.结果与讨论

开发语义引导的多模态深度学习模型eSPARK,精准识别能预测患者治疗反应的可靠生物标志物,该模型将常规临床数据(如治疗前CT扫描和病理活检图像)与细胞学语义知识相结合,优于单一模态模型,证明了其强大的泛化能力和准确性。

为了进一步增强其临床相关性,我们整合了一个可解释性模块,允许在放射学、组织学和细胞学水平上识别与治疗效果相关的特征。

仅依赖单一标志物可能不足,因为nICT反应可能受TIME复杂性的影响。将治疗前CT影像与病理活检影像整合为统一的预测框架。CT成像捕捉肿瘤的宏观特征,而病理活检影像则提供细胞和间质成分的详细信息。通过整合两种模态,我们的模型强调了对肿瘤特征更全面的分析。融合策略简单,所以稳定(如果复杂效果会更好)。代码开源

开发了CytoPath框架。这一语义增强的多模态方法将 ESCC 微环境主要细胞学成分的文本编码信息与WSI整合。通过引入语义知识,我们的方法能够在无需人工标注的情况下,对WSI中的不同细胞类型进行无注释分析,提供宝贵的生物学见解。

此外,还进行了多尺度可解释性的全面分析,以识别与放射学、组织学和细胞学水平治疗效果相关的特征。放射学方面,肿瘤区域内的大片均匀灰区和食管区域广泛的高灰区与不良治疗结局显著相关。与已知知识一致,因为均匀灰区可能代表坏死区域和低分化肿瘤,而高灰区则对应于高度侵袭性组织和浸润边界。组织学方面,重点关注了鳞状细胞癌周围淋巴细胞浸润区域,从而强化了先前的观察结果。细胞学方面,揭示肿瘤微环境中较低的 NLR 可能作为nICT反应的潜在生物标志物。这一发现已在多个数据集中得到一致验证。尽管先前研究已将低血清 NLR 与EC中良好的nICT结局相关联,但肿瘤内 NLR 与治疗反应之间的关系直到现在才被探索。然而,这些结论需要通过多重免疫组织化学或其他实验方法进一步验证。

【研究局限与不足】

  1. 虽然有3个数据集了,需要更大规模且更均衡的前瞻性数据集来进一步评估其普适性和临床适用性。没直接评估长期生存。

  2. 本研究未纳入基因组数据,仅放射学、组织学和细胞学数据

  3. 虚拟细胞技术最新进展,为多模态整合提供了新途径,有望更深入解析肿瘤微环境中的细胞相互作用

代码:

https://github.com/Kepler1647b/eSPARK

5.相关参考文献整合

多模态预测胃癌的免疫治疗模型:

Gao, P., Xiao, Q., Tan, H., Song, J., Fu, Y., Xu, J., Zhao, J., Miao, Y., Li, X., Jing, Y., et al. (2024). Interpretable multi-modal artificial intelligence model for predicting gastric cancer response to neoadjuvant chemotherapy. Cell Rep. Med. 5, 101848.

https://doi.org/10.1016/j.xcrm.2024.101848.

虚拟细胞:

Bunne, C., Roohani, Y., Rosen, Y., Gupta, A., Zhang, X., Roed, M., Alexandrov, T., AlQuraishi, M., Brennan, P., Burkhardt, D.B., et al. (2024). How to build the virtual cell with artificial intelligence: Priorities and opportunities. Cell 187, 7045–7063. https://doi.org/10.1016/j.cell.2024.11.015.

多模态综述:Sun, Z., Lin, M., Zhu, Q., Xie, Q., Wang, F., Lu, Z., and Peng, Y. (2023). A scoping review on multimodal deep learning in biomedical images and texts. J. Biomed. Inform. 146, 104482. https://doi.org/10.1016/j.jbi.2023. 

104482.

开源组织病理学视频中提取局部叙事来调整视觉指令:Seyfioglu, M.S., Ikezogwo, W.O., Ghezloo, F., Krishna, R., and Shapiro, L. (2024). Quilt-LLaVA: Visual instruction tuning by extracting localized narratives from open-source histopathology videos. In Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition, pp. 13183– 13192.

计算病理学的视觉-语言基础模型:

Lu, M.Y., Chen, B., Williamson, D.F.K., Chen, R.J., Liang, I., Ding, T., Jaume, G., Odintsov, I., Le, L.P., Gerber, G., et al. (2024). A visual-language foundation model for computational pathology. Nat. Med. 30, 863–874. https://doi.org/10.1038/s41591-024-02856-4.

基于网络规模的二维三维医学数据构建放射学通用基础模型:

Wu, C., Zhang, X., Zhang, Y., Hui, H., Wang, Y., and Xie, W. (2025). To

wards generalist foundation model for radiology by leveraging web-scale

2d&3d medical data. Nat. Commun. 16, 7866.



Edit page
Share this post on:

Previous Post
Tahoe-100M:一个用于情境依赖性基因功能与细胞建模的千兆级单细胞扰动图谱
Next Post
四楼动物房流程和抓取小鼠方法记录