微软发布小型模型LLaVA-Rad，精准生成放射学报告

字数 1303，阅读大约需 7 分钟

小而强！微软发布小型模型LLaVA – Rad，实现精准放射学报告生成

近日，微软研究院联合华盛顿大学、斯坦福大学等多所知名高校的研究人员，共同发布了一款小型多模态模型——[LLaVA – Rad](https://github.com/microsoft/LLaVA – Med)。该模型旨在提升临床放射学报告的生成效率，在医学图像处理技术领域引发新关注，为放射学临床应用拓展了可能性。

生物医学领域AI应用的现状与挑战

在生物医学领域，基于大规模基础模型的研究成果丰富，多模态生成AI发展迅速，使模型能同时处理文本与图像，支持视觉问答、放射学报告生成等任务。过去五年，生物医学领域对AI技术的应用呈爆发式增长，全球相关研究项目数量增加近80%。

然而，当前发展面临困难。大型模型性能出色，但资源需求过高，临床广泛部署受阻。例如，某大型医学AI模型运行所需服务器配置成本高达数十万元，能耗巨大，许多医疗单位难以承受。

小型多模态模型虽效率有所提升，但与大型模型相比性能仍有差距。同时，缺乏开放源代码模型，限制了研究人员二次开发和优化。此外，缺乏可靠的事实准确性评估方法，也制约了模型在临床中的应用。

LLaVA – Rad模型的亮点与创新

1. 强大的数据集支撑

LLaVA – Rad模型训练基于来自七个不同来源的697,435对放射学图像与报告的数据集，重点聚焦胸部X光（CXR）成像——这是最常见的医学影像检查类型。大规模且针对性强的数据集，为模型精准训练奠定基础。通过深度学习，LLaVA – Rad能更好理解胸部X光图像与对应报告的关联，生成更准确的报告。

2. 独特的模块化训练方式

该模型采用创新的模块化训练方式，包括单模态预训练、对齐和微调三个阶段。单模态预训练阶段，模型分别学习图像和文本数据，掌握各自模态特征表示；对齐阶段，将图像和文本特征空间对齐，实现两者有效交互；微调阶段，根据放射学报告生成任务进一步优化模型。

此外，模型利用高效适配器机制将非文本模态嵌入文本嵌入空间，提高训练效率，更好融合不同模态信息，性能超越同类模型。

3. 优异的性能表现

尽管LLaVA – Rad规模小于一些大型模型，如Med – PaLM M，但性能出色。在关键指标ROUGE – L和F1 – RadGraph上，相较于其他同类模型分别提升12.1%和10.1%。这表明LLaVA – Rad在生成放射学报告时，文本连贯性、逻辑性以及图像信息提取准确性方面达到新高度。

LLaVA – Rad在多个数据集上性能优越，未见过的数据测试中也表现稳定。这得益于其模块化设计和高效数据利用架构，使模型具备良好泛化能力，能应对不同来源和特点的放射学图像数据。

4. 创新性的评估指标——CheXprompt

为解决临床应用评估难题，研究团队推出CheXprompt，用于自动评分事实正确性。以往临床应用中，对模型生成的放射学报告进行事实准确性评估依赖人工，效率低且主观性强。CheXprompt实现自动评分，提高评估效率和客观性。

对放射学临床应用的重大意义

LLaVA – Rad的发布推动了基础模型在临床环境中的应用。它为放射学报告生成提供轻量级且高效的解决方案，医疗单位无需大量投入升级硬件设备，就能享受先进AI技术便利。

实际应用中，基层医院常因缺乏专业放射科医生，导致放射学报告生成耗时久，甚至解读不准确。LLaVA – Rad可缓解这一困境，帮助基层医院快速、准确生成报告，提升医疗服务水平。

从行业发展看，LLaVA – Rad标志着技术与临床需求进一步融合。它为未来小型化、高效化医学AI模型研发提供借鉴，推动医学图像处理技术向更实用、精准方向发展。

项目地址：https://github.com/microsoft/LLaVA – Med

# AI快讯 # AI医学

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...