字数 1303,阅读大约需 7 分钟
![微软 微软发布小型模型LLaVA-Rad,精准生成放射学报告](https://ai.codexiu.cn/wp-content/uploads/2025/01/image-2025-01-08-Microsoft-teams-.webp)
小而强!微软发布小型模型LLaVA – Rad,实现精准放射学报告生成
近日,微软研究院联合华盛顿大学、斯坦福大学等多所知名高校的研究人员,共同发布了一款小型多模态模型——[LLaVA – Rad](https://github.com/microsoft/LLaVA – Med)。该模型旨在提升临床放射学报告的生成效率,在医学图像处理技术领域引发新关注,为放射学临床应用拓展了可能性。
生物医学领域AI应用的现状与挑战
在生物医学领域,基于大规模基础模型的研究成果丰富,多模态生成AI发展迅速,使模型能同时处理文本与图像,支持视觉问答、放射学报告生成等任务。过去五年,生物医学领域对AI技术的应用呈爆发式增长,全球相关研究项目数量增加近80%。
然而,当前发展面临困难。大型模型性能出色,但资源需求过高,临床广泛部署受阻。例如,某大型医学AI模型运行所需服务器配置成本高达数十万元,能耗巨大,许多医疗单位难以承受。
小型多模态模型虽效率有所提升,但与大型模型相比性能仍有差距。同时,缺乏开放源代码模型,限制了研究人员二次开发和优化。此外,缺乏可靠的事实准确性评估方法,也制约了模型在临床中的应用。
LLaVA – Rad模型的亮点与创新
1. 强大的数据集支撑
LLaVA – Rad模型训练基于来自七个不同来源的697,435对放射学图像与报告的数据集,重点聚焦胸部X光(CXR)成像——这是最常见的医学影像检查类型。大规模且针对性强的数据集,为模型精准训练奠定基础。通过深度学习,LLaVA – Rad能更好理解胸部X光图像与对应报告的关联,生成更准确的报告。
2. 独特的模块化训练方式
该模型采用创新的模块化训练方式,包括单模态预训练、对齐和微调三个阶段。单模态预训练阶段,模型分别学习图像和文本数据,掌握各自模态特征表示;对齐阶段,将图像和文本特征空间对齐,实现两者有效交互;微调阶段,根据放射学报告生成任务进一步优化模型。
此外,模型利用高效适配器机制将非文本模态嵌入文本嵌入空间,提高训练效率,更好融合不同模态信息,性能超越同类模型。
3. 优异的性能表现
尽管LLaVA – Rad规模小于一些大型模型,如Med – PaLM M,但性能出色。在关键指标ROUGE – L和F1 – RadGraph上,相较于其他同类模型分别提升12.1%和10.1%。这表明LLaVA – Rad在生成放射学报告时,文本连贯性、逻辑性以及图像信息提取准确性方面达到新高度。
LLaVA – Rad在多个数据集上性能优越,未见过的数据测试中也表现稳定。这得益于其模块化设计和高效数据利用架构,使模型具备良好泛化能力,能应对不同来源和特点的放射学图像数据。
4. 创新性的评估指标——CheXprompt
为解决临床应用评估难题,研究团队推出CheXprompt,用于自动评分事实正确性。以往临床应用中,对模型生成的放射学报告进行事实准确性评估依赖人工,效率低且主观性强。CheXprompt实现自动评分,提高评估效率和客观性。
对放射学临床应用的重大意义
LLaVA – Rad的发布推动了基础模型在临床环境中的应用。它为放射学报告生成提供轻量级且高效的解决方案,医疗单位无需大量投入升级硬件设备,就能享受先进AI技术便利。
实际应用中,基层医院常因缺乏专业放射科医生,导致放射学报告生成耗时久,甚至解读不准确。LLaVA – Rad可缓解这一困境,帮助基层医院快速、准确生成报告,提升医疗服务水平。
从行业发展看,LLaVA – Rad标志着技术与临床需求进一步融合。它为未来小型化、高效化医学AI模型研发提供借鉴,推动医学图像处理技术向更实用、精准方向发展。
项目地址:https://github.com/microsoft/LLaVA – Med