微软发布小型模型LLaVA-Rad,精准生成放射学报告

字数 1303,阅读大约需 7 分钟

微软发布小型模型LLaVA-Rad,精准生成放射学报告
微软是一家跨国科技公司,主要业务包括操作系统、办公软件、云计算服务(如Azure)、游戏(如Xbox)、搜索引擎(必应)以及硬件产品(如Surface系列)等,在全球软件和科技领域占据重要地位,致力于为个人、企业和政府机构提供各类技术解决方案和服务。

小而强!微软发布小型模型LLaVA – Rad,实现精准放射学报告生成

近日,微软研究院联合华盛顿大学、斯坦福大学等多所知名高校的研究人员,共同发布了一款小型多模态模型——[LLaVA – Rad](https://github.com/microsoft/LLaVA – Med)。该模型旨在提升临床放射学报告的生成效率,在医学图像处理技术领域引发新关注,为放射学临床应用拓展了可能性。

生物医学领域AI应用的现状与挑战

在生物医学领域,基于大规模基础模型的研究成果丰富,多模态生成AI发展迅速,使模型能同时处理文本与图像,支持视觉问答、放射学报告生成等任务。过去五年,生物医学领域对AI技术的应用呈爆发式增长,全球相关研究项目数量增加近80%。

然而,当前发展面临困难。大型模型性能出色,但资源需求过高,临床广泛部署受阻。例如,某大型医学AI模型运行所需服务器配置成本高达数十万元,能耗巨大,许多医疗单位难以承受。

小型多模态模型虽效率有所提升,但与大型模型相比性能仍有差距。同时,缺乏开放源代码模型,限制了研究人员二次开发和优化。此外,缺乏可靠的事实准确性评估方法,也制约了模型在临床中的应用。

LLaVA – Rad模型的亮点与创新

1. 强大的数据集支撑

LLaVA – Rad模型训练基于来自七个不同来源的697,435对放射学图像与报告的数据集,重点聚焦胸部X光(CXR)成像——这是最常见的医学影像检查类型。大规模且针对性强的数据集,为模型精准训练奠定基础。通过深度学习,LLaVA – Rad能更好理解胸部X光图像与对应报告的关联,生成更准确的报告。

2. 独特的模块化训练方式

该模型采用创新的模块化训练方式,包括单模态预训练、对齐和微调三个阶段。单模态预训练阶段,模型分别学习图像和文本数据,掌握各自模态特征表示;对齐阶段,将图像和文本特征空间对齐,实现两者有效交互;微调阶段,根据放射学报告生成任务进一步优化模型。

此外,模型利用高效适配器机制将非文本模态嵌入文本嵌入空间,提高训练效率,更好融合不同模态信息,性能超越同类模型。

3. 优异的性能表现

尽管LLaVA – Rad规模小于一些大型模型,如Med – PaLM M,但性能出色。在关键指标ROUGE – L和F1 – RadGraph上,相较于其他同类模型分别提升12.1%和10.1%。这表明LLaVA – Rad在生成放射学报告时,文本连贯性、逻辑性以及图像信息提取准确性方面达到新高度。

LLaVA – Rad在多个数据集上性能优越,未见过的数据测试中也表现稳定。这得益于其模块化设计和高效数据利用架构,使模型具备良好泛化能力,能应对不同来源和特点的放射学图像数据。

4. 创新性的评估指标——CheXprompt

为解决临床应用评估难题,研究团队推出CheXprompt,用于自动评分事实正确性。以往临床应用中,对模型生成的放射学报告进行事实准确性评估依赖人工,效率低且主观性强。CheXprompt实现自动评分,提高评估效率和客观性。

对放射学临床应用的重大意义

LLaVA – Rad的发布推动了基础模型在临床环境中的应用。它为放射学报告生成提供轻量级且高效的解决方案,医疗单位无需大量投入升级硬件设备,就能享受先进AI技术便利。

实际应用中,基层医院常因缺乏专业放射科医生,导致放射学报告生成耗时久,甚至解读不准确。LLaVA – Rad可缓解这一困境,帮助基层医院快速、准确生成报告,提升医疗服务水平。

从行业发展看,LLaVA – Rad标志着技术与临床需求进一步融合。它为未来小型化、高效化医学AI模型研发提供借鉴,推动医学图像处理技术向更实用、精准方向发展。

项目地址:https://github.com/microsoft/LLaVA – Med

© 版权声明

相关文章

暂无评论

暂无评论...