字数 1083,阅读大约需 6 分钟

Mistral推出新API:将PDF文档转换为AI-ready Markdown文件
Mistral,这家法国大型语言模型(LLM)开发商,近日推出了一款新的API,旨在帮助开发者处理复杂的PDF文档。Mistral OCR,一款光学字符识别(OCR)API,能够将任何PDF文档转换为文本文件,从而使得AI模型更容易消化。LLMs是支撑诸如OpenAI的ChatGPT等流行GenAI工具的基础,它们在处理原始文本方面表现出色。因此,对于那些希望创建自己的AI工作流程的公司来说,以干净的格式存储和索引数据变得极其重要,这样数据才能被重复用于AI处理。
多模态API:不仅仅是文本识别
与大多数OCR API不同,Mistral OCR是一款多模态API,这意味着它能够检测到文本块中交织的插图和照片。OCR API在这些图形元素周围创建边界框,并将它们包含在输出中。Mistral OCR的输出不仅仅是大片文本;输出格式为Markdown,这是一种开发者用于在纯文本文件中添加链接、标题和其他格式元素的语法。LLMs在训练数据集中大量依赖Markdown。同样,当您使用AI助手,如Mistral的Le Chat或OpenAI的ChatGPTT时,们通常生成Markdown以创建子弹列表、添加链接或使某些元素加加粗。手应用程序无缝地将Markdown输出格式化为富文本输出。这就是为什么随着GenAI的蓬勃发展,原始文本和Markdown在近年来变得更加重要的原因。
解决企业文档难题
“多年来,组织积累了大量文档,通常以PDF或幻灯片格式存在,这些文档对LLMs,尤其是RAG系统来说是无法访问的。有了Mistral OCR,我们的客户现在可以将丰富且复杂的文档转换为所有语言的可读内容,”Mistral联合创始人兼首席科学官Guillaume Lample表示。“这是在企业中广泛采用AI助手的关键一步,这些企业需要简化对其庞大内部文档的访问,”他补充道。
高性能与多语言支持
Mistral OCR可在Mistral自己的API平台或通过其云合作伙伴(AWS、Azure、Google Cloud Vertex等)上使用。对于处理分类或敏感数据的企业,Mistral还提供本地部署。据这家总部位于巴黎的AI公司称,Mistral OCR的性能优于Google、Microsoft和OpenAI的API。该公司已将其OCR模型用于包含数学表达式(LaTeX格式)、高级布局或表格的复杂文档进行测试。它还声称在处理非英语文档时表现更好。
专注与速度
鉴于Mistral OCR只做一件事,并且做得非常好,公司相信它比市场上现有的解决方案更快。这并不令人意外,如果将其与具有OCR功能(among many other features)的多模态LLM如GPT-4o进行比较。Mistral还在其自己的AI助手Le Chat中使用Misttral OCR。用户上传PDF文件时,公司会在后台使用Mistral OCR来理解文档内容,然后再处理文本。
与RAG系统协同工作
公司和开发人员很可能将Mistral OCR与RAG(即检索增强生成)系统结合使用,以将多模态文档作为LLM的输入。潜在用例众多。例如,我们可以设想律师事务所使用它来帮助他们迅速处理大量文档。RAG是一种用于检索数据并将其用作生成AI模型上下文的技术。
结语
Mistral OCR的推出标志着AI文档处理领域的一大进步,为企业和开发者提供了强大的工具,以更高效地利用AI技术。随着AI的不断发展,我们可以期待看到更多类似Mistral OCR的创新解决方案,进一步推动AI在各个行业的应用。