法国初创公司Linkup:为大型语言模型(LLMs)合法连接优质内容源

AI头条2个月前更新 freeAI
0
法国初创公司Linkup:为大型语言模型(LLMs)合法连接优质内容源

Linkup

如果你使用过ChatGPT Search或Perplexity,你会知道能够搜索网络并看到内联引用(citations)会大大改善这些AI聊天机器人的效果。当结果涉及及时信息时,效果会更好,网络搜索可能会减少所谓的幻觉(即当生成式AI输出错误信息时)。这就是为什么法国初创公司Linkup正在构建一个API,让开发者能够从优质、可信的来源获取网络内容,并将其传递给大型语言模型(LLMs)以丰富其答案。

许多AI开发者称这个工作流程为检索增强生成(Retrieval-Augmented Generation,RAG)。更重要的是,网络抓取机器人的未来是不确定的。如果没有内容发布者和抓取网页的实体之间的预存财务协议,这些机器人就会在不支付的情况下从开放网络中提取内容,许多人对此并不满意——这正在增加对AI训练的监管审查。现在也有高调的法律案件,比如OpenAI(ChatGPT的制造商)和《纽约时报》之间的持续诉讼,因此网络抓取的情况在不久的将来可能会发生变化。这就是为什么OpenAI已经与主要发布者(如AP、Axel Springer、Condé Nast、El País、金融时报、Le Monde等)签署了多年的内容许可协议。

目前,内容发布者面临着关于如何应对GenAI对数据的渴望的艰难决策。他们可以使用非法律约束的robots.txt元数据文件来阻止网络抓取器,该文件指示网站是否可以用于训练AI模型。此外,他们可以起诉他们认为侵犯其版权的AI公司。或者,他们可以允许机器人自由地索引其内容。或者,他们可能能够将内容许可给AI开发者,以获得对其知识产权的一些补偿。但有成千上万的科技公司使用A(没有OpenAI的规模和影响力)。

同时,网络的伟大之处在于存在一个长尾的内容发布者。但这意味着一个小的内容发布者通常没有足够的财务资源来提起诉讼。这也意味着将从抓取模型切换到许可模型对于数百万个网站来说将是困难的。这就是为什么Linkup不仅仅是一个技术解决方案。它是一个市场——内容发布者和希望用网络内容增强其LLM答案的公司之间的中介。Linkup与发布者签署内容许可协议,并与其CMS集成,以便它可以在没有抓取的情况下从发布者那里获取内容。然后,Linkup根据其内容被Linkup客户访问的频率向内容合作伙伴支付费用。

Linkup的创始团队表示:“我们真正针对的是在其自身产品中实施AI的应用程序。”所以,典型的用例是,我使用Mistral或OpenAI的模型创建一个AI应用程序。我构建自己的管道,但我需要用外部信息来丰富这个管道。

虽然ChatGPT可以浏览网络,但GPT模型不能。OpenAI提供了一个非常受欢迎的应用程序(ChatGPT)和开发者可以使用API的LLMs(GPT)。但网络搜索是ChatGPT的一个功能。

最初,Linkup决定专注于企业和商业信息。除了新闻网站,这家初创公司还与知识数据库合作——想想Statista、Xerfi或其他类似的资源。它不是唯一一家在幕后有许可合同的情况下为LLMs带来优质内容的初创公司。最明显的竞争对手是ScalePost,一家与Perplexity合作以加速其与发布者的许可协议的初创公司。

Linkup在几个月前筹集了300万欧元的种子轮融资(按当前汇率计算为320万美元),投资方包括Axeleo Capital、Motier Ventures、Seedcamp以及一百位商业天使。目前大约有10个人为这家初创公司工作,它计划在明年再招聘10名员工。

© 版权声明

相关文章

暂无评论

暂无评论...