Midjourney的DDPO与DORPO:革新创意文本生成

字数 1323,阅读大约需 7 分钟

Midjourney的DDPO与DORPO:革新创意文本生成
Midjourney是一家以扩散模型AI图像生成技术著称的公司,致力于通过人工智能技术创造出视觉内容。除了视觉内容生成,Midjourney也在积极探索文本生成领域,旨在提升其在创意写作方面的能力。

Midjourney在创意文本生成领域的突破性研究:DDPO与DORPO技术解析

以AI图像生成技术闻名的Midjourney,正积极拓展其在人工智能领域的版图。近期,该公司与纽约大学(NYU)的机器学习专家合作,发布了一项关于训练文本生成大语言模型(LLMs)的创新研究成果,旨在提升LLM在创意写作方面的能力。这一举措标志着Midjourney从视觉内容生成向文本生成的转型尝试,展示了其在AI领域多元化探索的决心。

从图像到文本:Midjourney的多元化探索

作为一家以扩散模型AI图像生成技术著称的公司,Midjourney拥有庞大的用户群体和丰富的技术积累。然而,他们并未止步于视觉内容的生成,而是将目光投向了文本生成领域。这一转型不仅丰富了公司的产品线,也为整个AI行业带来了新的思考。正如研究人员所言,“一图胜千言”的传统观念或许将被改写,文本的创意潜力同样值得深入挖掘。

创新技术:DDPO与DORPO的工作原理

为了提升AI模型在创意写作方面的多样性和质量,Midjourney的研究团队提出了两种创新技术:“多样化直接偏好优化”(Diversified Direct Preference Optimization,DDPO)和“多样化赔率比偏好优化”(Diversified Odds Ratio Preference Optimization,DORPO)。这两项技术的核心在于利用“偏差”(deviation)来指导模型训练,鼓励模型生成更多样化且高质量的文本。

在传统的LLM训练中,模型往往会收敛于相似的故事线和主题,导致生成的文本缺乏多样性。而DDPO和DORPO通过引入偏差分数,赋予那些罕见但高质量的回应更高的权重,从而鼓励模型从更多样化的例子中学习。这种方法确保了AI生成的故事不会局限于单一可预测的结构,而是能够探索更广泛的角色、设定和主题,就像人类作家一样。

实验结果:DDPO在多样性和连贯性方面的表现

为了验证DDPO和DORPO的有效性,研究人员使用了Reddit社区r/writingPrompts上的数据集对LLM进行训练。他们选择了Meta的Llama-3.1-8B(一个80亿参数的模型)作为基础模型,并进行了监督式微调(SFT)和偏好优化两个阶段的训练。

实验结果显示,搭载DDPO的Llama-3.1-8B在质量和多样性之间取得了最佳平衡。其生成的回应比GPT-4o更加多样化,同时保持了良好的连贯性。即使在数据集规模缩小的情况下,DDPO模型仍然能够保持一定的多样性。这一结果证明了DDPO技术在提升AI创意写作能力方面的有效性。

企业应用:DDPO与DORPO的实际意义

对于需要使用AI生成创意文本的企业而言,DDPO和DORPO技术具有重要的实际意义。在营销文案、企业故事讲述以及影视游戏剧本创作等领域,提升AI生成内容的多样性和质量至关重要。传统的多样性促进技术(如温度调整)通常只在模型推理阶段发挥作用,而DDPO和DORPO将多样性直接融入到模型的学习过程中,为企业提供了一种更有效的解决方案。

通过采纳这些创新技术,企业可以开发出更具吸引力的AI应用,例如AI辅助写作工具和能够动态调整回应的虚拟助手。这不仅可以提高工作效率,还可以为用户提供更丰富、更个性化的体验。

引用链接

[1] 论文链接: https://huggingface.co/papers/2503.17126

© 版权声明

相关文章

暂无评论

暂无评论...