Midjourney的DDPO与DORPO：革新创意文本生成

字数 1323，阅读大约需 7 分钟

Midjourney在创意文本生成领域的突破性研究：DDPO与DORPO技术解析

以AI图像生成技术闻名的Midjourney，正积极拓展其在人工智能领域的版图。近期，该公司与纽约大学（NYU）的机器学习专家合作，发布了一项关于训练文本生成大语言模型（LLMs）的创新研究成果，旨在提升LLM在创意写作方面的能力。这一举措标志着Midjourney从视觉内容生成向文本生成的转型尝试，展示了其在AI领域多元化探索的决心。

从图像到文本：Midjourney的多元化探索

作为一家以扩散模型AI图像生成技术著称的公司，Midjourney拥有庞大的用户群体和丰富的技术积累。然而，他们并未止步于视觉内容的生成，而是将目光投向了文本生成领域。这一转型不仅丰富了公司的产品线，也为整个AI行业带来了新的思考。正如研究人员所言，“一图胜千言”的传统观念或许将被改写，文本的创意潜力同样值得深入挖掘。

创新技术：DDPO与DORPO的工作原理

为了提升AI模型在创意写作方面的多样性和质量，Midjourney的研究团队提出了两种创新技术：“多样化直接偏好优化”（Diversified Direct Preference Optimization，DDPO）和“多样化赔率比偏好优化”（Diversified Odds Ratio Preference Optimization，DORPO）。这两项技术的核心在于利用“偏差”（deviation）来指导模型训练，鼓励模型生成更多样化且高质量的文本。

在传统的LLM训练中，模型往往会收敛于相似的故事线和主题，导致生成的文本缺乏多样性。而DDPO和DORPO通过引入偏差分数，赋予那些罕见但高质量的回应更高的权重，从而鼓励模型从更多样化的例子中学习。这种方法确保了AI生成的故事不会局限于单一可预测的结构，而是能够探索更广泛的角色、设定和主题，就像人类作家一样。

实验结果：DDPO在多样性和连贯性方面的表现

为了验证DDPO和DORPO的有效性，研究人员使用了Reddit社区r/writingPrompts上的数据集对LLM进行训练。他们选择了Meta的Llama-3.1-8B（一个80亿参数的模型）作为基础模型，并进行了监督式微调（SFT）和偏好优化两个阶段的训练。

实验结果显示，搭载DDPO的Llama-3.1-8B在质量和多样性之间取得了最佳平衡。其生成的回应比GPT-4o更加多样化，同时保持了良好的连贯性。即使在数据集规模缩小的情况下，DDPO模型仍然能够保持一定的多样性。这一结果证明了DDPO技术在提升AI创意写作能力方面的有效性。

企业应用：DDPO与DORPO的实际意义

对于需要使用AI生成创意文本的企业而言，DDPO和DORPO技术具有重要的实际意义。在营销文案、企业故事讲述以及影视游戏剧本创作等领域，提升AI生成内容的多样性和质量至关重要。传统的多样性促进技术（如温度调整）通常只在模型推理阶段发挥作用，而DDPO和DORPO将多样性直接融入到模型的学习过程中，为企业提供了一种更有效的解决方案。

通过采纳这些创新技术，企业可以开发出更具吸引力的AI应用，例如AI辅助写作工具和能够动态调整回应的虚拟助手。这不仅可以提高工作效率，还可以为用户提供更丰富、更个性化的体验。