腾讯新专利，突破大语言模型训练瓶颈

字数 1061，阅读大约需 6 分钟

传统训练方法的局限与新专利的突破

在大语言模型的训练过程中，传统方法常依赖单一的文本摘要。这种方式虽能让模型学习到文本关键信息，但易导致模型过拟合。据相关行业报告，使用传统单一摘要训练的模型，面对全新数据时，生成内容的错误率达30%-40%，且生成内容多样性严重受限，难以满足复杂多变的实际应用需求。

腾讯此次公布的新方法创新性引入两种不同信息来源——第一摘要文本和第二摘要文本。二者信息量不同，第一摘要文本特意包含正确与错误语句，构建起对比学习基础。通过这种对比学习，模型能在同一文本的不同摘要中学习，区分第一摘要文本中的正确与错误语句，有效避免因摘要单一产生的学习误差。

泛化能力指模型对未曾见过的数据的适应和处理能力。在人工智能领域，良好泛化能力的模型才能在各种实际场景发挥作用。腾讯新训练方法使模型面对未知数据时表现更出色。经内部测试，采用新方法训练的模型在标准的泛化能力测试集中，准确率相比传统方法提升了20 – 30个百分点。

新方法也大大增强了模型准确性，有效减少生成错误内容概率。以自然语言处理中的文本生成任务为例，传统训练方式下生成的文本，每1000字可能出现10 – 15处事实性或逻辑错误；而应用腾讯新专利方法训练的模型，同样字数文本中，错误数量降至3 – 5处，准确性提升效果显著。

随着人工智能技术进步，大语言模型应用范围日益广泛。在自然语言处理领域，从智能写作辅助到机器翻译，都发挥着重要作用。在智能客服领域，其应用提升了客服效率，能快速准确回答用户问题，降低人力成本。在内容创作领域，从新闻撰写到小说创作，也展现出巨大潜力。

近日，腾讯科技（深圳）有限公司在天眼查App上公布一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利，引发人工智能领域广泛关注。这一专利通过创新训练方式，显著提升大语言模型（LLMs）的学习能力、泛化能力与准确性，在当前LLMs快速发展且应用场景不断拓展的背景下，具有重要意义。

腾讯这一专利公布，是大语言模型训练领域的技术突破。在全球大语言模型研发竞争日益激烈的当下，谷歌、微软等科技巨头不断投入资源研究开发，腾讯此次新专利发布，表明我国科技企业在大语言模型核心技术研发上具备强大实力，能在全球竞争中占据一席之地，为推动全球人工智能技术发展贡献中国智慧。

文章版权归作者所有，未经允许请勿转载。

暂无评论...