字数 1061,阅读大约需 6 分钟
传统训练方法的局限与新专利的突破
在大语言模型的训练过程中,传统方法常依赖单一的文本摘要。这种方式虽能让模型学习到文本关键信息,但易导致模型过拟合。据相关行业报告,使用传统单一摘要训练的模型,面对全新数据时,生成内容的错误率达30%-40%,且生成内容多样性严重受限,难以满足复杂多变的实际应用需求。
腾讯此次公布的新方法创新性引入两种不同信息来源——第一摘要文本和第二摘要文本。二者信息量不同,第一摘要文本特意包含正确与错误语句,构建起对比学习基础。通过这种对比学习,模型能在同一文本的不同摘要中学习,区分第一摘要文本中的正确与错误语句,有效避免因摘要单一产生的学习误差。
新方法对模型性能的提升
提升泛化能力
泛化能力指模型对未曾见过的数据的适应和处理能力。在人工智能领域,良好泛化能力的模型才能在各种实际场景发挥作用。腾讯新训练方法使模型面对未知数据时表现更出色。经内部测试,采用新方法训练的模型在标准的泛化能力测试集中,准确率相比传统方法提升了20 – 30个百分点。
增强准确性
新方法也大大增强了模型准确性,有效减少生成错误内容概率。以自然语言处理中的文本生成任务为例,传统训练方式下生成的文本,每1000字可能出现10 – 15处事实性或逻辑错误;而应用腾讯新专利方法训练的模型,同样字数文本中,错误数量降至3 – 5处,准确性提升效果显著。
大语言模型的应用现状与新专利的意义
随着人工智能技术进步,大语言模型应用范围日益广泛。在自然语言处理领域,从智能写作辅助到机器翻译,都发挥着重要作用。在智能客服领域,其应用提升了客服效率,能快速准确回答用户问题,降低人力成本。在内容创作领域,从新闻撰写到小说创作,也展现出巨大潜力。
近日,腾讯科技(深圳)有限公司在天眼查App上公布一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利,引发人工智能领域广泛关注。这一专利通过创新训练方式,显著提升大语言模型(LLMs)的学习能力、泛化能力与准确性,在当前LLMs快速发展且应用场景不断拓展的背景下,具有重要意义。
腾讯这一专利公布,是大语言模型训练领域的技术突破。在全球大语言模型研发竞争日益激烈的当下,谷歌、微软等科技巨头不断投入资源研究开发,腾讯此次新专利发布,表明我国科技企业在大语言模型核心技术研发上具备强大实力,能在全球竞争中占据一席之地,为推动全球人工智能技术发展贡献中国智慧。