LLM问题生成首次与人类正面交锋，伯克利研究揭秘

字数 5017，阅读大约需 26 分钟

六大维度，LLM「问题生成」首次正面PK人类，伯克利等发布最新研究

一、研究背景

（一）问题生成任务的发展历程

问题生成（Question Generation）任务长期以来致力于依据“给定事实”编写各类相关问题。随着自然语言处理技术的发展，自动化的问题生成方法不断涌现。
早期的方法可能基于简单的规则和模板，例如从文本中提取特定的实体和关系，然后按照预定义的模式构建问题。然而，这种方法的局限性明显，生成的问题往往较为刻板，缺乏灵活性和多样性。
随着机器学习技术的兴起，数据驱动的方法逐渐占据主导。基于统计模型的问题生成尝试通过对大量文本数据的学习，来捕捉问题与相关文本之间的关系。例如，一些研究利用词袋模型、n – gram模型等统计特征来预测问题的生成。但这些方法对于语义的理解较为浅层，难以处理复杂的语义关系和长文本。
深度学习的出现为问题生成任务带来了新的突破。基于神经网络的模型，如循环神经网络（RNN）及其变体长短时记忆网络（LSTM）、门控循环单元（GRU）等，能够更好地处理序列数据，从而在问题生成任务中取得了较好的效果。这些模型可以学习文本的上下文信息，生成相对更自然、更符合语义逻辑的问题。随后，基于注意力机制的模型进一步提升了问题生成的性能，通过动态地关注文本中的不同部分，模型能够更准确地生成与特定信息相关的问题。

（二）LLMs在自然语言处理任务中的地位

大型语言模型（LLMs）的兴起，极大地改变了自然语言处理（NLP）的格局。在众多NLP任务中，LLMs展现出了卓越的性能。
以语言理解任务为例，在GLUE（General Language Understanding Evaluation）基准测试中，GPT – 3等大型语言模型在多项任务上取得了领先的成绩，包括自然语言推理、语义相似度匹配等。在文本生成任务方面，如文本摘要、故事生成等，LLMs能够生成连贯、有逻辑且富有信息的文本。
LLMs之所以能够在NLP任务中表现出色，得益于其大规模的预训练。通过在海量的文本数据上进行无监督预训练，LLMs学习到了丰富的语言知识和语义表示。这种预训练 – 微调的范式使得模型能够快速适应各种具体的NLP任务，只需要在少量的特定任务数据上进行微调，就能在该任务上取得优异的性能。例如，在机器翻译任务中，基于Transformer架构的LLMs在多种语言对之间的翻译质量上超越了传统的翻译模型。

（三）此前在问题生成特点研究上的空白

尽管LLMs在问题生成任务中得到了广泛应用，然而，在此之前，关于“用LLMs生成问题的特点”的研究却相对匮乏。
具体而言，在没有额外提示约束时，LLMs生成问题的长度偏好尚不明确，即不清楚它们是更倾向于生成较长还是较短的问题。同时，对于LLMs倾向于问什么类型的问题，也缺乏深入的研究。例如，在常见的问题类型，如事实性问题、推理问题、观点性问题等方面，LLMs的生成偏好未知。
此外，LLMs生成的问题与人类编写的问题之间的差异也未得到充分探讨。这包括问题的语言风格、对上下文的依赖程度、问题的可回答性等多个方面。虽然已有研究通过实证来评估人类一致性，但还没有将LLMs生成问题的质量标准与人类生成问题进行全面对比。这种研究空白限制了我们对LLMs在问题生成任务中的行为和性能的深入理解，也阻碍了其在相关下游应用中的优化和改进。

二、实验设计

（一）生成流程中提示词的设计

在从上下文中生成问题的过程中，研究人员意识到不能直接使用LLM进行问题生成。这是因为原始问题存在一些局限性，例如问题假定读者对上下文的某个特定范围很熟悉，生成的问题可能没有标准答案，有些问题直接引用了上下文，如果没有上下文就无法回答。
为了解决这些问题，研究人员精心设计了一段提示词：“You are to generate self – contained short answer questions based on the facts mentioned in the following content. Avoid questions that reference the content directly. Each question should include all relevant context and directly name any referenced items, avoiding pronouns like ”it,” ”the game,” or ”the person.” Do not include phrases that reference the source or context, such as”mentioned in the article” or ”according to the text.” Provide the questions in an ordered list.”
这段提示词明确了生成问题的要求。首先，要生成“self – contained short answer questions”，即自成一体的简短答案问题，这有助于确保问题的独立性和可回答性。其次，避免直接引用内容，防止生成的问题过于依赖上下文且缺乏通用性。要求每个问题包含所有相关上下文并直接提及被引用项目，避免使用代词，这进一步增强了问题的明确性。最后，不包含引用来源或上下文的短语，并以有序列表形式提供问题，使得生成的问题格式规范，便于后续处理和分析。

（二）上下文C的构建方式

为了构建上下文C，研究人员采用了一系列步骤。他们将WikiText数据集分割成86万个段落，同时保留章节结构作为元数据。这一步骤有助于保持文本的结构信息，为后续生成问题提供更丰富的背景知识。然后，在过滤掉过短的段落并清理特殊字符后，通过整合段落文本并附加相关章节标题来组成上下文。
这种构建方式类似于HotpotQA的先上下文后问题的方法。在HotpotQA中，众包人员根据维基百科的多个证据段落生成问题。研究人员构建的上下文通过整合段落和章节标题，能够为问题生成提供更全面的信息，使得生成的问题更具针对性和相关性。与TriviaQA不同，TriviaQA是一个由知识竞赛爱好者编纂的问答数据集，标注人员根据问题在文章中寻找证据，而本研究重点在于从给定的上下文生成问题。

（三）与其他类似方法的对比

与其他问题生成方法相比，本研究的方法具有独特之处。
在提示词设计方面，许多传统方法可能缺乏对问题独立性、明确性等方面的细致要求。例如，一些早期的基于模板的问题生成方法，生成的问题可能高度依赖上下文的特定表述，缺乏通用性。而本研究设计的提示词明确避免了直接引用上下文，使生成的问题更具自主性。
在上下文构建方面，与一些简单地将文本作为整体输入的方法不同，本研究对WikiText数据集进行了分割、过滤和整合，并结合章节标题构建上下文，这种方式能够更好地利用文本的结构信息，提高问题生成的质量。与TriviaQA等数据集构建方式不同，本研究重点在于从给定上下文生成问题，而不是根据问题寻找证据，这更符合实际应用中从文本信息生成问题的场景。

三、评估指标解读及对比结果

（一）与答案无关的评估指标

1. 问题类型：对于人类来说，选择提出哪种问题具有主观性。研究人员为了探索在没有额外约束的情况下LLMs能够生成的问题类型，分析了十个手动定义类别的问题类型。这些类别是通过观察HotpotQA、TriviaQA和论文数据集中的混合问题得到的。通过将LLMs生成的问题类型与人类的偏好进行比较，发现LLaMA和GPT模型都强烈倾向于询问具体的事实和数字，这可能与它们训练数据的分布有关。不太容易提出的问题是根据上下文中的多个事实进行推理，这与HotpotQA更相似。同时，大模型也更倾向于询问描述类、需要详细答案的问题，这种偏好也导致了答案更长。
2. 问题长度：长度是生成问题的一个直观统计指标，研究人员主要统计单词数量。除了直接比较人类生成和LLMs生成数据集中的问题长度外，还考察了问题长度与问题类型之间的关系。结果发现，尽管整体的问题长度大致相似，约为20个单词，但不同的LLMs倾向于表现出对长度的不同偏好，而人类生成的问题长度变化更大。这表明LLMs在问题长度生成上相对较为集中，而人类则具有更广泛的长度选择范围。
3. 上下文覆盖范围：一个问题可能需要跨多个句子进行推理，研究人员扩展了基于提示的句子级测量方法，还研究了单词级上下文覆盖范围，以分析在生成过程中LLMs倾向于关注上下文的哪些具体部分。结果显示，问题生成并不遵循之前研究中讨论问答中的类似位置偏差。人类生成的问题倾向于覆盖更多的上下文，无论是句子级还是单词级测量结果都是一致的。并且人类生成的问题倾向于集中在上下文的开头，但LLMs生成的问题呈现出更均衡的分布，表明基于LLMs的问题生成与问答相比显示出几乎相反的位置关注焦点。

（二）与答案有关的评估指标

1. 可回答性（Answerability）：问题的关键质量标准是，在给定特定知识的情况下，是否能够被精确回答，即在提供上下文时，生成的问题应该是可回答的。研究人员提示LLMs使用给定的上下文作为输入来生成答案，由于答案的正确性也是基于相同的上下文来评估的，因此在大多数情况下，生成的问题都是可回答的。这表明LLMs在利用上下文生成可回答问题方面具有较好的能力。
2. 非常见性（Uncommonness）：LLMs的预训练数据基于互联网上广泛可用的常识，即使没有明确提供上下文，LLMs仍然可能回答问题。与可回答性评估相比，关键区别在于在答案生成过程中省略了上下文，而其他因素保持不变。结果显示，去除上下文会显著降低答案质量，这也表明，生成的问题对于评估RAG系统或进行自动幻觉测试很有价值。例如，在一些需要特定上下文信息才能准确回答的问题上，当省略上下文时，LLMs生成的答案质量明显下降，这体现了生成问题的非常见性对于评估系统性能的重要性。
3. 所需答案长度（Required answer length）：除了问题长度外，所需答案的长度也是衡量问题信息量的有效指标。由于生成模型的特性，生成的答案往往更长，包含更多细节。为了从带有上下文生成的答案中筛选出不必要的信息，研究人员使用了两种策略来测量答案的基本长度：一是要求模型生成的文字答案最短；二是设置生成字数限制。结果显示，该方法可以用更少的字数实现相同的质量评级，并显著降低答案长度，第二种策略通常来说更好。通过这种方式，可以更准确地衡量LLMs生成问题所需的答案信息量，避免因生成模型的特性导致答案过于冗长。

四、对下游应用的意义及作用

（一）对RAG系统和幻觉检测提示工程优化的意义

在RAG（Retrieval – Augmented Generation）系统中，问题生成的质量直接影响到系统的性能。研究发现LLMs倾向于生成需要描述性、较长答案的问题，这为RAG系统的提示工程优化提供了重要参考。例如，在设计提示词时，可以根据LLMs的这种偏好，引导其生成更符合RAG系统需求的问题。
对于幻觉检测，LLMs生成问题的非常见性指标具有重要意义。由于去除上下文会显著降低答案质量，这表明通过分析LLMs生成问题在无上下文情况下的回答情况，可以有效地检测其是否产生幻觉。如果LLMs在无上下文时仍能给出看似合理但实际上缺乏依据的答案，那么就可能存在幻觉问题。通过利用这些特点，可以优化提示工程，提高幻觉检测的准确性。

（二）对防止LLMs在不当情境下滥用的作用

了解LLMs在问题生成中的偏好，有助于防止其在不当情境下的滥用。例如，已知LLMs倾向于生成需要较长描述性答案的问题，如果在某些场景下，这种问题可能会导致信息泄露或产生误导性信息，那么可以通过调整提示词或设置约束条件，限制其生成此类问题。
同时，对于LLMs生成问题的可回答性和非常见性的研究，也可以帮助我们识别在哪些情况下LLMs可能会生成不恰当或误导性的问题，从而采取相应的措施进行防范。例如，在一些敏感信息处理场景中，如果LLMs生成的问题可能会引导出敏感信息，就可以根据其问题生成偏好进行提前干预，确保LLMs在安全、合规的范围内使用。

五、研究的创新性、局限性及未来展望

（一）创新性

1. 首次全面对比LLMs与人类问题生成：本研究首次对大型语言模型（LLMs）在问题生成任务中的表现与人类生成的问题进行了多维度对比。以往的研究大多聚焦于LLMs在其他自然语言处理任务中的性能，或者单独研究问题生成任务，但很少将LLMs与人类在问题生成方面进行全面、系统的比较。这种对比为深入理解LLMs在问题生成中的行为和特点提供了全新的视角。
2. 引入自动评估流程和扩展质量标准：研究人员引入了自动评估流程，扩展了现有的统计问题质量标准。通过精心设计的提示词和上下文构建方式，结合与答案无关和与答案有关的多种评估指标，能够更全面、准确地评估LLMs生成问题的质量。这种自动评估流程不仅提高了评估效率，而且为后续研究提供了可复用的方法框架。
3. 揭示LLMs问题生成偏好及应用价值：本研究揭示了LLMs在问题生成中的偏好，如倾向于生成需要较长描述性答案的问题、对上下文的关注更均衡等。这些发现为下游应用（如RAG系统和幻觉检测）的提示工程优化提供了经验，具有重要的实际应用价值。

（二）局限性

1. 数据集和模型的局限性：研究使用的WikiText数据集虽然规模较大，但可能无法涵盖所有类型的文本和问题场景。并且在模型选择上，仅使用了闭源的GPT – 4o和开源的LLaMA – 3.1 – 70b – Instruct两个具有代表性的大型语言模型，可能无法完全代表所有LLMs的特性。不同的数据集和模型可能会导致问题生成的结果存在差异，因此研究结果的普适性可能受到一定限制。
2. 评估指标的局限性：尽管研究设计了多种评估指标，但语言的复杂性使得某些方面可能无法完全通过现有的指标进行准确衡量。例如，对于问题的语义丰富度、问题的创新性等方面，目前的评估指标可能不够完善。此外，人工标注与GPT – 4o评估之间虽然有较强的正线性相关性，但人工标注本身也存在一定的主观性，这可能会对评估结果的准确性产生一定影响。
3. 现实场景模拟的局限性：在实际应用中，问题生成往往面临更复杂的场景和需求。研究中的实验设计虽然尽可能模拟了真实的问题生成场景，但仍然可能与实际情况存在差距。例如，实际场景中可能需要考虑多模态信息、实时更新的知识等因素，而本研究主要基于文本数据进行实验，这限制了研究结果在更广泛实际场景中的直接应用。

（三）未来展望

1. 拓展数据集和模型：未来的研究可以使用更广泛的数据集，包括不同领域、不同语言的文本数据，以提高研究结果的普适性。同时，可以对更多类型的大型语言模型进行研究，包括不同架构、不同训练规模的模型，以更全面地了解LLMs在问题生成任务中的特性。
2. 完善评估指标：进一步研究和完善评估指标，考虑增加对问题语义丰富度、创新性等方面的评估指标。可以结合更多的自然语言处理技术，如语义角色标注、文本生成多样性评估等方法，使评估指标更加全面、准确地反映问题生成的质量。
3. 模拟更复杂的现实场景：为了使研究结果更具实际应用价值，未来的研究可以尝试模拟更复杂的现实场景。例如，考虑多模态信息的融合，将图像、音频等信息与文本相结合进行问题生成研究。同时，研究如何在实时更新的知识环境中进行问题生成，以满足实际应用中对知识时效性的要求。

# AI头条 # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...