星辰语义大模型-TeleChat超多方言语音识别大模型
星辰语义大模型-TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型。这个模型主要使用了中英文高质量语料进行训练,其中7B模型基座采用了1.5万亿 Tokens的语料,而12B模型基座则使用了3万亿 Tokens的语料。TeleChat-7B和TeleChat-12B都是开源的,并且提供了huggingface格式的权重文件,同时还开源了7B、12B模型的int8和int4量化版本
TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。
TeleChat的技术特点包括:
- 位置编码采用Rotary Embedding方式,提高了位置信息的准确性和模型的训练效率。
- 使用SwiGLU替代传统的GELU函数,以降低计算量。
- 采用基于RMSNorm的Pre-Normalization技术,提高了模型的稳定性。
在应用场景方面,TeleChat被广泛应用于行文写作、代码编程、网络故障分析以及经营分析等场景。例如,在行文写作中,TeleChat平均生成字数超过1500字,有效采纳率达到85.7%,大大提高了工作效率和准确性。此外,TeleChat还在企业经营分析、政务公开咨询、民生诉求接待等场景中发挥了重要作用,为企业和政府部门提供了高效、准确的信息支持。
在性能评测方面,TeleChat模型在多个评测数据集上展示了其卓越性能,尤其在长文本生成、多轮对话等方面表现突出。例如,在MMLU、C-Eval、GAOKAO等知名评测中,TeleChat均展现出领先的性能 。
与其他类似产品相比,TeleChat的优势在于其创新的技术特点和广泛的应用场景。例如,它在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强、知识图谱强化、多轮知识强化、知识溯源能力四大技术,将AI大模型的幻觉率降低了40%,这使得TeleChat在理解问题语境、生成符合语义规则的文本方面更具优势
数据格式
数据为jsonl格式,仅有一个字段data
data: 单条处理后的预训练数据
数据清洗
数据清洗的工作流程主要是:规则筛选和清洗、去重、高质量数据筛选、数据安全处理这四个步骤。
- 规则筛选主要是一些通用的规则和启发式规则,例如对字数长度的筛选等等;
- 去重主要使用相似度去重来将过于相似重复的数据删除;
- 高质量筛选主要使用了BERT、GPT2等模型对数据进行打分筛选出高质量数据;
- 数据清洗主要是针对不良数据进行了识别和去除;
数据下载
huggingface下载地址:数据下载
天翼云盘下载地址:数据下载(访问码:pkg8)
效果评测
TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
评测集介绍
通用能力
- MMLU 数据集是一个全面的英文评测数据集,涵盖了 57 个学科,包括人文学科、社会科学、自然科学、初等数学、美国历史、计算机科学、法律等等。
- CEVAL 数据集是一个全面的中文评估测试集,包括初中、高中、大学和专业难度级别的多项选择题,涵盖了 52 个不同的学科领域。
- CMMLU 数据集同样是一个全面的中文评估测试集,涵盖了从基础学科到高级专业水平的67个主题。
- AGIEval 数据集是一个专门为评估基础模型在难度较高的标准化考试(如大学入学考试、法学院入学考试、数学竞赛和律师资格考试)的语境中而设计的基准测试,包括中文试题和英文试题。
- GAOKAO 数据集是一个基于中国高考题构建的语言模型能力测试集,包括 1781 道客观题和 1030 道主观题。我们只保留了客观题的评测结果。
推理和代码能力
- GSM8K 数据集包含了8.5K高质量的小学数学题,能够评估语言模型在数学推理能力上的表现,我们利用官方的评测方案在test集上进行了4-shot测试。
- MATH 数据集包含了12.5K具有挑战性的高中数学竞赛题,难度较大,对语言模型的推理能力要求较高,基于官方的评测方案,我们在test集上进行了4-shot测试。
- HumanEval 数据集是一个由openai提供的代码能力测试数据集,它由 164 个编程问题组成,要求根据给定的问题和代码模板,生成正确的代码片段,我们利用官方评测方案在test集上进行了zero-shot测试。
语言理解能力
- CSL 是一个中文论文摘要关键词匹配任务,需要模型能够识别中文学术摘要与其关键词之间的匹配情况。
- CHID 是一个中文阅读理解任务,要求模型选择出最恰当的成语填补中文片段中的空缺处。
- EPRSTMT 是一个基于电子商务平台上的产品评论的二元情感分析任务。
评测结果如下
Model | MMLU | C-Eval | CMMLU | AGIEval | GAOKAO | GSM8K | MATH | HumanEval | CSL | CHID | EPRSTMT | BBH | HellaSwag |
5-shot | 5-shot | 5-shot | zero-shot | zero-shot | 4-shot | 4-shot | zero-shot | zero-shot | zero-shot | zero-shot | 3-shot | zero-shot | |
LLaMA2-7B-chat | 46.2 | 31.9 | 31.5 | 28.5 | 16.1 | 26.3 | 3.9 | 12.2 | 58.8 | 44.1 | 57.5 | 35.6 | 74.1 |
LLaMA2-13B-chat | 54.6 | 36.2 | 38.7 | 32.3 | 18.6 | 29.6 | 5.0 | 18.9 | 61.2 | 48.0 | 59.4 | 40.2 | 78.2 |
ChatGLM2-6B-chat | 45.9 | 52.6 | 49.3 | 39.0 | 46.4 | 28.8 | 6.5 | 11.0 | 61.2 | 57.9 | 71.2 | 32.7 | 57.0 |
ChatGLM3-6B-chat | 51.9 | 53.8 | 54 | 38.9 | 49.3 | 56.7 | 18.7 | 61 | 65.6 | 63.4 | 85 | 44.6 | 62.7 |
Baichuan2-7B-chat | 52.8 | 55.6 | 54.0 | 35.3 | 39.7 | 32.8 | 6 | 13.4 | 60 | 75.2 | 87.5 | 35.8 | 61.6 |
Baichuan2-13B-chat | 57 | 56.7 | 58.4 | 40 | 51.4 | 55.3 | 8.6 | 17.7 | 63.1 | 78.2 | 87.5 | 49.9 | 66.9 |
Qwen-7B-chat | 56.6 | 59.3 | 59.5 | 41.3 | 63.3 | 52.5 | 10.3 | 26.2 | 63.1 | 72.3 | 88.8 | 46.9 | 59.9 |
Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61.0 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 | 58.0 | 65.2 |
TeleChat-7B-chat | 60.5 | 64.6 | 64.3 | 46.8 | 59 | 36.7 | 10.3 | 20.1 | 66.8 | 88.0 | 87.5 | 19.5 | 36.7 |
TeleChat-12B-chat | 73.3 | 66.6 | 74.2 | 51.7 | 53.1 | 57.2 | 16.0 | 22.0 | 60.6 | 83.2 | 86.3 | 52.2 | 71.5 |
说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于OpenCompass平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见evaluation/文件夹。