星辰语义大模型-TeleChat超多方言语音识别大模型

星辰语义大模型-TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型。这个模型主要使用了中英文高质量语料进行训练，其中7B模型基座采用了1.5万亿 Tokens的语料，而12B模型基座则使用了3万亿 Tokens的语料。TeleChat-7B和TeleChat-12B都是开源的，并且提供了huggingface格式的权重文件，同时还开源了7B、12B模型的int8和int4量化版本

TeleChat超多方言

TeleChat-PTD 数据集大约公开了2.7亿条数据，数据由纯中文文本构成，原始大小约1TB,压缩后480G，共189个文件。数据集中已经去除了其它冗余信息。

TeleChat的技术特点包括：

位置编码采用Rotary Embedding方式，提高了位置信息的准确性和模型的训练效率。
使用SwiGLU替代传统的GELU函数，以降低计算量。
采用基于RMSNorm的Pre-Normalization技术，提高了模型的稳定性。

在应用场景方面，TeleChat被广泛应用于行文写作、代码编程、网络故障分析以及经营分析等场景。例如，在行文写作中，TeleChat平均生成字数超过1500字，有效采纳率达到85.7%，大大提高了工作效率和准确性。此外，TeleChat还在企业经营分析、政务公开咨询、民生诉求接待等场景中发挥了重要作用，为企业和政府部门提供了高效、准确的信息支持。

在性能评测方面，TeleChat模型在多个评测数据集上展示了其卓越性能，尤其在长文本生成、多轮对话等方面表现突出。例如，在MMLU、C-Eval、GAOKAO等知名评测中，TeleChat均展现出领先的性能。

与其他类似产品相比，TeleChat的优势在于其创新的技术特点和广泛的应用场景。例如，它在业界首次提出缓解多轮幻觉的解决方案，通过关键信息注意力增强、知识图谱强化、多轮知识强化、知识溯源能力四大技术，将AI大模型的幻觉率降低了40%，这使得TeleChat在理解问题语境、生成符合语义规则的文本方面更具优势

数据格式

数据为jsonl格式，仅有一个字段data

data: 单条处理后的预训练数据

数据清洗

数据清洗的工作流程主要是：规则筛选和清洗、去重、高质量数据筛选、数据安全处理这四个步骤。

规则筛选主要是一些通用的规则和启发式规则，例如对字数长度的筛选等等;
去重主要使用相似度去重来将过于相似重复的数据删除;
高质量筛选主要使用了BERT、GPT2等模型对数据进行打分筛选出高质量数据;
数据清洗主要是针对不良数据进行了识别和去除;

数据下载

huggingface下载地址：数据下载

天翼云盘下载地址：数据下载（访问码：pkg8）

效果评测

TeleChat模型相比同规模模型在评测效果方面也有较好的表现，我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集，评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等

评测集介绍

通用能力

MMLU 数据集是一个全面的英文评测数据集，涵盖了 57 个学科，包括人文学科、社会科学、自然科学、初等数学、美国历史、计算机科学、法律等等。
CEVAL 数据集是一个全面的中文评估测试集，包括初中、高中、大学和专业难度级别的多项选择题，涵盖了 52 个不同的学科领域。
CMMLU 数据集同样是一个全面的中文评估测试集，涵盖了从基础学科到高级专业水平的67个主题。
AGIEval 数据集是一个专门为评估基础模型在难度较高的标准化考试（如大学入学考试、法学院入学考试、数学竞赛和律师资格考试）的语境中而设计的基准测试，包括中文试题和英文试题。
GAOKAO 数据集是一个基于中国高考题构建的语言模型能力测试集，包括 1781 道客观题和 1030 道主观题。我们只保留了客观题的评测结果。

推理和代码能力

GSM8K 数据集包含了8.5K高质量的小学数学题，能够评估语言模型在数学推理能力上的表现，我们利用官方的评测方案在test集上进行了4-shot测试。
MATH 数据集包含了12.5K具有挑战性的高中数学竞赛题，难度较大，对语言模型的推理能力要求较高，基于官方的评测方案，我们在test集上进行了4-shot测试。
HumanEval 数据集是一个由openai提供的代码能力测试数据集，它由 164 个编程问题组成，要求根据给定的问题和代码模板，生成正确的代码片段，我们利用官方评测方案在test集上进行了zero-shot测试。

语言理解能力

CSL 是一个中文论文摘要关键词匹配任务，需要模型能够识别中文学术摘要与其关键词之间的匹配情况。
CHID 是一个中文阅读理解任务，要求模型选择出最恰当的成语填补中文片段中的空缺处。
EPRSTMT 是一个基于电子商务平台上的产品评论的二元情感分析任务。

评测结果如下

Model	MMLU	C-Eval	CMMLU	AGIEval	GAOKAO	GSM8K	MATH	HumanEval	CSL	CHID	EPRSTMT	BBH	HellaSwag
	5-shot	5-shot	5-shot	zero-shot	zero-shot	4-shot	4-shot	zero-shot	zero-shot	zero-shot	zero-shot	3-shot	zero-shot
LLaMA2-7B-chat	46.2	31.9	31.5	28.5	16.1	26.3	3.9	12.2	58.8	44.1	57.5	35.6	74.1
LLaMA2-13B-chat	54.6	36.2	38.7	32.3	18.6	29.6	5.0	18.9	61.2	48.0	59.4	40.2	78.2
ChatGLM2-6B-chat	45.9	52.6	49.3	39.0	46.4	28.8	6.5	11.0	61.2	57.9	71.2	32.7	57.0
ChatGLM3-6B-chat	51.9	53.8	54	38.9	49.3	56.7	18.7	61	65.6	63.4	85	44.6	62.7
Baichuan2-7B-chat	52.8	55.6	54.0	35.3	39.7	32.8	6	13.4	60	75.2	87.5	35.8	61.6
Baichuan2-13B-chat	57	56.7	58.4	40	51.4	55.3	8.6	17.7	63.1	78.2	87.5	49.9	66.9
Qwen-7B-chat	56.6	59.3	59.5	41.3	63.3	52.5	10.3	26.2	63.1	72.3	88.8	46.9	59.9
Qwen-14B-chat	66.4	71.7	70.0	47.3	76.5	61.0	26.8	36.6	55.6	72.3	91.2	58.0	65.2
TeleChat-7B-chat	60.5	64.6	64.3	46.8	59	36.7	10.3	20.1	66.8	88.0	87.5	19.5	36.7
TeleChat-12B-chat	73.3	66.6	74.2	51.7	53.1	57.2	16.0	22.0	60.6	83.2	86.3	52.2	71.5

说明：CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于OpenCompass平台提供的评测方法进行评估，而对于对比模型，我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单，具体方法见evaluation/文件夹。