AI大模型开发平台

TeleChat超多方言

由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。

标签:

星辰语义大模型-TeleChat超多方言语音识别大模型

星辰语义大模型-TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型。这个模型主要使用了中英文高质量语料进行训练,其中7B模型基座采用了1.5万亿 Tokens的语料,而12B模型基座则使用了3万亿 Tokens的语料。TeleChat-7B和TeleChat-12B都是开源的,并且提供了huggingface格式的权重文件,同时还开源了7B、12B模型的int8和int4量化版本

TeleChat超多方言

TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。

 

TeleChat的技术特点包括:

  1. 位置编码采用Rotary Embedding方式,提高了位置信息的准确性和模型的训练效率。
  2. 使用SwiGLU替代传统的GELU函数,以降低计算量。
  3. 采用基于RMSNorm的Pre-Normalization技术,提高了模型的稳定性。

在应用场景方面,TeleChat被广泛应用于行文写作、代码编程、网络故障分析以及经营分析等场景。例如,在行文写作中,TeleChat平均生成字数超过1500字,有效采纳率达到85.7%,大大提高了工作效率和准确性。此外,TeleChat还在企业经营分析、政务公开咨询、民生诉求接待等场景中发挥了重要作用,为企业和政府部门提供了高效、准确的信息支持

在性能评测方面,TeleChat模型在多个评测数据集上展示了其卓越性能,尤其在长文本生成、多轮对话等方面表现突出。例如,在MMLU、C-Eval、GAOKAO等知名评测中,TeleChat均展现出领先的性能

与其他类似产品相比,TeleChat的优势在于其创新的技术特点和广泛的应用场景。例如,它在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强、知识图谱强化、多轮知识强化、知识溯源能力四大技术,将AI大模型的幻觉率降低了40%,这使得TeleChat在理解问题语境、生成符合语义规则的文本方面更具优势

 

数据格式

数据为jsonl格式,仅有一个字段data

data: 单条处理后的预训练数据

数据清洗

数据清洗的工作流程主要是:规则筛选和清洗、去重、高质量数据筛选、数据安全处理这四个步骤。

  • 规则筛选主要是一些通用的规则和启发式规则,例如对字数长度的筛选等等;
  • 去重主要使用相似度去重来将过于相似重复的数据删除;
  • 高质量筛选主要使用了BERT、GPT2等模型对数据进行打分筛选出高质量数据;
  • 数据清洗主要是针对不良数据进行了识别和去除;

 

数据下载

huggingface下载地址:数据下载

天翼云盘下载地址:数据下载(访问码:pkg8)

效果评测

TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等

评测集介绍

通用能力

  • MMLU 数据集是一个全面的英文评测数据集,涵盖了 57 个学科,包括人文学科、社会科学、自然科学、初等数学、美国历史、计算机科学、法律等等。
  • CEVAL 数据集是一个全面的中文评估测试集,包括初中、高中、大学和专业难度级别的多项选择题,涵盖了 52 个不同的学科领域。
  • CMMLU 数据集同样是一个全面的中文评估测试集,涵盖了从基础学科到高级专业水平的67个主题。
  • AGIEval 数据集是一个专门为评估基础模型在难度较高的标准化考试(如大学入学考试、法学院入学考试、数学竞赛和律师资格考试)的语境中而设计的基准测试,包括中文试题和英文试题。
  • GAOKAO 数据集是一个基于中国高考题构建的语言模型能力测试集,包括 1781 道客观题和 1030 道主观题。我们只保留了客观题的评测结果。

推理和代码能力

  • GSM8K 数据集包含了8.5K高质量的小学数学题,能够评估语言模型在数学推理能力上的表现,我们利用官方的评测方案在test集上进行了4-shot测试。
  • MATH 数据集包含了12.5K具有挑战性的高中数学竞赛题,难度较大,对语言模型的推理能力要求较高,基于官方的评测方案,我们在test集上进行了4-shot测试。
  • HumanEval 数据集是一个由openai提供的代码能力测试数据集,它由 164 个编程问题组成,要求根据给定的问题和代码模板,生成正确的代码片段,我们利用官方评测方案在test集上进行了zero-shot测试。

语言理解能力

  • CSL 是一个中文论文摘要关键词匹配任务,需要模型能够识别中文学术摘要与其关键词之间的匹配情况。
  • CHID 是一个中文阅读理解任务,要求模型选择出最恰当的成语填补中文片段中的空缺处。
  • EPRSTMT 是一个基于电子商务平台上的产品评论的二元情感分析任务。

评测结果如下

Model

MMLU

C-Eval

CMMLU

AGIEval

GAOKAO

GSM8K

MATH

HumanEval

CSL

CHID

EPRSTMT

BBH

HellaSwag

5-shot

5-shot

5-shot

zero-shot

zero-shot

4-shot

4-shot

zero-shot

zero-shot

zero-shot

zero-shot

3-shot

zero-shot

LLaMA2-7B-chat

46.2

31.9

31.5

28.5

16.1

26.3

3.9

12.2

58.8

44.1

57.5

35.6

74.1

LLaMA2-13B-chat

54.6

36.2

38.7

32.3

18.6

29.6

5.0

18.9

61.2

48.0

59.4

40.2

78.2

ChatGLM2-6B-chat

45.9

52.6

49.3

39.0

46.4

28.8

6.5

11.0

61.2

57.9

71.2

32.7

57.0

ChatGLM3-6B-chat

51.9

53.8

54

38.9

49.3

56.7

18.7

61

65.6

63.4

85

44.6

62.7

Baichuan2-7B-chat

52.8

55.6

54.0

35.3

39.7

32.8

6

13.4

60

75.2

87.5

35.8

61.6

Baichuan2-13B-chat

57

56.7

58.4

40

51.4

55.3

8.6

17.7

63.1

78.2

87.5

49.9

66.9

Qwen-7B-chat

56.6

59.3

59.5

41.3

63.3

52.5

10.3

26.2

63.1

72.3

88.8

46.9

59.9

Qwen-14B-chat

66.4

71.7

70.0

47.3

76.5

61.0

26.8

36.6

55.6

72.3

91.2

58.0

65.2

TeleChat-7B-chat

60.5

64.6

64.3

46.8

59

36.7

10.3

20.1

66.8

88.0

87.5

19.5

36.7

TeleChat-12B-chat

73.3

66.6

74.2

51.7

53.1

57.2

16.0

22.0

60.6

83.2

86.3

52.2

71.5

说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于OpenCompass平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见evaluation/文件夹。

相关导航

暂无评论

暂无评论...