AI大模型资料汇总-以规模较小、可私有化部署、训练成本较低的模型为主-数据集和LLM资料

AI头条8个月前更新 freeAI
0

本文主要收集了一系列中文大模型和相关资源,包括预训练数据集、微调数据集、模型训练和推理框架、模型评测基准、教程和相关仓库。这些资源涵盖了从数据收集、模型训练、应用开发到模型评测的全过程,为中文大模型的研究和应用提供了全面的支持。

AI大模型资料汇总-以规模较小、可私有化部署、训练成本较低的模型为主-数据集和LLM资料

数据集

预训练数据集

  • MNBVC
    • 地址:https://github.com/esbatmop/MNBVC
    • 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。
  • CLUECorpus2020
    • 地址:https://github.com/CLUEbenchmark/CLUECorpus2020
    • 数据集说明:通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料,可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。
  • seq-monkey-data

    • 数据集说明:序列猴子是出门问问提供的超大规模语言模型,基于其通用的表示与推理能力,支持多轮交互,能够大幅度提高生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。序列猴子数据集是用于训练序列猴子模型的数据集合,现选择部分数据集向公众开放。
  • WuDaoCorporaText
    • 地址:https://data.baai.ac.cn/details/WuDaoCorporaText
    • 数据集说明:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。
  • WanJuan-1.0
    • 地址:https://opendatalab.org.cn/WanJuan1.0
    • 数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。

SFT数据集

  • alpaca_chinese_dataset:
  • Chinese medical dialogue data:
    • 地址:https://github.com/Toyhom/Chinese-medical-dialogue-data
    • 数据集说明:中文医疗对话数据集,包括:<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对。
  • RefGPT:基于RefGPT生成大量真实和定制的对话数据集
    • 地址:https://github.com/DA-southampton/RedGPT
    • 数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。
  • generated_chat_0.4M:
  • Alpaca-CoT:
    • 地址:https://github.com/PhoebusSi/Alpaca-CoT
    • 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。
  • pCLUE:
    • 地址:https://github.com/CLUEbenchmark/pCLUE
    • 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。
  • firefly-train-1.1M:
  • BELLE-data-1.5M:
  • Chinese Scientific Literature Dataset:
    • 地址:https://github.com/ydli-ai/csl
    • 数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt
  • Huatuo-26M:
    • 地址:https://github.com/FreedomIntelligence/Huatuo-26M
    • 数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。
  • Alpaca-GPT-4:
  • InstructionWild
    • 地址:https://github.com/XueFuzhao/InstructionWild
    • 数据集说明:InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github 和 Discard。
  • ShareChat
    • 地址:https://paratranz.cn/projects/6725
    • 数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
    • 项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。
  • Guanaco
  • chatgpt-corpus
  • SmileConv
    • 地址:https://github.com/qiuhuachuan/smile
    • 数据集说明:数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
  • COIG
    • 地址:https://huggingface.co/datasets/BAAI/COIG
    • 数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。

偏好数据集

  • CValues
    • 地址:https://github.com/X-PLUG/CValues
    • 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强SFT模型的安全性或用于训练reward模型。
  • GPT-4-LLM
  • zhihu_rlhf_3k
    • 地址:https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
    • 数据集说明:该项目开源了3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。
  • hh_rlhf_cn
  • chatbot_arena_conversations
  • UltraFeedback
    • 地址:https://github.com/OpenBMB/UltraFeedback
    • 数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN,数据集统计数据请参见此处)中收集了约64k条提示。然后使用这些提示来查询多个LLM(模型列表请参见此处),并为每个提示生成4个不同的回复,从而得到总共256k个样本。

LLM训练微调框架

    • 地址:https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat
    • 简介:该项目提供了一键式RLHF训练框架,只需一个脚本即可实现多个训练步骤,包括SFT,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了DeepSpeed HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。
  • LLaMA Efficient Tuning:
    • 地址:https://github.com/hiyouga/LLaMA-Efficient-Tuning
    • 简介:该项目提供了易于使用的基于PEFT的LLaMA微调框架,实现了包括全参数,LoRA,QLoRA等的预训练,指令微调和RLHF,并支持LLaMA, BLOOM, Falcon, Baichuan, InternLM等底座模型。
  • ChatGLM Efficient Tuning:
  • bert4torch:
    • 地址:https://github.com/Tongjilibo/bert4torch
    • 简介:该项目提供了一个大模型的训练和部署框架,包含了目前主要的开源大模型,llama系列,chatglm,bloom系列等等,同时还给出了预训练和微调的示例。

LLM推理部署框架

  • vLLM:
    • 地址:https://github.com/vllm-project/vllm
    • 简介:适用于大批量Prompt输入,并对推理速度要求高的场景。吞吐量比HuggingFace Transformers高14x-24倍,比HuggingFace Text Generation Inference(TGI)高2.2x-2.5倍,实现了Continuous batching和PagedAttention等技巧。但该框架对适配器(LoRA、QLoRA等)的支持不友好且缺少权重量化。
  • DeepSpeed-MII:
  • text-generation-inference:
    • 地址:https://github.com/huggingface/text-generation-inference
    • 简介:用于文本生成推断的Rust、Python和gRPC部署框架,可以监控服务器负载,实现了flash attention和Paged attention,所有的依赖项都安装在Docker中:支持HuggingFace模型;但该框架对适配器(LoRA、QLoRA等)的支持不友好。
  • CTranslate2
    • 地址:https://github.com/OpenNMT/CTranslate2
    • 简介:基于C++和python的推理框架,支持在CPU和GPU上并行和异步执行,且支持prompt缓存及量化。但缺少对适配器(LoRA、QLoRA等)的支持。
  • OpenLLM
    • 地址:https://github.com/bentoml/OpenLLM
    • 简介:支持将要部署的LLM连接多个适配器,可以实现只使用一个底座模型来执行多个特定的任务;支持量化推理和LangChain集成。但对批处理和分布式推理的支持相对不友好。
  • MLC LLM
    • 地址:https://github.com/mlc-ai/mlc-llm
    • 简介:支持不同平台上的不同设备部署推理,包括移动设备(iOS或Android设备等)的高效推理,压缩等。但对大规模批量调用相对不友好。
  • LightLLM:
    • 地址:https://github.com/ModelTC/lightllm
    • 简介:一个基于 Python 的 LLM(大型语言模型)推理和服务框架,该框架采用轻量级设计、易于扩展和高速性能,LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention,并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下,LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。
  • AirLLM:
    • 地址:https://github.com/lyogavin/Anima/tree/main/air_llm
    • 简介:该项目开源了一个优化inference内存的推理框架,可实现4GB单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩,该项目采用了分层推理的技术以在较低的内存下实现大模型推理。
  • LMDeploy:
    • 地址:https://github.com/InternLM/lmdeploy
    • 简介:该项目支持 LLM(大语言模型)和 VL(视觉语言模型)任务在 NVIDIA 设备上量化、推理和服务。LMDeploy 支持有状态的推理,可以缓存对话,记住历史。它实现了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍以上。其 4bit 量化模型推理性能达 FP16 的 2.4 倍以上。

LLM评测

  • FlagEval (天秤)大模型评测体系及开放平台
    • 地址:https://github.com/FlagOpen/FlagEval
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-Eval: 构造中文大模型的知识评估基准:
    • 地址:https://github.com/SJTU-LIT/ceval
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。
  • OpenCompass:
    • 地址:https://github.com/InternLM/opencompass
    • 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。
  • SuperCLUElyb: SuperCLUE琅琊榜
    • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb
    • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
  • GAOKAO-Bench:
    • 地址:https://github.com/OpenLMLab/GAOKAO-Bench
    • 简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。
  • AGIEval:
    • 地址:https://github.com/ruixiangcui/AGIEval
    • 简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
  • Xiezhi:
    • 地址:https://github.com/mikegu721/xiezhibenchmark
    • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。
  • Open LLM Leaderboard:
  • CMMLU:
    • 地址:https://github.com/haonan-li/CMMLU
    • 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • MMCU:
    • 地址:https://github.com/Felixgithub2017/MMCU
    • 简介:该项目提供对中文大模型语义理解能力的测试,评测方式、评测数据集、评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。
  • chinese-llm-benchmark:
    • 地址:https://github.com/jeinlee1991/chinese-llm-benchmark
    • 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
  • Safety-Prompts:
    • 地址:https://github.com/thu-coai/Safety-Prompts
    • 简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。
  • PromptCBLUE: 中文医疗场景的LLM评测基准
    • 地址:https://github.com/michael-wzhu/PromptCBLUE
    • 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。
  • HalluQA: 中文幻觉评估基准
    • 地址:https://github.com/xiami2019/HalluQA
    • 简介:该项目提出了一个名为HalluQA的基准测试,用于衡量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化、风俗和社会现象。在构建HalluQA时,考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于GLM-130B和ChatGPT构建对抗性样本。为了评估,设计了一种使用GPT-4进行自动评估的方法,判断模型输出是否是幻觉。

LLM教程

LLM基础知识

  • HuggingLLM:
  • LLMsPracticalGuide:

提示工程教程

  • 面向开发者的 LLM 入门课程:
    • 地址:https://github.com/datawhalechina/prompt-engineering-for-developers
    • 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
  • 提示工程指南:
    • 地址:https://www.promptingguide.ai/zh
    • 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
  • awesome-chatgpt-prompts-zh:

LLM应用教程

  • LangChain 🦜🔗 中文网,跟着LangChain一起学LLM/GPT开发:
    • 地址:https://www.langchain.asia
    • 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。
  • OpenAI Cookbook:
    • 地址:https://github.com/openai/openai-cookbook
    • 简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。
  • 构筑大语言模型应用:应用开发与架构设计:
    • 地址:https://github.com/phodal/aigc
    • 简介:该项目开源了一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

LLM实战教程

  • LLMs九层妖塔:
  • llm-action:
  • llm大模型训练专栏:
  • 书生·浦语大模型实战营
    • 地址:https://github.com/InternLM/tutorial
    • 简介:该课程由上海人工智能实验室重磅推出。课程包括大模型微调、部署与评测全链路,目的是为广大开发者搭建大模型学习和实践开发的平台。

相关仓库

  • FindTheChatGPTer:
    • 地址:https://github.com/chenking2020/FindTheChatGPTer
    • 简介:ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利。
  • LLM_reviewer:
    • 地址:https://github.com/SpartanBin/LLM_reviewer
    • 简介:总结归纳近期井喷式发展的大语言模型,以开源、规模较小、可私有化部署、训练成本较低的‘小羊驼类’模型为主。
  • Awesome-AITools:
  • open source ChatGPT and beyond:
    • 地址:https://github.com/SunLemuria/open_source_chatgpt_list
    • 简介:This repo aims at recording open source ChatGPT, and providing an overview of how to get involved, including: base models, technologies, data, domain models, training pipelines, speed up techniques, multi-language, multi-modal, and more to go.
  • Awesome Totally Open Chatgpt:
  • Awesome-LLM:
    • 地址:https://github.com/Hannibal046/Awesome-LLM
    • 简介:This repo is a curated list of papers about large language models, especially relating to ChatGPT. It also contains frameworks for LLM training, tools to deploy LLM, courses and tutorials about LLM and all publicly available LLM checkpoints and APIs.
  • DecryptPrompt:
  • Awesome Pretrained Chinese NLP Models:
  • ChatPiXiu:
    • 地址:https://github.com/catqaq/ChatPiXiu
    • 简介:该项目旨在打造全面且实用的ChatGPT模型库和文档库。当前V1版本梳理了包括:相关资料调研+通用最小实现+领域/任务适配等。
  • LLM-Zoo:
    • 地址:https://github.com/DAMO-NLP-SG/LLM-Zoo
    • 简介:该项目收集了包括开源和闭源的LLM模型,具体包括了发布时间,模型大小,支持的语种,领域,训练数据及相应论文/仓库等。
  • LLMs-In-China:
  • BMList:
    • 地址:https://github.com/OpenBMB/BMList
    • 简介:该项目收集了参数量超过10亿的大模型,并梳理了各个大模型的适用模态、发布的机构、适合的语种,参数量和开源地址、API等信息。
  • awesome-free-chatgpt:
  • Awesome-Domain-LLM:
© 版权声明

相关文章

暂无评论

暂无评论...