Chinese-Mixtral-8x7B

本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，希望进一步促进中文自然语言处理社区对MoE模型的研究。我们扩充后的词表显著提高了模型对中文的编解码效率，并通过大规模开源语料对扩词表模型进行增量预训练，使模型具备了强大的中文生成和理解能力。

项目开源内容：

中文Mixtral-8x7B扩词表大模型
扩词表增量预训练代码

请注意，Chinese-Mixtral-8x7B仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容，请谨慎鉴别和使用生成的内容，请勿将生成的有害内容传播至互联网。

模型综合能力

我们分别使用以下评测数据集对Chinese-Mixtral-8x7B进行评测：

C-Eval：一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。

CMMLU：一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。

MMLU：一个包含57个多选任务的英文评测数据集，涵盖了初等数学、美国历史、计算机科学、法律等，难度覆盖高中水平到专家水平，是目前主流的LLM评测数据集之一。

HellaSwag：一个极具挑战的英文NLI评测数据集，每一个问题都需要对上下文进行深入理解，而不能基于常识进行回答。

根据Mistral发布的技术报告，Mixtral-8x7B在推理时将激活13B参数。下表为Chinese-Mixtral-8x7B与其他13B规模的中文扩词表模型在各个评测数据集上的5-shot结果：

模型名称增量训练语料 C-Eval
(中文) CMMLU
(中文) MMLU
(英文) HellaSwag
(英文)

IDEA-CCNL/Ziya2-13B-Base 650B Token 59.29 60.93 59.86 58.90

TigerResearch/tigerbot-13b-base-v3 500B Token 50.52 51.65 53.46 59.16

Linly-AI/Chinese-LLaMA-2-13B-hf 11B Token 42.57 41.95 51.32 59.05

hfl/chinese-llama-2-13b 约30B Token(120GB) 41.90 42.08 51.92 59.28

Chinese-Mixtral-8x7B(本项目) 42B Token 52.08 51.08 69.80 65.69

在中文知识和理解方面，我们的Chinese-Mixtral-8x7B与TigerBot-13B-Base-v3性能相当。由于Chinese-Mixtral-8x7B的训练数据量仅为TigerBot-13B-Base-v3的8%，我们的模型仍有进一步提升的空间。与此同时，得益于原版Mixtral-8x7B模型强大的性能，我们的Chinese-Mixtral-8x7B达到了各个扩词表模型的最强英文水平。

由于不同版本的评测脚本实现细节有细微差异，为了保证评测结果的一致性和公平性，我们的评测脚本统一使用EleutherAI发布的lm-evaluation-harness，commit hash为28ec7fa。

模型生成效果

下表为各个扩词表模型的生成效果。由于部分模型的预训练语料未使用eos_token进行分隔，我们采用了max_tokens = 100对生成文本进行截断。我们的采样参数为temperature = 0.8, top_p = 0.9。

中文编解码效率

针对中文编解码效率，我们使用各个扩词表模型的分词器对SkyPile数据集的一个切片（2023-06_zh_head_0000.jsonl）进行编码，对比了各个分词器输出的中文文本Token量：

模型名称模型类别词表大小中文文本Token量编解码效率

meta-llama/Llama-2-13B-hf LLaMA 32000 780M 低

mistralai/Mixtral-8x7B-v0.1 Mixtral 32000 606M 低

Linly-AI/Chinese-LLaMA-2-13B-hf LLaMA 40076 532M 中

IDEA-CCNL/Ziya2-13B-Base LLaMA 39424 532M 中

hfl/chinese-llama-2-13b LLaMA 55296 365M 高

TigerResearch/tigerbot-13b-base-v3 LLaMA 65112 342M 高

Chinese-Mixtral-8x7B(本项目) Mixtral 57000 355M 高

在约1.4GB的测试文本中，我们的Chinese-Mixtral-8x7B中文编解码效率仅次于TigerBot-13B-Base-v3，较原模型提高了41.5%。这有利于加速中文文本的推理速度，并在In-Context Learning、Chain-of-Thought等场景中节省序列长度，有利于提高复杂推理任务的性能。

Chinese-Mixtral-8x7B

模型综合能力

模型生成效果

中文编解码效率

info@hzzlss.com

0571-26231333

公司简介

关注数算

最新动态

数据要素×绿色低碳案例三电水气融合“知算用”一体的碳排发展体系

数据要素×科技创新案例三数据驱动海洋大模型，训练加速探索海洋科学研究新范式

找算力、买算力、用算力

模型名称	增量训练语料	C-Eval (中文)	CMMLU (中文)	MMLU (英文)	HellaSwag (英文)
IDEA-CCNL/Ziya2-13B-Base	650B Token	59.29	60.93	59.86	58.90
TigerResearch/tigerbot-13b-base-v3	500B Token	50.52	51.65	53.46	59.16
Linly-AI/Chinese-LLaMA-2-13B-hf	11B Token	42.57	41.95	51.32	59.05
hfl/chinese-llama-2-13b	约30B Token(120GB)	41.90	42.08	51.92	59.28
Chinese-Mixtral-8x7B(本项目)	42B Token	52.08	51.08	69.80	65.69

模型名称	模型类别	词表大小	中文文本Token量	编解码效率
meta-llama/Llama-2-13B-hf	LLaMA	32000	780M	低
mistralai/Mixtral-8x7B-v0.1	Mixtral	32000	606M	低
Linly-AI/Chinese-LLaMA-2-13B-hf	LLaMA	40076	532M	中
IDEA-CCNL/Ziya2-13B-Base	LLaMA	39424	532M	中
hfl/chinese-llama-2-13b	LLaMA	55296	365M	高
TigerResearch/tigerbot-13b-base-v3	LLaMA	65112	342M	高
Chinese-Mixtral-8x7B(本项目)	Mixtral	57000	355M	高

Chinese-Mixtral-8x7B

Chinese-Mixtral-8x7B

模型综合能力

模型生成效果

中文编解码效率

相关产品

DISC-MedLLM 医疗健康模型

CogView3-文本生成图像模型

ChatLaw 法律大模型

info@hzzlss.com

0571-26231333

公司简介

关注数算

最新动态

数据要素×绿色低碳案例三 电水气融合“知算用”一体的碳排发展体系

数据要素×科技创新案例三 数据驱动海洋大模型，训练加速探索海洋科学研究新范式

找算力、买算力、用算力

数据要素×绿色低碳案例三电水气融合“知算用”一体的碳排发展体系

数据要素×科技创新案例三数据驱动海洋大模型，训练加速探索海洋科学研究新范式