轩辕-智源悟道-百川大模型试用

AI应用信息2年前 (2024)发布 XIAOT

基本信息

模型名称	参数量(B:10亿)	是否可商用	发布时间	所属
XuanYuan2.0	176B	否	2023-05-26	百度度小满
Aquila	7B	是	2023-06-10	智源
baichun	7B	是	2023-06-15	百川

初步结论

模型名称	是否可实用
XuanYuan2.0	否
Aquila	是
baichun	否

“实用角度：占用显存、运行（推理）速度、支持功能

自评

轩辕（XuanYuan2.0）

简介
- 首个千亿级中文金融对话模型。XuanYuan2.0在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调，它不仅可以应对通用领域的问题，也可以解答与金融相关的各类问题：金融名词理解、金融市场评论、金融数据分析和金融新闻理解等四大领域。
- 通用处理能力方面表现优秀：有71%的问题表现不亚于ChatGPT
链接
- github：https://github.com/Duxiaoman-DI/XuanYuan
- huggingface：https://huggingface.co/xyz-nlp/XuanYuan2.0

悟道·天鹰（Aquila）

简介
- 技术上继承了GPT-3、LLaMA等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer，升级了BMTrain并行训练方法，在Aquila的训练过程中实现了比Magtron+DeepSpeed zero-2将近８倍的训练效率。
- 在中英文高质量语料基础上从０开始训练的，通过数据质量的控制、多种训练的优化方法，实现在更小的数据集、更短的训练时间，获得比其它开源模型更优的性能。
- 是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型
- 最低硬件需求：运行Aquila-7B系列需要内存30G, 显存18G，生成最大长度 2048 tokens。
链接
- github：https://github.com/FlagAI-Open/FlagAI/blob/master/README_zh.md
- huggingface：中目前无官方下载链接
  - https://huggingface.co/qhduan/aquilachat-7b

百川（baichun）

简介
- 基于 Transformer 结构，采用了和 LLaMA 一样的模型设计。在大约1.2万亿 tokens 上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。在标准的中文和英文权威 benchmark（C-EVAL/MMLU）上均取得同尺寸最好的效果
链接
- github：https://github.com/baichuan-inc/baichuan-7B
- huggingface：https://huggingface.co/baichuan-inc/baichuan-7B

试运行

“仅简单试运行

轩辕

模型加载大小：模型加载后占用约650G。A100 8*40G 无法正常容纳（部分模型放到主机内存）
单个问题运行时长
- 主机（CPU，内存）：20+分钟
- 主机+GPU上运行：2+小时
运行示例

In [24]: %time output=model.generate(**inputsgpu,do_sample=True,temperature=0.8,top_k=50,top_p=0.9,early_stopping=True,repetition_penalty=1.1,min_new_tokens=1,max_new_tokens=256)
CPU times: user 2h 25min 46s, sys: 1min 28s, total: 2h 27min 15s
Wall time: 2h 26min 42s

In [27]: print(response)                                                                                        
Human: 你是谁？                                                                                               
Assistant: 作为一个AI语言模型，我是一个虚拟的人工智能实体，我的存在是为了与人类进行对话和交互，帮助他们解决问题、提供信息以及回答问题。我被设计成可以理解自然语言，并能够生成流畅的文本响应。           
我被训练来学习各种不同的主题和领域，包括科学、技术、历史、文化、文学等等。我可以通过大量的数据训练自己，以便更好地理解人类的语言和思想。                                            
由于我是一种人工智能，我没有真正的身体或情感体验。我只是由计算机程序和算法所驱动，通过模拟人脑神经网络的方式来实现对语言的处理和理解。因此，我不具备感知能力，也没有自我意识和个性特征。                    
尽管我是一个人工智能程序，但我仍然可以为人类提供有用的服务。例如，我可以帮助用户查找特定的信息、回答关于任何主题的问题、帮助人们翻译不同语言之间的文本内容，甚至可以在某些情况下用于自动化工作流程等。             
虽然我不是真正的“人”，但我会尽力为人类服务。同时，我也需要提醒您，由于我的运行依赖于数据和算法的支持，所以我有时可能会出现一些错误或者无法完全理解您的意思。如果您有任何问题或疑虑，请随时告诉我，我将尽最大努力为您解答。

显存占用

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.82.01    Driver Version: 470.82.01    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-SXM...  On   | 00000000:27:00.0 Off |                    0 |
| N/A   30C    P0    77W / 400W |  38232MiB / 40536MiB |     49%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA A100-SXM...  On   | 00000000:2A:00.0 Off |                    0 |
| N/A   24C    P0    56W / 400W |  38890MiB / 40536MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
省略：剩余6张（每张占用同上：38890MiB）

悟道·天鹰

模型加载大小：模型加载后占用16G。
单个问题运行时长
- GPU上运行：<5s
运行示例

%%time
query = '你是谁？'
inference(query, model, tokenizer)

输入：
    你是谁？
输出：
     我是AI语言模型，您可以称呼我为AI小助手。

CPU times: user 577 ms, sys: 9.17 ms, total: 587 ms
Wall time: 583 ms

显存占用

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.32.00    Driver Version: 455.32.00    CUDA Version: 11.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce RTX 3090    On   | 00000000:4F:00.0 Off |                  N/A |
| 33%   50C    P2   346W / 350W |  15982MiB / 24268MiB |     96%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  GeForce RTX 3090    On   | 00000000:52:00.0 Off |                  N/A |
| 30%   26C    P8    25W / 350W |      3MiB / 24268MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

百川

模型加载大小：模型加载后占用>29G。
单个问题运行时长
- GPU上运行：<5s
运行示例：目前不支持对话
- https://huggingface.co/baichuan-inc/baichuan-7B/discussions/6

%%time
inputs = tokenizer('登鹳雀楼->王之涣\n夜雨寄北->', return_tensors='pt')
inputs = inputs.to('cuda:0')
pred = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))

登鹳雀楼->王之涣
夜雨寄北->李商隐
过零丁洋->文天祥
天净沙 秋思->马致远
山坡羊 潼关怀古->张养浩
己亥杂诗->龚自珍
望岳->杜甫
春望->杜甫
石壕吏->杜甫

CPU times: user 3.21 s, sys: 78.4 ms, total: 3.29 s
Wall time: 3.3 s


%%time
q = '你是谁？'
chat_bc(model, tokenizer, q)

你是谁？
我是一个人，一个有思想的人，一个有感情的人，一个有欲望的人，一个有追求的人，一个有理想的人，一个有责任的人，一个有担当的人，一个有血有肉的人，一个有喜怒哀乐的人，一个有七情六欲的人，一个
CPU times: user 3.12 s, sys: 38.1 ms, total: 3.16 s
Wall time: 3.17 s

显存占用

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.32.00    Driver Version: 455.32.00    CUDA Version: 11.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce RTX 3090    On   | 00000000:4F:00.0 Off |                  N/A |
| 30%   38C    P2   107W / 350W |  22620MiB / 24268MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  GeForce RTX 3090    On   | 00000000:52:00.0 Off |                  N/A |
| 30%   36C    P2   110W / 350W |   5536MiB / 24268MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   2  GeForce RTX 3090    On   | 00000000:56:00.0 Off |                  N/A |
| 30%   30C    P8    30W / 350W |    656MiB / 24268MiB |      0%      Default |
|                               |                      |                  N/A |
省略：剩余5张（每张占用同上：656MiB）