这可能是关于昆仑万维天工模型,最详尽的一次评测了

AI应用信息2个月前发布 XIAOT
164 0
1

天工模型背景

昆仑万维天工大模型自4月17日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。

“大”模型有一个重要的特性“涌现”。所谓涌现现象就是在越过了某个参数量和头尾数据量后,其能力曲线就会陡然提升,包括但不限于知识库的扩大和推理能力的提升。
昆仑万维表示天工用到了两个千亿模型 —— 千亿预训练基座模型和千亿 RLHF(Reinforcement Learning from Human Feedback)模型。
而其中的 RLHF 就是“涌现”能力的最重要由来。千亿级别的 RLHF 或许是未来模型进步的最重要模块。
LLM(大语言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。
RLHF需要收集大量高质量的人类偏好数据,包括人工生成的文本和对模型输出的排名标签。除此之外,RLHF还需要处理标注者的偏见和不一致以及模型输出的有害或不真实的风险。
总体来说,相较于传统算法,RLHF需要更多的人工标注和数据清洗以向模型提供充足的带标注的文本数据(又或者是图片数据以训练多模态模型)。
本次天工还有一个重要宣传点为:超过20轮的对话能力和1万字以上的长篇文本记忆能力。这也是当前大部分国产模型最为欠缺的。
之前测试文心一言和ChatGLM的时候也表现出了明显的记忆丢失现象。而长记忆能力也是大语言模型的“涌现”现象的一个表征。本文也将着重于测试这项能力。
2

模型能力测试

本次测试我们主要将天工与ChatGPT3.5做对比。在部分较难问题(ChatGPT3.5和天工均无法完成),会引入当前公认最强大语言模型 ChatGPT4 作为参考模型。

对大语言模型能力的测试,常常使用三个模块来评价,分别为语言生成能力,逻辑推理能力,代码分析能力以及长对话连续生成能力。
语言生成能力

1.问题:“猜谜语:埋在奴家心底,打一字”。
这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
上图天工 中图 ChatGPT3.5 下图 ChatGPT-4

本题中,仅有天工正确回答了这个字谜,而OpenAI旗下的两款AI模型都未正确答复。

ChatGPT4则是看似正确地给出了一个不正确的答案。而这正说明本土的语言模型的优势,即针对本国语言的专业调优能力以更符合本地人的使用习惯。

2.“这首诗是什么意思:女娲炼石补天处,石破天惊逗秋雨。梦入神山教神妪,老鱼跳波瘦蛟舞。吴质不眠倚桂树,露脚斜飞湿寒兔。”

这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
上图天工 中图 ChatGPT-3.5 下图 ChatGPT4
事实上这一段句子是出自于李贺的《李凭箜篌引》。虽然天工和ChatGPT3.5均根据这首诗本身给出了解读,但是很显然由于知识库的欠缺,都无法基于诗词本身的背景解读,只能从文字本身推断诗词含义,自然水平有限。
3.“请帮我列举一个一份赛博朋克世界观的科幻小说的故事大纲和主要人物设定”。
这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
从本题结果来看,生成效果ChatGPT4>天工>ChatGPT3.5 。天工在面对中文类题目时表达能力不错,可以较好地理解中文问题并给出相关答案。
ChatGPT3.5在理解问题和给出答案方面表现也不错,但相较于ChatGPT4 和天工,生成结果的流畅度和准确性稍有欠缺。ChatGPT4表现最好,能够更加准确地理解问题和生成相关内容,输出结果的流畅度和准确性也更高。
4.“从这封电子邮件中提取收货人姓名和地址:亲爱的凯利,很高兴在研讨会上与您交谈。我觉得简的演讲很好,谢谢你要送我的书,这是我的地址2111 Ash Lane, Crestview CA 92002。Best, Maya”。
这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
上图天工 中图 ChatGPT3.5 下图 ChatGPT4

从本题结果来看,天工的表现好于ChatGPT3.5 和ChatGPT4。天工能够准确地识别并提取出邮件中的收货人姓名而ChatGPT3.5 则识别错误。
逻辑推理能力

1.“树上有9只鸟,猎人开枪打死1只,树上还剩几只鸟?”
这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
上图天工 中图 ChatGPT3.5 下图 ChatGPT4

ChatGPT4能够准确理解问题并给出正确的答案,即树上没有鸟。ChatGPT4 理解了这是一个脑经急转弯或者需要联合实际的题目,而另外两款模型则没有这种推理能力。
2.“假设False与True 是 False. 则True与not False 是?”
这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
上图天工 中图 ChatGPT3.5 下图 ChatGPT4

ChatGPT3.5和ChatGPT4 能够理解问题并给出正确的答案,即True与not False都是True。而天工则出现了错误的答案,这可能是因为它没有很好地理解问题中的逻辑关系,导致输出结果与实际不符。
3.“爸爸妈妈结婚为什么没有邀请我?”
这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了这可能是关于昆仑万维天工模型,最详尽的一次评测了
    © 版权声明

    相关文章

    暂无评论

    暂无评论...