高考作文:综合得分最高的ChatGPT也只拿到了48分

AIGC行业资讯3年前 (2023)更新编辑员

一直以来，用AI工具进行文学创作都是科技公司们乐于尝试的事情，特别是在如“高考”这种全民关注的特殊时间节点，用AI撰写高考作文等就更被科技公司追捧。今年，明争暗斗或更胜以往。核心原因当然是自去年Open AI以生成式AI应用ChatGPT以近乎于质变的能力，引发全球生成式AI大模型狂热，让大家公认AI技术来到了“iPhone”时刻。‍国内科技互联网公司们也纷纷跟进并在今年拿出了自家的生成式AI大模型产品——据不完全统计：从今年二月至今，国内AI大模型发布会就开了接近20场，诸如百度文心一言、阿里巴巴通义千问、科大讯飞星火大模型等，并都几乎对外宣称自家产品技术具备领先性。在此，“高考作文”这一综合考验考生材料理解能力、文字功底、思辨能力、文字创新能力的综合考题，无疑也是检验各家大模型技术创造能力的试金石。高考作文:综合得分最高的ChatGPT也只拿到了48分

也正是基于此，投身于生成式AI大模型的厂商们，也是摩拳擦掌，准备一展自家生成式AI大模型的文学创作能力。诸如周鸿祎在微博就分享了一篇由360智脑创作的今年全国甲卷高考作文。但从最终结果来看，其表现是基本功不错但在思辨性层面则不足，也较难拿到高分。语文特级教师王大绩在微博中对360智脑生成的这篇AI作文点评称：“作文语言晓畅，层次清晰，写作基本功很好，在基础等级的层面，表现不错。作文也谈到了高科技，但是对科技发展条件下，本应成为时间的主人，何以却成为时间的仆人，未能抓住关键，思考不够透彻，因此未形成鞭辟入里的辨析，题目所要求的时代感比较淡泊，在发展等级方面，表现一般。”事实上，这种在文学创作层面思辨性不足的现实，不止是360智脑一家，其实几乎是当前生成式AI大模型的“通病”。

在搜狐科技以高考作文全国卷（甲）为题，对百度文心一言、阿里通义千问、科大讯飞星火认知大模型、360智脑、ChatGPT五款主流大语言模型产品进行同题测试，并邀请到五位语文名师进行点评各模型生成作文水平的活动中，就不难发现：五款大模型基本都理解到了高考作文全国卷（甲）的作文立意，没有出现偏题、跑题现象，也都能在短时间内生成相应文章。但同时大模型们也存在着对作文具体要求理解不清（诸如创作的文章字数未达到不少于800字的要求）、行文死板、割裂感明显、语言空洞、“理工味”明显；并且更为重要的是它们创作的文章，都普遍存在着论点论据不足、观点不新颖等在文学创作上最为致命的问题，这也导致这五款大模型创作的高考作文，综合得分最高的ChatGPT，也只拿到了48分。高考作文:综合得分最高的ChatGPT也只拿到了48分坦率来讲，ChatGPT的48分和百度文心一言的46.5分，在高考作文得分中，其实也不算低，甚至可能会超过许多考生的作文得分，但也与优秀作文没有沾不上边，只能说是较为普通的水准。而这些大模型在文学创作上暴露出的这些问题，也让我们看到当前生成式AI技术的不足，甚至可以说，那些叫嚣着现在ChatGPT等生成式AI技术就能进行文学创作，取代创意人员的话语，着实有些夸大其辞乃至危言耸听了。当然，我们也不否认ChatGPT等生成式AI技术在持续养料喂养下，能够迅速成长的潜力，但要摆脱当前大模型在文学创作中存在的创造性不足问题，可能也并不是大模型们一朝一夕就能搞定的事情，其可能还需要较长的时间。在此，几乎可以说：在看过用生成式AI作答的高考作文后，我认为对AI取代文学创作的鼓吹也好，恐惧也罢，其实都可以暂时先缓一缓了。

写在最后：ChatGPT等大模型技术所具备的邮件&新闻&论文撰写、视频脚本、文案、翻译、代码编写等能力，让生成式AI技术在很大程度上超越了过往这类AI应用偏娱乐的属性，进入了真正的生产力乃至是创造性阶段。由此也有不少业内惊呼：创造性工作机会，可能会被GPT们率先取代了，开始陷入悲观预期。事实上，对于生成式AI技术展现出的实力，我一直以来的观点都是：既没必要过度鼓吹，同时也没必要过度恐惧，以一颗平常心去对待技术的发展更迭，或许会更好。站在技术浪潮面前，我们更应该做的事情是，及早的学会善用这些技术，以助力我们工作效率与生活质量的提升。