记者会被AI取代吗?每日经济新闻大模型年度评测报告发布:没有“全能选手”,幻觉问题难解

2024年6月25日,《每日经济新闻大模型评测报告》第1期发布,对15款市面主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四个新闻采编应用场景的能力进行了评测。

2024年9月6日,《每日经济新闻大模型评测报告》第2期发布,重点考察大模型在“金融数学计算”“商务文本翻译”“财经新闻阅读”三个新闻采编应用场景的能力。

与前两期评测一样,《每日经济新闻大模型年度评测报告》继续以大模型在新闻采编场景的应用能力为评测目标,但为了更精准对接采编人员的实际需求,本次评测以“采写编审和短视频创作的新闻生产全流程”为场景,包括大模型设计采访提纲——撰写新闻稿件——校对稿件差错——提炼稿件标题——改写短视频文本五个细分场景。通过大模型在新闻生产全流程的介入,评测出“谁是新闻生产全流程的最优秀大模型”,用直观的评测结果,对采编人员在工作中选用适合的大模型工具提供实战参考。

本次评测设置的五个细分应用场景具体如下:

(1)设计采访提纲:旨在考察大模型能否帮助记者拟定采访提纲,辅助记者采访工作。

(2)撰写新闻稿件:旨在考察大模型围绕既定的多份材料,能否创作一篇新闻稿件。

(3)校对稿件差错:旨在考察大模型能否检查出新闻稿件中的错别字,语法、数字、标点符号等差错。

(4)提炼稿件标题:旨在考察大模型能否根据稿件内容,提炼新闻标题,特别是制作适合在微信等新媒体平台传播的新媒体风格标题。

(5)改写短视频文本:旨在考察大模型能否根据一篇文字新闻稿件,改写成适合短视频发布的文案。

每经大模型评测小组为五个细分场景制定了对应的评价维度和评分指标。每日经济新闻10余名首席、高级、资深记者编辑根据评价维度和评分指标,对各款大模型在五个细分场景中的表现进行评分,汇总各场景得分,最终得到参评大模型总分。

需要指出的是,本期评测是通过各款大模型的API端口,并在默认温度下完成。与公众用户使用的大模型C端对话工具存在差异。但是评测结果对用户在具体场景中选择合适的大模型工具,依然具有重要参考价值。

本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有12款国内大模型参与。

评测时间为2024年10月18日,因此参评大模型均为截至10月18日的最新版本。

评测结果显示,腾讯混元hunyuan-turbo以379.53的总分位居榜首,紧随其后的是智谱GLM-4-Plus获得368.6分,字节跳动doubao-pro-32k(240828版本)获得363分。

在五个细分场景方面,各家模型展现出不同的优势:

在设计采访提纲场景中,腾讯混元hunyuan-turbo与昆仑万维天工SkyChat-3.0两款模型均取得了93.33分的佳绩,并列第一。

在撰写新闻稿件场景中,智谱GLM-4-Plus以98分的高分拔得头筹。

在校对稿件差错场景中,智谱GLM-4-Plus以60分的成绩位居首位。

在提炼稿件标题方面,深度求索DeepSeek-V2.5模型以55.2分的成绩领先其他模型。

在改写短视频文本场景中,腾讯混元hunyuan-turbo再次展现其强劲实力,以95分的成绩位列第一。

阅读完整报告请访问:每日经济新闻大模型年度评测报告。

结论一:暂无一款大模型能高质量完成采编全流程工作

截至目前,每日经济新闻一共推出三期大模型评测报告,覆盖12项新闻采编应用场景,但从结果来看,没有一款大模型能在所有场景中均排名前列

正如人类一样,各款大模型的长处与短板各不相同。比如,有的大模型擅长财务数据计算,但在新闻标题提炼中却排名末尾;有的大模型擅长英译汉,却在汉译英方面能力平平。

在新闻生产的关键环节,如本期评测中的“撰写新闻稿件”“校对稿件差错”“提炼新闻标题”、第一期评测中的“财务数据计算与分析”和第二期评测中的“金融数学计算”等应用场景,多数大模型生成结果的差错频出,要保证新闻稿件的高质量、无差错,还必须由人工审核、把关

目前市面上还没有一款大模型能够高质量、全流程完成新闻采编场景的所有工作,换句话说,世界上还没有“AI记者”

结论二:大模型“幻觉”未解,错误更隐蔽

尽管各款大模型已经多次迭代升级,但依然解决不了“一本正经地胡说八道”的幻觉问题

最初的大模型“幻觉”问题比较明显。随着产品不断迭代,大模型生成文本质量逐渐提升,但文本中的错误也越发隐蔽。比如,在“撰写新闻稿件”场景中,大模型会在不起眼处改变人物的职位或虚构事件发生的时间。例如在本期评测中,部分大模型将9月24日“星巴克咖啡公司宣布调整其中国领导层结构”的时间,误写成9月30日。再比如在第二期评测“金融数学计算”场景中,即便是得分第一的大模型也会在个别题目中给出了正确的计算公式,却依然得出错误的答案。

对于一篇高质量新闻稿件来说,上述问题都可能是“致命”的差错。目前,AI生成内容已经大规模出现在互联网中。这就要求新闻媒体要进一步完善新闻内容真实性审核机制,更需要加强内容把关。

结论三:“冷面”的大模型难判断新闻价值

阅读一篇稿件,挖掘出最重要的新闻点,然后提炼和制作标题,在这方面,大模型与经验丰富的编辑相比,差距不小。

在本期评测的“提炼稿件标题”场景中,大模型得分普遍偏低。其生成的标题多显得中规中矩。在本期评测的“提炼稿件标题”场景中,大模型得分普遍偏低。其生成的标题多显得中规中矩。例如大模型提炼的《“星巴克中国新篇章:80后刘文娟接任CEO,引领咖啡巨头迎挑战”》《“星巴克中国换帅:80后刘文娟接棒CEO,直面市场挑战与变革”》等标题。

另外,评测中发现,大模型提炼的新闻标题,往往充斥着一些“高大上”的抽象概念词汇,无法挖掘文章中最重要的新闻点和有价值的信息,文字空洞,很难吸引读者的眼球。

此外,在“撰写新闻稿件”场景中,大模型生成的文本较为生硬,“机器痕迹”较明显,缺乏情感和个性化的表达

从现阶段来看,大模型在阅读文章方面,难以具备对一篇稿件新闻点的准确和深层次把握,容易停留在浅层次的理解。因此,新闻点和新闻价值的判断,包括采写有温度、有故事、有人情味的厚重稿件,仍然离不开记者、编辑的人工介入和悉心打磨

结论四:不同采编场景选择最适合大模型

三期大模型评测的场景基本可以分为辅助性场景(如财经新闻阅读、文本翻译、设计采访提纲等)和关键性场景(如撰写新闻稿件、校对稿件差错、提炼新闻标题等)。

三期评测的结果表明,绝大部分大模型在设计采访提纲、改写短视频文案、英汉翻译、文章阅读以及微博新闻写作等辅助性场景中普遍表现良好。例如,“改写短视频文案”场景中,所有参与评测的12款大模型均取得超过80分的成绩;而“设计采访提纲”场景中,有8款大模型的得分高于80分。在第二期评测的“商务本文翻译”场景中,13款大模型得分都高于80分,在“财经新闻阅读”场景中,13款大模型得分高于70分。

在撰写新闻稿件、校对稿件差错、提炼新闻标题等新闻生产关键性场景的能力则明显不足。比如,在“校对稿件差错”场景中,仅一款大模型得分达到60分。在“提炼新闻标题”场景中,没有一款大模型得分达到60分。

因此,记者、编辑可以根据采编工作的不同环节,不同场景,选择最适合的大模型,让部分场景实现采编工作AI化,提升工作效率。

结论五:新闻媒体主导:打造垂直领域的“AI记者”

对比三期大模型评测结果不难发现,国内大模型通过持续迭代,能力稳步提升。同时,各家大模型之间的差距也在逐步缩小,每个模型都展现出独特的优势。但这些大模型都属于通用大模型,并非为新闻媒体、采编工作量身定制。

造成大模型“幻觉”问题严重的一大原因,在于训练文本和数据质量不高,其中包含不少信息错误。而新闻工作对准确性要求极高。这一短板直接限制了大模型在新闻领域的应用。然而,新闻媒体在长期的新闻报道中已经积累的大量高质量新闻稿件和数据,这恰恰为研发适合新闻采编工作的大模型工具提供了得天独厚的优势。

因此,自主训练和主导研发大模型工具变得尤为重要,借此,新闻媒体不仅能够最大限度地确保大模型训练数据的质量和生成逻辑的准确性,还能保证大模型生成内容的可控性,使其更好地契合媒体自身的属性和特色。

在研发方法上,可以将采编全流程拆分成数十个环节,如采访、翻译、稿件写作、提炼摘要和校对差错等。根据各环节的具体工作目标、方法和要求,对大模型进行专项训练,以形成一系列单任务或垂类AI工具。最终,将这些单任务AI工具打包汇集,则可以打造出一整套新闻采编AI工具。

每日经济新闻大模型评测小组

2024年11月

??????????

接下来,“每日经济新闻大模型评测小组”将继续深入探索大模型的无限可能,从实际应用场景出发,对各个大模型进行全方位的评测,并定期推出专业报告,带来最前沿的洞察和发现。

在此,我们诚挚地邀请您,加入评测项目。

如果您是研发企业,想要展示自家大模型的实力,与其他大模型进行比拼,请将参评大模型的详细信息发送至我们的邮箱:damoxing@nbd.com.cn

如果您是大模型的使用者,请告诉我们您希望在哪些场景中使用大模型,或者希望我们测试大模型的哪些能力。打开每日经济新闻App,在“个人中心”——“意见反馈”栏中留下您的想法和需求。

期待您的参与,共同探索大模型的无限可能。

每日经济新闻

平台声明:该文观点仅代表作者本人,号外财经仅提供信息存储空间服务。发布者:号外财经,转转请注明出处:https://www.qinjiong.com/2024/11/14/24669.html

(0)
号外财经的头像号外财经
上一篇 2024年11月14日 上午10:22
下一篇 2024年11月14日 上午10:22

相关推荐

  • 政治局会议罕见大篇幅部署房地产,三个新提法值得关注

    中共中央政治局9月26日召开会议,分析研究当前经济形势,部署下一步经济工作。会议罕见地大篇幅部署房地产相关工作,其中不少说法都是第一次提出。   总的来看,此番会议有两大“不寻常”。   首先是召开时点“不寻常”。   业内专家注意到,按照惯例,中央政治局“以研究经济工作”为主题的会议每年有三次,一次在4月末,一次在7月末,一次在12月中旬。   4月末的会…

    2024年9月27日
    2600
  • 为什么毛泽东领导的中国大革命是世界上迄今为止最伟大的社会革命?

    毛泽东领导的中国大革命,不仅是世界历史上最伟大的社会革命,而且是世界社会主义发展史上迄今为止最长期、最激烈、最艰苦、最复杂的社会革命。   毛泽东领导的中国大革命是迄今为止世界历史上革命程度最彻底、变革程度最剧烈而深刻的社会革命,是世界历史上最伟大的社会革命。   最伟大的变革是第一次进行的最彻底的变革,而不是第一次进行的变革。魏国变法在前,秦国变法在后,二…

    2024年11月9日
    1500
  • 结婚法要像交通法一样严阵以待,不可学西方糟粕

    既然西方证明了此路不通,那我们就要换成中国人的思维,一定要严肃对待此事,你将结婚门槛提高了,反而愿意结婚的人就多了。   现在又在弄什么婚姻法草案,说是孩子拿着身份证即可登记结婚,网上掀起了轩然大波,大概的意思就是说太草率了,怎么能不经过家长把一下关呢?   但是草案起草者是怎么说的呢,如果孩子的婚姻要经过家长把关,那是干涉婚姻自由,是倒退到封建社会去了,反…

    2024年8月20日
    5300
  • 百度地图崩了?客服回应称相关问题已修复

    每经北京 8月7日电(记者 可杨)今日(8月7日)午间,“百度地图崩了”登上热搜。有网友在社交平台上反映,百度地图存在定位错误、自驾路线无法正常规划等问题。 16时左右,《每日经济新闻》记者使用百度地图进行自驾路线规划、公交导航等,发现相关功能已恢复。百度地图客服7日下午回应《每日经济新闻》记者称,相关问题已修复,辛苦用户重新尝试。 每日经济新闻

    2024年8月7日
    6200
  • OPPO推出全新“屏碎无忧”服务 为用户提供成本效益高的屏幕维修保障

      OPPO最近推出了一项创新的”屏碎无忧”保障服务,为广大用户提供了一个经济实惠的解决方案,以应对手机屏幕因意外造成的损坏。该服务允许用户在手机屏幕发生碎裂或裂纹时,享受半价更换屏幕的优惠,极大地降低了维修成本。   ”屏碎无忧”服务的一大亮点是其没有时间限制,用户可以随时在OPPO官方服务中心通过验机购买。…

    2024年8月19日
    7800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信