智谱清言App升级视频通话功能 记者实测:提问秒回,可随时打断当前谈话

和大模型打视频电话可能即将实现。

8月29日,《每日经济新闻》记者获悉,智谱清言App将上线视频通话功能,智谱方面介绍,清言App的视频通话功能,具有跨文本、音频和视频进行实时推理的能力,AI可以进行流畅的通话,人可以实时打断AI;此外,通过手机或AIPC的摄像头与人互动,可通过视频流理解对话当前的环境(包括人物状态/背景环境)。

今年5月,OpenAI发布多模态大模型GPT-4o,曾凭借自然流畅的实时音视频交互引发关注。

清华大学新闻学院和人工智能学院双聘教授沈阳在接受《每日经济新闻》记者微信采访时表示,具备视觉交互是未来大模型极其重要的发展方向之一,对于国内大模型而言,这方面的探索同样必要。他认为,视觉获取的信息占据了人类获取总信息量的80%以上,因此,当大模型具备了视觉交互能力后,它便拥有了向具身智能和人形机器人结合的重要技术基础。

智谱清言App上线视频通话功能

8月29日,智谱方面宣布,清言App将于30日上线“视频通话”功能,这也是国内首个面向C端开放的视频通话。演示显示,用户可以通过视频实时交互,例如将摄像头对准一套试卷并圈出其中一题请其解答,清言就能实时识别,并给出相应解答。

记者通过清言App体验其视频通话功能,将摄像头对准玩偶进行拍摄,随后清言开始描述玩偶的颜色、外观等。

记者将镜头对准一本书后提问书的主要内容,清言在几秒后给出解答,其间记者打断其介绍要求重复作者的名字,清言在停顿几秒后开始介绍书籍作者。

今年5月,OpenAI发布多模态大模型GPT-4o,可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图片的任意组合输出。彼时,GPT-4o凭借自然流畅的实时音视频交互引发市场关注。

行行AI董事长、工业和信息化部工业文化发展中心AI应用工作组执行组长李明顺在接受《每日经济新闻》记者微信采访时表示,拥有实时视频对话和视觉交互能力的大模型确实是未来人工智能发展的重要方向之一。

李明顺表示,这个方向有大量AI的应用场景,例如:在更实时互动的娱乐游戏、更真切数字人体验的营销服务、形象逼真的远程教育、金融等高端行业的虚拟顾问、更有情绪价值的医疗咨询等领域,都有大量的提升效率和服务体验的价值。

沈阳则认为,具备视觉交互是未来大模型极其重要的发展方向之一,对于国内大模型而言,这方面的探索同样必要,这一功能的缺失将意味着在技术上落后于国际同行,甚至可能面临技术依赖的风险。

沈阳表示,视觉获取的信息占据了人类获取总信息量的80%以上,因此,当大模型具备了视觉交互能力后,它便拥有了向具身智能和人形机器人结合的重要技术基础。具备视觉交互能力的大模型能够实时与环境互动,并能实时感知世界的变化,是大模型在全面模拟人类能力的重要一步,基于此,大模型才真正超越了虚拟化,能够与世界进行实际的互动,当大模型具备了与现实世界交互的能力后,就将能够借助硬件,如人形机器人等,在人类指令下进行一定程度的真实世界探索。

清言视频通话具备实时推理能力

《每日经济新闻》记者从智谱方面了解到,清言App视频通话功能将于8月30日上线,首批面向清言部分用户开放,同时开放外部申请。智谱方面称,将会持续迭代并逐步放开规模,尽快让全员都可以使用。

随着视频通话功能的上线,清言App开启新的信息输入模式,不再局限于打字、语音;在对话交流层面,不用一来一回,能够实时沟通,随时打断。

智谱方面介绍,清言App的视频通话功能,具有跨文本、音频和视频进行实时推理的能力,可实现更自然的人机交互;AI可以进行流畅的通话,人可以实时打断AI;此外,通过手机或AIPC的摄像头与人互动,可通过视频流理解对话当前的环境(包括人物状态/背景环境)。

智谱方面表示,清言作为第一批C端上线的大模型产品,过去的一年,常常以文字和语音的形式和大家交流。但未来,清言将拥有了眼睛。这个“长着眼睛”的AI精灵可以见你所见、答你所问。

据介绍,清言视频通话跨越了文本模态、音频模态和视频模态,并具备实时推理的能力,用户拨打清言的视频通话窗口,即可与它进行通话,即便频繁打断它也能反应。只要打开摄像头,用户看到的画面,清言也可以看到,同时可以听懂指令并准确执行。

除了视频通话功能上线,在KDD国际数据挖掘与知识发现大会上,智谱GLM团队介绍了新一代基座大模型GLM-4-Plus。GLM-4-Plus是智谱全自研GLM大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。

据悉,GLM-4-Plus在语言理解、指令遵循、长文本处理等方面性能得到全面提升。目前,GLM-4-Plus现已在智谱大模型开放平台部署,企业和开发者即日起可以通过智谱开放平台上的API调用智谱最新的基座大模型。

此外,智谱文生图模型迭代至最新版本CogView-3-Plus。智谱方面表示,该模型效果已接近目前文生图领域效果最佳的MJ-V6及FLUX等模型,并支持图片编辑功能。

继CogVideoX-2B版本开源后,智谱方面表示,CogVideoX-5B版本也于近日正式开源,同时CogVideoX-2B的开源协议调整为更加开放的Apache 2.0协议,任何企业与个人均可自由使用。开源成果方面,智谱开源模型累计下载量突破2000万次。

此外,智谱方面还宣布,随着技术进步、效率提升和成本优化,智谱大模型开放平台上的大模型GLM-4-Flash现已完全免费,用户可以通过调用GLM-4-Flash快速、免费地构建专属模型和应用,这也是智谱开放平台首个完全免费的大模型API。

每日经济新闻

平台声明:该文观点仅代表作者本人,号外财经仅提供信息存储空间服务。发布者:号外财经,转转请注明出处:https://www.qinjiong.com/2024/08/30/15030.html

(0)
号外财经的头像号外财经
上一篇 2024年8月30日 上午10:27
下一篇 2024年8月30日 下午2:38

相关推荐

  • 不求人杯s2云顶vs小黑鸡

    来源:【华声在线】 吴雅敏 甘露 罗文 褚芬 盛夏时节,坐落在云集街道滨河社区的滨丰种养专业合作社火龙果培育基地,一颗颗色泽鲜艳、果形饱满的火龙果挂在藤条上,散发着诱人果香。 △衡南县委主要领导在滨河社区铁炉组参加乡村振兴屋场恳谈会 今年4月19日,衡南县委书记胡果雄在这里召开屋场恳谈会,倾听群众对场地租金、群众务工、基础设施建设等方面的意见建议,鼓励大家走…

    2024年8月16日
    4800
  • 揭秘四川暴热背后真相

    说说四川的热情! 1. 本月的全国高温榜,四川迎来高光时刻,直接与吐鲁番、长江沿线并肩,成为中国新的三大火炉之一,四川盆地的热比吐鲁番还红得发紫,热出了新高度,历史记录都被烤糊了。 2. 最近这段时间,四川盆地里一半以上的城市白天最高温轻松突破四十摄氏度,如宜宾李庄温度直接飙到五十摄氏度以上,热得像蒸笼,气象部门称这是灾害性天气,要小心应对。 3. 更头疼的…

    2024年8月29日
    3500
  • 铁穆臻|毛泽东社会主义政治经济学(3):毛主席读苏联《政治经济学教科书》的批注和谈话中关于社会主义经济学部分的主要内容引读

    在毛泽东的旗帜下,以毛泽东思想为指导,为毛泽东未竟的事业,为毛泽东为我们描绘的共产主义宏图变为现实,团结起来,争取更大胜利!   毛主席全面、创造性的发展了马克思主义政治经济学,创立了毛泽东政治经济学。毛泽东政治经济学科学体系由新民主主义政治经济学和社会主义政治经济学两部分组成,是毛主席的原创性理论贡献。毛泽东政治经济学把马克思主义政治经济学发展到了全新的阶…

    2024年10月11日
    2600
  • 弘景光电IPO过会:信披仍存在疑点,核心技术人员“大换血”

    本文授权来自《中国民商》 作者:尹 燃 编辑:蒋希音 深交所上市审核委员会2024年第17次审议会议于10月14日召开,审议结果显示:广东弘景光电科技股份有限公司(下称:弘景光电)(首发):符合发行条件、上市条件和信息披露要求。 弘景光电主要产品包括智能汽车光学镜头及摄像模组和新兴消费光学镜头及摄像模组,其中智能汽车产品应用于智能座舱、智能驾驶,新兴消费产品…

    2024年11月14日
    1100
  • 深圳一医院肺器官移植引质疑 器官移植是否存在寻租空间?

    近日,深圳市人民医院直升机33分钟运送肺器官,为一位73岁患者实施器官移植的报道引发热议。部分网友质疑,其中是否存在特权寻租,器官移植过程是否有严格监管。   深圳当地7月22日晚间回应称,接受肺移植的73岁患者系退休锅炉电工,移植器官来自中国人体器官分配与共享计算机系统(COTRS)自动匹配。   顶端新闻记者采访多位器官移植专家,解读器官移植的流程和监管…

    2024年7月24日
    5700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信