字节豆包直面AI视频降本难题,压力给到了谁?

自Sora横空出世开辟了AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?

10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。

发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。

“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

图片来源:每经记者 杨昕怡 摄

自研多媒体处理框架,豆包直面AI视频降本难题

在9月24日的火山引擎AI创新巡展上,豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。

10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。

据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多。”

计算机科学家Matthias Plappert的研究也显示,Sora的训练对算力规模的要求巨大,在训练环节大约需要在4200~10500张NVIDIA H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。

为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

拿到AI视频时代的“船票”之后,去向何方?

AI正全方位重塑着人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。

今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,“AI六小龙”之一的MiniMax发布了视频生成模型video-1;9月,可灵AI完成第9次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型??AI视频产品的诞生和迭代几乎是以月来计时的。

对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。

目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。

与此同时,工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为AI视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频。”

在他看来,现阶段AI视频产品主要有算力和合规风险两方面的主要障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释。

此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期。”

AI视频的时代来到了,但这注定是一个长坡厚雪的赛道,如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的不变命题。

每日经济新闻

平台声明:该文观点仅代表作者本人,号外财经仅提供信息存储空间服务。发布者:号外财经,转转请注明出处:https://www.qinjiong.com/2024/10/17/22263.html

(0)
号外财经的头像号外财经
上一篇 2024年10月17日 上午10:33
下一篇 2024年10月17日 上午10:34

相关推荐

  • 王今朝:关于平等的基本理论

    中国社会存在的严重的不平等问题已经引起了中央和社会的广泛关注。关注平等性问题是重要的,但是不能脱离阶级来看待平等。   【原编者按】中国社会存在的严重的不平等问题已经引起了中央和社会的广泛关注。关注平等性问题是重要的,但是不能脱离阶级来看待平等。脱离经济的平等话语可能把好事办成坏事。一个社会关注平等问题,应该首先关注这个社会是否出现了收入分配的分化。按照马克…

    2024年11月15日
    1600
  • 时隔一年凑齐了两个自己

    “我失骄杨君失柳,杨柳轻飏直上重霄九。问讯吴刚何所有,吴刚捧出桂花酒。” 这是毛泽东主席于1957年5月创作的一首诗词,名为《蝶恋花·答李淑一》。 其中的“我失骄杨君失柳”,寄托了毛泽东对夫人杨开慧的无限深情, 包括对亲密的战友柳直荀烈士的深刻怀念。 1920年,杨开慧与毛泽东结为连理。婚后,杨开慧共生下三个儿子,分别为毛岸英、毛岸青、毛岸龙。 1930年1…

    2024年9月10日
    2900
  • 我的鼻孔会唱歌

    呼吸器官是由口腔,鼻腔,咽喉,气管,支气管,肺部,胸腔膈肌又称横膈膜,腹肌等组成。气息从口、鼻吸入以后,经过咽喉,气管,支气管、分布到肺,再经过咽喉,从口,鼻呼出。吸气时我们用横膈膜来控制气息,我们日常的呼吸比较平静比较浅。用不着使用全部的肺活量,但唱歌时的呼吸运动就不同了,吸气动作很快,呼气动作很慢,如果遇到较长的乐句,气息就必须坚持住,而一首歌曲的高低、…

    2024年9月6日
    4700
  • 港股收评:恒指涨0.13%恒生科指跌0.2%!环保股领涨,东江环保涨超20%;内房股纷纷走低,世茂集团跌近8%

    8月12日消息,今日港股三大指数涨跌不一,截至收盘,恒生指数涨0.13%,报17111.65点,恒生科技指数跌0.20%,国企指数涨0.20%。盘面上,科网股涨跌互现,联想涨超2%,哔哩哔哩跌近7%;环保股全天涨幅居前,东江环保(002672)涨超20%;煤炭股涨势活跃,中煤能源(601898)涨超2%;内房股纷纷走低,世茂集团跌近8%。 环保股全天涨幅居前…

    2024年8月12日
    4900
  • 老人急病离世 藏了15万的床垫被扔了 网友:拾金不昧的品质更显珍贵

      近日,在广东韶关市始兴县,一位普通的保洁员张相远在日常工作时,切割废旧床垫以方便运输的过程中,意外发现了藏匿其中的15万元人民币现金。面对这笔意外之财,张相远没有产生任何私心,而是立即决定寻找失主。   经过一系列努力,张相远最终成功找到了床垫的原主人林某。据了解,林某的父亲因突发急病去世,家人在不知情的情况下将这个藏有钱款的床垫丢弃。对于张相远的诚实行…

    2024年8月25日
    5200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信