19亿次互动背后：AI如何成为春晚“新主？角”？

更新时间：2026-02-19 07:24 来源：牛马见闻

全家老少5人，这是我家的年夜饭,全家五口人

大回暖将持续至21日我国大部雨雪稀少天气干燥

高市早苗当选日本新任首相,高市早苗当选日本首相的概率

春晚来了两位抗倭英雄！一位是戚继光，一位是他,抗倭英雄戚继光歌词

千问官方提醒：目前免单卡买天猫超市、盒马更顺畅,天猫免单活动规则

这届春晚�互动不再只抢红包舞台上的视觉奇观�可能是这届春晚最

（文/刘(媛媛编辑/周远方） 今年春！晚，很多人会发现一件事：舞台上的画面，跟以前不太一样了。 徐悲鸿的《六骏图》大家都不陌生，但这回，六匹马真的在屏幕上跑了起来，还是带着水墨质感的跑法；《贺花神》节目中，蜀葵花一点点绽放，花瓣上的光影变化都能看得清清楚楚；更绝的是，演员刘浩存跳舞时，好几个她同时出现在舞台上，仔细看那些“分身”的影子，居然能随着现场灯光实时变化…… 这不再是传统的舞台特效，而是AI大模型第一次大规模“上岗”国家级晚会的内容创作。字节跳动带着豆包大模型家族，还有火山引擎，参与了春晚好几个节目的创作。从怎么让画面动起来，到怎么把真人变成3D数字分身，再到机器人和演员对话时的声音和语气，背后都有AI在干活。 舞台上是这样，舞台下也有变化。 当主持人让大家打开豆包App的时候，很多人可能没意识到，这和往年也不一样了。以往春晚互动就是摇一摇、抢红包。但这次，大家拿起手机是为了让AI给自己画张新春头像，或者让它帮忙写段拜年文案。 一个惊人的数据是：除夕当天，豆包AI互动总次数达到了19亿，“豆包过年”活动在除夕帮助用户生成了超过5000万张新春主题头像、超过1亿条新春祝福。生成式AI真正走进了大众日常。 这届春晚，“AI味儿”很浓，不只是舞台背后的技术支撑，也成了每个人手机里的新年俗。 舞台上的“赛博朋克”，幕后是技术“神仙打架” 如果要问今年春晚最让人印象深刻的是什么，大部分观众可能会说：AI生成的内容，不模糊了，不乱动了，甚至有“电影感”了。 在《驭风歌》节目里，徐悲鸿的《六骏图》就活了起来。这不是简单的让马跑起来，水墨画的特点是笔触和墨韵，稍微处理不好，要么变成普通的动画片，要么水墨感全无。此前，很多国际领先的视频生成模型，都难以理解中国水墨画的构图和逻辑，生成的视频容易出现变形。 字节跳动的视频生成模型Seedance 2.0接了这个活。它得先“看懂”什么是水墨画，理解留白和泼墨的东方味道，然后才能让六匹马在保持原作风韵的前提下，完成奔跑、转身、腾空这些动作。 更麻烦的是，长镜头里六匹马的数量不能变，细节不能丢，还得按导演规划的路线走，相当于让AI一边画画一边守规矩。最后字节跳动结合自研的图像创作模型Seedream 4.5和视频生成模型Seedance2.0成功将导演的艺术构想变为现实。 到了《贺花神》，挑战又换了一个维度。蜀葵花绽放的镜头，包含了花枝生长、泼墨、运镜三种不同速度的变化。花朵慢慢打开时，纹理、层次、光影的细微变化，哪怕有一帧出了问题，在8K大屏上都会被放大。 这已经不是“能生成”就够用了，得“能精控”。Seedance 2.0硬是把这种微观细节扛了下来，让AI视频从“能看”进化到了“经得起特写”。 更让人惊叹的是《梦底》节目。好几个刘浩存同时在台上跳舞，关键是那些“分身”不是提前录好的。镜头转到侧面，能看到侧脸的轮廓；舞台灯光一变，她们身上的光影和影子也跟着变。 这背后的技术叫空间视频，简单说就是把真人拍成4D数字资产，然后实时渲染进舞台。制作过程听起来像科幻片：70台工业级高分辨率相机从不同角度同时捕捉演员的每一个动作，数据传到云端重建出4D模型，再导入游戏引擎，根据现场的灯光和导播信号实时渲染。 为了让十几个高精度数字人同台不卡顿，豆包3D模型还给演员生成了一个看不见的“几何外壳”，专门用来计算影子，大幅降低了渲染压力。 “虚实难辨”的背后，是AI技术在“神仙打架”，有的负责理解东方美学，有的专攻细节控制，有的搞定实时渲染。最后从“后台辅助线”走到了舞台正中央，成了艺术创作的一部分。 当AI开始“占据”双手，互动不再只抢红包 舞台上的视觉奇观，可以说是宏观的“想象力基建”，手机里的互动，则是微观的“指尖魔法”。相信不少人记忆中的春晚互动还停留在“全家上阵摇手机，看谁手快抢到红包”，那么今年画风完全变了。 当主持人念出“打开豆包App”的口播后，用户面对的不再是一个简单的“开”按钮，而是一个可以对话的“创意伙伴”。 如果想要一个马年头像，上传一张自己的照片，AI实时就能生成，有水墨风格的、有剪纸风格的、还有赛博朋克风的；如果想要一段与众不同的拜年文案，告诉豆包你想对谁说，几秒钟内，一段饱含深情或幽默诙谐的文字便跃然屏上。 这种变化，表面上看是互动形式的改变，本质上却是技术逻辑的颠覆。 以前的抢红包就是“取货”，服务器里提前存好了几百万个红包，用户点一下，它就掏出一个。结果是固定的、有限的，系统要做的只是在高并发的时候别崩。这是一种典型的“I/O密集型”工作，考验的是服务器的读写速度和网络带宽。 但今年的AI互动，完全换了玩法。每一次让AI画头像、写祝福，它都不是从仓库里取东西，而是当场给用户“造”一个。过程需要先听懂用户想要什么，然后调用不同的模型，最后生成一个从来没有存在过的内容。这是一种“计算密集型”工作，考验的是大模型的推理能力、算力的调度水平。 两种模式差了多少？简单来说，通过大模型生成祝福语和祝福图片的方式，单一请求消耗算力要远远高于摇一摇等传统的红包互动形式。 据字节跳动统计，除夕当晚21时46分，也就是主持人宣布第二轮互动之后的那一分钟，豆包大模型的推理吞吐量达到了633亿tokens。相当于那一瞬间，数以亿计的人同时在向同一个云端大脑发出“给我画匹马”“帮我写拜年文案”的请求，而那个大脑也在那一秒里，给每一个人都现做了一个独有的内容。 所以，今年的春晚互动，少了几分紧张感，多了几分新鲜感。大家不再盯着倒计时等红包，而是凑在一起研究AI画的头像像不像自己，或者比一比谁让AI写的祝福更有意思。 从这个角度说，科技公司从“发钱”变成了“赋能”。当AI开始“占据”用户的双手，它不再是屏幕那头的工具，而成了一个能陪你玩、帮你想、替你写的伙伴。 从听得见到看得见，科技的温度藏在细节里 舞台上的视觉奇观和手机里的AI互动，可能是这届春晚最显眼的变化。但如果仔细看，还有一些变化藏在不起眼的角落里，却实实在在地影响着一部分人的观看体验。 今年抖音春晚直播间，第一次上线了全程实时无障碍字幕。这意味着什么？对于听障群体来说，往年的语言类节目是一场“默片”，他们能看到演员在台上手舞足蹈，能看到现场观众笑得前仰后合，却抓不住那个让所有人爆笑的“金句”到底是什么。 这个问题的技术难度其实很高。小品和相声现场，背景音是密集的掌声、笑声，甚至还有音效干扰。传统的语音识别系统一到这种环境，准确率就直线往下掉。再加上演员偶尔蹦出的方言、突然加速的语速、还有那些谐音梗和双关语，想让机器在这种条件下把每个字都听准，不是件容易的事。 字节跳动的豆包语音识别模型2.0（Seed ASR 2.0）这次接了这个活。它的特点是把语音识别从“听懂文字”升级到了“看懂场景”，通过理解画面的上下文，结合对话的历史信息，来识别演员到底说了什么。就算现场再吵，演员带点口音，字幕依然能做到同步呈现。 同样受益的还有那些返乡路上的人。高铁穿过隧道时的信号起伏，机场候机大厅的人声鼎沸，家庭聚会时电视声和聊天声混在一起，这些场景下，打开字幕就成了“理解校准器”不错过任何一个包袱。 除了字幕，舞台上还有一个“有温度”的细节。在节目《奶奶的最爱》里，松延动力的Bumi机器人跟演员有大量的对话互动。如果仔细听会发现，这个机器人的声音不是那种冷冰冰的机械朗读，而是有语气、有停顿、甚至有点情绪在里面。 这是因为它搭载了豆包语音合成模型2.0。这个模型的特点是“对话式合成”，它不只是把文本念出来，而是能理解多轮对话的上下文，知道用户问的是什么，甚至能根据场景调整语气。比如，演员跟它开玩笑，它能接住；演员语气变快，它也能跟上。 从无障碍字幕到会聊天的机器人，这些细节可能没有《六骏图》奔腾那么吸睛，也没有AI生成头像那么热闹。但它们恰恰说明一件事：技术真正的好，不是炫技，而是让更多人能平等地享受同一份快乐。 结语：AI正在成为新的“年俗催化剂” 从1983年第一届春晚至今，除夕夜的娱乐方式经历了从看电视、到聊QQ/微信、再到抢红包的多次变迁。而2026年，我们或许正在见证一个“AI全面入驻”新节点的诞生。 19亿次互动，是19亿次用户与AI的“握手”。这背后，字节跳动旗下的火山引擎方舟平台顶住了洪峰般的算力需求，通过跨机房调度、秒级扩容、分布式缓存加速等技术，让机器思考变得更顺畅。 这届春晚，“AI味儿”很浓。但浓得恰到好处，因为它让古老的年俗，在数字时代有了新的载体。

编辑：周俞辰