来源|多知
作者|王上
2012年,郭思祺以猿辅导第8号员工的身份加入团队。从最早的猿题库,到后来的斑马英语、斑马思维、斑马百科,作为猿辅导集团副总裁、斑马百科总经理,他几乎完整参与并推动了中国在线教育内容工业化的全过程。
十四年后,这位兼具技术背景与内容方法论的大厂高管,选择重新回到创业起点,创办北京零帧科技有限公司。这一次,他希望用“程序员”的逻辑,重新拆解并重构影视制作背后的工业化底层。
不同于市面上层出不穷的AI视频创作工具,郭思祺将零帧科技的产品定义为“AI驱动的内容可持续生产引擎”。他不满足于做简单的“文生视频”或单点环节的调优,而是要解决影视工业中的品控与持续产出难题。
这一决策源于他在斑马百科时期受到的技术震撼:当AI参与内容生成后,原本高昂的制作成本竟降至十分之一。“这不再是工具提效,而是生产逻辑的改写。”郭思祺说。
随着字节跳动Seedance 2.0等基模的成熟,AI视频已从“能动”跨越到了“可用”的阶段。
面对这场关乎生产力的范式转移,郭思祺思虑再三,最终下了“破釜沉舟”般的决心。在与多知对话时,他说:"这波浪潮影响太深远,再不出来,可能就真的没机会了。"
01 跨界做AI影视?
郭思祺并不觉得自己是在跨界。相反,他觉得这几乎是一条顺理成章的路径。
这和郭思祺的经历有关,他在北京大学计算机系完成了本硕学业,并于2011年毕业。隔年,他进入猿辅导,他原本是技术,后来转去管理业务,很多年他都在做“内容工业化”。他说:“我一直感兴趣的方向,其实就是技术加内容。”
在外界看来,教育内容似乎天然带着创意属性,但真正规模化的儿童数字内容则依赖工业体系。
在斑马百科,郭思祺带领团队构建了一个标准的工业化生产流程,从脚本、美术、动画到视频,有11个生产环节。而现在,AI恰好能赋能这种高度工业化的流程。
过去,一个内容团队之所以被拆成那么多工种,本质上是因为人的能力边界。做美术的人不会写脚本,做视频的人不懂分镜,动画和实拍是两套完全不同的工业体系。
但AI不一样。“AI几乎是全能的。”因为AI开始同时具备文字、图像、视频、剪辑、分镜等多种能力之后,原本复杂而漫长的内容生产链路,开始被压缩,流程缩短了。
郭思祺过去十几年积累的,恰恰是如何把内容流程拆解成“标准化工业系统”。这也是他为什么会从教育内容走向AI影视。
02 瞄准“AI驱动的内容可持续生产引擎”
如今AI视频赛道已经异常拥挤。几乎每隔一段时间,就会冒出新的产品。
郭思祺觉得,大部分产品其实都停留在“微创新”的阶段。“大部分产品只是把传统单个环节融入了AI。”比如生成图片、生成视频、做剪辑,但这些环节并没有串联起来。
这本质上依然在进行低效的“抽卡”式创作,简单来说,就是由创作者向AI软件反复输入指令、生成素材,再从中筛选出可用镜头,这种方式缺乏对影视专业知识的底层整合,质量也参差不齐。
在他看来,这仍然不是“AI革新电影工业”。“这些AI视频产品懂得怎么调用模型,但并不懂怎么拍电影。”
这是他要做的产品和很多AI视频产品最大的认知差异。
郭思祺想做的,不是一个生成工具,而是一个真正理解影视流程的Agent。他把这个定位叫做AI驱动的内容可持续生产引擎。
在他的描述里,零帧科技的引擎采用Agent协作模式,扮演“执行导演”的角色。
它不只是简单地生成视频,而是参与整个创作流程:剧本、人物关系、镜头语言、风格控制、分镜、一致性校验、后期修改。
郭思祺描绘了一个比较理想的状态:假设一个团队已经做出了前5集电视剧,建立了世界观、人物设定和叙事风格,那么后面95集,AI可以逐渐参与生成,然后就可以连载了。
“有点像养虾。”这是今年春天以OpenClaw为代表的AI Agent 架构爆火后很流行的一个概念:用户可以一边用,一边“训练”一个越来越懂自己的系统。
郭思祺的新产品也是这样,AI会逐渐学习用户的审美、节奏和表达方式,理想状态下未来会自动化生产。这也是他理解中的下一代内容生产方式。
这种“可持续性”意味着内容产出不再依赖于密集的人力堆砌。在理想状态下,原本需要十几二十人的团队才能完成的片子,在零帧科技引擎的辅助下,一两个人便能胜任 。
郭思祺透露,零帧科技的AI视频引擎计划今年6月开放早期版本。
03 “像生成代码一样生成电影”
郭思祺最典型的气质,仍然是工程师。聊到AI电影制作,他最终还是会回到“结构化”。
他现在最核心的一个想法,是把电影“代码化”。他说,“我们想像生成代码一样生成电影。”
在他看来,今天大多数AI视频的问题,本质上都来自“孤立生成”。每一个镜头、每一个视频片段之间,缺少真正的结构关联。所以人物会丢失,场景会变化,剧情会断裂。
但如果电影本身变成一种结构化表达,情况就会不一样。比如:剧本和分镜之间存在依赖关系;角色状态会被持续记录;前面的剧情改动,会自动影响后续镜头;整个片子可以做一致性校验。
郭思祺提出的技术路径是:利用Coding Agent(编码智能体)的逻辑,将每一部电影看作一段复杂的代码进行“编码”生成 。
这样做具有两个优势:
一方面可以实现结构化表达与精准控制,通过代码化的结构约束,可以精准定义每个镜头的分镜、人物动态和光影细节,极大地减少随机性带来的误差。
另一方面可以实现一致性检验与全链路联动,在代码逻辑下,视频环节之间存在明确的语言关联 。一旦创作者修改了前面的剧本设定,系统能迅速识别出后续哪些分镜需要联动修改,从而实现全片的一致性检查,避免了“换个镜头少个人”的低级错误。
零帧科技要做的,就是把这一套极其复杂、原本存在于导演大脑里的“工业流水线”通过技术手段标准化。
过去几个月,AI短剧和AI视频频繁爆火。《霍去病》、“雪山救狐”等各种AI整活视频不断刷屏。
郭思祺认为,这只是AI视频发展早期阶段的一些现象。
他解释,现在一些AI视频,大家看完会觉得新奇,但很难留下情感共鸣。这是因为今天的大部分AI视频,还做不到真正稳定的长叙事,它们更像快切镜头和爽点堆砌。
郭思祺认为,接下来,行业会开始从“卷速度”转向“卷质量”。从拼生成能力,变成拼叙事能力、人物能力和情感能力。
而这也是他真正想做的事情。
郭思祺强调,这件事也并不是自动化就是完美的,人的干预非常重要,零帧科技本质是如何让一个创作者把脑海里的故事,工业化地生产出来。
04 重回创业状态
像当初郭思祺入职猿辅导时的那样,零帧科技目前的初始团队刚好也是8个人,包括同样来自斑马百科获客与增长负责人何邦原、研发负责人胡笑颜等。
对于郭思祺而言,离开高管职位重回创业一线,不仅是为了追逐AI浪潮,更是为了验证技术重塑影视生产力的可能性。
“一切重新开始,很多事情等待建设,这种感觉挺兴奋的。”他笑着说。
虽然AI视频方向看似非常拥挤,但郭思祺的判断是现在还在早期阶段。
在他看来,每一次技术变革都大致分为三个阶段 :
第一是技术创新阶段,核心在于构建技术壁垒,解决影视工业化流程中的标准化难题。 当前正处于这一阶段。
第二是产品创新阶段,随着技术普及,竞争将转向产品的交互体验与用户细节的打磨。
第三是运营与商业化创新阶段,最终阶段将比拼极致的运营效率与商业模式。
他判断,在Seedance 2.0等视频模型跨过“可用”门槛后,一场关于审美与工业化能力的竞赛才刚刚启幕。