大家好,我是何三,独立开发者

说实话,看到 Pixelle-Video 的时候,我第一反应是:这玩意儿是真的吗?

输入一个主题——比如「为什么要养成阅读习惯」——然后它自动给你把文案写了、配图画了、语音录了、BGM 配了,最后合成一个完整的短视频。

全程不需要你碰任何剪辑软件。

10.9k Star(近 1.1 万),GitHub 上已经炸了。

你想啊,以前做一条短视频你得干多少活:写脚本、找素材、做配图、录音、剪辑、加字幕……每个环节都得专门的人来搞。现在呢?输入一句话,等几分钟,视频就出来了。

这不叫效率提升,这叫砸饭碗。

这东西是怎么做到的?

说白了,就是给 AI 搭了一条流水线。

Pixelle-Video 的核心架构基于 ComfyUI,把视频制作拆成了五个环节:

Pixelle-Video 全自动视频生成流程

文案生成 → 配图/视频生成 → 语音合成 → 背景音乐 → 最终合成

每个环节都是独立的「原子能力」,你可以换掉任意一个组件。

比如你想换 LLM?支持 GPT、通义千问、DeepSeek,甚至本地跑 Ollama。想换生图模型?把 ComfyUI 工作流从默认的换成 FLUX 就行。

说白了,这就是个乐高积木式的视频工厂。

说到这个,我突然想起 MoneyPrinterTurbo 那个项目——也是输入主题自动出视频的思路。但 Pixelle-Video 比它更进一步,把整个流程做得更模块化,还支持数字人口播、图生视频、动作迁移这些进阶玩法。

视频展示

说回正题啊。

实操一下,到底有多简单?

我直接试了 Windows 整合包版本,真的就是下载→解压→双击 start.bat,浏览器自动打开。

然后我在「⚙️ 系统配置」里填了个通义千问的 API Key(免费的额度完全够用),图像那边我选的本地 ComfyUI。

左侧输入框打了一行字:

为什么我们还没有找到外星文明?

点了一下「🎬 生成视频」按钮。

界面

接下来发生了什么?

进度条开始跑:生成文案中 → 分镜1/5 生成插图 → 分镜2/5 → ... → 合成语音 → 合成视频。

大概等了 3 分多钟(取决于你的显卡和网络),一个完整的竖屏短视频就出来了。有配音、有配图、有字幕、有 BGM。

说实话,第一次看到成品的时候,我真愣了一下。

不过有一点得吐槽一下——默认的配图风格偏写实,你如果不说清楚想要什么风格,AI 生成出来的图可能会有点……怎么说呢,就是那种一眼 AI 的感觉。好在你可以在提示词前缀里调,比如改成 Minimalist black-and-white matchstick figure style illustration,效果就好多了。

文档这块,写得很详细,但有些地方还是得自己摸索。比如自定义模板怎么搞,官方的说明有点简略——不过有现成的十几个模板可以选,够用了。

它跟市面上其他项目比怎么样?

同类项目我其实关注了好几个:

  • MoneyPrinterTurbo(2.4k Star):老牌视频生成工具,功能相对基础
  • NarratoAI(2.8k Star):偏影视解说方向
  • MoneyPrinterPlus:也是做视频创作平台的

Pixelle-Video 的优势在哪?

一是 模块化:基于 ComfyUI 架构,你想换什么组件就换什么组件,不像其他项目绑死了某个模型。

二是 功能全面:不只能做图文视频,还能做数字人口播、图生视频、甚至动作迁移(上传一段跳舞视频,把动作迁移到你自己的图片上)。

三是 成本可控:全部用本地模型的话,真的零成本。用通义千问的话,一天生成几十个视频也就几毛钱。

适合谁用?

这个我实话实说:

  • 想做短视频但不会剪辑的普通人 → 非常适合,这就是为你准备的
  • 内容创作者 / 自媒体人 → 能大幅提效,批量生产内容
  • 专业剪辑师 → 说实话,暂时还威胁不到你。AI 生成的视频在画面一致性和创意上还有差距,但做素材参考、快速出初稿,完全够用

怎么上手?

项目地址在这里: 👉 https://github.com/AIDC-AI/Pixelle-Video

两种方式:

Windows 用户:直接下整合包,解压双击 start.bat,省心。

macOS / Linux 用户:从源码安装

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

前提是装好 uvffmpeg,README 里都有详细的安装说明。

配置好 API Key 就能开始玩了。

一点点小总结

AI 视频生成这玩意儿,去年还觉得是玩具,今年已经能真的用了。

Pixelle-Video 让我看到了一个趋势——视频创作正在变得跟打字一样简单。你不需要学剪辑、不需要学设计、不需要学配音,你只需要有想表达的欲望。

说实话,这块我也没完全搞懂所有原理,ComfyUI 的工作流配置文件看起来还是挺复杂的,但你不需要懂这些也能用,这就是它厉害的地方。

本文使用 MGO 编辑并发布

关注"何三笔记",回复"mgo" 免费下载使用