← 返回素材库

Facilitation Engine — 重混编排引擎

2026/2/5

架构核心组件AI

核心思想

系统中应该存在一个专门的编排引擎（Facilitation Engine），它不直接生成内容，而是：

理解需求 — 用户想要什么样的重混？目标格式是什么？
拆解任务 — 一次重混可能需要多个步骤（例如：先用 LLM 改写文本 → 再用 TTS 生成音频）
调度模型 — 根据任务类型，调用最合适的模型：
- LLM（大语言模型）— 文本改写、风格转换、结构重组
- TTS（文本转语音）— 生成音频版本
- ASR（语音识别）— 将音频/视频内容转为文本，再进行重混
- 图像生成模型 — 生成图解、信息图、示意图
- 视频生成模型 — 未来可能的视频重混
组合输出 — 将各模型的输出组合成最终的重混版本

为什么需要这一层？

解耦 — 内容创作逻辑与具体模型实现分离，模型可以随时替换升级
灵活 — 同一个重混请求，可以根据需要组合不同的模型管线
智能 — 引擎本身可以判断最佳的重混策略，而不是让用户手动选择每一步
可扩展 — 新的模型类型（如未来的触觉、AR等）可以作为新的模块接入

类比

Facilitation Engine 就像一个导演：它不亲自演戏，但它知道每个场景该让谁上场、怎么配合、最终呈现什么效果。