← 返回素材库

Facilitation Engine — 重混编排引擎

架构核心组件AI

核心思想

系统中应该存在一个专门的编排引擎(Facilitation Engine),它不直接生成内容,而是:

  1. 理解需求 — 用户想要什么样的重混?目标格式是什么?
  2. 拆解任务 — 一次重混可能需要多个步骤(例如:先用 LLM 改写文本 → 再用 TTS 生成音频)
  3. 调度模型 — 根据任务类型,调用最合适的模型:
    • LLM(大语言模型)— 文本改写、风格转换、结构重组
    • TTS(文本转语音)— 生成音频版本
    • ASR(语音识别)— 将音频/视频内容转为文本,再进行重混
    • 图像生成模型 — 生成图解、信息图、示意图
    • 视频生成模型 — 未来可能的视频重混
  4. 组合输出 — 将各模型的输出组合成最终的重混版本

为什么需要这一层?

类比

Facilitation Engine 就像一个导演:它不亲自演戏,但它知道每个场景该让谁上场、怎么配合、最终呈现什么效果。