系统架构总览 — 万物重混的四引擎架构
架构总览核心理念
愿景
一生万象,万物重混。
同一段知识,应该能够以无数种方式呈现 — 不同的深度、不同的风格、不同的形态 — 让每个人都能找到最适合自己的那个版本。
核心问题
一次「重混」需要回答七个问题:
| 问题 | 负责组件 | 类比 |
|---|---|---|
| 原始知识从哪来? | Knowledge Base(知识库) | 片场素材库 |
| 面对这个人,整体策略是什么? | Adaptive Planner(自适应规划引擎) | 私人教学顾问 |
| 说什么、说多少、说多深? | Semantic Density Engine(语义密度引擎) | 剪辑师 |
| 以什么调性和风格说? | Style Engine(风格引擎) | 编剧 & 美术指导 |
| 装进什么载体/形态? | Medium Engine(媒介形态引擎) | 制片部门 |
| 怎么做、调谁来做? | Facilitation Engine(编排引擎) | 导演 |
| 怎么交互和共创? | Remix Stage(重混交互舞台) | 工作坊 |
架构全景
知识来源(手动录入 / 导入 / 抓取 / 转录 / 对话沉淀)
│
▼
┌─────────────────────┐
│ Knowledge Base │
│ 知识库 │
│ │
│ · 原子素材存储 │
│ · 标签 & 分类 │
│ · 关联图谱 │
│ · 语义索引 │
└──────────┬──────────┘
│
┌──────────────────────┼──────────────────────────┐
│ 用户请求 + 学习者画像 │
│ "帮我把这篇论文变成 3 分钟的口语化播客" │
└──────────────────────┬──────────────────────────┘
│
┌──────────────────────┐
│ Adaptive Planner │
│ 自适应规划引擎 │
│ │
│ · 学习者画像理解 │
│ · 重混策略规划 │
│ · 实时自适应调整 │
│ · 长期路径规划 │
└──────────┬───────────┘
│ 策略方案
┌────────────┼────────────┐
▼ ▼ ▼
┌──────────────┐ ┌────────┐ ┌──────────┐
│ Semantic │ │ Style │ │ Medium │
│ Density │ │ Engine │ │ Engine │
│ Engine │ │ │ │ │
│ │ │ │ │ │
│ · 简化 │ │ · 创作者│ │ · 文档类 │
│ · 详细化 │ │ 风格 │ │ · 音频类 │
│ · 抽象化 │ │ · 受众 │ │ · 视觉类 │
│ · 过滤 │ │ 偏好 │ │ · 视频类 │
│ · 集成 ←─────│─│────────│─│── 从知识库│
│ │ │ 维度 │ │ 检索 │
└──────┬───────┘ └───┬────┘ └────┬─────┘
│ │ │
└─────────────┼───────────┘
▼
┌─────────────────────┐
│ Facilitation │
│ Engine │
│ │
│ 编排 & 调度 │
└──────────┬──────────┘
│
┌─────────────┼─────────────┐
▼ ▼ ▼
┌─────────┐ ┌──────────┐ ┌─────────┐
│ LLM │ │ TTS / │ │ 图像 / │
│ 大语言 │ │ ASR │ │ 视频 │
│ 模型 │ │ 语音模型 │ │ 生成 │
└─────────┘ └──────────┘ └─────────┘
│
▼
┌─────────────────────┐
│ 重混输出 (Remix) │
│ │
│ 播客 / PPT / 海报 │
│ 文章 / 视频 / ... │
└─────────┬───────────┘
│
▼
┌─────────────────────┐
│ Remix Stage │
│ 重混展示舞台 │
│ │
│ · 总览面板 │
│ · 沉浸播放器 │
│ (Text/Audio/ │
│ Video/Slide/ │
│ Card/Quiz/ │
│ Chat Player) │
│ · 跨版本导航 │
│ · 智能推荐 │
└─────────┬───────────┘
│
┌───────────┼───────────┐
▼ ▼
用户消费内容 用户行为回流 Style Engine
│
└──→ 回流知识库(重混版本本身也是知识)
数据流:一次重混是怎么发生的
以「帮我把这篇论文变成 3 分钟的口语化播客」为例:
- Knowledge Base 提供原始内容:从知识库中检索论文的原子素材,以及相关联的背景知识
- Semantic Density Engine 分析原文,执行简化:提取核心论点,删去文献综述和方法论细节,将信息压缩到 3 分钟可覆盖的量;如需补充背景,从知识库中集成相关素材
- Style Engine 注入风格:将学术语言转为口语化表达,参考目标受众的偏好画像
- Medium Engine 适配形态:按照播客结构重组内容(开场引入 → 核心观点 → 例子 → 总结),标注语气和节奏
- Facilitation Engine 编排执行:
- 调用 LLM 生成播客脚本
- 调用 TTS 模型将脚本转为语音
- 合成最终音频文件
- 输出:一段 3 分钟的口语化播客音频
- 回流:生成的播客脚本和音频回流知识库,可供后续引用或再次重混
引擎之间的协商
三个「决策引擎」之间不是独立的,它们需要相互协商:
- Medium ↔ Semantic Density — 选了「海报」形态,语义密度必须极高压缩;选了「完整教程」,需要充分展开
- Style ↔ Medium — 选了「学术论文」形态,风格自然偏严谨;选了「短视频」,风格偏活泼
- Semantic Density ↔ Style — 受众是入门者时,简化 + 口语化往往配合出现
Facilitation Engine 在执行时也可能反馈约束(某模型的能力限制),触发决策引擎调整方案。
核心素材一览
| 素材 | 关注点 |
|---|---|
| 学习就是信息的重混 | 为什么要做万物重混 — 核心理念 |
| Knowledge Base | 内容从哪来 — 知识的摄入、组织和检索 |
| Semantic Density Engine | 说多少 — 深度和边界 |
| Style Engine | 什么调性 — 风格和受众 |
| Medium Engine | 什么形态 — 交付载体 |
| Facilitation Engine | 怎么做 — 调度和编排 |
| Adaptive Planner | 面对这个人 — 个性化策略规划 |
| Remix Stage | 怎么交互 — HITL 共创 |