← 返回素材库

系统架构总览 — 万物重混的四引擎架构

架构总览核心理念

愿景

一生万象,万物重混。

同一段知识,应该能够以无数种方式呈现 — 不同的深度、不同的风格、不同的形态 — 让每个人都能找到最适合自己的那个版本。

核心问题

一次「重混」需要回答七个问题:

问题负责组件类比
原始知识从哪来?Knowledge Base(知识库)片场素材库
面对这个人,整体策略是什么?Adaptive Planner(自适应规划引擎)私人教学顾问
说什么、说多少、说多深?Semantic Density Engine(语义密度引擎)剪辑师
以什么调性和风格说?Style Engine(风格引擎)编剧 & 美术指导
装进什么载体/形态?Medium Engine(媒介形态引擎)制片部门
怎么做、调谁来做?Facilitation Engine(编排引擎)导演
怎么交互和共创?Remix Stage(重混交互舞台)工作坊

架构全景

  知识来源(手动录入 / 导入 / 抓取 / 转录 / 对话沉淀)


            ┌─────────────────────┐
            │   Knowledge Base    │
            │   知识库             │
            │                     │
            │   · 原子素材存储      │
            │   · 标签 & 分类      │
            │   · 关联图谱         │
            │   · 语义索引         │
            └──────────┬──────────┘

┌──────────────────────┼──────────────────────────┐
│          用户请求 + 学习者画像                      │
│  "帮我把这篇论文变成 3 分钟的口语化播客"             │
└──────────────────────┬──────────────────────────┘

            ┌──────────────────────┐
            │   Adaptive Planner   │
            │   自适应规划引擎       │
            │                      │
            │   · 学习者画像理解     │
            │   · 重混策略规划       │
            │   · 实时自适应调整     │
            │   · 长期路径规划       │
            └──────────┬───────────┘
                       │ 策略方案
          ┌────────────┼────────────┐
          ▼            ▼            ▼
  ┌──────────────┐ ┌────────┐ ┌──────────┐
  │  Semantic    │ │ Style  │ │  Medium  │
  │  Density     │ │ Engine │ │  Engine  │
  │  Engine      │ │        │ │          │
  │              │ │        │ │          │
  │ · 简化       │ │ · 创作者│ │ · 文档类 │
  │ · 详细化     │ │   风格  │ │ · 音频类 │
  │ · 抽象化     │ │ · 受众  │ │ · 视觉类 │
  │ · 过滤       │ │   偏好  │ │ · 视频类 │
  │ · 集成 ←─────│─│────────│─│── 从知识库│
  │              │ │   维度  │ │   检索   │
  └──────┬───────┘ └───┬────┘ └────┬─────┘
         │             │           │
         └─────────────┼───────────┘

            ┌─────────────────────┐
            │   Facilitation      │
            │   Engine            │
            │                     │
            │   编排 & 调度        │
            └──────────┬──────────┘

         ┌─────────────┼─────────────┐
         ▼             ▼             ▼
    ┌─────────┐  ┌──────────┐  ┌─────────┐
    │  LLM    │  │  TTS /   │  │  图像 /  │
    │ 大语言   │  │  ASR     │  │  视频    │
    │ 模型     │  │  语音模型 │  │  生成    │
    └─────────┘  └──────────┘  └─────────┘


            ┌─────────────────────┐
            │   重混输出 (Remix)   │
            │                     │
            │   播客 / PPT / 海报  │
            │   文章 / 视频 / ...  │
            └─────────┬───────────┘


            ┌─────────────────────┐
            │   Remix Stage       │
            │   重混展示舞台       │
            │                     │
            │   · 总览面板         │
            │   · 沉浸播放器       │
            │     (Text/Audio/    │
            │      Video/Slide/   │
            │      Card/Quiz/     │
            │      Chat Player)   │
            │   · 跨版本导航       │
            │   · 智能推荐         │
            └─────────┬───────────┘

          ┌───────────┼───────────┐
          ▼                       ▼
    用户消费内容          用户行为回流 Style Engine

                              └──→ 回流知识库(重混版本本身也是知识)

数据流:一次重混是怎么发生的

以「帮我把这篇论文变成 3 分钟的口语化播客」为例:

  1. Knowledge Base 提供原始内容:从知识库中检索论文的原子素材,以及相关联的背景知识
  2. Semantic Density Engine 分析原文,执行简化:提取核心论点,删去文献综述和方法论细节,将信息压缩到 3 分钟可覆盖的量;如需补充背景,从知识库中集成相关素材
  3. Style Engine 注入风格:将学术语言转为口语化表达,参考目标受众的偏好画像
  4. Medium Engine 适配形态:按照播客结构重组内容(开场引入 → 核心观点 → 例子 → 总结),标注语气和节奏
  5. Facilitation Engine 编排执行:
    • 调用 LLM 生成播客脚本
    • 调用 TTS 模型将脚本转为语音
    • 合成最终音频文件
  6. 输出:一段 3 分钟的口语化播客音频
  7. 回流:生成的播客脚本和音频回流知识库,可供后续引用或再次重混

引擎之间的协商

三个「决策引擎」之间不是独立的,它们需要相互协商

Facilitation Engine 在执行时也可能反馈约束(某模型的能力限制),触发决策引擎调整方案。

核心素材一览

素材关注点
学习就是信息的重混为什么要做万物重混 — 核心理念
Knowledge Base内容从哪来 — 知识的摄入、组织和检索
Semantic Density Engine说多少 — 深度和边界
Style Engine什么调性 — 风格和受众
Medium Engine什么形态 — 交付载体
Facilitation Engine怎么做 — 调度和编排
Adaptive Planner面对这个人 — 个性化策略规划
Remix Stage怎么交互 — HITL 共创