Knowledge Base — 知识库
架构核心组件知识
核心思想
系统中应该存在一个知识库(Knowledge Base),作为所有内容的统一来源。四个引擎不直接管理原始内容,而是从知识库中获取素材进行加工。
知识库回答的核心问题是:原始知识从哪来、怎么存、怎么找?
知识库的职责
1. 内容摄入(Ingest)
接受多种来源的知识输入:
- 手动录入 — 用户直接编写的素材
- 导入 — 从外部导入文档、文章、书籍摘录、论文
- 抓取 — 从网页、RSS、API 等渠道自动获取
- 转录 — 通过 ASR 将音视频内容转为文本入库
- 对话沉淀 — 从用户与 AI 的对话中提取有价值的知识片段
2. 知识组织(Organize)
不是简单的文件存储,而是结构化的知识管理:
- 原子化 — 将大块内容拆分为最小的、独立的知识单元(原子素材)
- 标签与分类 — 多维度标记每个知识单元
- 关联图谱 — 建立知识单元之间的关联关系(相似、前置、衍生、对立……)
- 版本管理 — 同一知识单元可能随时间更新、演化
3. 知识检索(Retrieve)
为四个引擎提供高效的内容获取能力:
- 语义搜索 — 通过 Embedding 向量实现语义级别的内容检索
- 关联推荐 — 给定一个知识单元,找到相关的其他单元
- 上下文组装 — 根据需求,组装出适当范围的内容包供引擎处理
知识库在架构中的位置
知识来源 系统内部
───────── ─────────
手动录入 ──┐
外部导入 ──┤
网页抓取 ──┼──→ 知识库(Knowledge Base)──→ 四引擎加工 ──→ 重混输出
音视频转录 ┤ │
对话沉淀 ──┘ │
├── 原子素材存储
├── 标签 & 分类
├── 关联图谱
└── 语义索引
知识库是整个系统的上游。没有知识库,四个引擎无米之炊。
与其他引擎的关系
- Semantic Density Engine 的「集成」操作需要从知识库中检索相关内容
- Style Engine 的「创作者风格分析」需要从知识库中获取该创作者的历史作品
- Facilitation Engine 在执行时可能需要补充素材,从知识库中按需拉取
- 重混输出也回流知识库 — 生成的重混版本本身也是知识,可以入库供未来引用
类比
如果四个引擎是一个影视制作团队(剪辑师、编剧、制片、导演),那么知识库就是片场素材库 — 所有拍摄的原始素材、参考资料、历史作品都存放在这里,供团队随时调用。