vLLM 语义路由 (vLLM Semantic Router)
混合模型 (MoM) 的系统级智能 - 一个为 LLM 系统带来集体智能的智能路由层。作为 Envoy 外部处理器 (ExtProc),它使用信号驱动决策引擎和插件链架构来捕获缺失的信号,做出更好的路由决策,并保护您的 LLM 基础设施安全。
项目目标
我们正在为混合模型 (MoM) 构建系统级智能,将集体智能引入 LLM 系统,旨在回答:
- 如何捕获请求、响应和上下文中缺失的信号?
- 如何结合信号以做出更好的决策?
- 如何更高效地协作处理不同模型之间的关系?
- 如何保护现实世界和 LLM 系统免受越狱、PII 泄露和幻觉的影响?
- 如何收集有价值的信号并构建一个自学习系统?
核心架构
信号驱动决策引擎
捕获并结合 6 种类型的信号以做出智能路由决策
| 信号类型 | 描述 | 使用场景 |
|---|---|---|
| keyword (关键词) | 使用 AND/OR 操作符进行模式匹配 | 针对特定术语的快速基于规则的路由 |
| embedding (嵌入) | 使用嵌入的语义相似度 | 意图检测和语义理解 |
| domain (领域) | MMLU 领域分类(14 个类别) | 学术和专业领域路由 |
| fact_check (事实核查) | 基于机器学习的事实核查需求检测 | 识别需要事实验证的查询 |
| user_feedback (用户反馈) | 用户满意度和反馈分类 | 处理后续消息和更正 |
| preference (偏好) | 基于 LLM 的路由偏好匹配 | 通过外部 LLM 进行复杂的意图分析 |
工作原理:从请求中提取信号,在决策规则中使用 AND/OR 操作符进行组合,并用于选择最佳模型和配置。
插件链架构
用于请求/响应处理的可扩展插件系统
| 插件类型 | 描述 | 使用场景 |
|---|---|---|
| semantic-cache (语义缓存) | 基于语义相似度的缓存 | 减少相似查询的延迟和成本 |
| jailbreak (越狱检测) | 对抗性提示检测 | 拦截提示词注入和越狱尝试 |
| pii (隐私信息) | 个人身份信息检测 | 保护敏感数据并确保合规性 |
| system_prompt (系统提示词) | 动态系统提示词注入 | 为每个路由添加上下文感知的指令 |
| header_mutation (头部修改) | HTTP 头部操作 | 控制路由和后端行为 |
| hallucination (幻觉检测) | Token 级幻觉检测 | 生成过程中的实时事实验证 |
工作原理:插件形成处理链,每个插件都可以检查/修改请求和响应,并且每个决策都可以配置启用/禁用。
架构概览
核心优势
智能路由
- 信号融合:结合多种信号(关键词 + 嵌入 + 领域)实现精准路由
- 自适应决策:使用 AND/OR 操作符创建复杂的路由逻辑
- 模型专业化:将数学请求路由到数学模型,代码请求路由到代码模型等
安全与合规
- 多层保护:PII 检测、防越狱、幻觉检测
- 策略执行:特定于模型的 PII 策略和安全规则
- 审计追踪:完整记录所有安全决策
性能与成本
- 语义缓存:相似查询的延迟降低 10-100 倍
- 智能模型选择:简单任务使用小模型,复杂任务使用大模型
- 工具优化:自动选择相关工具以减少 Token 使用量
灵活性与扩展性
- 插件架构:无需修改核心即可添加自定义处理逻辑
- 信号扩展性:为您的使用场景定义新的信号类型
- 配置驱动:无需更改代码即可更改路由行为
使用场景
- 企业 API 网关:具备安全与合规性的智能路由
- 多租户平台:每个租户独立的路由策略和模型选择
- 开发环境:通过智能模型选择优化成本
- 生产服务:具备全面监控的高性能路由
- 受监管行业:支持 PII 检测和审计追踪,满足合规要求
快速链接
文档结构
本文档分为以下几个部分
概述
了解我们的目标、语义路由概念、集体智能和信号驱动决策。
安装与配置
开始安装并了解如何配置信号、决策和插件。
教程
实施智能路由、语义缓存、内容安全和可观测性的分步指南。
贡献
我们欢迎各种贡献!请参阅我们的贡献指南以获取详细信息。
许可证
本项目采用 Apache 2.0 许可证 - 详情请参阅 LICENSE 文件。