跳转至主要内容

vLLM Semantic Router v0.1 Iris:首个重大版本发布

·阅读时间 1 分钟
Xunzhuo Liu
智能路由 @vLLM

我们非常激动地宣布 vLLM Semantic Router v0.1(代号 Iris) 正式发布——这是我们的首个重大版本,标志着智能 LLM 路由发展中的一个变革性里程碑。自 2025 年 9 月发布实验版本以来,我们见证了社区的非凡成长:合并了超过 600 个拉取请求(PR),解决了 300 多个 Issue,并吸引了全球 50 多位杰出工程师的贡献。

在希腊神话中,Iris(伊里斯)是沟通神界与凡间的使者,她踏着彩虹跨越遥远的距离传递信息。这一象征意义完美契合了 vLLM Semantic Router v0.1 的使命:作为连接用户与各种 AI 模型的桥梁,智能地在不同 LLM 供应商和架构之间路由请求。

同步自 vLLM 官方博客:vLLM Semantic Router v0.1 Iris:首个重大版本发布

banner


AMD × vLLM Semantic Router:共同构建系统智能

·阅读时间 1 分钟
Xunzhuo Liu
智能路由 @vLLM

在过去的几个月里,AMD 与 vLLM SR 团队一直致力于将 vLLM Semantic Router (VSR) 引入 AMD GPU——这不仅是一项性能优化,更是我们对 AI 系统架构思考的一次根本性转变。

AMD 一直是 vLLM 社区的长期技术合作伙伴,从在 AMD GPU 和 ROCm™ 软件上加速 vLLM 推理引擎,到现在共同构建 AI 技术栈的下一层:针对模型混合(Mixture-of-Models, MoM)系统的智能路由和治理。

同步自 vLLM 官方博客:AMD × vLLM Semantic Router:共同构建系统智能

banner


Token 级的真相:生产级 LLM 的实时幻觉检测

·阅读时间 1 分钟
Xunzhuo Liu
智能路由 @vLLM
Huamin Chen
杰出工程师 @ Red Hat

你的 LLM 刚刚调用了一个工具,收到了准确的数据,但给出的答案仍然是错的。欢迎来到“外源性幻觉”的世界——在这种情况下,模型会自信地忽略摆在它们面前的客观事实(Ground Truth)。

基于我们的“信号-决策”架构,我们推出了 HaluGate——一个条件化的、Token 级的幻觉检测流水线,它能在不支持的声明到达用户之前将其拦截。无需“LLM-as-judge”,无需 Python 运行时,只需在交付点进行快速、可解释的验证。

同步自 vLLM 官方博客:Token 级的真相:生产级 LLM 的实时幻觉检测

banner


信号-决策驱动架构:重塑大规模语义路由

·阅读时间 1 分钟
Xunzhuo Liu
智能路由 @vLLM

早期版本的 vLLM Semantic Router 依赖于基于分类的路由。这是一种直接的方法,即将用户查询归类为 14 个 MMLU 领域类别之一,然后路由到相应的模型。虽然这在基础场景下行之有效,但在为企业构建生产级 AI 系统时,我们很快就发现了它的局限性。

同步自 vLLM 官方博客:信号-决策驱动架构:重塑大规模语义路由

banner


语义工具选择:利用上下文感知路由构建更智能的 AI Agent

·阅读时间 11 分钟
Xunzhuo Liu
智能路由 @vLLM
Huamin Chen
杰出工程师 @ Red Hat

Anthropic 最近发布了一篇关于 使用 MCP 进行代码执行 的深度博客,强调了现代 AI 系统面临的一个关键挑战:随着 Agent 连接的工具越来越多,预先加载所有工具定义变得越来越低效。他们的解决方案——使用代码执行按需加载工具——展示了成熟的软件工程模式如何显著提高 Agent 的效率。

这与我们构建 vLLM Semantic Router 的经验产生了深刻共鸣。我们从另一个角度观察到了同样的问题:当 AI Agent 可以访问成百上千个工具时,它们如何知道哪些工具与特定任务相关?

我们的解决方案:语义工具选择——在请求到达 LLM 之前,利用语义相似度为每个用户查询自动选择最相关的工具。

tools

从单体到模块化:利用可扩展 LoRA 实现语义路由的规模化

·阅读时间 9 分钟
Ivar Flakstad
机器学习 @ Hugging Face
OneZero-Y
LLM 推理
Huamin Chen
杰出工程师 @ Red Hat
Xunzhuo Liu
智能路由 @vLLM

语义路由系统面临着规模化挑战。当每个分类请求都需要独立运行多个微调模型时,计算成本随模型数量线性增长。本文探讨了 vLLM Semantic Router 基于 Rust 的分类层最近的重构如何通过架构模块化、低秩自适应(LoRA)和并发优化来解决这一问题。

同步自 vLLM 官方博客

背景:从 BERT 到模块化系统

之前的实现主要依赖 BERT 和 ModernBERT 进行意图识别和越狱分类。虽然 ModernBERT 在英语文本分类任务中表现良好,但它存在以下局限性:

  • 语言覆盖范围:与在更多样化数据集上训练的模型相比,原始 ModernBERT 的多语言支持有限。(注:mmBERT 是 ModernBERT 的大规模多语言变体,支持 1800 多种语言,在本次重构开始后发布,代表了解决多语言挑战的另一种途径)
  • 上下文长度:虽然 ModernBERT 使用 RoPE 将上下文扩展到 8,192 个 token(来源),但像 Qwen3-Embedding 这样的模型支持高达 32,768 个 token,这对于处理长文档非常有益
  • 模型耦合:分类逻辑与特定的模型架构紧密耦合,导致难以添加新模型

这些限制促使了更广泛的重构,使系统能够支持多种模型类型,同时保持性能。模块化架构意味着像 mmBERT 这样的新模型可以与 Qwen3-Embedding 和 EmbeddingGemma 一起集成,从而允许路由器的为每个任务选择最合适的模型。

架构重组

modular

Semantic Router 2025 年第四季度路线图:迈向 Iris 之旅

·阅读时间 15 分钟
Xunzhuo Liu
智能路由 @vLLM
Huamin Chen
杰出工程师 @ Red Hat
Chen Wang
高级主任研究科学家 @ IBM
Yue Zhu
主任研究科学家 @ IBM

随着 2025 年接近尾声,我们很高兴分享 vLLM Semantic Router 的 2025 年第四季度路线图。本季度标志着我们项目演进中的一个重要里程碑,因为我们正在筹备首个重大版本发布:v0.1,代号“Iris”,预计将在 2025 年底至 2026 年初发布。

iris