🏆研究出版物
🏆
✨
研究出版物
何时推理:针对 vLLM 的语义路由器 (When to Reason: Semantic Router for vLLM)
会议/期刊:NeurIPS - MLForSys
我们提出了一种语义路由器,它可以根据查询的推理需求对其进行分类,并仅在有益时选择性地应用推理。
2025📄 论文
🏆
✨
研究出版物
针对异构 LLM 工作负载的类别感知语义缓存 (Category-Aware Semantic Caching for Heterogeneous LLM Workloads)
我们提出了一种类别感知语义缓存,其中相似性阈值、TTL 和配额随查询类别而变化,并采用混合架构将内存中 HNSW 搜索与外部文档存储分离。
2025📄 论文
🏆
✨
研究出版物
语义推理路由协议 (SIRP)
组织:互联网工程任务组 (IETF)
本文档详细说明了语义推理路由协议 (SIRP),这是一个用于 AI 推理系统中内容级分类和语义路由的框架。
2025📄 论文
🏆
✨
研究出版物
智能体 AI 推理 API 的多提供商扩展 (Multi-Provider Extensions for Agentic AI Inference APIs)
组织:互联网工程任务组 (IETF) - 网络管理研究小组
本文档规定了智能体 AI 推理 API 的多提供商扩展。发布日期:2025 年 10 月 20 日。拟定状态:信息化。到期日期:2026 年 4 月 23 日。
2025📄 论文