gogongxt

发表于2026-01-152026-01-15

NOTE 当前调度版本基于sglang tag 0.5.7 SGLang 请求优先级调度机制技术文档文档概述本文档系统性地分析了 SGLang (v0.5.7) 中请求优先级调度的实现机制，包括整体架构、配置参数、核心代码实现、以及当前机制的局限性。一、整体概览 1.1 支持情况 SGLang 支持请求优先级调度，提供了灵活的调度策略和配置选项。 1.2 设计目标延迟优化: 通过 FCFS、优先级调度等策略降低请求延迟吞吐优化: 通过 LPM、批处理、缓存感知策略提升系统吞吐量 QoS 支持: 支持显式优先级调度，可抢占低优先级请求公平性: 在优先级相同的情况下采用 FCFS 保证公平性内存效率: 基于 RadixAttention 的前缀缓存，最大化内存利用率 1.3 调度层级 12345678910111213141516┌──────────────────────────────────────────────── ...

note

大模型

sglang

未读

eagle参数配置

发表于2026-01-142026-01-14

EAGLE Speculative Decoding 参数与原理本文对 EAGLE Speculative Decoding 的核心参数、指标与整体流程进行结构化说明，并结合关键代码位置解释其实现细节。 NOTE EAGLE原始文档：https://docs.sglang.io/advanced_features/speculative_decoding.html#EAGLE-Decoding To enable EAGLE speculative decoding the following parameters are relevant: speculative_draft_model_path: Specifies draft model. This parameter is required. speculative_num_steps: Depth of autoregressive drafting. Increases speculation range ...

note

大模型

sglang

未读

qwen3next-all

发表于2026-01-132026-01-15

缓存长度必须是 64 的整数倍。如果分叉位置是 300，则缓存位置会回退到。如果当前路径上从未发生分叉 → prefix = 最后一个 64 对齐点如果中途发生过分叉 → prefix = 分叉点的最后一个 64 对齐点 CONTENT = “1” * 256 + “2” * 256 # prefix 0 CONTENT = “1” * 256 + “3” * 256 # prefix 0 CONTENT = “1” * 256 + “4” * 256 # prefix 256 CONTENT = “1” * 256 + “2” * 256 + “5” * 256 # prefix 512 CONTENT = “1” * 256 + “4” * 256 + “5” * 256 # prefix 512 CONTENT = “1” * 256 + “3” * 256 + “5” * 256 # prefix 256 CONTENT = “1” * 256 + “3” * 256 # prefix 256 CONTENT = “1” * 256 + “3” ...

note

大模型

nanosglang

未读

8-多模态模型加载和适配

发表于2026-01-112026-01-11

支持新模型： https://docs.vllm.ai/en/v0.6.3/models/adding_model.html# https://docs.sglang.io/supported_models/support_new_models.html#how-to-support-a-new-language-model 多模态大语言模型推理原理与实现基于 nano-sglang 框架的多模态模型处理机制多模态模型概述多模态模型的核心思想是将不同模态的数据映射到统一的语义空间，然后利用语言模型进行理解和生成： 123456789101112131415┌─────────────┐ ┌─────────────┐ ┌──────────────┐ │ 文本输入 │ ──→ │ Tokenizer │ ──→ │ Token Embed │ ├─────────────┤ ├─────────────┤ ├──────────────┤ │ 图像输入 │ ──→ │ Vision Enc │ ...

note

大模型

未读

准确测试cuda代码执行性能

发表于2026-01-062026-01-06

NOTE 参考自文章：https://blog.speechmatics.com/cuda-timings 强烈推荐大家去阅读原文 GPU 算子性能测试优化点总结优化点核心原理解决的问题主机-设备同步 (Host-Device Sync) CUDA 核函数是异步执行的。CPU 只是把任务丢进队列就继续往下跑了。避免只测到了“分发任务”的时间，而不是“执行任务”的时间。 CUDA Events 在 GPU 指令流中插入“时间戳”标记，由 GPU 硬件直接记录。减少 CPU 侧 perf_counter 带来的系统调用开销和内核启动（Launch）干扰。预热 (Warmup) 排除 JIT 编译、cudnn 算子自动选择（autotune）、显存重新分配和延迟加载等一次性开销。避免初次运行的巨大延迟拉高平均值，使数据更符合稳定运行状态。固定时钟频率 (Fixed Clocks) 现代 GPU ...

note

大模型

nanosglang

未读

7-AWQ算子

发表于2026-01-052026-01-05 sglang

AWQ算子实现目标 AWQ算子本质上就是实现一个矩阵乘输入 A: 正常的连续内存 [M, K]。输入 B: 高度int4压缩。水平方向（N）打包了 bit，垂直方向（K）按 group_size 进行了分块量化。输出 C: 正常的连续内存 [M, N] 如下图所示： graph TD subgraph Input_A [输入矩阵 A: 激活值] A_data["形状: [M, K] 类型: float16/bfloat16 (连续内存排布)"] end subgraph Input_B [输入矩阵 B: 量化权重] direction TB subgraph B_Storage [存储结构] QW["qweight [K, N/8] int32 (打包 8个 4-bit)"] QZ["qzeros [K/G, N/8] i ...

note

大模型

nanosglang

未读

6-AWQ量化模型推理

发表于2026-01-032026-01-06 sglang

NOTE 对一个推理框架来说，要推理一个量化后的模型，会需要知道几件事情: 怎么知道这是一个量化模型怎么知道这个模型量化了哪些层具体是怎么多态实现到量化上的量化的算子计算实现是什么后续的内容都是以llama2-7b-awq举例，其它模型或者量化方法本质上都是相似的怎么知道这是一个量化模型观察config.json可以看到里面有quantization的配置： 123456789101112131415161718192021222324252627282930313233343536LlamaConfig { "architectures": [ "LlamaForCausalLM" ], "attention_bias": false, "attention_dropout": 0.0, "bos_token_id": 1, "dtype": "float16", "eos_token_i ...

未读

加群

发表于2026-01-012026-05-18

直接扫码加群如果过期了可以评论区留言，我会更新后回复

note

大模型

未读

pd分离最佳配比实验方法

发表于2025-12-292026-03-26 sglang

概述在 PD（Prefill-Decode）分离架构中，Prefill 和 Decode 的性能是完全独立的。TTFT（Time To First Token）和 TPOT（Time Per Output Token）的指标完全取决于输入/输出吞吐和具体的机器配比。本文介绍如何分别测试和确定 Prefill 与 Decode 的最佳性能配比。测试 Prefill 性能测试原理 Prefill 性能测试相对简单，因为 Decode 性能通常会远强于 Prefill 性能，因此只需要一个普通的 Decode 节点即可。测试方法设置 Decode 节点：启动一个普通的 Decode 节点配置 Bench 参数：输出长度设置为 1 这样可以完整包含 Prefill 的计算和 PD 传输过程设置合理的并发数示例配置：输入：8k tokens 输出：1 token 并发：128 这样可以通过测试计算出 Prefill 最大的 RPS（Requests Per Second）。多组测试维度建议进行多组测试以找到最佳配置：不同卡数：8 卡、16 卡等 ...

note

other

未读

端口扫描

发表于2025-12-272025-12-27

使用nmap扫描指定服务器所有端口安装nmap： ubuntu: sudo apt install nmap macos: brew install nmap 123nmap <IP地址> nmap -p 1-1000 <IP地址> # 扫描指定端口 nmap -Pn <IP地址> # 没有响应 ICMP ping 请求，或者被防火墙阻止了，使用这个扫描