统一时间耗时:
对于这样的形式:
12341.2 ms
2.345 ns
3921 us
0.312 s
使用:
1=LET( t, TRIM(C2), v, VALUE(LEFT(t, FIND(" ", t & " ")-1)), u, MID(t, FIND(" ", t & " ")+1, 10), SWITCH(TRUE, u="ns", v, u="μs", v*1000, u="ms", v*1000000, u="s", v*1000000000, TRUE, v ) )
注意新弄一个单元格,然后把上面的C2重新写成要选择的,就可以解析时间单位,最后统一成ns单位了
最后再扩展和求和就可以了
1.安装依赖包
需要cmake>3.26,和一些package
sudo apt install -y libnuma-dev libssl-dev
12345678wget https://github.com/Kitware/CMake/releases/download/v4.2.2/cmake-4.2.2.tar.gz .
e cmake-*.tar.gz
e cmake-4.2.2.tar.gz
cd cmake-4.2.2
cmake -S . -B build && cmake --build build
cmake --install build
sudo apt install cmake # 卸载系统的cmake
cmake --version
2.编译源码并安装
12cd sgl-kernel
make build
保存每一层 Hidden States
进行精度对比
目标
对比两套不同启动方法的每一层 hidden states
输出,找出精度差异的根源。
方案概述
使用 SGLang 现有的 tensor_dump_forward_hook
机制自动保存所有中间张量,然后使用 dump_comparator
工具进行对比。
关键文件
python/sglang/srt/debug_utils/tensor_dump_forward_hook.py
- 自动保存机制
python/sglang/srt/debug_utils/dump_comparator.py -
对比工具
python/sglang/srt/server_args.py - 命令行参数定义
实现步骤
第一步:准备测试脚本
创建测试脚本 test_hidden_states.py:
123456789101112131415161718import requests
import json
url = "http://localhost:8000/v1/chat/completions"
headers = ...
unicode编码
在python可以使用ord函数查询某个字符的unicode编码,可以chr函数反查
特殊的,chr(0) 就是空字符(NUL)
print打印这个字符是看不到的
repr可以更精细,看到的是’’
123456ord('牛') #29275
chr(29275) #'牛'
chr(0) #'\x00'
print(chr(0)) #
"this is a test" + chr(0) + "string" #'this is a test\x00string'
print("this is a test" + chr(0) + "string")#this is a teststring
NOTE
Q:为什么用UTF-8编码进行tokenizer而不是UTF-16/UTF-32
UTF-32:每个Unicode字符固定4 字节,不管是 a、中、🙂,全部 4
字节,例如 'a' -> 00 00 00 61
'中' -> 00 00 ...
取出指定字段
例如对于
1234{
"abc": "123",
"def": [{ "111": "..." }, { "222": "..." }]
}
可以通过 jq '.def[0]' test.json 取出数组第一个元素:
1# 输出: {"111":"..."}
常用取值方式:
1234567891011# 取出单个字段
jq '.abc' test.json # "123"
# 取出嵌套字段
jq '.def[0]."111"' test.json # "..."
# 取出数组所有元素
jq '.def[]' test.json
# -c 参数压缩输出(单行)
jq -c '.def[0]' test.json > output.json
把当前内容放到一个结构体里构成一个新的json
假如我们已经有了一个:
1234[
{ "role": "system", "content": "有用的助手" },
{ "role": "user", "content": "用户: halo" }
]
希望把上面的内容包装到下面 ...
Qwen3-Next
Piecewise CUDA Graph 支持实现技术文档
文档信息
项目
说明
目标
详细分析 commit
d64bf6c 如何为 Qwen3-Next 模型添加 Piecewise CUDA Graph 支持
Commit
d64bf6c6ce703389cbeaaa44fe5ee3c699397d0d
PR
#13081
日期
2025-11-25
1. 概述
1.1 Commit 目标
为 Qwen3-Next 模型添加 Piecewise CUDA Graph 支持,使其能够在使用
Piecewise CUDA Graph 时获得性能提升。
1.2 修改文件清单
文件
修改内容
行数变化
python/sglang/srt/compilation/backend.py
添加 gdn_with_output 到 SPLIT_OPS
+1
python/sglang/srt/layers/attention/fla/chunk_o.py
修复 uninitialized me ...
SGLang Piecewise
CUDA Graph 实现机制技术文档
文档信息
项目
说明
目标
系统性分析 SGLang 当前的 piecewise
实现机制,形成面向工程实践的技术文档
版本
SGLang 0.5.7
代码路径
python/sglang/srt/compilation/,
python/sglang/srt/model_executor/
1. 设计背景与动机
1.1 解决的问题
CUDA Graph 在动态 shape 场景下的限制
传统 CUDA Graph capture 要求:
输入 tensor 的 shape 必须在编译时确定
Memory layout 必须固定
不支持动态控制流
在 LLM 推理场景中:
输入序列长度(token 数)变化范围大
Batch size 动态变化
不同请求的序列长度差异显著
1.2 使用场景
变长序列推理的核心需求
123请求1: [token1, token2, ..., token16] → 需要 size=16 的 graph
请求2: [toke ...
NOTE
当前调度版本基于sglang tag 0.5.7
SGLang
请求优先级调度机制技术文档
文档概述
本文档系统性地分析了 SGLang (v0.5.7)
中请求优先级调度的实现机制,包括整体架构、配置参数、核心代码实现、以及当前机制的局限性。
一、整体概览
1.1 支持情况
SGLang
支持请求优先级调度,提供了灵活的调度策略和配置选项。
1.2 设计目标
延迟优化: 通过
FCFS、优先级调度等策略降低请求延迟
吞吐优化: 通过
LPM、批处理、缓存感知策略提升系统吞吐量
QoS 支持:
支持显式优先级调度,可抢占低优先级请求
公平性: 在优先级相同的情况下采用 FCFS
保证公平性
内存效率: 基于 RadixAttention
的前缀缓存,最大化内存利用率
1.3 调度层级
12345678910111213141516┌──────────────────────────────────────────────── ...
EAGLE Speculative
Decoding 参数与原理
本文对 EAGLE Speculative Decoding
的核心参数、指标与整体流程进行结构化说明,并结合关键代码位置解释其实现细节。
NOTE
EAGLE原始文档:https://docs.sglang.io/advanced_features/speculative_decoding.html#EAGLE-Decoding
To enable EAGLE speculative decoding the following parameters are
relevant:
speculative_draft_model_path: Specifies draft model.
This parameter is required.
speculative_num_steps: Depth of autoregressive
drafting. Increases speculation range ...
缓存长度必须是 64 的整数倍。如果分叉位置是 300,则缓存位置会回退到
。
如果 当前路径上从未发生分叉 → prefix = 最后一个 64 对齐点
如果 中途发生过分叉 → prefix = 分叉点的最后一个 64 对齐点
CONTENT = “1” * 256 + “2” * 256 # prefix 0
CONTENT = “1” * 256 + “3” * 256 # prefix 0
CONTENT = “1” * 256 + “4” * 256 # prefix 256
CONTENT = “1” * 256 + “2” * 256 + “5” * 256 # prefix 512
CONTENT = “1” * 256 + “4” * 256 + “5” * 256 # prefix 512
CONTENT = “1” * 256 + “3” * 256 + “5” * 256 # prefix 256
CONTENT = “1” * 256 + “3” * 256 # prefix 256
CONTENT = “1” * 256 + “3” * ...









