gogongxt

网站

other

note

other

tutorials

os-elephant

env

website

大模型

python

terminal

git

linux

nas

nvim

tmux

hexo

nanosglang

sglang

kitty

alacritty

markdown_demo

models

router

qwen3

最新未读

sglang-overlap

发表于2026-03-182026-03-18

Mini-SGLang Overlap Scheduler 原理详解在 LLM 推理系统中，CPU 侧的调度开销（接收请求、准备 batch、处理结果）往往会拖慢 GPU 的计算效率。Mini-SGLang 通过 Overlap Scheduling 将 CPU 处理和 GPU 计算重叠执行，把 CPU 瓶颈藏进 GPU 计算的空闲时间里。核心问题传统调度器的执行模式是这样的： sequenceDiagram participant CPU participant GPU CPU->>CPU: 接收请求、准备batch CPU->>GPU: 发送任务 GPU->>GPU: 执行推理 (100ms) GPU-->>CPU: CPU同步等待返回结果 CPU->>CPU: 处理结果问题在于：GPU 推理时 CPU 在等待，CPU 处理结果时 GPU 在等待。双方无法充分利用。 Overlap Scheduler 的解法 Mini-SGLang 使用双 ...

未读

sglang-attention

发表于2026-02-132026-03-04

以nano-sglang举例子下面以llama2-7b来说，apply*chat_template是在开头加上<s>* 输入”12345” 就是 <s>_12345，对应input_ids是[1, 29871, 29896, 29906, 29941, 29946, 29945] prefill 我们第一遍先发送”12345”，那么[1, 29871, 29896, 29906, 29941, 29946, 29945]就会被cache住第二遍发送”1234512345”，就是cache了7个token，要extend5个 req.input_ids = [1, 29871, 29896, 29906, 29941, 29946, 29945, 29896, 29906, 29941, 29946, 29945] 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162 ...

未读

sglang投机采样mtp

发表于2026-02-102026-02-12

投机采样参数配置启动sglang时添加以下参数： 1234567891011# deepseek --speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 # qwen3-next --speculative-algorithm NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 注意有一些参数校验： NEXTN和EAGLE是相同的算法当前版本投机采样不支持scheduler的overlap speculative_num_draft_tokens是要和speculative_eagle_topk/speculative_num_steps关联的，不能乱填 123456789101112131415161718192021222324252627282930 ...

未读

excel

发表于2026-01-292026-01-29

统一时间耗时：对于这样的形式： 12341.2 ms 2.345 ns 3921 us 0.312 s 使用： 1=LET( t, TRIM(C2), v, VALUE(LEFT(t, FIND(" ", t & " ")-1)), u, MID(t, FIND(" ", t & " ")+1, 10), SWITCH(TRUE, u="ns", v, u="μs", v*1000, u="ms", v*1000000, u="s", v*1000000000, TRUE, v ) ) 注意新弄一个单元格，然后把上面的C2重新写成要选择的，就可以解析时间单位，最后统一成ns单位了最后再扩展和求和就可以了

未读

从源码编译安装sgl-kernel

发表于2026-01-232026-01-23

1.安装依赖包需要cmake>3.26，和一些package sudo apt install -y libnuma-dev libssl-dev 12345678wget https://github.com/Kitware/CMake/releases/download/v4.2.2/cmake-4.2.2.tar.gz . e cmake-*.tar.gz e cmake-4.2.2.tar.gz cd cmake-4.2.2 cmake -S . -B build && cmake --build build cmake --install build sudo apt install cmake # 卸载系统的cmake cmake --version 2.编译源码并安装 12cd sgl-kernel make build

未读

调试精度dump-tensor

发表于2026-01-232026-01-27

保存每一层 Hidden States 进行精度对比目标对比两套不同启动方法的每一层 hidden states 输出，找出精度差异的根源。方案概述使用 SGLang 现有的 tensor_dump_forward_hook 机制自动保存所有中间张量，然后使用 dump_comparator 工具进行对比。关键文件 python/sglang/srt/debug_utils/tensor_dump_forward_hook.py - 自动保存机制 python/sglang/srt/debug_utils/dump_comparator.py - 对比工具 python/sglang/srt/server_args.py - 命令行参数定义实现步骤第一步：准备测试脚本创建测试脚本 test_hidden_states.py： 123456789101112131415161718import requests import json url = "http://localhost:8000/v1/chat/completions" headers ...

未读

cs336-01-bpe编码

发表于2026-01-222026-03-18

unicode编码在python可以使用ord函数查询某个字符的unicode编码，可以chr函数反查特殊的，chr(0) 就是空字符（NUL） print打印这个字符是看不到的 repr可以更精细，看到的是’’ 123456ord('牛') #29275 chr(29275) #'牛' chr(0) #'\x00' print(chr(0)) # "this is a test" + chr(0) + "string" #'this is a test\x00string' print("this is a test" + chr(0) + "string")#this is a teststring NOTE Q:为什么用UTF-8编码进行tokenizer而不是UTF-16/UTF-32 UTF-32：每个Unicode字符固定4 字节，不管是 a、中、🙂，全部 4 字节，例如 'a' -> 00 00 00 61 '中' -> 00 ...

未读

jq使用

发表于2026-01-212026-01-21

取出指定字段例如对于 1234{ "abc": "123", "def": [{ "111": "..." }, { "222": "..." }] } 可以通过 jq '.def[0]' test.json 取出数组第一个元素： 1# 输出: {"111":"..."} 常用取值方式： 1234567891011# 取出单个字段 jq '.abc' test.json # "123" # 取出嵌套字段 jq '.def[0]."111"' test.json # "..." # 取出数组所有元素 jq '.def[]' test.json # -c 参数压缩输出（单行） jq -c '.def[0]' test.json > output.json 把当前内容放到一个结构体里构成一个新的json 假如我们已经有了一个： 1234[ { "role": "system", "content": "有用的助手" }, { "role": "user", "content": "用户: halo" } ] 希望把上面的内容包装 ...

未读

2-qwen3-next支持piecewisegraph

发表于2026-01-192026-01-19

Qwen3-Next Piecewise CUDA Graph 支持实现技术文档文档信息项目说明目标详细分析 commit d64bf6c 如何为 Qwen3-Next 模型添加 Piecewise CUDA Graph 支持 Commit d64bf6c6ce703389cbeaaa44fe5ee3c699397d0d PR #13081 日期 2025-11-25 1. 概述 1.1 Commit 目标为 Qwen3-Next 模型添加 Piecewise CUDA Graph 支持，使其能够在使用 Piecewise CUDA Graph 时获得性能提升。 1.2 修改文件清单文件修改内容行数变化 python/sglang/srt/compilation/backend.py 添加 gdn_with_output 到 SPLIT_OPS +1 python/sglang/srt/layers/attention/fla/chunk_o.py 修复 uninitialized ...

未读

1-piecewise实现原理

发表于2026-01-192026-01-19

SGLang Piecewise CUDA Graph 实现机制技术文档文档信息项目说明目标系统性分析 SGLang 当前的 piecewise 实现机制，形成面向工程实践的技术文档版本 SGLang 0.5.7 代码路径 python/sglang/srt/compilation/, python/sglang/srt/model_executor/ 1. 设计背景与动机 1.1 解决的问题 CUDA Graph 在动态 shape 场景下的限制传统 CUDA Graph capture 要求：输入 tensor 的 shape 必须在编译时确定 Memory layout 必须固定不支持动态控制流在 LLM 推理场景中：输入序列长度（token 数）变化范围大 Batch size 动态变化不同请求的序列长度差异显著 1.2 使用场景变长序列推理的核心需求 123请求1: [token1, token2, ..., token16] → 需要 size=16 的 graph 请求2: [t ...