Arca's Blog

Radio: Rate-Distortion Optimization for LLM Compression

Propose a framework for analysis on model quantization.

2026-05-14

Sage Attention v3，相比之前的两份工作更进一步，提出了 FP4 推理和 INT8 训练框架。

2026-05-11

第二版 Sage Attention 以及其改良

2026-05-11

将低精度方法应用在 Flash Attention 上，computation pattern 和 Flash Attention 是一样的，整体的提速主要来自于低精度计算的提速减去量化的 overhead，当然同时也保证了一定的精度．

2026-05-11

算法 2-Level (Double) Quantization QLoRA 使用了两阶段量化的方案，我们先来说说量化是怎么个流程，需要保存哪些个变量。 First Level Quantization 对于输入的权重，假设其为大小 R×CR\...

2026-05-11

Focuses on problems in LLM Compression.

2026-05-01