Radio: Rate-Distortion Optimization for LLM Compression

Propose a framework for analysis on model quantization.

Optimization/Compression Optimization/Quantization/Low Bit

Sage Attention v3

Sage Attention v3,相比之前的两份工作更进一步,提出了 FP4 推理和 INT8 训练框架。

Attention Study/Low Bit Optimization/Quantization/Low Bit

Sage Attention v2 与 v2++

第二版 Sage Attention 以及其改良

Attention Study/Low Bit Optimization/Quantization/Low Bit

Sage Attention v1: 对 Attention 的 INT8 PTQ

将低精度方法应用在 Flash Attention 上,computation pattern 和 Flash Attention 是一样的,整体的提速主要来自于低精度计算的提速减去量化的 overhead,当然同时也保证了一定的精度.

Attention Study/Low Bit Optimization/Quantization/Low Bit

QLoRA 解读:LLM 4-bit 方案与双层量化

算法 2-Level (Double) Quantization QLoRA 使用了两阶段量化的方案,我们先来说说量化是怎么个流程,需要保存哪些个变量。 First Level Quantization 对于输入的权重,假设其为大小 R×CR\...

Post Training/SFT Optimization/Quantization/Low Bit

LeSTD: Learning-Based Sparse Tensor Decomposition

Focuses on problems in LLM Compression.

Optimization/Compression