Radio: Rate-Distortion Optimization for LLM Compression
Propose a framework for analysis on model quantization.
Propose a framework for analysis on model quantization.
Sage Attention v3,相比之前的两份工作更进一步,提出了 FP4 推理和 INT8 训练框架。
第二版 Sage Attention 以及其改良
将低精度方法应用在 Flash Attention 上,computation pattern 和 Flash Attention 是一样的,整体的提速主要来自于低精度计算的提速减去量化的 overhead,当然同时也保证了一定的精度.
算法 2-Level (Double) Quantization QLoRA 使用了两阶段量化的方案,我们先来说说量化是怎么个流程,需要保存哪些个变量。 First Level Quantization 对于输入的权重,假设其为大小 R×CR\...
Focuses on problems in LLM Compression.