[Paper] LoRA Fine-tuning

似乎已经成为工业界快速针对下游任务进行 SFT 的标准方法了(吗

Triton 编写 Flash Attention

用 Triton 来编写 Flash Attention

cuda 编写 flash attention 算子

ArchLinux 下将 CapsLock 映射到 Escape

换了 Arch Linux 之后,感觉需要用到 vim 的场景也变多了。那么干脆把 CapsLock 映射成 Escape 好了,反正我也基本不怎么用 CapsLock. 我们主要用到一个包 interception-dual-function-...

[Paper] Flash Mask: 在 Flash Attention 上任意掩码以适配不同任务

看 CUDA 代码真是一种享受啊(呕

[Paper] Deepseek FP8 训练方案

Deepseek v3 发布的时候,也披露了其 FP8 训练的 solution 和 pipeline.实际上低精度训练框架的重要性也在日益凸显,毕竟又快又好就是王道.

[Paper] Flash Attention

Attention 计算的新范式,开启了 Attention 的并行化

[Paper] Sage Attention v3

Sage Attention v3,相比之前的两份工作更进一步,提出了 FP4 推理和 INT8 训练框架。

The Second Half of AI

AI 的上半场是基础模型算法的狂欢,Transformer 的爆火引发 LLM 模型算法的演进,但是不过几年的发展似乎已经看到瓶颈了。与之相对的,近年来 LLM 应用端开始走进我们的视野,LLM 逐渐从实验室走向商业企业,其中比较引人注目的应用是 AI Agent,即让 AI 自己进行规划、行动,帮助我们完成目标。但是 AI Agent 有自己的缺陷:它的能力实在是太弱了。本篇文章来自于 OpenAI 科学家(现在是在腾讯了)姚顺雨的博客对 AI 后续发展的看法。

nmcli 配置 HKU WiFi

为什么要搞这么复杂呢?因为刚刚安装的 Arch Linux 根本没有 Network Manager 的 GUI,所以只能自己用 nmcli 手动配置了……

18910