Arca's Blog

[Paper] LoRA Fine-tuning

似乎已经成为工业界快速针对下游任务进行 SFT 的标准方法了（吗

Triton 编写 Flash Attention

用 Triton 来编写 Flash Attention

cuda 编写 flash attention 算子

ArchLinux 下将 CapsLock 映射到 Escape

换了 Arch Linux 之后，感觉需要用到 vim 的场景也变多了。那么干脆把 CapsLock 映射成 Escape 好了，反正我也基本不怎么用 CapsLock. 我们主要用到一个包 interception-dual-function-...

[Paper] Flash Mask: 在 Flash Attention 上任意掩码以适配不同任务

看 CUDA 代码真是一种享受啊（呕

[Paper] Deepseek FP8 训练方案

Deepseek v3 发布的时候，也披露了其 FP8 训练的 solution 和 pipeline．实际上低精度训练框架的重要性也在日益凸显，毕竟又快又好就是王道．

[Paper] Flash Attention

Attention 计算的新范式，开启了 Attention 的并行化

[Paper] Sage Attention v3

Sage Attention v3，相比之前的两份工作更进一步，提出了 FP4 推理和 INT8 训练框架。

The Second Half of AI

AI 的上半场是基础模型算法的狂欢，Transformer 的爆火引发 LLM 模型算法的演进，但是不过几年的发展似乎已经看到瓶颈了。与之相对的，近年来 LLM 应用端开始走进我们的视野，LLM 逐渐从实验室走向商业企业，其中比较引人注目的应用是 AI Agent，即让 AI 自己进行规划、行动，帮助我们完成目标。但是 AI Agent 有自己的缺陷：它的能力实在是太弱了。本篇文章来自于 OpenAI 科学家（现在是在腾讯了）姚顺雨的博客对 AI 后续发展的看法。

nmcli 配置 HKU WiFi

为什么要搞这么复杂呢？因为刚刚安装的 Arch Linux 根本没有 Network Manager 的 GUI，所以只能自己用 nmcli 手动配置了……

1…8 910