[Paper] Flash Mask: 在 Flash Attention 上任意掩码以适配不同任务

[Paper] Deepseek FP8 训练方案

Deepseek v3 发布的时候,也披露了其 FP8 训练的 solution 和 pipeline.实际上低精度训练框架的重要性也在日益凸显,毕竟又快又好就是王道.

[Paper] Flash Attention

Attention 计算的新范式,开启了 Attention 的并行化

[Paper] Sage Attention v3

Sage Attention v3,相比之前的两份工作更进一步,提出了 FP4 推理和 INT8 训练框架。

The Second Half of AI

AI 的上半场是基础模型算法的狂欢,Transformer 的爆火引发 LLM 模型算法的演进,但是不过几年的发展似乎已经看到瓶颈了。与之相对的,近年来 LLM 应用端开始走进我们的视野,LLM 逐渐从实验室走向商业企业,其中比较引人注目的应用是 AI Agent,即让 AI 自己进行规划、行动,帮助我们完成目标。但是 AI Agent 有自己的缺陷:它的能力实在是太弱了。本篇文章来自于 OpenAI 科学家(现在是在腾讯了)姚顺雨的博客对 AI 后续发展的看法。

nmcli 配置 HKU WiFi

为什么要搞这么复杂呢?因为刚刚安装的 Arch Linux 根本没有 Network Manager 的 GUI,所以只能自己用 nmcli 手动配置了……

1234