[Paper] Deepseek FP8 训练方案
Deepseek v3 发布的时候,也披露了其 FP8 训练的 solution 和 pipeline.实际上低精度训练框架的重要性也在日益凸显,毕竟又快又好就是王道.
[Paper] Flash Attention
Attention 计算的新范式,开启了 Attention 的并行化
[Paper] Sage Attention v3
Sage Attention v3,相比之前的两份工作更进一步,提出了 FP4 推理和 INT8 训练框架。
The Second Half of AI
AI 的上半场是基础模型算法的狂欢,Transformer 的爆火引发 LLM 模型算法的演进,但是不过几年的发展似乎已经看到瓶颈了。与之相对的,近年来 LLM 应用端开始走进我们的视野,LLM 逐渐从实验室走向商业企业,其中比较引人注目的应用是 AI Agent,即让 AI 自己进行规划、行动,帮助我们完成目标。但是 AI Agent 有自己的缺陷:它的能力实在是太弱了。本篇文章来自于 OpenAI 科学家(现在是在腾讯了)姚顺雨的博客对 AI 后续发展的看法。
nmcli 配置 HKU WiFi
为什么要搞这么复杂呢?因为刚刚安装的 Arch Linux 根本没有 Network Manager 的 GUI,所以只能自己用 nmcli 手动配置了……