.pth Model Format of PyTorch
随笔记一记 PyTorch 里 .pth 格式模型的数据布局
随笔记一记 PyTorch 里 .pth 格式模型的数据布局
第二版 Sage Attention 以及其改良
将低精度方法应用在 Flash Attention 上,computation pattern 和 Flash Attention 是一样的,整体的提速主要来自于低精度计算的提速减去量化的 overhead,当然同时也保证了一定的精度.
隶属于 SFL 的衍生方法,主要结合了 Zeroth-order 训练方法,在 SFL 的背景下,在 client-side 使用 zeroth-order optimization 以及在 server-side 使用 backprop 进行训练,并为其提供理论支持
在 ReAct 之前,Agent 方面的研究基本上都是純粹 reasoning 或者純粹 action.ReAct 框架的貢獻就在於將 reasoning 和 action 結合起來,並依此循環迭代.
单例是一种创建型设计模式,让你能够保证一个类只有一个实例,并提供一个访问该实例的全局节点。
如果没有 AI 帮我清理 commit,感觉就会越拉越大(
首先先将上游仓库添加到 git remote 中 1git remote add upstream [repo_url] 接着 fetch 上游仓库的代码和分支 1git fetch upstream 假设我想将本地分支 A 和原仓库分支 B 进行合...
Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的,从 Volta 架构开始支持.