InfiniTensor AI Compiler v2.0 整理:GraphBuilder
GraphBuilder 是 AI Compiler 框架中最重要的东西,连接前端的语法和后端的计算引擎,将前端框架的操作转换为底层的、可执行的计算图表示.这篇笔记通过 InfiniTensor 框架来理解一下 AI Compiler 的通常方案
The Raft Consensus Protocol
[Paper] Merge Then Compress:MoE 模型推理前预处理合并重复知识的 Expert
计算平台中的 slurm & srun 简易指南
InfiniTensor AI Compiler v2.0 整理
InfiniTensor_v2.0 是一个支持多硬件后端的张量计算与深度学习推理框架,特别关注于动态形状 (Dynamic Shape) 支持和与前端框架(如 PyTorch)的无缝集成。
Python 与 C/C++ 联合开发(二):Pybind11
恰好在做 InfiniTensor AI Compiler 方向作业的时候,看到 InfiniTensor 是使用 Pybind11 为 Python 提供 C++ 接口的.那么就顺便记录一下吧
NumPy 与 PyTorch 在数据格式上的互转与二进制存储
当我们对模型做低比特量化的时候,总是不可避免地需要将奇奇怪怪的浮点数格式或者整数格式 dump 为二进制文件,方便 C/C++/CUDA 进行读取.PyTorch 可以方便地进行计算,而 NumPy 可以方便地写入二进制进行存储——但很可惜,对于 PyTorch 的一些数据格式,NumPy 是不支持的,所以需要用奇奇怪怪的方法绕过……
NF4 Dequant CUDA Kernel 优化过程 (1)
InfiniTensor CUDA 方向项目之 NF4 反量化算子,算是记录一下 CUDA Kernel 的实现思路与优化历程(然而大部分是 AI 写的)。既然是第一集,就先简单提一下项目背景什么的。
Rust 的智能指针
包括 Box