PyTorch ATen 算子体系

InfiniTensor AI Compiler v2.0 整理:GraphBuilder

GraphBuilder 是 AI Compiler 框架中最重要的东西,连接前端的语法和后端的计算引擎,将前端框架的操作转换为底层的、可执行的计算图表示.这篇笔记通过 InfiniTensor 框架来理解一下 AI Compiler 的通常方案

The Raft Consensus Protocol

[Paper] Merge Then Compress:MoE 模型推理前预处理合并重复知识的 Expert

计算平台中的 slurm & srun 简易指南

InfiniTensor AI Compiler v2.0 整理

InfiniTensor_v2.0 是一个支持多硬件后端的张量计算与深度学习推理框架,特别关注于动态形状 (Dynamic Shape) 支持和与前端框架(如 PyTorch)的无缝集成。

Python 与 C/C++ 联合开发(二):Pybind11

恰好在做 InfiniTensor AI Compiler 方向作业的时候,看到 InfiniTensor 是使用 Pybind11 为 Python 提供 C++ 接口的.那么就顺便记录一下吧

NumPy 与 PyTorch 在数据格式上的互转与二进制存储

当我们对模型做低比特量化的时候,总是不可避免地需要将奇奇怪怪的浮点数格式或者整数格式 dump 为二进制文件,方便 C/C++/CUDA 进行读取.PyTorch 可以方便地进行计算,而 NumPy 可以方便地写入二进制进行存储——但很可惜,对于 PyTorch 的一些数据格式,NumPy 是不支持的,所以需要用奇奇怪怪的方法绕过……

NF4 Dequant CUDA Kernel 优化过程 (1)

InfiniTensor CUDA 方向项目之 NF4 反量化算子,算是记录一下 CUDA Kernel 的实现思路与优化历程(然而大部分是 AI 写的)。既然是第一集,就先简单提一下项目背景什么的。

Rust 的智能指针

包括 Box, Rc, Arc, Cow 等等常用指针

1236