Archives - Arca's Blog

2026

03-26MapReduce Architecture

03-25CUDA Multiple GPU

03-25CUDA Data Transmission

03-25CUDA Multi Streaming

03-25Latency Hiding: CUDA Async Pipeline Execution

03-25存算重叠：双缓冲 (Double Buffering) 与多级流水线 (pipelining)

03-25cuda 常用官方库

03-24Rust: Multi-Processing

03-24Concurrency in OS: Instruction Reordering & Memory Model

03-23Rust: 并发编程

03-23Tuning Technique

03-19.pth Model Format of PyTorch

03-18Sage Attention v1,v2,v3 代码梳理 (2):

03-18[Paper] Sage Attention v2 与 v2++

03-18[Paper] Sage Attention v1: 对 Attention 的 INT8 PTQ

03-18[Paper] HO-SFL: Hybrid-Order Split Federated Learning with BP-Free Client and Dimension-Free Aggregation

03-17ReAct Agent 框架

03-17单例模式 (Singleton)

03-17Git Snippets: hard reset + soft reset + merge 清理复杂历史

03-17Git Snippets: 本地合并上游分支

03-16NVIDIA GPU 大学习之 Tensor Core

03-16CUDA 算子优化：Warp Divergence

03-16CUDA 算子优化：ILP

03-16CUDA 算子优化：微指令调优

03-16CUDA 算子优化：PTX

03-16CUDA 算子优化：量化

03-16Design Pattern: Factory Method

03-16ninetoothed: CodeGenerator workflow

03-11Rust Iterators

03-11Rust Trait (3): TryFrom, TryInto

03-11ninetoothed 项目整理

03-10Rust STL (2): Vector

03-10Rust STL (1): HashMap

03-10Rust Trait (2): From, Into

03-10Rust Trait (1): AsRef, AsMut

03-10LLM Inference (1): Chat Server 与流式输出

03-09gflags 简易指南：C++ 命令行参数解析库

03-09模型训练框架：Model Checkpoints

03-09PyTorch 中的 AutoGrad 机制

03-09Activation Checkpointing

03-09ZeRO: Zero Redundancy Optimizer

03-09分布式训练

03-08PyTorch Extension: 算子集成

03-08Sage Attention v1,v2,v3 代码梳理 (1)：INT8 Per-Block Quant Kernel

03-07Bank Conflict

03-07GPU Parallelism: PTX

03-07Memory Alignment & Coalescing

03-07SIMD 优化

03-07Nsight Compute 简易指南

03-07Roofline 模型

03-07cuda-gdb 简易指南

03-07CUDA 查询设备信息

03-07CUDA Technique: Grid-Strided Loop

03-07Nsight Systems 简易指南

03-07CUDA 编译流程

03-07GPU Architecture for CUDA

03-07CUDA Optimization: Swizzling

03-07CUDA Kernel: ArgMax

03-06AI Infra Engineering: Abstraction

03-06Git Snippets: 合并 Commits

03-05PyTorch ATen 算子体系

03-05InfiniTensor AI Compiler v2.0 整理：GraphBuilder

03-05Raft Consensus Protocol

03-05[Paper] Merge Then Compress

03-05计算平台中的 slurm & srun 简易指南

03-04InfiniTensor AI Compiler v2.0 整理

03-04Python 与 C/C++ 联合开发（二）：Pybind11

03-04NumPy 与 PyTorch 在数据格式上的互转与二进制存储

03-03NF4 Dequant CUDA Kernel 优化过程 (1)

03-03Rust 的智能指针

03-01[Paper] QLoRA 解读：LLM 4-bit 方案与双层量化

03-01Arch Linux 下所有 CUDA 开发相关的包

03-01Git Snippets: 先 clone 后下载 submodule

02-26常用分布

02-26Git Snippets: 将原仓库下的新分支同步到自己 fork 的仓库中

02-25Typst 里好用的 package 以及常用设置

02-25在 ArchLinux 上从零构建 RISC-V Linux 并使用 QEMU 进行模拟

02-24Bash Associative Array (Dictionary)

02-23Rust: Crate & Package & Module

02-22Rust 泛型

02-22C++ 智能指针与资源管理

02-22Google C++ 风格指南

02-22Python Decorator

02-22C++ 的 static 关键字

02-21Python 与 C/C++ 联合开发（一）：ctypes 库

02-19[Paper] Does Training with Synthetic Data Truly Protect Privacy?

02-19张量的存储布局、步长以及张量操作的关系

02-19用 Foundry 工具链开发智能合约

02-19Solidity 重要语法

02-18OCaml：基础类型

02-18OCaml：基础语法

02-18Haskell 高级概念总结

02-16Haskell: Applicative

02-16Practical Haskell: Text/ByteString & Web HTTP

02-15Haskell: Monads & Applicative

02-15Haskell: Functors

02-15Haskell 中的 IO

02-15How does Haskell work

02-15Haskell 类型系统

02-15Haskell 基础语法

02-15Git Snippets: 从旧 commit 分叉出新 branch

02-15[Paper] LoRA Fine-tuning

02-15Triton 编写 Flash Attention

02-14cuda 编写 flash attention 算子

02-12ArchLinux 下将 CapsLock 映射到 Escape

02-09[Paper] Flash Mask: 在 Flash Attention 上任意掩码以适配不同任务

02-08[Paper] Deepseek FP8 训练方案

02-08[Paper] Flash Attention

02-07[Paper] Sage Attention v3

02-07The Second Half of AI

02-07nmcli 配置 HKU WiFi