C/C++ 程序崩溃分析:coredump
无用的小知识 +1 .jpg
无用的小知识 +1 .jpg
做项目需要深入一下 rag.insert() 方法的流程以便复现,虽然大多数的总结性的内容都是由 Claude 3.7 完成的,但还是用一篇文章记录一下整个流程,加深一下印象
学习 Python 和 Javascript 中的异步编程
以 Minimind 为例子,研究如何进行模型预训练
llama-server 参数
流式传输 大模型的 API 通常都支持流式传输。所谓流式传输,就是指将大模型生成的文字拆分成一小块一小块发送过来,比如说每隔 555 秒就发送一次生成的文字,而不是等文字全部生成完毕才一次性全部发送。 这样做的好处在于 langchain lan...
做 Machine Learning 的时候数据量比较多,合适使用 joblib 库,最大化利用 CPU Core,能够大幅减少运行时间
Preface 起因主要是社团……没有车的时候调试个 serial port 十分费劲,甚至根本调试不了写的对不对 所以只能用 socat 开虚拟串口模拟通讯了 socat 安装 安装比较容易,可以直接通过 apt 包管理器安装 1sudo...
个人感觉相比以 PyTorch 为基础的服务,llama.cpp 的优势在于并不需要提前分配一块很大的空间给 KV Cache,从而可以运行更大的模型(笔者 8GB 的电脑可以跑得动 1.8B LLM,而 PyTorch/vllm 连很小的模型也跑不了)
requests 需求类似于不希望内部数据上传到其他网页,于是希望在本地同时部署 Embedding Model 和 LLM. 于是,我用 llama-server 同时 serve 了 BGE-m3 和 Deepseek-R1-Distill-L...