llama.cpp server 端的 API
llama-server 参数
llama-server 参数
流式传输 大模型的 API 通常都支持流式传输。所谓流式传输,就是指将大模型生成的文字拆分成一小块一小块发送过来,比如说每隔 555 秒就发送一次生成的文字,而不是等文字全部生成完毕才一次性全部发送。 这样做的好处在于 langchain lan...
做 Machine Learning 的时候数据量比较多,合适使用 joblib 库,最大化利用 CPU Core,能够大幅减少运行时间
Preface 起因主要是社团……没有车的时候调试个 serial port 十分费劲,甚至根本调试不了写的对不对 所以只能用 socat 开虚拟串口模拟通讯了 socat 安装 安装比较容易,可以直接通过 apt 包管理器安装 1sudo...
Robotics Dataset Scene Concerns real world complex, uncontrollable synthesis quality, diversity, standardization
个人感觉相比以 PyTorch 为基础的服务,llama.cpp 的优势在于并不需要提前分配一块很大的空间给 KV Cache,从而可以运行更大的模型(笔者 8GB 的电脑可以跑得动 1.8B LLM,而 PyTorch/vllm 连很小的模型也跑不了)
requests 需求类似于不希望内部数据上传到其他网页,于是希望在本地同时部署 Embedding Model 和 LLM. 于是,我用 llama-server 同时 serve 了 BGE-m3 和 Deepseek-R1-Distill-L...
吓死我了,我差点以为电脑要重开了,还好只是 gcc 版本问题
网格布局 plt.subplots() 例如,我想将 121212 张 MNIST 图片排列成 333 行 444 列的样子。 使用 fig, axes = plt.subplot() 新建图片,并划分成网格 可以搭配 axes = axes.f...
Password is needed to access the blog.