MirrorYuChen
MirrorYuChen
Published on 2025-04-29 / 13 Visits
0
0

xinference学习笔记之部署本地模型

xinference学习笔记之部署本地模型

​ 最近本机部署ragflow的gpu版本,奈何内置BAAI/BAAI/bge-large-zh-v1.5太耗CPU,在服务器上部署时候,发现docker版本太低,因此考虑使用xinference来部署这个模型。

1.模型下载

  • (1) 下载指令
>> modelscope download --model <modelname> --local_dir <save-path>
  • (2) 示例说明:
# 1.BAAI/bge-large-zh-v1.5
>> modelscope download --model BAAI/bge-large-zh-v1.5 --local_dir ./bge-large-zh-v1.5
# 2.BAAI/bge-reranker-v2-m3
>> modelscope download --model BAAI/bge-reranker-v2-m3 --local_dir ./bge-reranker-v2-m3

2.模型配置

  • (1) embedding
{
    "model_name": "baai-bge-large-zh-v1.5",
    "dimensions": 1024,
    "max_tokens": 512,
    "language": ["zh"],
    "model_id": "BAAI/bge-large-zh-v1.5",
    "model_uri": "/path/to/bge-large-zh-v1.5"
}
  • (2) rerank
{
    "model_name": "baai-bge-reranker-v2-m3",
    "type": "normal",
    "max_tokens": 512,
    "language": ["en", "zh", "multilingual"],
    "model_id": "BAAI/bge-reranker-v2-m3",
    "model_uri": "/path/to/bge-reranker-v2-m3"
}

3.模型注册

  • (1) 注册embedding模型
>> xinference register --model-type embedding --file baai-bge-large-zh-v1.5.json --persist
  • (2) 注册rerank模型
>> xinference register --model-type rerank --file ./baai-bge-reranker-v2-m3.json --persist

4.启动模型

  • (1) 启动embedding模型
>> xinference launch --model-type embedding --model-name baai-bge-large-zh-v1.5 
  • (2) 启动rerank模型
>> xinference launch --model-type rerank --model-name baai-bge-reranker-v2-m3 

5.参考资料


Comment