xinference学习笔记之部署本地模型
最近本机部署ragflow的gpu版本,奈何内置BAAI/BAAI/bge-large-zh-v1.5太耗CPU,在服务器上部署时候,发现docker版本太低,因此考虑使用xinference来部署这个模型。
1.模型下载
- (1) 下载指令
>> modelscope download --model <modelname> --local_dir <save-path>
- (2) 示例说明:
# 1.BAAI/bge-large-zh-v1.5
>> modelscope download --model BAAI/bge-large-zh-v1.5 --local_dir ./bge-large-zh-v1.5
# 2.BAAI/bge-reranker-v2-m3
>> modelscope download --model BAAI/bge-reranker-v2-m3 --local_dir ./bge-reranker-v2-m3
2.模型配置
- (1) embedding
{
"model_name": "baai-bge-large-zh-v1.5",
"dimensions": 1024,
"max_tokens": 512,
"language": ["zh"],
"model_id": "BAAI/bge-large-zh-v1.5",
"model_uri": "/path/to/bge-large-zh-v1.5"
}
- (2) rerank
{
"model_name": "baai-bge-reranker-v2-m3",
"type": "normal",
"max_tokens": 512,
"language": ["en", "zh", "multilingual"],
"model_id": "BAAI/bge-reranker-v2-m3",
"model_uri": "/path/to/bge-reranker-v2-m3"
}
3.模型注册
- (1) 注册embedding模型
>> xinference register --model-type embedding --file baai-bge-large-zh-v1.5.json --persist
- (2) 注册rerank模型
>> xinference register --model-type rerank --file ./baai-bge-reranker-v2-m3.json --persist
4.启动模型
- (1) 启动embedding模型
>> xinference launch --model-type embedding --model-name baai-bge-large-zh-v1.5
- (2) 启动rerank模型
>> xinference launch --model-type rerank --model-name baai-bge-reranker-v2-m3