基于OpenVINO创建文本生成AI服务器
1. 首先根据[官方文档](https://docs.openvino.ai/nightly/model-server/ovms_docs_deploying_server_baremetal.html)里的这条命令下载
curl -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.3/ovms_windows_python_on.zip -o ovms.zip
tar -xf ovms.zip
2. 运行这条命令 `.\ovms\setupvars.bat`
3. 运行这条命令启动模型服务
ovms.exe --source_model OpenVINO/Qwen3-0.6B-fp16-ov --model_repository_path models --rest_port 8000 --task text_generation --target_device GPU --cache_size 2
首次运行的话会下载指定的模型,时间可能需要有点长,等待下载完之后下次运行的时候就会自动使用了。如果你要使用别的模型的话,你就更改里面的`OpenVINO/Qwen3-0.6B-fp16-ov`这个部分就可以;如果要以CPU或NPU模式运行的话,就把里面的GPU换掉就好。
4. 测试模型是否可以成功使用的话可以使用如下这条命令,注意端口和模型名称要和你的对应
curl -s http://localhost:8000/v3/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "OpenVINO/Qwen3-0.6B-fp16-ov",
"temperature": 0,
"stream": false,
"messages": [
{ "role": "system", "content": "You are a helpful assistant. /no_think" },
{ "role": "user", "content": "What are the 3 main tourist attractions in Paris" }
]
}'