Skip to main content

ollama

caution
  • Support tools in OpenAI-compatible API #4386
brew install ollama # macOS brew

# 启动服务端
# OLLAMA_KV_CACHE_TYPE 0.5+
OLLAMA_FLASH_ATTENTION=1 OLLAMA_KV_CACHE_TYPE=q4_0 ollama serve

ollama run mistral # 运行模型
ollama list

# https://hub.docker.com/r/ollama/ollama
docker run --rm -it \
-v $PWD/data:/root/.ollama \
-p 11434:11434 \
ollama/ollama \
--name ollama

ollama pull qwen2:7b # 中文相对好点

# vision
ollama pull llama3.2-vision:11b
#ollama pull llama3.2-vision:90b
envdefaultdesc
OLLAMA_DEBUG显示额外的调试信息
OLLAMA_HOST127.0.0.1:11434Ollama 服务器的 IP 地址
OLLAMA_KEEP_ALIVE"5m"模型在内存中保持加载的持续时间
OLLAMA_MAX_LOADED_MODELS1最大加载模型数量
OLLAMA_MAX_QUEUE最大排队请求数量
OLLAMA_MODELS模型目录的路径
OLLAMA_NUM_PARALLEL1最大并行请求数量
OLLAMA_NOPRUNE启动时不修剪模型 blobs
OLLAMA_ORIGINS允许的来源列表,以逗号分隔
OLLAMA_TMPDIR临时文件的位置
OLLAMA_FLASH_ATTENTION启用 Flash Attention
OLLAMA_LLM_LIBRARY设置 LLM 库以绕过自动检测
OLLAMA_MAX_VRAM最大显存(VRAM)

API

curl -X POST http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt":"Why is the sky blue?"
}'