一键部署llama3教程
1 大模型最新排名
2 一键部署llama3
2.1 部署注意事项
部署llama3时,以下是一些需要注意的要点:
- 系统要求:确保你的系统满足llama3运行所需的最低要求。例如,如果llama3是7B大小的模型,则至少需要有8GB的RAM。
- 磁盘空间:llama3模型根据参数的不同大小也不同,需要确保有足够的磁盘空间来存放下载的模型文件。
- 操作系统支持:llama3应当支持你正在使用的操作系统。如果使用Linux, macOS, Windows,需确保能成功运行对应系统中的指令。
- 依赖安装:某些系统可能需要先行安装某些依赖项,例如在macOS上可能需要安装cmake和go。对于依赖项,遵从官方安装指南。
- 网络连接:部署过程中需要下载模型文件,因此确保有稳定的网络连接。
- API权限:如果llama3需要访问外部服务的API,确保这些API的权限已经配置妥当。
- 环境变量:如果llama3的运行需要配置特定的环境变量,请根据文档指导进行设置。
- 安全设置:确保在运行服务时遵循最佳安全实践,特别是在生产环境中。
3 安装方式
macOS
Windows预览版
Linux 使用以下命令安装:
curl -fsSL https://ollama.com/install.sh | sh
手动安装说明
4 Docker
官方的Ollama Docker镜像Ollama Docker image可以在Docker Hub上找到。
5 库
ollama-python ollama-js
6 快速开始
运行并与Llama 3对话:
ollama run llama3
7 模型库
Ollama支持在ollama.com/library上列出一系列可用的模型。
以下是一些可以下载的示例模型:
模型 | 参数 | 大小 | 下载命令 |
---|---|---|---|
Llama 3 | 8B | 4.7GB | ollama run llama3 |
Llama 3 | 70B | 40GB | ollama run llama3:70b |
Mistral | 7B | 4.1GB | ollama run mistral |
Dolphin Phi | 2.7B | 1.6GB | ollama run dolphin-phi |
Phi-2 | 2.7B | 1.7GB | ollama run phi |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
LLaVA | 7B | 4.5GB | ollama run llava |
Gemma | 2B | 1.4GB | ollama run gemma:2b |
Gemma | 7B | 4.8GB | ollama run gemma:7b |
Solar | 10.7B | 6.1GB | ollama run solar |
注意:运行7B模型至少需要8GB的RAM,运行13B模型至少需要16GB的RAM,运行33B模型至少需要32GB的RAM。
8 自定义模型
从GGUF导入 Ollama支持在Modelfile中导入GGUF模型:
创建一个名为Modelfile的文件,使用FROM指令指定想要导入的模型的本地文件路径。
FROM ./vicuna-33b.Q4_0.gguf
在Ollama中创建模型
ollama create example -f Modelfile
运行模型
ollama run example
从PyTorch或Safetensors导入 更多信息见导入模型指南。
9 自定义提示
可以用提示来自定义Ollama库中的模型。例如,自定义llama3模型:
ollama pull llama3
创建Modelfile:
FROM llama3
## 将温度设置为1 [较高的更有创造力,较低的更连贯]
PARAMETER temperature 1
## 设置系统信息
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""
接下来,创建并运行模型:
ollama create mario -f ./Modelfile
ollama run mario
plaintext
>>> hi
Hello! It's your friend Mario.
更多例子,请查看示例目录。要了解更多关于使用Modelfile的信息,请参考Modelfile文档。
10 CLI参考
创建模型
ollama create
用于从Modelfile创建模型。
ollama create mymodel -f ./Modelfile
拉取模型
ollama pull llama3
这个命令也可以用于更新本地模型。只会拉取差异。
移除模型
ollama rm llama3
复制模型
ollama cp llama3 my-model
多行输入 对于多行输入,您可以用三重引号包裹文本:
>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.
多模态模型
>>> What's in this image? /Users/jmorgan/Desktop/smile.png
The image features a yellow smiley face, which is likely the central focus of the picture.
将提示作为参数传入
$ ollama run llama3 "Summarize this file: $(cat README.md)"
Ollama是一个轻量级、可扩展的框架,用于在本地机器上构建和运行语言模型。它提供了一个简单的API来创建、运行和管理模型,以及可以轻松用于多种应用的预构建模型库。
列出您计算机上的模型
ollama list
启动Ollama
ollama serve
在您想启动ollama但不运行桌面应用程序时使用。
11 构建
安装cmake和go:
brew install cmake go
然后生成依赖项:
go generate ./...
然后构建二进制文件:
go build .
开发指南中可以找到更详细的说明。
12 运行本地构建
接下来,启动服务器:
./ollama serve
最后,在另一个shell中,运行模型:
./ollama run llama3
13 REST API
Ollama有一个REST API来运行和管理模型。
生成响应
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt":"Why is the sky blue?"
}'
与模型聊天
curl http://localhost:11434/api/chat -d '{
"model": "llama3",
"messages": [
{ "role": "user", "content": "why is the sky blue?" }
]
}'
查看API文档了解所有端点。
14 docker安装教程
在Windows系统中使用Docker部署Ollama的详细步骤如下:
- 安装Docker:
- 首先,确保你的Windows系统支持Docker,并前往Docker官网下载Docker Desktop for Windows。
- 运行下载的安装文件并遵循安装向导来安装Docker Desktop。
- 启动Docker Desktop,它可能会要求开启Windows的Hyper-V功能和硬件虚拟化支持。
- 配置Docker:
- Docker安装完成后,在系统托盘中找到Docker图标,右键单击并选择"Settings"(设置)。
- 在设置中,确保Docker配置符合用于运行Ollama的要求,特别是在资源分配方面(如CPU和内存)。
- 下载Ollama镜像:
- 打开命令提示符或PowerShell。
- 输入以下命令来从Docker Hub拉取Ollama镜像:
docker pull ollama/ollama
- 运行Ollama容器:
- 使用下面的命令启动一个Ollama容器:
docker run -it --name ollama_container ollama/ollama
- 这里,我们使用了
-it
参数来在交互模式下运行,并且给容器取了一个名字ollama_container
。根据实际情况,您可能还需要指定端口映射或其他配置。
- 使用Ollama:
- 容器启动后,你就可以在其内部运行Ollama的命令了。例如,运行Llama 3模型:
ollama run llama3
- 如果你需要与容器外部的文件系统交互,你可能需要将本地目录挂载到Docker容器中。
- 关闭和管理容器:
- 当你不再需要运行Ollama容器时,可以使用以下命令来停止它:
docker stop ollama_container
- 如果需要再次启动容器,使用:
docker start ollama_container
- 如果你想要删除容器,首先需要停止它,然后运行:
docker rm ollama_container
确保根据Ollama的官方文档调整命令和设置,以符合特定的部署和使用要求。以及,随着项目更新,始终关注并遵循最新的官方部署指南
如果你想快速使用免费的在线Llama3-70b网页版聊天。可以参考这篇文章,汇集多个免费使用入口。