一键部署llama3教程
1 大模型最新排名
2 一键部署llama3
2.1 部署注意事项
部署llama3时,以下是一些需要注意的要点:
- 系统要求:确保你的系统满足llama3运行所需的最低要求。例如,如果llama3是7B大小的模型,则至少需要有8GB的RAM。
- 磁盘空间:llama3模型根据参数的不同大小也不同,需要确保有足够的磁盘空间来存放下载的模型文件。
- 操作系统支持:llama3应当支持你正在使用的操作系统。如果使用Linux, macOS, Windows,需确保能成功运行对应系统中的指令。
- 依赖安装:某些系统可能需要先行安装某些依赖项,例如在macOS上可能需要安装cmake和go。对于依赖项,遵从官方安装指南。
- 网络连接:部署过程中需要下载模型文件,因此确保有稳定的网络连接。
- API权限:如果llama3需要访问外部服务的API,确保这些API的权限已经配置妥当。
- 环境变量:如果llama3的运行需要配置特定的环境变量,请根据文档指导进行设置。
- 安全设置:确保在运行服务时遵循最佳安全实践,特别是在生产环境中。
3 安装方式
macOS
Windows预览版
Linux 使用以下命令安装:
|
|
手动安装说明
4 Docker
官方的Ollama Docker镜像Ollama Docker image可以在Docker Hub上找到。
5 库
ollama-python ollama-js
6 快速开始
运行并与Llama 3对话:
|
|
7 模型库
Ollama支持在ollama.com/library上列出一系列可用的模型。
以下是一些可以下载的示例模型:
模型 | 参数 | 大小 | 下载命令 |
---|---|---|---|
Llama 3 | 8B | 4.7GB | ollama run llama3 |
Llama 3 | 70B | 40GB | ollama run llama3:70b |
Mistral | 7B | 4.1GB | ollama run mistral |
Dolphin Phi | 2.7B | 1.6GB | ollama run dolphin-phi |
Phi-2 | 2.7B | 1.7GB | ollama run phi |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
LLaVA | 7B | 4.5GB | ollama run llava |
Gemma | 2B | 1.4GB | ollama run gemma:2b |
Gemma | 7B | 4.8GB | ollama run gemma:7b |
Solar | 10.7B | 6.1GB | ollama run solar |
注意:运行7B模型至少需要8GB的RAM,运行13B模型至少需要16GB的RAM,运行33B模型至少需要32GB的RAM。
8 自定义模型
从GGUF导入 Ollama支持在Modelfile中导入GGUF模型:
创建一个名为Modelfile的文件,使用FROM指令指定想要导入的模型的本地文件路径。
|
|
在Ollama中创建模型
|
|
运行模型
|
|
从PyTorch或Safetensors导入 更多信息见导入模型指南。
9 自定义提示
可以用提示来自定义Ollama库中的模型。例如,自定义llama3模型:
|
|
创建Modelfile:
|
|
接下来,创建并运行模型:
|
|
plaintext
|
|
更多例子,请查看示例目录。要了解更多关于使用Modelfile的信息,请参考Modelfile文档。
10 CLI参考
创建模型
ollama create
用于从Modelfile创建模型。
|
|
拉取模型
|
|
这个命令也可以用于更新本地模型。只会拉取差异。
移除模型
|
|
复制模型
|
|
多行输入 对于多行输入,您可以用三重引号包裹文本:
|
|
|
|
多模态模型
|
|
|
|
将提示作为参数传入
|
|
|
|
列出您计算机上的模型
|
|
启动Ollama
ollama serve
在您想启动ollama但不运行桌面应用程序时使用。
11 构建
安装cmake和go:
|
|
然后生成依赖项:
|
|
然后构建二进制文件:
|
|
开发指南中可以找到更详细的说明。
12 运行本地构建
接下来,启动服务器:
|
|
最后,在另一个shell中,运行模型:
|
|
13 REST API
Ollama有一个REST API来运行和管理模型。
生成响应
|
|
与模型聊天
|
|
查看API文档了解所有端点。
14 docker安装教程
在Windows系统中使用Docker部署Ollama的详细步骤如下:
- 安装Docker:
- 首先,确保你的Windows系统支持Docker,并前往Docker官网下载Docker Desktop for Windows。
- 运行下载的安装文件并遵循安装向导来安装Docker Desktop。
- 启动Docker Desktop,它可能会要求开启Windows的Hyper-V功能和硬件虚拟化支持。
- 配置Docker:
- Docker安装完成后,在系统托盘中找到Docker图标,右键单击并选择"Settings"(设置)。
- 在设置中,确保Docker配置符合用于运行Ollama的要求,特别是在资源分配方面(如CPU和内存)。
- 下载Ollama镜像:
- 打开命令提示符或PowerShell。
- 输入以下命令来从Docker Hub拉取Ollama镜像:
|
|
- 运行Ollama容器:
- 使用下面的命令启动一个Ollama容器:
|
|
- 这里,我们使用了
-it
参数来在交互模式下运行,并且给容器取了一个名字ollama_container
。根据实际情况,您可能还需要指定端口映射或其他配置。
- 使用Ollama:
- 容器启动后,你就可以在其内部运行Ollama的命令了。例如,运行Llama 3模型:
|
|
- 如果你需要与容器外部的文件系统交互,你可能需要将本地目录挂载到Docker容器中。
- 关闭和管理容器:
- 当你不再需要运行Ollama容器时,可以使用以下命令来停止它:
|
|
- 如果需要再次启动容器,使用:
|
|
- 如果你想要删除容器,首先需要停止它,然后运行:
|
|
确保根据Ollama的官方文档调整命令和设置,以符合特定的部署和使用要求。以及,随着项目更新,始终关注并遵循最新的官方部署指南
如果你想快速使用免费的在线Llama3-70b网页版聊天。可以参考这篇文章,汇集多个免费使用入口。