一键部署llama3教程

https://wd-jishu.oss-cn-hangzhou.aliyuncs.com/img/image-20240421075304653.png@!full

部署llama3时,以下是一些需要注意的要点:

  1. 系统要求:确保你的系统满足llama3运行所需的最低要求。例如,如果llama3是7B大小的模型,则至少需要有8GB的RAM。
  2. 磁盘空间:llama3模型根据参数的不同大小也不同,需要确保有足够的磁盘空间来存放下载的模型文件。
  3. 操作系统支持:llama3应当支持你正在使用的操作系统。如果使用Linux, macOS, Windows,需确保能成功运行对应系统中的指令。
  4. 依赖安装:某些系统可能需要先行安装某些依赖项,例如在macOS上可能需要安装cmake和go。对于依赖项,遵从官方安装指南。
  5. 网络连接:部署过程中需要下载模型文件,因此确保有稳定的网络连接。
  6. API权限:如果llama3需要访问外部服务的API,确保这些API的权限已经配置妥当。
  7. 环境变量:如果llama3的运行需要配置特定的环境变量,请根据文档指导进行设置。
  8. 安全设置:确保在运行服务时遵循最佳安全实践,特别是在生产环境中。

macOS

Download

Windows预览版

Download

Linux 使用以下命令安装:

1
curl -fsSL https://ollama.com/install.sh | sh

手动安装说明

官方的Ollama Docker镜像Ollama Docker image可以在Docker Hub上找到。

ollama-python ollama-js

运行并与Llama 3对话:

1
ollama run llama3

Ollama支持在ollama.com/library上列出一系列可用的模型。

以下是一些可以下载的示例模型:

模型参数大小下载命令
Llama 38B4.7GBollama run llama3
Llama 370B40GBollama run llama3:70b
Mistral7B4.1GBollama run mistral
Dolphin Phi2.7B1.6GBollama run dolphin-phi
Phi-22.7B1.7GBollama run phi
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
Llama 2 13B13B7.3GBollama run llama2:13b
Llama 2 70B70B39GBollama run llama2:70b
Orca Mini3B1.9GBollama run orca-mini
LLaVA7B4.5GBollama run llava
Gemma2B1.4GBollama run gemma:2b
Gemma7B4.8GBollama run gemma:7b
Solar10.7B6.1GBollama run solar

注意:运行7B模型至少需要8GB的RAM,运行13B模型至少需要16GB的RAM,运行33B模型至少需要32GB的RAM。

从GGUF导入 Ollama支持在Modelfile中导入GGUF模型:

创建一个名为Modelfile的文件,使用FROM指令指定想要导入的模型的本地文件路径。

1
FROM ./vicuna-33b.Q4_0.gguf

在Ollama中创建模型

1
ollama create example -f Modelfile

运行模型

1
ollama run example

从PyTorch或Safetensors导入 更多信息见导入模型指南

可以用提示来自定义Ollama库中的模型。例如,自定义llama3模型:

1
ollama pull llama3

创建Modelfile:

1
2
3
4
5
6
7
8
9
FROM llama3

## 将温度设置为1 [较高的更有创造力,较低的更连贯]
PARAMETER temperature 1

## 设置系统信息
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来,创建并运行模型:

1
2
ollama create mario -f ./Modelfile
ollama run mario

plaintext

1
2
>>> hi
Hello! It's your friend Mario.

更多例子,请查看示例目录。要了解更多关于使用Modelfile的信息,请参考Modelfile文档。

创建模型 ollama create用于从Modelfile创建模型。

1
ollama create mymodel -f ./Modelfile

拉取模型

1
ollama pull llama3

这个命令也可以用于更新本地模型。只会拉取差异。

移除模型

1
ollama rm llama3

复制模型

1
ollama cp llama3 my-model

多行输入 对于多行输入,您可以用三重引号包裹文本:

1
2
3
>>> """Hello,
... world!
... """
1
I'm a basic program that prints the famous "Hello, world!" message to the console.

多模态模型

1
>>> What's in this image? /Users/jmorgan/Desktop/smile.png
1
The image features a yellow smiley face, which is likely the central focus of the picture.

将提示作为参数传入

1
$ ollama run llama3 "Summarize this file: $(cat README.md)"
1
Ollama是一个轻量级、可扩展的框架,用于在本地机器上构建和运行语言模型。它提供了一个简单的API来创建、运行和管理模型,以及可以轻松用于多种应用的预构建模型库。

列出您计算机上的模型

1
ollama list

启动Ollama ollama serve在您想启动ollama但不运行桌面应用程序时使用。

安装cmake和go:

1
brew install cmake go

然后生成依赖项:

1
go generate ./...

然后构建二进制文件:

1
go build .

开发指南中可以找到更详细的说明。

接下来,启动服务器:

1
./ollama serve

最后,在另一个shell中,运行模型:

1
./ollama run llama3

Ollama有一个REST API来运行和管理模型。

生成响应

1
2
3
4
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt":"Why is the sky blue?"
}'

与模型聊天

1
2
3
4
5
6
curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

查看API文档了解所有端点。

在Windows系统中使用Docker部署Ollama的详细步骤如下:

  1. 安装Docker
    • 首先,确保你的Windows系统支持Docker,并前往Docker官网下载Docker Desktop for Windows。
    • 运行下载的安装文件并遵循安装向导来安装Docker Desktop。
    • 启动Docker Desktop,它可能会要求开启Windows的Hyper-V功能和硬件虚拟化支持。
  2. 配置Docker
    • Docker安装完成后,在系统托盘中找到Docker图标,右键单击并选择"Settings"(设置)。
    • 在设置中,确保Docker配置符合用于运行Ollama的要求,特别是在资源分配方面(如CPU和内存)。
  3. 下载Ollama镜像
    • 打开命令提示符或PowerShell。
    • 输入以下命令来从Docker Hub拉取Ollama镜像:
1
     docker pull ollama/ollama
  1. 运行Ollama容器:
    • 使用下面的命令启动一个Ollama容器:
1
     docker run -it --name ollama_container ollama/ollama
  • 这里,我们使用了-it参数来在交互模式下运行,并且给容器取了一个名字ollama_container。根据实际情况,您可能还需要指定端口映射或其他配置。
  1. 使用Ollama:
    • 容器启动后,你就可以在其内部运行Ollama的命令了。例如,运行Llama 3模型:
1
     ollama run llama3
  • 如果你需要与容器外部的文件系统交互,你可能需要将本地目录挂载到Docker容器中。
  1. 关闭和管理容器:
    • 当你不再需要运行Ollama容器时,可以使用以下命令来停止它:
1
     docker stop ollama_container
  • 如果需要再次启动容器,使用:
1
     docker start ollama_container
  • 如果你想要删除容器,首先需要停止它,然后运行:
1
     docker rm ollama_container

确保根据Ollama的官方文档调整命令和设置,以符合特定的部署和使用要求。以及,随着项目更新,始终关注并遵循最新的官方部署指南

如果你想快速使用免费的在线Llama3-70b网页版聊天。可以参考这篇文章,汇集多个免费使用入口。

随机文章