一键部署llama3教程

alex 收录于类别 AI聊天

2024-04-21 2024-04-21 约 2438 字预计阅读 11 分钟

1 大模型最新排名

2 一键部署llama3

2.1 部署注意事项

部署llama3时，以下是一些需要注意的要点：

系统要求：确保你的系统满足llama3运行所需的最低要求。例如，如果llama3是7B大小的模型，则至少需要有8GB的RAM。
磁盘空间：llama3模型根据参数的不同大小也不同，需要确保有足够的磁盘空间来存放下载的模型文件。
操作系统支持：llama3应当支持你正在使用的操作系统。如果使用Linux, macOS, Windows，需确保能成功运行对应系统中的指令。
依赖安装：某些系统可能需要先行安装某些依赖项，例如在macOS上可能需要安装cmake和go。对于依赖项，遵从官方安装指南。
网络连接：部署过程中需要下载模型文件，因此确保有稳定的网络连接。
API权限：如果llama3需要访问外部服务的API，确保这些API的权限已经配置妥当。
环境变量：如果llama3的运行需要配置特定的环境变量，请根据文档指导进行设置。
安全设置：确保在运行服务时遵循最佳安全实践，特别是在生产环境中。

3 安装方式

macOS

Download

Windows预览版

Download

Linux 使用以下命令安装：

curl -fsSL https://ollama.com/install.sh | sh

手动安装说明

4 Docker

官方的Ollama Docker镜像Ollama Docker image可以在Docker Hub上找到。

5 库

ollama-python ollama-js

6 快速开始

运行并与Llama 3对话：

ollama run llama3

7 模型库

Ollama支持在ollama.com/library上列出一系列可用的模型。

以下是一些可以下载的示例模型：

模型	参数	大小	下载命令
Llama 3	8B	4.7GB	`ollama run llama3`
Llama 3	70B	40GB	`ollama run llama3:70b`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`
Solar	10.7B	6.1GB	`ollama run solar`

注意：运行7B模型至少需要8GB的RAM，运行13B模型至少需要16GB的RAM，运行33B模型至少需要32GB的RAM。

8 自定义模型

从GGUF导入 Ollama支持在Modelfile中导入GGUF模型：

创建一个名为Modelfile的文件，使用FROM指令指定想要导入的模型的本地文件路径。

FROM ./vicuna-33b.Q4_0.gguf

在Ollama中创建模型

ollama create example -f Modelfile

运行模型

ollama run example

从PyTorch或Safetensors导入更多信息见导入模型指南。

9 自定义提示

可以用提示来自定义Ollama库中的模型。例如，自定义llama3模型：

ollama pull llama3

创建Modelfile：

FROM llama3

## 将温度设置为1 [较高的更有创造力，较低的更连贯]
PARAMETER temperature 1

## 设置系统信息
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来，创建并运行模型：

ollama create mario -f ./Modelfile
ollama run mario

plaintext

>>> hi
Hello! It's your friend Mario.

更多例子，请查看示例目录。要了解更多关于使用Modelfile的信息，请参考Modelfile文档。

10 CLI参考

创建模型 ollama create用于从Modelfile创建模型。

ollama create mymodel -f ./Modelfile

拉取模型

ollama pull llama3

这个命令也可以用于更新本地模型。只会拉取差异。

移除模型

ollama rm llama3

复制模型

ollama cp llama3 my-model

多行输入对于多行输入，您可以用三重引号包裹文本：

>>> """Hello,
... world!
... """

I'm a basic program that prints the famous "Hello, world!" message to the console.

多模态模型

>>> What's in this image? /Users/jmorgan/Desktop/smile.png

The image features a yellow smiley face, which is likely the central focus of the picture.

将提示作为参数传入

$ ollama run llama3 "Summarize this file: $(cat README.md)"

Ollama是一个轻量级、可扩展的框架，用于在本地机器上构建和运行语言模型。它提供了一个简单的API来创建、运行和管理模型，以及可以轻松用于多种应用的预构建模型库。

列出您计算机上的模型

ollama list

启动Ollama ollama serve在您想启动ollama但不运行桌面应用程序时使用。

11 构建

安装cmake和go：

brew install cmake go

然后生成依赖项：

go generate ./...

然后构建二进制文件：

go build .

开发指南中可以找到更详细的说明。

12 运行本地构建

接下来，启动服务器：

./ollama serve

最后，在另一个shell中，运行模型：

./ollama run llama3

13 REST API

Ollama有一个REST API来运行和管理模型。

生成响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt":"Why is the sky blue?"
}'

与模型聊天

curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

查看API文档了解所有端点。

14 docker安装教程

在Windows系统中使用Docker部署Ollama的详细步骤如下：

安装Docker：
- 首先，确保你的Windows系统支持Docker，并前往Docker官网下载Docker Desktop for Windows。
- 运行下载的安装文件并遵循安装向导来安装Docker Desktop。
- 启动Docker Desktop，它可能会要求开启Windows的Hyper-V功能和硬件虚拟化支持。
配置Docker：
- Docker安装完成后，在系统托盘中找到Docker图标，右键单击并选择"Settings"（设置）。
- 在设置中，确保Docker配置符合用于运行Ollama的要求，特别是在资源分配方面（如CPU和内存）。
下载Ollama镜像：
- 打开命令提示符或PowerShell。
- 输入以下命令来从Docker Hub拉取Ollama镜像：

     docker pull ollama/ollama

运行Ollama容器：
- 使用下面的命令启动一个Ollama容器：

     docker run -it --name ollama_container ollama/ollama

这里，我们使用了-it参数来在交互模式下运行，并且给容器取了一个名字ollama_container。根据实际情况，您可能还需要指定端口映射或其他配置。

使用Ollama：
- 容器启动后，你就可以在其内部运行Ollama的命令了。例如，运行Llama 3模型：

     ollama run llama3

如果你需要与容器外部的文件系统交互，你可能需要将本地目录挂载到Docker容器中。

关闭和管理容器：
- 当你不再需要运行Ollama容器时，可以使用以下命令来停止它：

     docker stop ollama_container

如果需要再次启动容器，使用：

     docker start ollama_container

如果你想要删除容器，首先需要停止它，然后运行：

     docker rm ollama_container

确保根据Ollama的官方文档调整命令和设置，以符合特定的部署和使用要求。以及，随着项目更新，始终关注并遵循最新的官方部署指南

如果你想快速使用免费的在线Llama3-70b网页版聊天。可以参考这篇文章，汇集多个免费使用入口。

目录