NVIDIA推出本地AI聊天工具NVIDIA_Chat_With_RTX

英伟达近日推出了一款名为“Chat with RTX”的聊天应用,专为Windows个人电脑设计。这款应用由TensorRT-LLM技术驱动,允许用户在不联网的情况下与聊天机器人进行互动。适用于该应用的硬件包括所有配备至少8GB显存的GeForce RTX 30系列和40系列显卡.

Chat With RTX 是一个 Demo,用来将您自己的资料(文档、笔记、视频或其他数据)与大语言模型建立连接,从而令 LLM 更具个性化。利用检索增强生成 (RAG)、TensorRT-LLM 和 RTX 加速,您可以与自定义聊天机器人对话,快速灵活地获得聊天机器人根据您的内容给出的见解。此外,由于 Chat with RTX 完全在 Windows RTX PC 或工作站本地以安全的方式运行,因此您可以更快获得更满意的结果。

“Chat with RTX”具备处理多种文件类型的能力,如文本、PDF、Word文档(doc/docx)和XML。用户只需将文件存放在指定文件夹,应用便能在数秒内完成加载。此外,用户还可以输入YouTube播放列表的链接,应用会抓取列表中视频的字幕内容,供用户查询。根据官方介绍,用户可以像使用ChatGPT那样与“Chat with RTX”进行交流,但生成的内容将基于特定的数据集,这使得它在生成摘要和快速检索文档方面表现出色。拥有支持TensorRT-LLM的RTX GPU的用户可以在本地处理所有数据和项目,无需依赖云端存储,这不仅节省了时间,还能提供更精确的搜索结果。英伟达还宣布,TensorRT-LLM v0.6.0版本将带来5倍性能提升,预计将在本月晚些时候发布。同时,该版本还将支持其他大型语言模型,如Mistral 7B和Nemotron 3 8B。需要注意的是demo的压缩包有35g,需要提前预留空间哦

Chat With RTX 技术演示版基于 GitHub 中的 TensorRT-LLM RAG 开发者参考项目构建而成。开发者可以借鉴该参考项目,自行开发和部署面向 RTX、基于 RAG 且由 TensorRT-LLM 加速的应用。带的是Mistral 7B int4,本来就不是基于中文语料训练的,中文支持非常一般。不过按这个路子,NV后面可能会给一些不同的大模型内核可选。

它是针对rag和tensorrt优化过的,可以理解为目前是封闭的,是基于tensor rt核心加速,应该可以自己编译LLM引擎。

正如我们刚才提到的,Chat With RTX的用法很简单,只需一个下载安装的动作。

不过在配置上,除了GPU的要求之外,还有一些条件,例如:

系统:Windows 10或Windows 11

RAM:至少16GB

驱动:535.11版本或更新

不过Chat With RTX在大小上并没有很轻量,共计大约35G。Chat With RTX下载地址:

使用 Chat with RTX 构建定制 LLM

因此在下载它之前,务必需要检查一下Chat With RTX所需要的安装条件。

The Verge在英伟达发布Chat With RTX之后,立即展开了一波实测。

不过结论却是大跌眼镜。

例如刚才提到的搜索视频功能,在实际测试过程中,它竟然下载了完全不同视频的文字记录。

其次,如果给Chat With RTX“投喂”过多的文件,例如让Chat with RTX为25000个文档编制索引,它就直接“罢工”崩溃了。

以及它也“记不住”上下文,因此后续问题不能基于上一个问题。

最后还有个槽点,就是下载Chat with RTX消耗了测试人员整整半个小时……

不过槽点之外,The Verge也比较中立地肯定了Chat with RTX的优点。

例如搜索电脑上的文档,其速度和精准度是真香。

并且做总结也是Chat with RTX较为擅长的内容.

随机文章