ai大模型最新排行榜
目录
ai大模型最新排行榜
1 SuperCLUE总排行榜(2024年2月)
排名 | 模型名称 | 机构 | 总分 | OPEN | OPT | 使用 | 发布日期 |
---|---|---|---|---|---|---|---|
- | GPT4-Turbo-0125 | OpenAI | 92.71 | 94.95 | 83.74 | API | 2024年2月27日 |
- | GPT4(网页) | OpenAI | 90.36 | 91.48 | 85.89 | 网页 | 2024年2月27日 |
🏅 | 文心一言4.0 | 百度 | 87.75 | 88.23 | 85.82 | API | 2024年2月27日 |
🥈 | GLM-4 | 清华&智谱AI | 86.77 | 87.49 | 83.89 | API | 2024年2月27日 |
🥉 | 通义千问2.1 | 阿里巴巴 | 85.7 | 86.1 | 84.09 | API | 2024年2月27日 |
4 | Baichuan3 | 百川智能 | 82.59 | 82.45 | 83.13 | API | 2024年2月27日 |
5 | Moonshot(KimiChat) | 月之暗面 | 82.37 | 82.29 | 82.66 | 网页 | 2024年2月27日 |
6 | 讯飞星火V3.5 | 科大讯飞 | 81.01 | 80.6 | 82.64 | API | 2024年2月27日 |
7 | qwen1.5-72b-chat | 阿里巴巴 | 79.36 | 78.39 | 83.22 | API | 2024年2月27日 |
8 | MiniMax_Abab6 | 稀宇科技 | 78.01 | 77.94 | 78.29 | API | 2024年2月27日 |
9 | 云雀大模型 | 字节跳动 | 76.58 | 75.47 | 81.04 | API | 2024年2月27日 |
10 | 从容大模型V1.5 | 云从科技 | 75.56 | 75.69 | 75.03 | API | 2024年2月27日 |
10 | 360gpt-pro | 360 | 75.54 | 74.1 | 81.3 | API | 2024年2月27日 |
12 | XVERSE-65B-Chat | 元象科技 | 74.64 | 74.15 | 76.57 | API | 2024年2月27日 |
- | Claude2 | Anthropic | 72.51 | 72.9 | 70.92 | API | 2024年2月27日 |
13 | qwen1.5-14b-chat | 阿里巴巴 | 70.32 | 67.9 | 79.99 | API | 2024年2月27日 |
- | GPT3.5-Turbo-0125 | OpenAI | 64.34 | 63.26 | 68.68 | API | 2024年2月27日 |
14 | Yi-34B-Chat | 零一万物 | 63.5 | 59.99 | 77.52 | 模型 | 2024年2月27日 |
- | Gemini-Pro | 62.57 | 58.96 | 77.01 | API | 2024年2月27日 | |
15 | qwen1.5-7b-chat | 阿里巴巴 | 60.88 | 57.7 | 73.56 | API | 2024年2月27日 |
16 | qwen-14b-chat | 阿里巴巴 | 59.73 | 54.98 | 78.72 | API | 2024年2月27日 |
17 | Baichuan2-13B-Chat | 百川智能 | 57.28 | 53.99 | 70.44 | 模型 | 2024年2月27日 |
18 | XVERSE-13B-L | 元象科技 | 51.07 | 45.34 | 74.02 | API | 2024年2月27日 |
19 | MiniCPM-2B | 面壁智能 | 40.66 | 34.86 | 63.86 | API | 2024年2月27日 |
20 | ChatGLM3-6B | 清华&智谱AI | 40.32 | 34.33 | 64.3 | 模型 | 2024年2月27日 |
2 其它特色ai链接:
2.1 多模型竞答对比:Chat with Open Large Language Models (lmsys.org)
lmsys支持多种模型:
Claude: Claude by Anthropic | DBRX Instruct: DBRX by Databricks Mosaic AI | Starling-LM-7B: An open model trained using RLAIF by Berkeley |
Command-R: Command-R by Cohere | Mixtral of experts: A Mixture-of-Experts model by Mistral AI | Qwen 1.5: A large language model by Alibaba Cloud |
Gemini: Gemini by Google | GPT-4-Turbo: GPT-4-Turbo by OpenAI | GPT-3.5: GPT-3.5-Turbo by OpenAI |
Llama 2: Open foundation and fine-tuned chat models by Meta | OLMo-7B: OLMo by Allen AI | Gemma: Gemma by Google |
Vicuna: A chat assistant fine-tuned on user-shared conversations by LMSYS | Code Llama: Open foundation models for code by Meta | OpenChat 3.5: An open model fine-tuned on Mistral-7B using C-RLFT |
DeepSeek LLM: An advanced language model by DeepSeek | pplx-online-llms: Online LLM API by Perplexity AI | OpenHermes-2.5-Mistral-7B: A mistral-based model fine-tuned on 1M GPT-4 outputs |
Zephyr: A chatbot fine-tuned from Mistral by Hugging Face |
2.2 dragan
2.3 DBRX Instruct
开源大模型DBRX1320亿参数,性能超LLaMA2、Grok-1!DBRX是一个专家混合模型(MoE)有1320亿参数,能生成文本/代码、数学推理等,有基础和微调两种模型。
根据DBRX在MMLU、HumanEval和 GSM8K公布的测试数据显示,不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1,推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。
基础模型:https://huggingface.co/databricks/dbrx-base
微调模型:https://huggingface.co/databricks/dbrx-instruct
Github:https://github.com/databricks/dbrx
在线demo: DBRX Instruct - a Hugging Face Space by databricks