评测 - 搜索

约 25,100 个结果

在新选项卡中打开链接

时间不限

segmentfault.com
https://segmentfault.com
大模型评测最新排名含DeepSeek-V3/R1及Qwen2.5-Max - 誉儿的 …
2025年2月4日 · 在大模型（如 GPT、Claude、Deepseek 等）的研发和评估中，评测集（Benchmark）是衡量模型性能的核心工具。以下是主流大模型评测集的详细介绍，包括 MMLU 和 ...
segmentfault.com
https://segmentfault.com
多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推 …
2025年2月6日 · 以下是Align-DS-V在不同视觉理解表现评测集上的表现（对比GPT-4o）。可以看到，Align-DS-V 在部分评测集（如llava-bench-coco）上的表现超过了GPT-4o 。除此之外，更重要的是团队还发现了模态穿透对于模型文本模态推理能力的提升效果。
segmentfault.com
https://segmentfault.com
国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品
2024年5月17日 · 本次智源评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主 …
segmentfault.com
https://segmentfault.com
开源多模态大模型哪家强？TOP12榜单来了，GitHub揽获2.2k+星
2023年7月5日 · 评测结果发现，BLIP-2和InstructBLIP在这两个榜单中都保持在前三，属实是当前开源多模态大模型的“顶流玩家”了。具体到14个子任务上，模型的排名又有所不同。
segmentfault.com
https://segmentfault.com
大语言模型编程能力深度评测: Claude 3.5 sonnet完胜？一文看懂六 …
2024年12月26日 · 本文对当前主流的六大语言模型进行了全面的编程能力评测，重点关注了Claude 3.5 Sonnet在不同编程场景下的表现。通过一系列严谨的测试案例，我们从多个维度对...
segmentfault.com
https://segmentfault.com
国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品
2024年5月17日 · 本次智源评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主 …
segmentfault.com
https://segmentfault.com
字节开源最全代码大模型测评工具，一手教程来了！ - Datawhale
2024年12月5日 · 将生成的全部文本直接放到 post 请求体中，进行代码评测。可以看到，提交的 completion 包含了 LLM 的全部输出，而不需要手动从中提取出代码段部分，Sandbox Fusion 从中提取出了相应的代码段（extracted\_code），并结合数据集中的特点对代码段进行了扩 …
segmentfault.com
https://segmentfault.com
人工智能 - KIMI爆了！Kimi大模型到底有多强？Kimi最新评测！
2024年3月25日 · Kimi最新评测！ AI领域的热门助手 Kimi 最近引起了广泛关注，特别是在其推出2百万字的无损上下文测试版之后，Kimi 火爆的消息甚至登上了财经新闻头条。
segmentfault.com
https://segmentfault.com
北大AI奥数评测，o1-mini比o1-preview分数还高 - 量子位技术号
2024年9月22日 · 评测集数据的来源主要有两个，一个是各种比赛的题目和题解，另外一个是著名数学网站Art of Problem Solving。对于想要的比赛，优先从题解中寻找答案。
segmentfault.com
https://segmentfault.com
人工智能 - 【专题】大模型时代的具身智能2024报告汇总PDF洞 …
2024年12月17日 · 中移智库：“弈衡”多模态大模型评测体系白皮书（2024年）报告2024-10-11 2024年OpenAl最新大模型o1革新进展、突出表现及领域推进作用分... 报告2024-10-09
分页
- 1
- 2
- 3
- 4