雷州爆笑新闻网官网

雷州爆笑新闻网官网

百度搭子DuMate一天连登PinchBench与DeepResearch双榜首 成全球最能打的龙虾

中国侨网 7227717

荆楚网(湖北日报网)讯(通讯员 杜轩)5月8日凌晨,百度百度搭子DuMate登顶智能体评测基准PinchBench榜首,搭D打并在前5位中占据3席,连登龙虾株洲新闻网博客圈牛八超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中,全球DuMate同样位列第一。百度

PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力,双榜首成并从成功率、全球速度、百度株洲新闻网博客圈牛八成本三个维度综合排名。搭D打榜单显示,连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照,全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。

图片1.png.png

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图

超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。

图片2.png.png

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图

自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

  • 评论列表

  • △霍尔木兹海峡资料图)据伊朗方面24日消息,伊朗最高领袖军事顾问穆赫辛·雷扎伊当天表示,管控霍尔木兹海峡是伊朗的“合法权利”,伊朗将对波斯湾所受任何侵犯作出“严厉回应”。雷扎伊说,历史经验证明,对霍尔

    2026-06-11 19:31
  • 本报讯(胡遵远)近日,由安徽金寨干部学院、金寨县委党史和地方志研究室共同编著的《将军县的脱贫攻坚》一书,由国家行政管理出版社正式出版。该书包括“开展脱贫攻坚的光辉历程”“引领脱贫攻坚的革命精神”“助力

    2026-06-11 18:28
  • 湖北日报全媒记者 周鹏 通讯员 陈稳定 夏荣港5月17日清晨5时32分,鄂州花湖国际机场,一架波音777全货机迎着朝霞腾空而起,满载96吨货物直飞德国哈恩。就在头一天,“鄂州—布拉格”航线刚刚完成首航

    2026-06-11 17:17

留言评论