Claw-Eval:别再只看 Agent 的最终答案了——300 个真实任务告诉你"能做"和"能用"差多远
> 一个 Agent 跟你说"任务完成"的时候,你信吗? > 当一个 LLM 评测榜单上某个 Agent 拿了 85 分,你想过它可能"三次里只成功一次"吗? > Claw-Eval 是 ModelScope 团队新开源的端到端 Agent 评测框架,300 个人工验证任务,从完成度、安全性、鲁棒性...
探索前沿技术,分享实践经验,追踪行业动态
「技能」(skill)正在成为 Agent 系统里一个越来越关键的抽象:它把能力从庞大的模型权重里解耦出来,封装成可执行的代码、操作流程或领域指令,让 Agent 能像搭积木一样组合调用。逻辑上,这是 Agent 持续变强的天然路径——它应该能自己造技能、自己存、自己挑、自己改,而不必每一步都等人来...
大学毕业之后,想凑齐八到十二个人打一局完整的狼人杀,几乎成了奢侈。可这游戏真正迷人的地方,从来不只是社交本身——而是那套逻辑推演、话术博弈,以及在只言片语里反复确认谁在说谎的过程。 Wolfcha 想还原的,正是后面这部分。 它的设定很简单:一桌人里只有你是真人,其余七到十一个座位,全部交给大语言模...
2026 年 5 月,OpenAI 宣布它的一个内部模型,反驳了离散几何领域一个悬置了近 80 年的猜想。 这个问题本身简单得惊人。1946 年,数学家 Erdős 提出了"单位距离问题":在平面上放 n 个点,最多能有多少对点之间的距离恰好等于 1?近 80 年里,数学界普遍相信,规整的方形网格...
> 这是上面那套漫画的正文。漫画里阿哲的那一晚,我想很多带过团队的人都熟。下面把那晚背后的事,讲透一点。 做技术负责人的人,都有过阿哲那一晚。 大促前夜,监控大屏上那条流量曲线开始往上翘。你盯着它,手心冒汗,脑子里只有一个念头:这波别崩。 崩了,老板第一个找你;不崩,也没人记得你熬了通宵。 这是这...
红杉的 xbench 放了份测评,让 AI 去药企当"科研实习生",从头到尾做一遍真实的数据分析。 结果很炸:最强的 AI 拿了 73 分,把人类实习生 40 到 50 分的平均线甩在了后面。 这两天的解读,标题全是"AI 超过人类科学家"。 我也认真读了。然后我想说一句可能不太讨喜的话—— 那个...
做 AI 的人都有个习惯动作:要跑个活,先去租台 GPU。 租一台 4090,按小时计费,开机,跑任务,跑完……记得关机。 就这最后一步,我栽过太多次。 有一次跑一批图,半夜跑完,我睡了。第二天中午想起来——那台卡空转了 12 个小时,啥也没干,钱照烧。 后来我研究了一下共绩算力那个 Job 批处...
哈喽,我是时雨。 天天在公司用 Claude 做产品。 写 PRD、跑 Eval、调 Prompt、部署模型、push 镜像、改 Skill—— 基本上一天 8 小时都在和它对话。 上周加完班,凌晨两点刷到 Anthropic 自己出的《AI 原生创业手册》。 本来想随便扫一眼睡觉,结果越看越坐直—...
跑模型、做训练,你是否也经历过这样的"算力焦虑"? 机器 24 小时开着,业务高峰期急需扩容,却发现一卡难求,任务只能排队苦等; 业务低谷期,算力闲置空转,看着云服务商的账单,总感觉在为大量的"无用时间"买单; 想要提前锁定资源,又担心一次性投入太大,最后利用率不高,成本难以收回…… 这就像你为了...
在 AI 时代做产品经理,有一层反讽:我的工作反而比以往更像「人在做事」。 产品管理从来不是纯「码字写方案」,而是在 手工艺(craft)与 对齐(alignment)之间拉扯。作者在文中回忆,很长一段时间里她的周议程被后者占满:跨职能会议、对齐、状态汇报、以及和工程一起看 backlog。凭直觉很...
只有当对话节奏逼近 人类说话的自然节拍 时,语音 AI 才会「好听、好用」。网络一旦在中间插一脚,人类会立刻听成:尴尬停顿、抢话不完整、打断(barge-in)变慢。这对 ChatGPT 语音模式、使用 Realtime API 的开发者、交互式 Agent 流水线,以及「边听边推理」的模型形式都成...
如果你在近 60 天里尝试过高规格 GPU 算力申请,多半已经感到「规则变了」:H100 难订,B200 在各家的可订窗口都偏紧,长租合约单价相较 2025 年 10 月左右普遍抬升约 四成,全行业 按需(on-demand)剩余容量 也变得少见。 作者认为,这并非短期波动,而是 AI 基础设施市场...
不少团队不仅把 Automatic1111(AUTOMATIC1111 stable-diffusion-webui)当图形界面用,还直接把它当 HTTP API 层。在这种架构上扩缩容时,冷启动少几秒往往就是少付几轮排队与超时——如果你正在压 A1111 的安装与启动时间,下面的两条 Docker...
一、服装尺码表 📝 查看完整 Prompt · 服装尺码表 · 卫衣 text Square e-commerce infographic: clothing size chart for a hoodie, clean modern minimal design, white backgrou...
DeepSeek V4 没有像 R1 那样带来那种「全行业抬头看卫星」的传播时刻,但在许多团队眼里,它已经是最便宜、也最「撑得住主业」的一批 Claude Opus / GPT‑5.x 系替代方案 之一。 --- TL;DR(太长不看) - DeepSeek V4 预览于 2026 年 4 月 24...
一、香港 · 三日轻松游 📝 查看完整 Prompt · 三日攻略信息图 · 香港 text Generate a premium three-day Hong Kong travel guide as a vertical infographic poster, 3:4 ratio, styl...
先说明白:为什么要有「第二辑」 第一辑 25 张图,核心是在证明:中文长文本、密级版式、条漫叙事这几件事,GPT-Image-2 能端到端交付。 但这一批我想回答另一个问题:如果题材完全不碰「仿真印刷品」,模型在静物摄影、纯平面、工程示意、编辑拼贴这些「设计系」任务上,会不会同样稳? 我在写 pr...
--- 一、包豪斯几何海报 📝 查看完整 Prompt · 包豪斯几何海报 · 练习稿 text Vertical Bauhaus-style abstract poster exercise, 1920s modernist influence, flat vector only. Compos...
