AI 时代的新可观测性:不只看系统崩没崩,还要看模型有没有胡说
New Relic 首席技术战略官 Nic Benders 在播客中抛出一个判断:dashboard 和 alert 时代已经走到尽头,observability 正在从"让你看见"升级为"替你判断";而当 AI 自己成为系统的一部分,传统三支柱(metrics/logs/traces)已经不够用——我们必须新增 token、cost、语义质量、漂移等维度,才能监控一个会"胡说"的模型。
收录有价值的文章总结,构建个人知识库
New Relic 首席技术战略官 Nic Benders 在播客中抛出一个判断:dashboard 和 alert 时代已经走到尽头,observability 正在从"让你看见"升级为"替你判断";而当 AI 自己成为系统的一部分,传统三支柱(metrics/logs/traces)已经不够用——我们必须新增 token、cost、语义质量、漂移等维度,才能监控一个会"胡说"的模型。
API7.ai 创始人温铭用几百亿 Token 和 Claude Code 完整重写了 AI 网关 AISIX(Rust 从零写),结论不是"AI 写代码有多强",而是"AI 能力已经溢出,跟不上的是人"。他把踩出来的经验浓缩成 6 条:Why 还得人来、禁止手写代码的反弹、AI 写代码必须再用 AI review、决策密度把人拖垮、要让组织先变厚再变大、最后警示"省着用 token"的心态早晚要出大事。
AICon 深圳站将于 8 月 21–22 日举办,议题征集中。组委会判断:模型能力趋于共识,竞争护城河正从"用哪个模型"转向"围绕模型构建什么"——Harness Engineering、Agent 安全、Coding Agent 重构研发、AI 原生 App 等八个方向,正在成为 Agent 时代的关键变量。
传统 sidecar/DaemonSet 形态的安全 Agent 与被监控进程共享用户空间,一旦容器被攻陷,Agent 自身就先于告警被 `kill -9` 掉,eBPF 把探针挂到内核系统调用接口,让监控跳出攻击者的可达域,顺带把 CPU 开销压到原方案的 20-40%,并通过 Falco/Tetragon 在生产环境落地"先观察→再告警→最后强制执行"的三段式接入路径。
这篇 InfoQ 访谈借黄东旭的 db9、AI 重写遗留系统、知识工程和“老登掌舵”几个议题,讨论 AI coding 时代软件工程价值的迁移:代码越来越像载体,真正稀缺的是业务知识、系统判断和可验证的工程约束。
New Relic 首席技术战略官 Nic Benders 提出:以 dashboard + alert 为核心的可观测性范式已走到尽头。数据量爆炸让"看见"变得不可能,真正的需求是"理解"。AI(尤其是 LLM 与统计/ML 协同)正在把可观测性从"提问工具"推向"自动归因 + 自动修复",而 AI 系统本身也成为新的被观测对象。
华盛顿大学 NLP 博士 Alisa Liu 在拿到 OpenAI offer 前,跑了 11 家公司、57 场正式面试。她的核心结论很反直觉:顶级 AI 公司在反复检验的不是论文和研究品味,而是**编程基本功 + Transformer 手写 + LeetCode**。研究经历是拿到面试的钥匙,但决定 offer 的还是工程能力。
在 MySQL 8.0 停更、信创合规成为硬约束的背景下,腾讯云 TDSQL 用同一套金融级内核拆出三档形态——基础版做单机轻量场景、企业版做金融核心 HTAP、全新计算引擎承接复杂分布式查询,试图回答"轻量、分布式、AI 数据底座"三类截然不同的选型诉求,且让客户只为真正用到的能力买单。
当 Vibe Coding 把"造 Agent"的门槛降到零,企业的核心矛盾就从"会不会做"切换到"怎么管"——放任会失控,全审又卡死创新。亚马逊云科技在中国峰会上给出的答案是分层治理:先看得见、再看得清、最后给关键 Agent 加可靠性护栏。
Anthropic Claude Code/Cowork 负责人 Fiona Fung 在 Lenny's Podcast 上系统拆解:当代码交付量被 AI 拉高到 8 倍后,真正的瓶颈从"写代码"转移到了 verification、ROI 衡量、异步 agent 管理与团队文化。她明确喊出"不要把 motion 当成 progress",呼吁从 token maxing 转向 outcome 导向。
Lindy(无代码 AI Agent 平台)把 100% 的产品流量从 Anthropic 切到 DeepSeek v4(通过美国本土推理商 Atlas Cloud 托管),年省数百万美元、核心用例性能反升。但 Crivello 坦承迁移工作量是预期的 100 倍,评估(在线 / 离线 / "氛围评估")和提示词重写才是真正的成本黑洞——这也是"前沿模型选型"在 2026 年进入两极分化时代的真实切片。
吴恩达在 LangChain Interrupt 大会上与 Harrison Chase 对谈:AI 热度和"末日叙事"被过度炒作,但编程 Agent 的进化速度被低估。代码变快 10–100 倍后,真正的瓶颈会从工程转向产品、营销、法务和数据架构——未来公司是 1–10 人的通才小队 + Agent 协同,并必须对非结构化数据做大规模 agent-ready 重构。
Pinterest 面对数百万商家域名中大量仅因跟踪/活动参数不同而指向同一页面的 URL 变体,传统白名单/黑名单/启发式规则失效。其 MIQPS(最小重要查询参数集)系统采用数据驱动 + 内容指纹方案:渲染页面生成指纹,对比移除某参数前后的内容差异来判定参数重要性,并结合早期退出、异常检测等工程化策略,在亿级 URL 上实现高效 URL 标准化与去重。
本期 Q 资讯覆盖:谷歌痛失诺奖科学家 John Jumper 与 Gemini 联席负责人 Noam Shazeer 两大 AI 猛将,后者转投 OpenAI;英伟达在职员工成功上岸合肥公务员引热议;DeepSeek 以近 4000 亿元估值完成 510 亿元首轮外部融资;红杉中国、真格联合腾讯拟以 20 亿美元原价从 Meta 手中回购 Manus 控制权;追觅启动大规模战略收缩,裁员 12% 回归四大主业。
科技作者 Gergely Orosz 深度还原 Meta 在 2026 年 4 月起的"AI 优先"改组:强制抽调 30%–50% 核心工程师做数据标注、24 小时记录键盘鼠标动作、把 Token 使用量纳入绩效考核。短短数周,公司亲手把奉行了二十年的工程师文化打成"成本中心",并以 Instagram 安全大宕机为代价付出账单。
前 OpenAI Go-to-Market 负责人、全球人工智能顾问 Zack Kass 在清华大学做了一场题为《The Next Renaissance: AI and the Expansion of Human Potential》的演讲。他没有谈具体模型或产品,而是抛出四个底层判断:决定性变化来自推理成本下降;AI 是能力入口而非自动结果;普及会带来新的社会风险;最深层的冲击是身份重构而非岗位替代。
中国市场每日 Token 调用量两年内从 0.1 万亿暴涨到 140 万亿(约 1400 倍)。清华系 AI Infra 公司清程极智围绕推理引擎、训练优化和智能路由布局"八卦炉/赤兔/AI Ping"三件套,试图把 Token 变成可观测、可调度的云资源——AI 产业的下半场,正在从"卷模型"转向"卷系统软件"。
Ramp 最新 AI Index 显示,AI 采用度排名前 1% 的美国公司,每月每位员工在 AI 工具与算力上的花费高达 7500 美元(约 5 万元人民币)。token 单价两年下降 98%,但企业 AI 总账单却因智能体用量飙升暴涨 320%,而前 1% 与中位数公司之间差距高达 680 倍。
在 X 上一场由网友提问引发的隔空对话中,技术 KOL Teortaxes、马斯克与智谱创始人唐杰围绕"中美大模型差距"展开讨论。Teortaxes 推测中国对标 Claude Mythos 完整版需到 2026 年底;马斯克认为可能延至 2027 Q1;唐杰则用一句"不会那么久"暗示智谱年内有望实现跨越。
Noam Shazeer——Transformer 论文合著者、Gemini 联合负责人、Google 工程副总裁——在重返 Google 不到两年后宣布加入 OpenAI,将出任架构研究负责人。这是 Google 第三次失去他,也是大模型时代最具象征意义的一次人才迁徙。
九章云极在 6/17 发布会上提出 "AI 工厂" 战略:用 DCU 度量算力投入,用"专业 Token"度量智能产出,把 AI 基础设施从"卖资源"推向"交付智能"。文章提出有效 Token 概念、训练工厂 + Token 工厂双引擎,以及四层产品体系(Aladdin / 训练工厂 / Inference OS / Alaya NeW Cloud 3.0)。
模型能力突飞猛进,AI 投入与日俱增,但 Gartner 预测 2026 年 60% 的 AI 项目将被放弃。瓶颈不在模型,而在于企业数据平台仍是为人设计的——当 Agent 成为新的数据消费者,旧数据栈撑不住生产环境,95% 的 ROI 落空就成了必然。
Cursor 在 Compile 大会上同时发布 1.5T 自研模型、面向智能体的 Git 平台 Origin,并确认被 SpaceX 以约 600 亿美元全股票收购。新模型放弃 Kimi 基座、从零训练,算力规模达上一代的 10–20 倍;Origin 则被定位为"AI 原生 GitHub",剑指微软 GitHub 的下一代软件基础设施。
从字节跳动剪映走出的产品人闹闹,2025 年底内测的 AIGC 视频创作工具 OiiOii 引爆 10 万人排队,2026 年 6 月升级 2.0 版本,主打"智能画布 + 拉片复刻 + Skill 库"三大能力,把"会写 prompt"的硬门槛降为"说人话",让普通人也能用 AI 视频做出千万播放爆款。
Google 首席工程师 Adam Bender 在 Google I/O 2026 抛出震撼警告:AI 让写代码快 10 倍,但代码量 10 倍意味着更长的编译、更重的测试、更堵的代码审查,外加一个没人能理解的代码库。"AI 是放大器,不是方向"——10 倍代码量、10 倍债务,AI 默认不解决任何问题。
2026 年 6 月 15 日,Redis 之父 Salvatore Sanfilippo(antirez)在 X 上发文反击美国 AI 圈"中国模型靠 API 蒸馏美国模型"的流行说法,认为这在数学上不可能,并指出 DeepSeek 已公开了完整的预训练/SFT/RL 管线;学界专家 Ryan Greenblatt 与 Nathan Lambert 也加入讨论,认为"蒸馏"一词已被"武器化"为道德话语。
基于 LinkedIn 公开资料对 Anthropic 1680 名工程师的分析显示,这家 AI 公司更像一家高速扩张的基础设施公司:八成员工共享"Member of Technical Staff"头衔,工龄中位数 12.2 年、博士仅占 13.7%,第一大人才来源是 Google(405 人)而非 OpenAI/DeepMind,FAANG 履历者占一半。
国产 AI 芯片公司燧原科技科创板 IPO 获上交所审议通过,成为"GPU 四小龙"中最后一家过会的企业;腾讯既是第一大股东也是最大客户,本次拟募资 60 亿元投向第五、六代 AI 芯片研发。
TypeORM 团队发布 1.0 版本,这是这款广受欢迎的 TypeScript/JavaScript ORM 的首个主要版本,标志项目自 2016 年创建以来正式告别 0.x 阶段。1.0 完成了底层架构现代化(编译到 ES2023、Node 20+)、移除冗余依赖、补齐实用数据操作 API,并通过 codemod 工具降低迁移成本,被广泛视为维护工作重回正轨的明证。
原文称 Anthropic 因美国出口管制指令,临时关闭 Claude Fable 5 与 Mythos 5 全部访问。该消息仍需官方渠道交叉验证,更应被视为前沿模型监管风险案例。
本期Q资讯涵盖钉钉换帅、阿里高管变动、Anthropic Fable 5遭美国政府禁令被迫退场、智谱GLM-5.2全量开放、Meta裁员8000人、大疆/影石专利纠纷、滴滴更名、微信AI内测等多个热点事件。
OpenAI 工程师 Ryan Lopopolo 介绍了以 Codex 为唯一代码入口的 Harness Engineering:用上下文、工具、测试与异步反馈循环,把 AI Agent 从结对助手推向可规模化交付的软件生产系统。
InfoQ 用二十年内容史复盘技术采用曲线:敏捷、云、DevOps、Kubernetes、微服务、机器学习先后从前沿走向常识,AI 工程与智能体系统则正在进入最危险也最有价值的早期阶段。
小米 MiMo Code 用开源和长程 Agent 叙事迅速吸引关注,但早期 bug、安全边界和遥测设计也引发开发者不满。真正的看点不是“5 人 2 周”,而是 coding harness 是否会成为 AI 编程的新战场。
92 年出生、刚刚升任钉钉 CEO 的陈宇森,在 2017 年 25 岁时曾写下一篇关于程序员如何高效工作、避免无意义加班、走出舒适区脱单、经营亲密关系的真诚自述。本文重读这篇旧作,结合其新职务背景做一次梳理与反思。
Anthropic 在 6 月 10 日发布的 Claude Fable 5 在各大榜单霸榜,但首批用户最大的"aha moment"并不来自日常写代码,而是被它扔进那些拖了几个月没人敢动的重构、迁移、老仓库收拾烂摊子里。它确实更强,也确实更贵、更烧额度——真正能体现它价值的,是那些"值得花钱"的长程任务。
Anthropic 发布两款"核弹级"模型——Claude Fable 5 和 Claude Mythos 5,这是其史上性能最强的一代模型,首次将前沿模型按照风险等级进行差异化开放:面向普通用户的 Fable 5 保留了严格安全限制,而能力完全释放的 Mythos 5 则仅向少量经过审核的网络安全机构和科研组织开放。
Anthropic 发布 Fable 5 和 Mythos 5 双版本模型,实际为同一底层模型的两套分级售卖策略:面向公众的 Fable 5 配备严格安全分类器,敏感话题自动降级至 Opus 4.8,且用户端无任何提示;同时配套 30 天强制留置政策,引发"挂羊头卖狗肉"的强烈质疑。
Anthropic 工程师、Claude Code 创建者 Boris Cherny 最近的一次分享中说道,"现在,我觉得又到了下一个层级:我不再提示 Claude 了,我有一堆循环(loops)在运行,它们才是在提示 Claude 并判断接下来该做什么。我的工作变成了写循环。我认为,这是接下来几个月,甚至今年剩余时间里我们会看到的下一次转变。"
Nx Release 将发版拆成版本计算、变更日志和发布三个阶段。推荐流程是:本地先 dry-run,再生成版本、changelog、commit/tag,并跳过发布;真正 publish 放到 CI/CD 中执行,降低误发和权限泄露风险。
AI 代码生成率冲到 50% 以上,研发周期却没变短;非研发人员开始用 Vibe Coding 写软件,但信任感在下降。AI Coding 都这么强了,在企业级开发中的应用到底卡在哪?
这可能是 Tim Cook 最后一次在 Apple 发布会上说出那句熟悉的"Good morning"。WWDC 2026 上,Apple 正式承认了一个事实:他们不会自己构建前沿 AI 模型。他们选择从 Google 租用一个模型——1.2 万亿参数,每年成本约 10 亿美元。这件事比今年任何一个 benchmark 都能说明 AI 的经济学。
过去一年,Coding Agent 从"Vibe Coding"走向工程化:Context Engineering 成为双向放大器杠杆,Subagents 解耦上下文污染,Harness 成为约束非确定性模型的核心安全网。范式从"怎么 prompt"转向"怎么搭系统"。
本期 Q 资讯:微软 Azure 中国核心研发团队超 200 人被裁、最高 N+7 补偿;AI 短剧占国内 Token 消耗 55% 登顶;字节否认造车;高考 AI 监考员上线;百度电商与商业事业部合并;Anthropic 雇千人训练 Claude Code;苹果 Vision Pro 产品线被移除;微信与手机厂商推 A2A 助手。
Next.js 16.2 重点提升开发启动、刷新与渲染性能,并围绕 AI 编码智能体加入 AGENTS.md、浏览器错误转发终端和实验性项目查看 CLI,同时继续完善 Turbopack 能力与迁移工具。
架构不是静态资产,而是在业务、技术、依赖和 AI 工具变化中持续演化。文章提出用“架构变更案例”预判决策失效的可能性、影响范围与回退成本,并通过实验和适应度函数验证弹性。
Cloudflare Radar 数据显示,全球 HTML 网页请求中机器人流量已达 57.5%,首次反超人类;在美国甚至高达 71.5%。互联网的默认访客正在从"人"变成"Agent",这不只是数据拐点,而是商业、入口、价值逻辑全部被重写的开始。
曾在 NVIDIA 做 Cosmos 世界模型、后加入 xAI 打造 Grok Imagine 的 Ethan He 在 Latent Space 访谈中坦言:连英伟达也会遇到算力不够自由的问题。视频生成的下一次跃迁不再是更强的扩散模型,而是"视频智能体",而视觉智能的真正提升来自语言模型。
在 2026 中国台北 GTC 大会上,英伟达正式开源全球首款全模态物理 AI 基础模型 Cosmos 3,并同步推出 Agent Toolkit 与全球开发者协作联盟,将物理 AI 的训练评估周期从数月压缩至数天,全面打通从云端训练到边缘部署的产业闭环。
Business Insider 爆料 Anthropic 通过 Snorkel AI 雇佣约 1000 名人类软件工程师,以时薪 280 美元的标准为 Claude Code 提供高质量反馈。这种「真人兜底」的模式揭示了 AI 编程工具迈向工程化过程中的关键矛盾:越想让模型像高级工程师那样工作,就越离不开真实工程师的训练。
华为支持的 openJiuwen 社区开源了"Auto Harness"——一个由评测驱动、覆盖 Harness 全栈组件的端到端自动优化框架。它把"调 Harness"这件依赖工程师手感的活儿,变成可评测、可迭代、可回滚的工程流程,并将进一步演进为多 Agent 协同的 Swarm Post-Training。
GitLab 宣布裁员约14%(350人),同时Q1营收同比增长23%达2.642亿美元。公司表示此轮重组核心并非降本,而是 AI 智能体工作负载正对开发者基础设施施加强超出原本设计承载能力的压力,必须启动 Git 代际重构以支持100倍增长。
OpenAI CFO Sarah Friar 首次系统性披露公司战略:IPO 只是融资工具而非终点,B端C端收入各占约50%,最关注2030-2032年算力供给,与 Jony Ive 合作的神秘硬件将于今年发布。她强调公司目标是构建"AI 基础设施层",而非单纯聊天机器人公司。
Vibe Coding 能成功是因为代码天然适合人机共同维护,但办公文档场景存在三道坎:执行鸿沟、评估鸿沟、缺少可持续修改性、协作介质不够权威。HTML/Markdown 均不适合作为协作介质,而 OOXML(DOCX/PPTX/XLSX)本质上是一个小型代码项目,更适合作为 Vibe Officing 的底座。
## 摘要 谷歌推出 Android Bench 基准测试服务,为 Android 开发领域的 AI 模型提供权威排名。最新数据显示,GPT-5.5 目前领跑 Android 开发领域,Gemini 3.1 Pro 与 GPT-5.4 并列第二。 ## 1. GPT 5.5 是目前 Android 开发的最佳 AI 模型 根据 5 月 18 日的最新排名,**GPT 5.5** 是 Andr...
为什么开源模型代码只有几十 KB,权重却有几十 GB?这篇文章用一个 3 参数的天气小模型作类比,把 LLM 推理过程拆成"代码=蓝图"+"权重=填空内容"两个环节,并解释参数爆炸、显存常驻、CPU/GPU 分工的根本原因。给入门读者立住了正确的心智模型。
# Snowflake 开启 Agentic Enterprise 时代 AI 的技术演进走到今天,"模型更强"已经很难继续为市场带来足够的新鲜感。在 Snowflake Summit 26 的开幕 Keynote 中,Snowflake 抛出了一个更朴素、也更关键的问题:当 Agent 开始进入业务流程,企业凭什么让它做出可信赖判断? 答案仍然指向数据。当 SaaS 的交互方式正在被 Agen...
# "AI写的代码无一例外都是垃圾":编程语言Zig的硬核宣言 ---
AICon 2026 上海站以「构建可信、可规模化、可商业化的 Agentic 操作系统」为核心命题,6月26-27日云集阿里、腾讯、字节、华为、Google Cloud等头部公司技术专家,四大主题演讲、十二并行专题、60+技术讲师,解答 Agent 从实验室到生产环境的工程难题。
Anthropic于本周提交IPO申请,成为全球估值最高AI初创公司。其年化收入run rate已在5月突破470亿美元,反超OpenAI。更重要的是,公司预计将于今年第二季度实现首次运营盈利——而这个拐点来自企业定价模式的根本性转变:从按座包月转向按API实际用量计费。
"我们现在已基本追平了几个月的最先进水平。"在 Build 大会前夕,微软 AI 执行副总裁兼 CEO Mustafa Suleyman 在采访中表示。昨日,微软在 Build 大会上发布了一系列自研的 AI 模型。这标志着微软在模型研发上的一次重要推进,去年该公司才推出了首批自研模型,在此之前微软还主要依赖 OpenAI 的模型。
在中国台北英伟达 GTC 大会上,CEO 黄仁勋宣布基于新一代 GPU 平台的 Vera Rubin 架构已进入全面投产阶段。他强调「生成式 AI 已经到来,实用 AI 已经到来」,并指出 NVIDIA 本质上是一家软件公司。Vera Rubin 是英伟达发展史上野心最庞大的研发项目,公司全体四万名工程师全员参与。
## 摘要 Rod Johnson 又回到了一线。 他是 Spring 的创造者,曾经几乎重新定义了企业 Java 应用应该怎么写。二十多年后,他重新创业,做了一个面向企业 AI Agent 的开源框架 Embabel,试图把 LLM 放进真实的业务系统里,让它不只是会调用工具,而是能在可控、可解释、可审计的流程里工作。 有意思的是,这一次他做的依然是框架,但他对"框架"的未来并不乐观——至...
## 1 当传统 SaaS 软件被集体唱衰,Snowflake 在做什么? AI 爆发式增长后,所有人都相信一个美丽的故事:AI 会让软件变得更聪明,企业会因为 AI 使用更多工具,员工会因为 AI 提高效率,数据会因为 AI 变得更有价值。 SaaS、云平台、自动化、CRM、数据仓库、创意软件、办公软件——这些曾经在云计算时代建立王国的公司,似乎马上就要进入第二个黄金时代。 然后,故事突然...
## 摘要 Anthropic 于 5 月 6 日在旧金山举办了 Code with Claude 2026 峰会,并将直播内容发布到了 YouTube。相关分享覆盖了 Claude Code、Claude Developer Platform,以及在 GitHub、Vercel、Datadog、Bun 和多家 AI 原生创业公司中的合作部署案例。贯穿全天的主线话题是:模型能力的阶段性跃迁,会如...
OpenAI 为庆祝 Codex 用户突破 500 万,恢复了部分用户的 ChatGPT Plus 订阅用量的重置。但用户对此福利的评价两极分化:有人欢迎,认为终于可以跑真正的 eval 和 review-agent 工作了;更多人认为这只是表面文章,"作秀"成分居多。与此同时,AI 成本管理平台 CostHawk 数据显示,100 名操作者中 96 名使用 Claude Code,仅 2 名使用 Cursor。
Hunter Bown 是一位曾经历多次职业转型失败的美国年轻人,法学学院第一学期经历脑震荡,又在状态很差的情况下参加考试,成绩不理想。没钱没工作没学位,走投无路之际,Claude Code 出现了,给他提供了一种以前没有的"能动性"——只要有想法,就可以真的把它做出来。后来他做了面向 DeepSeek 的终端工具 DeepSeek-TUI(后改名 CodeWhale),一跃成为 GitHub Trending 项目,现已入职美国 AI 模型公司 Arcee AI。
谷歌推出 Middleware for Genkit,这是一个用于构建基于 AI 的代理型应用程序的开源框架。此次更新围绕模型调用、工具执行和生成循环增加了一个可编程的拦截层,使开发人员能够更好地控制生产级 AI 系统的可靠性、安全性及协调机制。
星源智联联合北大提出 RoboAgent,采用"能力驱动"的规划框架,将复杂任务拆解为 VLM 擅长的视觉-语言子问题,在 ALFWorld 文本任务上以 3B 模型达到 94% 成功率,超越 GPT-4o 和当前最佳方案,入选 CVPR 2026。