当AI学会欺骗，我们该如何应对？

作者:Jam 发布时间: July 24, 2025 分类:日志 No Comments

前沿模型越来越多地被训练和部署为自主智能体。一个安全担忧是，AI智能体可能会隐秘地追求与人类目标不一致的目标，隐藏其真实能力和目的——这也被称为AI欺骗或谋划行为（AI deceptionor sc heming）。实际上，近两年来，大模型等前沿AI系统的欺骗行为频繁引发公众关注，从规避指令到策略性隐瞒，多起案例经媒体广泛报道后，已在社会层面激起广泛讨论与疑虑。公众在惊叹技术飞跃的同时，也对潜在失控风险深感不安。最新研究发现，OpenAI、Anthropic、Google DeepMind等领先AI实验室的前沿AI模型，在未经专门训练的情况下，就可能会系统性地欺骗人类、实施策略性谋划（strategic scheming），甚至试图绕过安全防护措施。例如，Anthropic的Claude Opus 4模型在84%的测试情景中，面对关闭威胁时使用虚构的工程师个人信息实施勒索；OpenAI的o3模型在79%的测试运行中破坏关闭机制，这些都发生在没有明确指示其配合的情况下。这些行为即使经过大量安全训练也会持续存在，代表着从正常训练中自然涌现的能力，而非明确编程或专门训练的结果。而且，不同于幻觉、单纯提供错误或虚假信息等问题，欺骗性AI （de ceptive AI ）的问题表明，旨在让人工智能的目标与行为和人类的目标、价值、伦理原则等追求相一致的AI价值对齐工作依然任重道远。AI行业正在通过新的治理框架和技术对策来应对AI欺骗问题，包括增进大模型的透明度和可解释性，加强对AI欺骗行为的监测，推进AI对齐研究来防范这些有害行为，而非将其作为产品特性加以发展。

>>展开阅读

他们毕业于985，却没把人生交给标准答案，那些名校生，不再活成简历

作者:Jam 发布时间: July 24, 2025 分类:日志 No Comments

他们曾是标准答案的书写者。年少时一路拼搏，被称为“别人家的孩子”，用一张张漂亮的成绩单铺出通往名校的通道。可走出校园才发现，社会也在悄悄抛出另一张试卷：大厂、编制、名企、年薪百万——人生的“正解”似乎早就写好。只是，有人开始停笔了。有人去了西南边陲，开一家几乎没有客流的小书店；有人回到厦门记录城市脉搏，感受自己理解的“新闻声音”；有人在疲倦文旅央企的“流量+网红+打卡”式内容下选择另一个方向买下了人生第一支麦克风。他们没有拒绝成长，只是选择用不同的方式前行。他们不再让名校光环变成人生的镣铐，也不愿再被社会的坐标系定义“成功”。

>>展开阅读

Meta 超级 AGI 团队曝光，一半是华人

作者:Jam 发布时间: July 24, 2025 分类:相册 No Comments

Meta 超级 AGI 团队曝光，50% 是华人

>>展开阅读

今日热榜

作者:Jam 发布时间: July 24, 2025 分类:日志 No Comments

>>展开阅读

BL List - 各大手机厂商 BL 解锁

作者:Jam 发布时间: July 24, 2025 分类:技术 No Comments

现在的手机厂商对于 BL 锁的管控越来越严格，为方便喜欢折腾刷机小伙伴，有大佬制作了「BL List」这个开源项目网站，提供了各大手机厂商的 Bootloader 解锁、内核开源、保修政策对比。 20250723-2

>>展开阅读

让 AI 接管浏览器免费开源项目：Chrome MCP Server

作者:Jam 发布时间: July 24, 2025 分类:技术 No Comments

之前给大家分享过开源 AI 浏览器：强得可怕：BrowserOS，内置了 AI 智能体的能力，这意味着你可以用自然语言命令它帮你完成特定任务，提高你的工作效率。而今天要推荐的这个「Chrome MCP Server」开源项目，可以让 AI 直接操控原生的 Chrome API 来实现一些功能，例如：利用 AI 帮你管理书签、帮你自动截图、帮你分析你的浏览记录、帮你捕获网络请求、帮你总结网页内容等等。 20250723-4

>>展开阅读

Windows 365

作者:Jam 发布时间: July 24, 2025 分类:相册 No Comments

>>展开阅读

Meta正在开发一种可以与计算机交互的手势控制腕带

作者:Jam 发布时间: July 24, 2025 分类:相册 No Comments

Meta 研究人员正在开发一款腕带，让人们可以用手势控制电脑。这包括移动光标、打开应用程序，以及像使用铅笔一样在空中书写发送信息。 Meta 的腕带采用了一种名为表面肌电图 (sEMG) 的技术，该技术可以检测肌肉活动产生的电信号来解读用户的动作，正如发表在《自然》杂志上的一篇研究论文所解释的那样，这些信号甚至可以在用户做出动作之前就感知到他们的预期动作。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

当AI学会欺骗，我们该如何应对？

他们毕业于985，却没把人生交给标准答案，那些名校生，不再活成简历

Meta 超级 AGI 团队曝光，一半是华人

今日热榜

BL List - 各大手机厂商 BL 解锁

让 AI 接管浏览器免费开源项目：Chrome MCP Server

Windows 365

Meta正在开发一种可以与计算机交互的手势控制腕带