Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K 是大规模的第一人称视角(egocentric)工厂操作视频数据集,由 build.ai 团队开源。数据集包含 10,000 小时的视频,总帧数达 10.8 亿帧,涉及 2,138 名工人,平均每人贡献约 4.68 小时的视频内容。数据集共有 192,900 个视频片段,每个片段中位长度为 180 秒,存储大小为 16.4 TB,采用 H.265/MP4 格式,分辨率为 1080p,帧率为 30fps。特点在于高密度的操作场景和高频率的手部可见性,相比以往的野外数据集有显著提升。Egocentric-10K - Build AI开源的第一人称视角机器人数据集

>>展开阅读

Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong 是月之暗面(Moonshot AI)开源的全新AI Agent开发框架,为开发者提供一个轻量、灵活且高度可扩展的底层支持,以构建下一代智能体应用。通过异步工具编排引擎,能高效调度多个工具并行执行,大幅提升代理的响应效率与任务完成率。Kosong采用插件化设计,支持可插拔的聊天供应商(Chat Provider),开发者可以自由切换或混合调用不同模型,如Kimi、DeepSeek、Llama3等,无需修改核心业务逻辑。Kosong基于现代Python生态构建,要求Python 3.13及以上版本,并推荐使用新一代包管理器uv进行安装。Kosong - Moonshot AI开源的全新AI Agent开发框架

>>展开阅读

LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft 是商汤基于开源框架 LazyLLM 构建的开源 AI Agent 应用开发与管理平台,为企业和开发者提供一站式AI应用开发解决方案。帮助开发者以低门槛、低成本快速构建和发布大模型应用。平台提供从应用创建、调试、发布到监控的全流程闭环体验,支持低代码、组件化应用编排。LazyCraft 内置模型管理功能,涵盖数据集管理、模型微调与推理服务。支持多租户、多工作空间和细粒度权限控制,并兼容多种向量库与 RAG 策略。LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

>>展开阅读

SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI是商汤科技发布的开源空间智能大模型,专注于提升AI在空间理解与推理方面的能力。模型在空间测量、重构、关系判断、视角转换、形变分析和空间推理等六个核心维度上表现出色,显著优于其他开源和闭源模型。例如,在复杂道路场景中,SenseNova-SI能精准判断车辆的后续动作,而其他模型则难以做到。SenseNova-SI采用系统化的训练方法,通过大规模高质量数据训练,验证了“尺度效应”,显著提升空间认知能力。基于多模态基础模型构建,通过持续训练,使模型在复杂场景中具备更强的空间理解能力。SenseNova-SI - 商汤科技开源的空间智能大模型系列

>>展开阅读

Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder是开源的低代码建站工具,由Frappe公司开发,核心特点是提供类似Figma的可视化编辑器,支持拖拽组件快速搭建网站。属于Frappe生态(Frappeverse)的一部分,相比传统AI建站工具,Frappe Builder的优势在于操作直观可控,用户可以直接通过界面调整样式和布局,无需编程基础。开源特性允许自由扩展,适合个人展示或小型企业快速部署网站。Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

>>展开阅读

Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR是Meta推出的多语言语音识别框架,覆盖1600+语言,78%语言字符错误率低于10%。其70亿参数wav2vec 2.0编码器结合CTC与Transformer解码器,支持零样本转录未见语言,仅需少量示例即可适配新语种。模型开源,含350种低资源语言语料库,推动全球濒危语言数字化与语音技术普惠。Omnilingual ASR - Meta推出的多语言语音识别框架

>>展开阅读

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR 是开源复刻项目,实现 DeepSeek-OCR 的核心架构,通过光学压缩技术高效处理文本信息。核心是 DeepEncoder,由 SAM-base(处理高分辨率图像)、16×卷积压缩器(减少 token 数量)和 CLIP-large(处理压缩后的特征)组成。这种设计在保持高分辨率处理能力的同时,显著降低了激活内存和 token 数量。DeepOCR 采用两阶段训练流程:第一阶段使用 LLaVA-CC3M 数据集进行视觉 - 语言对齐训练;第二阶段使用 olmOCR 数据集进行 OCR 特定预训练。通过这种训练方法,DeepOCR 在 OmniDocBench 和 olmOCR 基准测试中表现出色,尤其在英文文本识别和表格解析任务中,验证了光学压缩的有效性。DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

>>展开阅读

NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase是基于AI驱动的开源无代码开发平台,支持快速搭建业务系统,无需编程即可通过配置完成应用开发。项目采用Apache-2.0协议,提供私有化部署和灵活扩展能力,适用于企业管理、协作平台等场景。最新2.0版本已集成AI员工功能,可自动处理邮件分析、客户调研等任务,显著提升工作效率。NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

>>展开阅读