olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高效转换为干净、自然排序的纯文本。基于Qwen2.5-VL-7B模型,通过强化学习(RLVR)优化,结合合成数据生成与单元测试机制,解决传统OCR在复杂场景(如数学公式、表格、多列布局)中的精度问题。在文档解析任务中表现突出,尤其在处理复杂格式和结构化内容时,准确率显著高于同类模型。例如,在数学公式识别、表格数据提取等任务中,能更精准地还原文档内容。1761628670-1761628670-olmOCR-2-website.png

>>展开阅读

LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分钟内生成720P高清长视频,保持色彩一致性且无质量衰减。技术亮点包括多奖励强化学习优化,性能接近商业级SOTA模型,在内部测试中多项指标超越同类开源模型。模型已在Hugging Face和GitHub开源,提供文本/图像输入、视频续写等一键式部署方案。1761481311-1761481311-LongCat-Video-website1.png

>>展开阅读

MeNav - 开源轻量级个人导航站

开源轻量级个人导航站「MeNav」高度可定制,让您轻松创建属于自己的导航主页。无需数据库和后端服务,完全静态部署。支持一键 Fork 部署到 GitHub Pages,还可以从浏览器书签一键导入网站。配合 MarksVault 浏览器扩展,更支持书签自动同步和导航站自动更新。20251024-1

>>展开阅读

TidyMark - 浏览器书签 AI 一键整理分类

随着收藏的网址越多,整理起来太麻烦?分享一款浏览器书签一键整理分类的扩展插件,支持 Chrome/Edge 等浏览器,利用 AI 辅助优化;扫描失效书签,自动归档不常用书签,并提供新标签页导航和访问热度统计。20251021

>>展开阅读

Google推出包含3000门课程和实验室的在线教育平台“Google Skills”

Google推出包含3000门课程和实验室的在线教育平台“Google Skills”Google推出包含3000门课程和实验室的在线教育平台“Google Skills”Google正式发布了其新在线学习平台“Google Skills”,用户可通过该平台学习人工智能相关技能并获得认证。该平台汇集了约3,000门课程、资质证书和实验室,整合了此前分布于不同在线门户的内容资源。“Google Skills”作为一个统一门户,收录了“Grow with Google”、“Google Cloud”、“Google DeepMind”以及“Google for Education”的各类课程。平台重点关注人工智能和生成式AI,同时还涵盖数据分析、网络基础设施、网络安全和办公技能,从初级到高级均有相关课程可选。据Google方面介绍,过去一年里,全球用户已完成超2,600万次课程、实验室和认证项目,显著提升了职位技能。平台设计还借鉴了主流学习应用,设置了连续学习进度统计、技能徽章及社交媒体成就分享功能。企业用户则可通过高级报表中心、友好联赛和公司定制排行榜等特色功能获得个性化体验。针对技术进步日新月异的现状,Google指出,技能的“半衰期”已从六年缩短至两年半。研究显示,约95%的学习者在课程采用“游戏化”设计(如连续学习、排行榜和成就庆祝)时更有动力完成学习目标。

>>展开阅读