olmOCR 2 - AI2开源的多模态文档解析模型

作者:Jam 发布时间: October 28, 2025 分类:技术 No Comments

olmOCR 2是Allen Institute for Artificial Intelligence（AI2）开源的多模态文档解析模型，是olmOCR的升级版本。将数字化的打印文档（如 PDF）高效转换为干净、自然排序的纯文本。基于Qwen2.5-VL-7B模型，通过强化学习（RLVR）优化，结合合成数据生成与单元测试机制，解决传统OCR在复杂场景（如数学公式、表格、多列布局）中的精度问题。在文档解析任务中表现突出，尤其在处理复杂格式和结构化内容时，准确率显著高于同类模型。例如，在数学公式识别、表格数据提取等任务中，能更精准地还原文档内容。

>>展开阅读

Docker 部署，打开网页即可用微信/QQ，无需本地安装：WeChat Selkies

作者:Jam 发布时间: October 28, 2025 分类:技术 No Comments

有 NAS 或者服务器的小伙伴可以在 Docker 里面安装微信或者 QQ 了，给大家分享这个「WeChat Selkies」项目，据介绍通过 Selkies 的 WebRCD 技术把界面投送到 Web 浏览器，无需在本地安装微信/QQ 客户端，适用于服务器部署、远程办公等场景。 20251028-3

>>展开阅读

LongCat-Video - 美团LongCat开源的视频生成模型

作者:Jam 发布时间: October 27, 2025 分类:技术 No Comments

LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型，采用MIT开源协议，支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制，能在数分钟内生成720P高清长视频，保持色彩一致性且无质量衰减。技术亮点包括多奖励强化学习优化，性能接近商业级SOTA模型，在内部测试中多项指标超越同类开源模型。模型已在Hugging Face和GitHub开源，提供文本/图像输入、视频续写等一键式部署方案。

>>展开阅读

MeNav - 开源轻量级个人导航站

作者:Jam 发布时间: October 25, 2025 分类:技术 No Comments

开源轻量级个人导航站「MeNav」高度可定制，让您轻松创建属于自己的导航主页。无需数据库和后端服务，完全静态部署。支持一键 Fork 部署到 GitHub Pages，还可以从浏览器书签一键导入网站。配合 MarksVault 浏览器扩展，更支持书签自动同步和导航站自动更新。 20251024-1

>>展开阅读

安卓开源 AI 智能语音输入法：言犀键盘

作者:Jam 发布时间: October 24, 2025 分类:技术 No Comments

AI+语音输入法无疑是未来的发展趋势，有开发者尝试了豆包输入法的语音识别感觉大受震撼，于是开发了这款安卓手机的免费开源「言犀键盘」基于 AI 的智能语音，让语音输入更自然、更高效。 20251021

>>展开阅读

免费采用本地模型 AI 语音输入法：代体（WIN + macOS）

作者:Jam 发布时间: October 24, 2025 分类:技术 No Comments

基于本地语音识别模型的「代体语音输入法」提供了 Windows、macOS 客户端、完全免费使用。 20251022-3

>>展开阅读

TidyMark - 浏览器书签 AI 一键整理分类

作者:Jam 发布时间: October 24, 2025 分类:技术 No Comments

随着收藏的网址越多，整理起来太麻烦？分享一款浏览器书签一键整理分类的扩展插件，支持 Chrome/Edge 等浏览器，利用 AI 辅助优化；扫描失效书签，自动归档不常用书签，并提供新标签页导航和访问热度统计。 20251021

>>展开阅读

Google推出包含3000门课程和实验室的在线教育平台“Google Skills”

作者:Jam 发布时间: October 22, 2025 分类:技术 No Comments

Google推出包含3000门课程和实验室的在线教育平台“Google Skills” Google正式发布了其新在线学习平台“Google Skills”，用户可通过该平台学习人工智能相关技能并获得认证。该平台汇集了约3，000门课程、资质证书和实验室，整合了此前分布于不同在线门户的内容资源。“Google Skills”作为一个统一门户，收录了“Grow with Google”、“Google Cloud”、“Google DeepMind”以及“Google for Education”的各类课程。平台重点关注人工智能和生成式AI，同时还涵盖数据分析、网络基础设施、网络安全和办公技能，从初级到高级均有相关课程可选。据Google方面介绍，过去一年里，全球用户已完成超2，600万次课程、实验室和认证项目，显著提升了职位技能。平台设计还借鉴了主流学习应用，设置了连续学习进度统计、技能徽章及社交媒体成就分享功能。企业用户则可通过高级报表中心、友好联赛和公司定制排行榜等特色功能获得个性化体验。针对技术进步日新月异的现状，Google指出，技能的“半衰期”已从六年缩短至两年半。研究显示，约95%的学习者在课程采用“游戏化”设计（如连续学习、排行榜和成就庆祝）时更有动力完成学习目标。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

olmOCR 2 - AI2开源的多模态文档解析模型

Docker 部署，打开网页即可用微信/QQ，无需本地安装：WeChat Selkies

LongCat-Video - 美团LongCat开源的视频生成模型

MeNav - 开源轻量级个人导航站

安卓开源 AI 智能语音输入法：言犀键盘

免费采用本地模型 AI 语音输入法：代体（WIN + macOS）

TidyMark - 浏览器书签 AI 一键整理分类

Google推出包含3000门课程和实验室的在线教育平台“Google Skills”