olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高效转换为干净、自然排序的纯文本。基于Qwen2.5-VL-7B模型,通过强化学习(RLVR)优化,结合合成数据生成与单元测试机制,解决传统OCR在复杂场景(如数学公式、表格、多列布局)中的精度问题。在文档解析任务中表现突出,尤其在处理复杂格式和结构化内容时,准确率显著高于同类模型。例如,在数学公式识别、表格数据提取等任务中,能更精准地还原文档内容。
>>展开阅读
有 NAS 或者服务器的小伙伴可以在 Docker 里面安装微信或者 QQ 了,给大家分享这个「WeChat Selkies」项目,据介绍通过 Selkies 的 WebRCD 技术把界面投送到 Web 浏览器,无需在本地安装微信/QQ 客户端,适用于服务器部署、远程办公等场景。
>>展开阅读
LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分钟内生成720P高清长视频,保持色彩一致性且无质量衰减。技术亮点包括多奖励强化学习优化,性能接近商业级SOTA模型,在内部测试中多项指标超越同类开源模型。模型已在Hugging Face和GitHub开源,提供文本/图像输入、视频续写等一键式部署方案。
>>展开阅读
开源轻量级个人导航站「MeNav」高度可定制,让您轻松创建属于自己的导航主页。无需数据库和后端服务,完全静态部署。支持一键 Fork 部署到 GitHub Pages,还可以从浏览器书签一键导入网站。配合 MarksVault 浏览器扩展,更支持书签自动同步和导航站自动更新。
>>展开阅读
AI+语音输入法无疑是未来的发展趋势,有开发者尝试了豆包输入法的语音识别感觉大受震撼,于是开发了这款安卓手机的免费开源「言犀键盘」基于 AI 的智能语音,让语音输入更自然、更高效。
>>展开阅读
基于本地语音识别模型的「代体语音输入法」提供了 Windows、macOS 客户端、完全免费使用。
>>展开阅读
随着收藏的网址越多,整理起来太麻烦?分享一款浏览器书签一键整理分类的扩展插件,支持 Chrome/Edge 等浏览器,利用 AI 辅助优化;扫描失效书签,自动归档不常用书签,并提供新标签页导航和访问热度统计。
>>展开阅读

Google正式发布了其新在线学习平台“Google Skills”,用户可通过该平台学习人工智能相关技能并获得认证。该平台汇集了约3,000门课程、资质证书和实验室,整合了此前分布于不同在线门户的内容资源。“Google Skills”作为一个统一门户,收录了“Grow with Google”、“Google Cloud”、“Google DeepMind”以及“Google for Education”的各类课程。平台重点关注人工智能和生成式AI,同时还涵盖数据分析、网络基础设施、网络安全和办公技能,从初级到高级均有相关课程可选。据Google方面介绍,过去一年里,全球用户已完成超2,600万次课程、实验室和认证项目,显著提升了职位技能。平台设计还借鉴了主流学习应用,设置了连续学习进度统计、技能徽章及社交媒体成就分享功能。企业用户则可通过高级报表中心、友好联赛和公司定制排行榜等特色功能获得个性化体验。针对技术进步日新月异的现状,Google指出,技能的“半衰期”已从六年缩短至两年半。研究显示,约95%的学习者在课程采用“游戏化”设计(如连续学习、排行榜和成就庆祝)时更有动力完成学习目标。
>>展开阅读
- «
- 1
- ...
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- ...
- 115
- »