字节跳动与南洋理工联合推出 StoryMem,用“关键帧记忆池”解决 AI 视频跨场景角色/环境漂移痛点,生成中自动存重要帧,后续场景参照渲染,实现 500K token 级长故事一致;在阿里 Wan2.2-I2V 上用 40 万段五秒视频 LoRA 训练,跨场景一致指标提升 28.7%,用户盲测更美观。系统已开源,支持多角色复杂提示,为长视频叙事提供新基线。(来源:AIbase基地)
清华与OpenBMB联合推出UltraEval-Audio
清华 NLP 实验室、OpenBMB 与面壁智能发布 UltraEval-Audio v1.1.0,为音频大模型提供首个“一键测评+一键复现”开源框架,覆盖 TTS、ASR、Codec 等任务,支持隔离推理与并行超参搜索,已服务 MiniCPM-o2.6、VoxCPM 等主流模型。GitHub 开箱即用,可本地或云端运行,填补音频领域缺统一评测基线的空白,助力开发者快速迭代与公平比较。(来源:AIbase基地)
浪潮源 Yuan 3.0 Flash 多模态基础大模型开源发布
浪潮开源 40B 稀疏多模态大模型“源 Yuan 3.0 Flash”,单次推理仅激活 3.7B 参数, token 消耗约为同级稠密模型的 1/4~1/2,精度却接近 Qwen3-VL-235B 与 DeepSeek-R1。创新 RAPO 强化学习框架配合反思抑制奖励,减少无效链式思考;局部过滤增强注意力+LFA 提升细粒度,自适应图像分割支持高分辨率并降显存。企业级 RAG、表格理解、摘要等任务已超 GPT-5.1,GitHub 完全开源,主打低成本企业落地。(来源:IT之家)
智谱与马来西亚政府落地国家级 MaaS 平台及主权 AI 实验室 Z·UM AI Lab,基于智谱 Z.ai 开源模型针对马来语、英语、汉语多语言环境与本地文化优化,采用主权数据安全架构,服务政务、企业、科研、教育等场景,并提供本地人才培养课程。这是智谱“出海+主权 AI”首单,也是国内大模型厂商首次参与东盟国家级基础设施,为后续复制到印尼、泰国提供示范,同时强化智谱在东南亚多语言生态的领先地位。(来源:财联社AI Daily)
OpenAI 被曝秘密研发“AI 笔”,外形如钢笔,内置高灵敏度麦克风与微型摄像头,可实时“看见”文本、公式、物体并听取语音指令,数据直传云端 GPT-5 或专用 Agent 模型,通过语音或配对屏幕反馈。笔形设计降低学习成本,主打教育辅导、会议记录、多语言翻译等垂直场景;若独立联网,可为 OpenAI 构建绕开手机系统的数据闭环,成为其首款硬件入口。项目由前苹果设计总监 Jony Ive 参与,符合其“隐形科技”理念,2026 年或发布,定价待定。(来源:AIPress)
Android App可直接集成Gemini大模型
Google在I/O 2025开发者大会上宣布为ML Kit推出端上生成式AI API,开发者可轻松将Gemini Nano模型集成到安卓应用中。首批发布四个API接口:文本摘要、智能校对、风格改写和图像描述生成。这些API完全在设备端运行,具备数据隐私安全、离线功能可用和零额外成本三大优势。基于AICore构建的四层架构确保高质量输出,通过特定功能微调使API基准分数显著高于基础模型。以Pixel 9 Pro为例,在高端安卓设备上表现优异,为开发者提供流式和非流式两种结果接收方式,将彻底改变安卓应用集成AI能力的方式。(来源:AIPress)
苹果悄然启动国行版“Apple智能与Siri”灰度测试,符合条件的用户在“设置-Apple智能与AI”中可一键开启。首次激活需插电并接入Wi-Fi,自动下载约数GB的模型包,完成后桌面新增“图乐园”App,提供文生图、文案润色、语音深度交互等功能。有测试者反馈,目前回答多调用百度接口,内容偏保守,疑似部分能力被阉割。苹果技术顾问回应:国行AI尚未官宣上线,未来会在官网公告;硬件门槛锁定iPhone 15 Pro及以上机型,旧机强行刷入第三方破解包或致账户与资金风险。分析认为,苹果采用“灰度+云侧模型”策略,既满足合规,又可为正式版收集中文场景数据,预计二季度全面推送。(来源:财联社)
不想错过新、热、趣的AI资讯
点击“···”把应用宝设为“星标⭐️”