
阿里千问发布全模态模型Qwen3.5-Omni,支持文本、图片、音视频输入,可实时视频通话生成代码、解读论文,拿下215项SOTA,性能比肩Gemini 3.1 Pro
Qwen3.5-Omni 是阿里千问推出的全模态AI模型,最大的亮点是可以像真人一样进行视频通话。你可以打开摄像头,让它看着你的屏幕实时生成代码、解读论文、分析视频内容。不需要复制粘贴文字,不需要截图上传,直接"看着说"就能完成工作。
适合谁用:开发者、研究人员、内容创作者,以及任何需要AI辅助处理多模态信息的人。
打开摄像头,在纸上画个前端草图,Qwen3.5-Omni 就能边看边生成完整的 HTML+CSS 代码。整个过程就像和真人程序员视频会议一样自然。

实测体验:
上传一段视频(比如电影预告片),Qwen3.5-Omni 能生成带时间戳的详细脚本,包括:
测试中,它成功拆解了《疯狂动物城2》预告片的所有分镜,甚至能准确识别37秒处的角色并分析氛围。
不用再对着满屏英文术语头疼。打开摄像头对准论文,Qwen3.5-Omni 会:

Qwen3.5-Omni 在多个基准测试中拿下 215项SOTA,整体成绩与 Gemini 3.1 Pro 打得有来有回:
自适应速率交错对齐技术,解决了AI说话不稳定的老问题(漏读、读错、数字发音奇怪)。
边输入、边处理、边生成,实现真正的实时交互,而不是"说一句等三秒"。
目前 Qwen3.5-Omni 已在 Qwen Chat 上线,支持三种尺寸:
体验方式:
API 调用:
体验地址:

Anthropic 为 Claude Code 新增电脑操作能力,可在 CLI 中自动启动应用、复现 Bug、测试修复效果,向 Pro 和 Max 用户开放研究预览,仅支持 macOS

飞书开源 lark-cli,覆盖 11 大业务域、200+ 命令,支持 Claude Code、Cursor 等主流 AI 工具直接调用飞书能力,Star 数已达 5.5k

React 核心团队成员开源 Pretext,仅几 KB 的纯 TypeScript 库,前端 UI 渲染速度比传统工具快约 500 倍,已获 2.8 万 Star