补齐多模态最后一块拼图！DeepSeek识图模式灰度上线，小鲸鱼终于能“看见”世界了

文本是《AI咨询（共158篇）》专题的第 158 篇。阅读本文前，建议先阅读前面的文章：

4 月 29 日，AI 圈迎来重磅消息 ——DeepSeek 识图模式正式开启灰度测试！被选中的用户打开 DeepSeek 首页，就能发现新增的 “识图模式” 入口，这意味着长期以文本能力出圈的 DeepSeek，终于补齐多模态短板，从 “能说会道” 进化到 “看懂画面”，小鲸鱼真正拥有了看见世界的能力。

从 OCR 到真视觉：不止识文字，更懂画面语义

过去很长一段时间，DeepSeek 仅支持图片文字识别（OCR），算不上真正的视觉理解。而全新的识图模式，彻底打破这一局限 —— 它能像人类一样读懂画面里的物体、场景、空间关系甚至细节氛围，实现从 “读字” 到 “看懂” 的质变。
多位 DeepSeek 研究员第一时间在社交平台官宣这一突破，研究员陈德里更是发文调侃，这一功能来自 DeepSeek “天才多模态同事们”，如今小鲸鱼终于能 “看见” 了。

补齐多模态最后一块拼图！DeepSeek识图模式灰度上线，小鲸鱼终于能“看见”世界了

实测封神！4 大场景见证硬核视觉实力

我们有幸获得灰度测试资格，从基础识物到深度推理，全方位实测识图模式能力，每一项表现都超出预期！

1. 精准识物：一眼辨品种，细节全拿捏

上传一张兔子照片，DeepSeek 瞬间识别出兔子品种，还能清晰描述兔子的姿态、毛色等细节，基础识物能力拉满，精准度堪比专业图鉴。

2. 细节控 + 地理通：草书小字也能认，经纬度分毫不差

我们特意加大难度，上传杭州灵隐寺照片 —— 图中仅右下角路灯上有草书写的 “灵隐寺” 字样，肉眼都难辨认。但 DeepSeek 结合建筑风格与文字细节，快速锁定地点为灵隐寺，给出的经纬度精准无误，全程速度极快，未开思考模式也能 “秒答”。

3. 识破视觉陷阱：不被表象迷惑，直击画面本质

面对一张易让人误以为 “有人坐在椅子上” 的视觉陷阱图，DeepSeek 完全没被误导，精准识别出墙面修补痕迹、垃圾收集区、杂物堆放区等真实场景，逻辑清晰，判断力在线。

4. 深度推理开挂：无文字线索，精准锁定地理范围

开启深度思考模式后，识图模式推理能力再上新台阶。上传一张无任何文字的随手拍照片，它能拆解前景、中景、背景信息，结合地标特征与地理区域匹配，精准判断山脉为燕山山脉、建筑风格符合北京昌平郊区特点，最终将范围缩小至北京昌平区或海淀山后地区，部分猜测与实际距离不到 10 公里，推理能力堪称 “地理侦探”。
此外，我们还尝试了热门的看手相玩法，虽初始看错左右手，但对手相形态的描述贴合事实，分析逻辑清晰，趣味性拉满。

蓄力已久！多模态能力早有铺垫

DeepSeek 识图模式的上线，并非一蹴而就，而是长期深耕多模态领域的必然结果。
早在 2024 年 12 月，DeepSeek 就开源了基于 MoE 架构的多模态模型 DeepSeek-VL2；2025 年，其多模态模型 Janus、JanusFlow 被 CVPR 收录，后续开源的 Janus-Pro 更是在 GenEval 图像生成基准上超越 DALLE-3 和 Stable Diffusion，成为开源多模态阵营的标杆之作。
此前，DeepSeek 主线产品虽未上线视觉能力，但多模态研究从未间断，此次识图模式灰度上线，正是将多年技术积累落地到产品的关键一步。

行业大势所趋：多模态成 AI 必争之地

当下，AI 走向多模态已是不可逆转的行业趋势。人类理解世界，本就是视觉、语言、听觉等多感官协同的结果，而多模态 AI 能打通文本、图像、音频等信息壁垒，更贴近人类认知世界的方式，解锁更多应用场景。
从 GPT-4o 到文心一言，国内外主流 AI 早已布局多模态，此次 DeepSeek 补齐多模态短板，不仅提升自身竞争力，更推动整个 AI 行业向 “全感官智能” 加速迈进。

结语：新起点，未来可期

目前，DeepSeek 识图模式仍处于灰度测试阶段，仅部分用户可体验，功能也有待进一步优化迭代。但不可否认，这是 DeepSeek 发展史上的重要里程碑 —— 从专注文本到多模态融合，小鲸鱼的 “认知边界” 正在不断拓宽。
未来，随着识图模式全面上线，若进一步接入联网搜索，DeepSeek 或将实现 “图片溯源、实景解析、信息联动” 等更多强大功能，为用户带来更智能、更全面的 AI 体验。
AI 多模态时代已来，DeepSeek 的新故事，才刚刚开始。

欢迎关注[一步API] https://yibuapi.com ，我们还会持续分享更多AI咨询、AI工具、实战经验、踩坑记录，助力你高效玩转AI开发、避开行业弯路。

补齐多模态最后一块拼图！DeepSeek识图模式灰度上线，小鲸鱼终于能“看见”世界了

想了解更多细节、获取专属支持，可添加客服微信：xuexiv5876 \ YibuDev，随时咨询交流～

补齐多模态最后一块拼图！DeepSeek识图模式灰度上线，小鲸鱼终于能“看见”世界了

从 OCR 到真视觉：不止识文字，更懂画面语义

实测封神！4 大场景见证硬核视觉实力

1. 精准识物：一眼辨品种，细节全拿捏

2. 细节控 + 地理通：草书小字也能认，经纬度分毫不差

3. 识破视觉陷阱：不被表象迷惑，直击画面本质

4. 深度推理开挂：无文字线索，精准锁定地理范围

蓄力已久！多模态能力早有铺垫

行业大势所趋：多模态成 AI 必争之地

结语：新起点，未来可期

惊了! ChatGPT Images 2.0看手相准到离谱，还能玩爆火的色彩测试

栈（Stack）详解：原理、实现方法与常见应用场景

【保姆级教程】手把手教你安装 OpenClaw并配置使用一步API

OpenRouter 访问受限后：国内可靠的替代方案——一步API

Claude Code CLI 安装与配置完整教程 | 支持 Windows 与 macOS 的 AI 编程助手

详细教程：国内调用 Google Gemini 3.0 Pro API 接口（附 Python 示例）

OpenClaw 完整配置教程（含第三方中转接入，从零到实操）

中国AI模型对比评测：国产VS国外大模型解析

关于本站

帮助中心

网站索引

关注交流