高通一改往年习惯,在 2020 年 12 月 2 日发布了骁龙 888。作为 2021 年旗舰标配的移动平台,骁龙 888 最新的 X1 构架带来了 25% 的 CPU 性能提升,Adreno 660 也给出高通 GPU 史上最大的 35% 性能提升。
不过近几年来,高通旗舰平台提升幅度最大的,一直都是它的 AI 性能。高通产品管理副总裁 Ziad Asghar 曾经表示,AI 性能大幅提升的主要来自客户的需求,他们期待看到 AI 在新领域实现应用,比如视频、游戏、安全等。
但终端用户依旧不太了解 AI 的实际用途和影响,AI 硬件的发展与大众观念的普及之间有明显的脱节。这次我们以首批搭载骁龙 888 的小米 11 和 iQOO 7 为例,看看移动 AI 能干什么,以及 2021 年旗舰的 AI 新玩法。
最强、出货量最大的移动 AI 计算平台移动 AI 的核心,是各种用到神经网络 / 深度学习等 AI 算法。它们在图像、音频等领域有远超传统算法的效果,但需要专门的 AI 硬件加速器才能高效地工作。
而高通是首个将终端侧 AI SDK 商用化的公司,如今全球有超过 5 亿台安卓终端,在使用高通神经网络处理 SDK 提供 AI 功能。而高通的 AI 性能,从骁龙 835 时代就开始倍数增长,骁龙 845 是 3TOPS,骁龙 855 是 7TOPS,骁龙 865 是 15TOPS。AI 算力达到这个量级,本以为增长会明显放缓,结果骁龙 888 又把算力记录提升到 26TOPS。
骁龙 888 上的是高通第六代 AIE,其最核心的 Hexagon 780 DSP,把以前 Hexagon 600 系列中的标量,张量(Hexagon Tensor Accelerator)和向量(Hexagon Vector eXtensions)模块,融合成整体式 IP,共享内存增加整整 16 倍。在每瓦性能提升 3 倍的基础上,Hexagon 780 DSP 标量执行能力提高 50%,张量执行吞吐量翻倍,核心切换时间比以前快 1000 倍。
骁龙 888 在机器学习基准测试 MLPerf 中,最高提升 4 倍,暴涨后的内存池可以让神经网络在 Hexagon 780 内部运行,无需占用额外内存,也能运行更大的机器学习推理模型。
类似 ARM 平台 “大小核搭配”的传统艺能,高通为了平衡性能和功耗,在骁龙 888 的第二代传感器中枢里,增加了专用的低功耗 AI 处理器。在功耗不到 1mW 的情况下,让 AI 性能提升 5 倍。
传感器中枢集成的 AI 处理器,负责低功耗、无需唤起的全天候语音响应、环境感知等场景的 AI 待命,宣称能分担 Hexagon 780 80% 的工作负载。需要 AI 的人眼识别亮屏、语音助手应答、汽笛声 / 婴儿哭声等语音事件检测功能的功耗也更低。
另外,它可以从不同的核心收集和解密 5G、WiFi、蓝牙、位置流的连接数据,并创建全天候和带上下文感知的用例,例如手机识别周围声音自动调整铃声音量、在没信号停车场实时构建地图并追踪停车位置等情境感知功能。
不同厂商对 AI 的理解与应用在骁龙 888 这一代,高通推出更加开放的 AI Engine Direct,开发者现在可以用统一的 API 直接访问 Hexagon 780、Kryo CPU 和 Adreno GPU 等的硬件,并有更多的框架的支持。软硬件的提升,可以更好地支撑不同厂商,让厂商能根据各自对 AI 理解,做出不同的 AI 应用。
在首批搭载骁龙 888 的小米 11 和 iQOO 7 上,因为有更加强大的 AI 性能支撑,一大批下渗到日常场景,很接地气的 AI 应用,就是教科书式的 “我很平凡,凡尔赛的凡”。
在小米手机上,运动健康领域 MACE Micro AI 引擎,使用深度学习算法提高数据准确精度并降低能耗,一整天的耗电量小于 1%(24 小时耗电量 9.6mAh)。
而 DNN-HMM 框架深度学习算法,被小米用在相机 AI 声控上,在拍照场景的音频流中,进行多指令词实时检测。而小爱同学语音助手的 ASR 语音识别、NLP 自然语言处理、TTS 语音合成,以及一系列的端侧 AI 功能,因为有骁龙 888 的支持,在小米 11 上的响应速度更快,但功耗却更低。
GVoice & VOIP 杂音比例对比
而 iQOO 的 AI 应用,自然是和游戏相关的。在 iQOO 联合腾讯开发的游戏 Gvoice 语音功能中,使用骁龙 888 的 AI 引擎和传感器中枢作为新的硬件载体,GVoice 算法负责 AI 的回声消除和噪音抑制(ECNS),厂商与游戏端定制通信协议,适配客制化音频通路。
在提供更好的声音还原度和噪声抑制效果时,运行在 Hexagon DSP 的 GVoice 语音,可以让整机耗电下降 20mA/s,其所占的 CPU 资源在原有基础上减少约 30%。
另外,高通与 NLP 自然语言处理方案的头部厂商 Hugging Face 合作,为第六代高通 AI 引擎提供强大的 NLP 库。打字时的本地自动补全建议、AI 语音助手对用户提问的理解、终端侧的实时 AI 翻译等功能,都将直接受益。
把单摄玩出花的 Google,之前就用预训练的神经网络做到背景虚化、全景、Motion 动图(类似 iOS 平台的 Live Photo)、AR 实时追踪贴图、超分辨率放大、超级夜景等多种功能。Snapchat 通过 AIMET 量化其 AI 镜头模型,提高实时滤镜流畅度并增加滤镜多样化。
而增加对循环神经网络(RNN)和长短时记忆神经网络(LSTM)支持的 AI 模型增效工具包,被开发者做成了 “手机拍照就能扫描皮肤健康”的应用。德国的 trinamiX 公司则是用红外光谱分析材料反光,以此做皮肤检测,甚至是垃圾分类。
AI 拍照的新玩法影像是 AI 最重要的用途之一,而最能看出不同厂商对 AI 的不同看法的,也是影像部分。小米 11 的夜景模式新增的夜景拍摄视频,利用 AI 大幅提升夜景视频的画面亮度和降噪表现。夜景视频可理解为每秒拍摄超过 24 张超级夜景照片,是 ISP 和 AI 算力暴力提升的直接效果。
小米 11 在相册自带了证件照功能,自拍之后,交给 AI 一键抠图,选定规格和背景就能搞定,不需要跑照相馆,也不需要动用电脑。类似的还有 AI 智能去线、智能去人等功能。
之前的 AI 魔法换天功能,在小米 11 直接被玩出花来了。其提供了晴空、雨云、彩虹、夕阳、晚霞、星空、月亮、闪电、银河等几十种可选内容,现在天空上的云朵能像现实一样随机变化。小米甚至还搞出 “焰火版魔法换天”,烟火能实时 “炸出”自定义的骚气祝福语。
而对 AI 算力要求最高的,是多人物共存的魔法分身视频功能。其用法虽然很简单,而且无需三脚架,但背后结合了 AI 视频目标检测、实时 SLAM 场景建模、AI 视频实时人像分割三大算法,而且还要对视频实时逐帧对齐拼接。
相比小米 11 的趣味性,iQOO 7 对 AI 拍摄的着眼点,要加实用化一些。iQOO 7 使用自研 RAW 域 AI 空域降噪模型,对单帧 RAW 图进行空域降噪,用 AI 学习识别画面高中低频区域,再 0.01lux 分段处理的噪声模型标定,分别使用不同程度的降噪,有效提升画面纯净度,并保留画面中不同的明暗细节。
而 iQOO 的黑光夜视 2.0 是更加极限的 AI 算法,其做到了 3 倍 ISO、远超人眼极限的 “夜视仪”效果。针对拍照时的翻车操作,iQOO 7 的相册有纯净度改善和处理人像模糊问题的后期修复能力。
褪色照 / 黑白照 AI 上色,是以前就有云端方案,但因为隐私、收费和处理时长问题,一直铺不开。在骁龙 888 的 AI 算力支持下,iQOO 7 也引入情怀向的 AI 旧照修复、黑白照上色功能,同样是在相册里的一键操作。
视频方面,iQOO7 做出了一键 Vlog 模板。里面最骚气的希区柯克变焦模板,使用 AI 进行目标检测、背景拉伸,缩放,完成以前需要多摄像头 / 变焦协同和人力移动的效果。
常规的图片滤镜只能在给出的滤镜风格里选择,但 AI 已经能做到滤镜风格迁移,用 AI 识别和抽象化提取指定照片(甚至电影截图)的风格,自动生成全新的模板。
骁龙 888 上,高通首次将 AI 引入自动对焦、自动曝光和自动白平衡的 3A 算法。基于显著性特征分析的自动对焦和自动曝光的神经网络,提供前所未有的准确度之余,还有实物运动跟踪能力。
虹软 “傻瓜相机”功能,在全自动的 3A 之外,还能自动跟踪目标和自动缩放,连取景和构图都 “傻瓜化”了。
在高通 AI Engine 的支持下,CV-ISP 硬件计算视觉加速器也能提供 60fps 实时景深识别的人像、背景分割、替换、人体追踪、物体识别 / 追踪的效果。
高通 AI 引擎运行和加速的 Tetras.AI 超级电影应用里,骁龙 888 可以做到 4K 30FPS 的视频实时背景抠图、分割和融合,然后还能用不同的形象代替视频中的角色,与里面的其他人物 / 角色进行互动,而且取景框上就能实时预览最终效果。
总结数年间,高通的 AI 引擎已经发展到第六代,异构化和第二代传感器中枢,已经能让人眼识别亮屏、语音助手应答、语音事件检测、情景上下文感知等 AI 功能可以低功耗地全天候工作。
而小米 11 和 iQOO 7,在相机上的超级夜景视频、抠图、魔法换天、旧照恢复、希区柯克变焦模板、自由滤镜等更加重度的 AI 新玩法,也在刷新我们对 AI 拍照的理解。一边是下沉渗入到日常使用的传统功能 AI 化,一边是新发掘的非线性、散点出现的 AI 新玩法。
但 “真正的科技就是让你感觉不到它的存在”,大众对移动 AI 实际用途的感知割裂,或许正是 AI 已经深入生活的注脚。当被新旗舰玩出花的 AI 功能,从点连成线、连成面之后,就是真的 “我很平凡,凡尔赛的凡”了。