科技日报记者 华凌
北京2022年冬奥会和冬残奥会首次在中国举办,我国广大听障人群也期待着深入了解比赛资讯,全面感受这场精彩卓越的奥运盛会。
全国第二次残疾人抽样调查数据显示,中国有超过2700万名残疾性听力障碍人士。为了让残疾人朋友也可以更好地感受冬奥盛况,2月3日,由北京市科委立项实施的“冬奥手语播报数字人系统”正式上线,在北京冬奥会期间将在北京广播电视台新闻节目中投入使用,服务广大听障人士。
“冬奥手语播报数字人的应用展现我们‘让机器像人一样思考’的愿景。不仅使听障人士能快捷获取冬奥赛事资讯,还将无障碍环境理念传递到数亿人群。”2月4日,智谱AI CTO张鹏在接受科技日报记者采访时介绍。
据了解,本次亮相的“冬奥手语播报数字人”由北京市科委、中关村管委会科技冬奥专班委托智谱AI、凌云光和北京广播电视台联合打造,还得到北京市残疾人联合会和市残联聋人协会的大力支持。
张鹏表示,这个系统基于“悟道2.0”超大智能模型进行研发,由北京智源人工智能研究院牵头研发的“悟道2.0”旨在打造数据和知识双轮驱动的认知智能,实现超越图灵测试的机器认知能力。“悟道2.0”模型的参数规模达到1.75万亿,是GPT-3的10倍,是目前中国首个、全球最大的万亿级模型。由此,系统可自主搭建多模态肢体动作、表情、手指同步采集系统,运用跨模态拟人生成算法、超高精度写实数字人等行业领先技术,实现冬奥期间赛事新闻的实时专业手语翻译播报。
随着2018年《国家通用手语常用词表》和《国家通用盲文方案》作为语言文字规范正式发布,为了推广和普及国家通用手语,“冬奥手语播报数字人”系统完成了《国家通用手语词典》收录的8214条通用手语的采集和录制,并且语法都以听障群体习惯打法为准,以确保手语播报成果的准确性和专业度,更好地服务听障人群。
由于当前国内缺少较完善的手语语料数据,研发人员在北京市残疾人联合会和市残联聋人协会的支持下,邀请超过40余位聋人老师及手语专家进行手语文本转写和技术指导,并进行大范围听障群体评测,最终构建了符合国家通用手语规范的国内最大规模多模态手语语料库,词汇及语句总规模超10万。
为构建能够理解、翻译语音和手语的智能数字大脑,科研人员以超大规模预训练模型为“冬奥手语播报数字人”系统的核心技术,通过语义蒸馏及手语翻译快编模型,实现新闻播报语音实时蒸馏成语义高度接近的手语文字,并翻译成符合手语习惯的语序。最终,手语数字脑可以通过计算机模仿听障人士的大脑,进行实时手语播报驱动。
研发团队还自主搭建多模态肢体动作、表情、手指同步采集系统,实现高精度、高自然度的人物形象和手语动作姿态。通过采集多模态动作捕捉数据,运用跨模态拟人生成算法对超写实数字人进行自然、流畅的实时驱动和渲染,实现对文本内容的实时手语播报。其中,通过肌肉绑定技术驱动实现面部采集,结合业内领先的语音识别及高清视频合成等技术,呈现给听障人群亲切自然的冬奥手语播报服务。
张鹏说,手语播报数字人的应用场景广泛,一方面可以为新闻媒体提供全流程智能化的数字人手语生成服务,方便听障人士快速了解新闻简讯;另一方面可将声音广播内容转化为手语,为听障人士播报冬奥会赛事赛情、赛场成绩,便于获取即时信息。
目前,“冬奥手语播报数字人”在北京冬奥会期间正式投入应用,不仅能为听障人士提供手语信息播报服务,降低冬奥运营成本,还便捷了听障人士收看赛事专题报道,提升他们的社会参与度和幸福感。
此外,“中国地方手语不统一,手语播报数字人的推广可加速国家通用手语推广落地,推动国家通用手语标准普及,为残疾人平等参与社会生活创造无障碍环境,让科技更有温度。更重要的是,它体现了北京这座城市对残疾人群体的尊重,实现科技和人文的完美结合。”张鹏表示。
(文中图片均由受访者提供)