让“无声世界”感受赛场魅力!带你看看冬奥手语数字人有哪些奥秘******
2022年2月4日,第24届冬季奥林匹克运动会在北京举行,让世界目光再次聚焦中国。本届北京冬奥会秉持绿色、共享、开放、廉洁的办赛理念,凝聚中国科技力量,面向世界、面向未来,向全球奉献了一场精彩、非凡、卓越的奥运盛会。
本届冬奥会运用最新科技手段,为全世界观众提供了惊艳的现场转播和全方位覆盖报道,北京冬奥会也成一场上科技含量高的奥运会。赛事活动期间,为了让各类人群都能平等地享受本届冬奥盛会,北京电视台上线了智能手语播报数字人,在《北京新闻》和《北京您早》等节目中进行冬奥专题手语播报,为听障人士带来精彩赛事报道。
最新数据显示,我国听障人群超过2700万,这部分人群与健听人一样,他们对教育、社交、娱乐等信息获取都有巨大的需求。但长期以来,传统人工手语翻译工作量大,且主持人和手语主持人配合难度极高。手语动作表情复杂,语序与正常语序差异大,正常情况下想要熟练掌握手语大约需要2年左右的时间,还要结合语境进行猜测。
受北京市科委科技冬奥专班委托,北京电视台联合凌云光、智谱AI等业内科技公司,在北京市残疾人联合会和市残联聋人协会等支持下,用3个多月时间,让手语播报数字人完成了近10万条手语语料学习,且翻译准确率高达90%。
在如此短的时间内实现这项高难度动作,智能手语数字人是如何做到,在这背后又有哪些技术创新难点?
在多位业内人士看来,近年来人工智能体系建设重点布局在算法层和应用层,数据层建设远远不足,并且针对数字人相关产业,底层数据库的数量、质量和开源程度还明显不足。尤其是国内现有的手语语料数据库数量少,且多以图像、视频等二维平面为主,无法满足AI(人工智能)训练的需求。
同时,因手语语序与中文语序差异大,方言分化更加复杂,且需要通过表情、口型、动作等方式来传达信息。除了传统的二维平面图像、视频采集,三维肢体运动、表情信息数据采集及结构化参数表达外,手语语料数据库建设对三维运动信息捕捉也十分重要。
凌云光手语数字人产品相关负责人介绍,在建设高质量手语语料库的同时,他们充分调研了2022北京冬奥专用手语术语,并联合北京市残联、聋人协会等相关组织机构,进行数据标注,建设手语语义映射关系,不仅完善了国内手语数据库的建设,也为手语推广和AI研究留下了宝贵的数据资产。
该负责人举例说,基于“悟道2.0”超大规模人工智能模型的技术支撑,手语数字脑用计算机模仿听障人士的大脑,将看到的中文文本信息转换成手语词汇序列,包括中文语义蒸馏模型和AI手语分词快编算法的研究。中文语义蒸馏模型用于从输入的文稿或文本中提取出关键的语义信息,将中文文本语义提炼和精简,形成精准匹配适合手语表达的文本;AI手语分词快编算法则用于将蒸馏得到的中文文本,根据冬奥手语语料库划分成相应的手语词汇序列,供数字人做表达输入。
该负责人还提到,数字人是冬奥手语播报的载体和展现形式,通过高精度写实数字人全流程制作方案,可实现一键数字建模,高度还原真人发肤,重新毛孔等细节,更加真实亲切。同时,通过跨模态拟人生成算法,还可以将手语词汇序列,生成相应的动作信息,驱动数字人模型做出相应的动作、手势和表情。(姚坤森)
收录甲骨数量最多 清华大学发布《甲骨文摹本大系》******
光明日报北京12月19日电(记者邓晖)十年磨一剑,一部甲骨文资料整理的集大成之作面世。清华大学出土文献研究与保护中心日前发布了《甲骨文摹本大系》(以下简称《大系》)新书。该书收录有字甲骨70659片,是目前收录甲骨数量最多的大型甲骨著录书,将为研究者更深入地做好卜辞分类与分期研究、文字考释工作与甲骨学商史研究带来极大便利。
《大系》是第一部以摹本形式按照新的理论和方法综合整理研究甲骨文资料的集大成之作,把原本“庞杂无序”的已刊布的7万多片有字甲骨整理成井井有条的科学资料。全书共43册,由“图版”“释文”和“索引”三部分组成,正八开刊印。据悉,2012年至2022年,清华大学出土文献研究与保护中心黄天树教授率领其甲骨团队编纂《大系》,通过选择良拓、剔除伪片、删除重片、缀合残片、分类断代、制作摹本、撰写释文、编制索引等工作,历时十年,终于告竣。
与《甲骨文合集》等著录书相比,《大系》全书采用“两系”新说代替“五期”旧说,编排7万多片甲骨材料,开创了甲骨著录书编纂的新范式。
“董作宾创立五期说,凿破鸿蒙,意义深远。但是,其弊病是把甲骨字体分类和王世的推定混在一起了。今天,甲骨学者认识到,卜辞的字体分类与断代是两个不同的步骤,我们应先根据字体等特征分卜辞为若干类,然后分别判定各类所属时代。这是甲骨断代理论和研究方法上的重大突破。”黄天树介绍。
《大系》还精心为每版甲骨制作了摹本。甲骨作为珍贵的文物,学者很难接触到实物,因而研究甲骨文,主要依据甲骨著录书公布的拓本、照片和摹本。这三种图版各有优劣,可以取长补短。高质量的甲骨摹本,可以立体显示各种甲骨信息,为甲骨初学者提供参考。
此外,《大系》还给每一版有字甲骨标注了字体类别。黄天树介绍,殷墟甲骨文是最早的古汉语资料。但是,甲骨文要作为语料来运用的先决条件,便是要确定其时代。否则,10多万片甲骨依然是一堆“断烂朝报”,缺少科学价值。“字体类别的确定,意味着这版甲骨的时代已经得到推定,大大增加了作为史料的研究价值。”
20多年来,甲骨缀合成果层出不穷,新拼缀出来的甲骨缀合多达3000多组。其中有些甲骨缀合极为重要,复原出前所未见的新材料,极大地丰富了学界对殷商社会的认识。然而,团队成员发现,这些甲骨缀合成果分散在各种甲骨缀合专书、刊物和学术网站上,应用起来不太方便。
“《大系》收录2020年12月之前的所有缀合成果,省去学者翻检之苦。我们还撰写释文,编制索引。读者如果要查看相应甲骨拓本,通过《大系》索引可以检索到,十分便捷。”黄天树介绍。
《光明日报》( 2022年12月20日 11版)