百川瑜伽培训机构学校网站建设 - 专业的瑜伽培训机构学校网站建设

资讯热点
搜狗-清华天工研究院提出了ChoroNet模型

发布时间:2023-9-2 分类: 电商动态

近日,清华大学, 天工智能计算研究院搜狗分身技术团队与贾珈团队联合发表的《数字人类技术论文《ChoreoNet:基于舞蹈动作单元的音乐-舞蹈合成框架》被2020年国际顶级赛事ACMMultimedia聘为长文。

(截图来源:ACMMultimedia媒官网https://2020.acmmm.org)

ACMMultimedia专注于推动各种媒体的研究和应用,涉及人工智能、计算视觉、数据科学、深度学习、人机交互等众多新兴领域。这是中国计算机学会推荐的唯一一次多媒体领域的A级国际学术会议,被视为多媒体技术领域的奥林匹克级盛会。虽然鼓励来自世界各地的各类机构分享和交流最新研究成果,但会议论文的接受率很低,只有对日常生活有较大影响潜力和技术突破的研究项目才会通过。

“克服困难”得到高度认可

音乐和舞蹈是两种与人们生活息息相关的艺术形式。近年来,“乐舞合成”也是业内高度关注的领域。但早期的合成是基于相似性检索,合成结果的多样性有限。目前流行的方利用神经网络模型将音乐特征映射到人体骨骼的关键点。然而,由于人体骨架关键点的高冗余和噪声特性,使得关键点的逐帧预测非常困难,导致合成质量受限,成为业内人士的一大“难点”。

在论文中,来自清华天工研究院的搜狗技术团队和贾珈团队提出了一个创造性的解决方案,将人类编舞知识整合到音乐和舞蹈合成框架中,并设计了多个舞蹈单元(CAU)。并利用CAU序列预测模型,开发了一个舞蹈合成框架——ChoreoNet,它像人类一样根据音乐编排舞蹈动作。通过实验验证和数据对比,与法, 基线,合唱团相比,合唱团有着更好的表现和更自然逼真的合成动作,其在音乐匹配度、动作自然度等方面表现更好。

(截图来源:ChoreoNet论文)

此次论文被ACMMultimedia媒认可并接受为长文,不仅代表了搜狗AI头像技术在肢体动作和姿态生成上的突破,也印证了搜狗强大的AI技术实力和创新能力,实现了持续输出。值得注意的是,搜狗是行业内选择音频驱动肢体动作作为研究课题的先驱。

“绝杀技术”引领潮流

在搜狗AI战略地图中,“自然交互知识计算”是核心方向,而技术研究和推动技术快速转化为产品都是基于这个方向,而搜狗“两地一次”则是关键而重要的一环。

2018年全球首个AI合成主播发布后,搜狗持续研究构建更加逼真自然的数字人能力,在2D/3D数字人领域构建了语音和画面同步、逼真的面部表情唇动生成和驱动能力。此外,如何让数字人更自然、更有表现力,也是搜狗,重点研究的方向,其中肢体动作和手势的表达非常重要。在第一代AI合成主播问世后不到三个月的时间里,搜狗成功推出了与“坐播”完全不同的“站播”合成主播。今年5月推出的3DAI合成主播,不仅能经得起高清镜头的考验,还能实现自由行走。此次与清华大学天工智能计算研究院合作的作品选择了音乐场景,聚焦如何提升肢体动作生成和驱动的表现力和自然度,为AI数字人的技术探索开辟了新的方向。

“未来应用”前景广阔

人工智能是未来科技的风向标,5G时代的到来大大加速了这一进程。自2018年全球首个AI合成主播在搜狗上线以来,能够与普通人生活深度融合、广泛应用于各行各业的“AI头像”备受关注,不少科技公司都投身于游戏的进入。

从上面可以看出,搜狗从未停止过突破,从2D到3D,从“坐播”到“站播”,从支持单语到支持多语,再到支持互动。目前,搜狗神通技术已应用于法,媒体、会展、艺术、金融客服等场馆。为新华社, 央视, 平安惠普, 北京互联网法研究院等打造了一批AI合成主播和AI合成客服AI虚拟法官方还打造了亚尼、新瓦欧维、新小浩等众多经典AI数字人物。

由音频驱动的数字人或数字舞者具有巨大的想象力和市场应用前景。尤其是结合搜狗,现有的3D数字人体技术,使用场景可以从媒体、金融、法法律等领域转移到影视娱乐领域,搅动万亿美元市场。

AI赋能于人,这是搜狗人工智能的发展理念,也是搜狗军民两用技术的愿景作为一项前沿技术,既能解决行业痛点,又能为用户创造价值,给社会带来变化,同时对科技也有影响,同时又能不断突破,不断进步。未来的搜狗忙碌的生活无疑会有更多的可能性和巨大的想象空间。

« 2020年淘宝开店流程新手如何开店淘宝店? | 有多色现场直播,商品湘潭吉越4S店。现场直播完成了25台的销售。是工作日的5倍 »