(资料图片)
近年来,数字人作为整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多人工智能技术的可视化数字虚拟人,在游戏、影视中的应用变得频繁。
在人工智能领域相当领先的中国也有多家公司发力数字人。其中百度数字人就是一个代表。近日,百度智能云AI及应用产品中心副总经理刘倩在2023元宇宙产业大会春季会演讲中表示:数字人作为元宇宙中以人和交互为切入点的一个技术,可以在各行各业中有很多的应用场景。
刘倩副总经理首先阐释数字人与元宇宙的关系,她认为,“数字人,是物理世界里的人在数字世界当中的数字化表达。元宇宙则是物理世界一个数字化的表达,因此,数字人在元宇宙的发展中有着相当的重要性。”
数字人技术已发展至第三代
刘倩副总经理在演讲中介绍说,数字人技术已发展至第三代,最早一代数字人,其特点是不太能与人互动;其后,随着动捕技术、渲染技术的进展,数字人发展到了2.0阶段,但与人的交互还不是特别好。现在的数字人也就是第三代数字人,作为人工智能技术和数字技术的结晶,已发展到智能化阶段,同时还是人工智能与人进行交互、人类和数字世界交互的载体。随着新一代类似ChatGPT技术的发展,数字人将进入到一个更新的时代。
据了解,百度早在2018年就开始数字人方面的尝试和应用,第一代数字人是纯3D超写实的数字人,百度用了近半年的时间研发,投入近600万元。而后技术发展到现在,则可以通过上传一个人的照片生成2D的数字人、上传一个人的一段视频也可以生成3D数字人,生成的数字人与真人非常像。也就是这较为昂贵的数字人的研发和迭代,令百度意识到,一项技术要想广泛地应用到各行各业,降低门槛和普惠化是一个必经之路。不管是数字人还是空间的数字化模拟,以及物的数字化模拟,都必须朝着低成本建模的方向发展。因而,近年来,百度一直在探索以低成本的人工智能技术来实现高效资产制作、智能化交互和自动化的内容生产。
数字人要实现与人的智能交互
刘倩副总经理指出,数字人最大的特色就是交互,且要实现与人的智能交互,这背后需要一个聪明的大脑。百度在这方面有着非常强大的大模型基础,百度推出的柏拉图就是一个有着上百亿参数的深层次对话预选模型,其在中文领域里,其对话的丰富性、可懂性、流畅性都有相当不错的表现。
刘倩副总经理进一步强调说,就人工智能来说,人机对话不仅仅只是文本,还应当包括视频或声音,所以跨模态的对话和训练就显得非常重要。随后,她演示了一个视频并讲解到,一个用户家里的路由器坏了,用户上传了一段故障视频,显示灯在闪烁,机器通过识别视频里的故障,也就是灯闪烁的点,给用户推荐了一系列的解决方案。这里的人机交互不仅仅是文字,还包括了视频,且最后生成的内容也是文本以及副媒体类型的,无疑这样的交互,可以给用户更好的服务体验。
百度数字人的现实应用
故而,着眼于“聪明的大脑”,百度的数字人平台被定名为曦灵。百度希望通过曦灵平台,为各行各业的应用和客户提供低成本且聪明向善的应用。目前,百度为浦发银行提供的数字人,已用在浦发银行的线下网点中,并在APP上为客户服务,包括理财知识的解答和推荐等。百度还与央视新闻联合推出了AI手语主播,给残障人士创造了有温度的观看体验。
最后,刘倩副总经理总结指出,数字人作为元宇宙中以人和交互为切入点的一个技术,可用于各种各样的场景,比如数字员工、直播、文旅、传媒以及营销等,并可以创造出新的动力和新经济的增长点。百度希望持续打造和优化平台的底层技术,为各行各业提供更好的基础设施和服务。
科闻社版权声明:转载时标注原文链接不构成侵权