专属客服号
微信订阅号
剖析产业发展现状
为区域/园区工作者洞悉行业发展
在八十年代初,人工智能的先驱马尔文斯基曾经谈论过人工智能的前景。马尔文斯基预测,在以后的世界里,机器会具有和人脑相同的思考能力,他们可以独自进行和人类的行为相同的活动,比如阅读,比如汽车驾驶,或者聊天。
如果在当年看来,这些构想真的很遥远。而在今天,这些遥不可及的设想也在逐渐实现了,现在的智能产品能够听懂我们的指令并做出相应的行动,除了能分辨我们的声音,机器人还能够通过人脸识别帮助我们寻找目标人物。人工智能的技术让机器人行业掀起了新一轮变革。
智能产品不断涌入大家的视野,智能机器人开始在工业等众多行业投入使用,人工智能的发展直接影响了众多行业,就在11月7日上的世界互联网大会,搜狗推出了AI合成主播产品,至此,人工智能的影响行业又再增添一项。
“AI合成主播”是什么
所谓“AI合成主播”,顾名思义,是用人工智能技术合成的新闻主播。“他”不仅能用和真人一样的声音进行播报,甚至,连唇形、面部表情、肢体语言也能够与真人主播吻合,达到真假难辨的效果。“AI合成主播”的价值在于,可以大幅压缩新闻播报视频的后期制作成本,新华社副社长刘思扬表示:“从今天开始,新华社AI虚拟主播就将正式上岗,成为新华社报道队伍中新的一员。”
“AI合成主播”的技术原理
搜狗语音交互技术中心总经理王砚峰透露,只需要由真人主播面对镜头录制一段播报新闻视频,“搜狗分身”技术凭借这段视频,就能将真人主播的声音、唇形、表情动作等特征进行提取,然后再通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的“AI合成主播”。
王砚峰提到的“搜狗分身”技术,是搜狗公司的前沿技术之一,它包含语音合成和图像生成两大引擎。
(1)语音合成技术:
AI主播首先要实现的功能是在计算机有文本输入时,能够以主播的音质发出声音。这项技术其实也是语音识别的过程,分为以下步骤:
语音合成技术首先对主播的声音进行提取,再通过不断的训练学习,提取该主播声音中的特征信息,进而建立和主播语音相同的多维度语言语音模型,最终实现在输入文本时,能够输出该主播语音的功能。
(2)图像生成技术:
除了语音的学习训练,AI合成主播还需要学习主播的表情。和语言识别的性质相同,图像生成也要通过不断的训练学习构建模型来获得。现阶段可以采用人脸识别、三维人脸重建、表情建模技术对人脸进行分析,建立人脸的多维度数据模型。最终在输入文本,视觉信息和音频之间构建联系。
基于这两种技术,搜狗的AI分身能够实现和人类主播一样,为输出的文本中添加相应的音色和语调,丰富AI合成主播的形象,提高观众对AI合成主播的接受度,同时,AI合成主播能够识别中英文两种语言,扩大了AI合成主播的使用场景。
人工智能发展还在继续
目前,机器人已经开始在工业领域大批量使用,并能够完成人做不了的事情,不过机器人超越人类只是表现在较少的领域,例如制造业、服务业等,如果通用型机器人能够全面超越人类,那么将是一个很大的震惊。
人工智能从多个方面赋予机器人全新的能力,在感知检测方面,通过视觉、力觉、听觉等多种传感器,使机器人获得了像人类眼耳鼻舌,以及声音在内等的感知系统,机器人可以听懂人类的语言,可以识别人脸,这些功能的开发进一步扩展了机器人的应用场景。
现在智能机器人已经被开发出很多新的功能,例如陪伴老人、下棋、教育小孩子、清扫地面、安防监控等等,机器视觉、语音识别以及更多的感知功能的运用,让机器人和人的交互增加,提升了用户使用智能产品的用户体验。
“AI合成主播”的应用是“搜狗分身”的先创案例,它的技术使用不止于此。在之后,搜狗可以依靠这项技术复制各种用户需要的人类形象,例如合成教师、合成客服等,而这些产品的出现,意味着人工智能产品影响的行业范围也会增加。
AI机器人蕴含着巨大的潜力,现阶段人们已经推出了各种专业领域的机器人,从工业机器人到教育机器人、养老机器人、抢险机器人、医疗机器人等等,这些细分领域市场虽然远未有爆发,但未来的前景是不可估量的。
本文由五度数科整理,转载请标明出处,违者必究!
请完善以下信息,我们的顾问会在1个工作日内与您联系,为您安排产品定制服务
评论