您当前的位置:环球科技观察资讯正文

声响复刻的黑科技有它逃不开的魂灵拷问

放大字体  缩小字体 时间:2020-05-01 02:43:10  阅读:2839+ 来源:腾讯科技作者:责任编辑NO。许安怡0216

带着观点看商业。超级观点,来自新商业践行者的前沿观察。

口述 | 李秀林 (标贝科技联合创始人&CTO)

采访、编辑 | 黄臻曜

标贝科技联合创始人兼CTO

语音交互以假乱真,已是显性诉求

疫情期间,整个智能语音行业的表现算是比较好的,语音解决了很多非接触(手动)人机交互的应用场景。比如声控电梯、心理诊断问答资讯、疫情防护宣传制作、商业街区写字楼语音动态播报等。

像新出现的场景“非接触的语音控制电梯”,和我们之前一直在使用的智能家居里的芯片组或者算法基本一致,将它们和电梯的控制按钮集成后就能应用,难度不大。所以在疫情的催化下,只是需求量变多了,原来不用这些产品或者技术的公司开始考虑用到这些技术,以及增加了少量新的场景,但在应用难度上并没有太大的挑战。

但此次疫情让人们看到了智能语音的市场空间、应用场景和巨大的市场价值,推进了语音技术与应用场景结合:

1、市场教育:以前习惯用手动操作,基于疫情期间,自身防护健康等角度出发,发现语音也是一个很简单的交互体验。

2、大范围的应用:疫情期间创造了很多强语音技术结合的场景。例如每天有大量疫情动态及防控等信息的通讯需求,通过语音合成技术,可以快速、规模化的将文本转为语音收取资讯,这部分的用户数据增长能达到10倍、甚至几十倍,我们也看到声控电梯、外部监测体感语音报警场景大量出现。

3、技术发展呈现多样融合的趋势。智能语音解决“听、说、懂”的问题,但应对疫情防护,不可能是单纯的语音层面产品形态,而是配合图像视觉、人脸识别、红外体感等技术,来打造针对疫情一线的综合防护与检测产品。比如大屏体温检测、医疗机器人送药问诊查询等应用。

这次疫情,对于很多公司来说也是一次考验。有成熟的技术和解决方案的公司,就能够快速落地,取得一些优势。

以语音交互领域为例,目前语音合成技术和语音识别技术,相对来说具有较高的成熟度,而语义理解相对来说还比较薄弱。我认为,接下来行业对语音的探索不单会停留在“可用”上,还会考虑给用户带来更好的体验。声音在交互的时候,如何能给人带来更自然、贴心、温度,并达到以假乱真的体验,这已经从一个潜在的诉求变成一个显性的诉求。

“声音复刻”是痛点还是痒点?

在疫情期间,我们正真看到出现了几种情况:1、很多家长和孩子,因为疫情无法上班、上学,也无法外出,居家的时间大幅增长,陪伴辅导孩子的任务骤增;2、有些家长由于支持抗疫或者受疫情影响无法返家,造成春节假期也无法团聚,相互思念;3、有些疫情严重地区,出现感染新冠肺炎的患者死亡的现象,为自己或者自己的亲人留下更多的记忆,也变成了一种生死离别下的重要诉求。

我们观察到上述的情况后升级了我们之前的产品“标贝留声机”,它能够复刻父母声音,给孩子讲故事,这在家长圈里引起了广泛注意,声音复刻的数量增长了500%以上,1-4月份留声机的用户使用数据增长了200%。我们之前就有“声音银行”的概念,用户都能够把声音存储在我们的云端系统上,就像在银行存钱一样。需要的时候,就可以应用这个声音,生成自己想要的内容。

贝克录音棚

在智能语音领域,留声机产品是一个新的技术应用,核心技术是如何利用少量的数据,实现一个高相似度的声音模型。大家可能之前看到过科学家霍金,在失去说话能力之后,可以依靠语音合成技术说话,觉得不可思议。随着技术的进步,这一技术的应用成本在大幅下降,任何一个人都可以拥有自己的声音。用户只需要录制5分钟语音内容,等待2小时左右即可获得用自己的声音想说就说的功能,这在之前其实是很难想象的。我们也在不断对技术进行升级,充分的利用基于Attention的机制,以及迁移学习技术,去提升了声音复刻的效果,改善使用者真实的体验,让声音的还原度更高,听起来更像。但因为数据量比较小,如何保证稳定输出是训练这种模型时要面对的挑战。

我认为,声音复刻的需求是存在的,但可能只有很少的人知道现在已经有这样的技术能够很好的满足此类需求,目前技术的宣传还远远不够。当然,也因为这个技术出现的时间比较短,语音不单单是信息载体,还承载了一个人的很多个人特点,包括音色、语气、语调、风格等,在技术上仍需要持续探索。对一个新的使用场景,也还需要全行业一起努力去推动它的落地,打造出有一个标杆性的产品,为用户所认识和接受,这还需要一定时间,这是一个以点带面的过程。只有技术服务提供的时间周期比较长,才能展现出它的实际价值,现在这个使用场景还处在一个打磨的阶段。

仅仅有声音还不够,声音结合图像,会有更为广阔的空间。近几年,短视频的蓬勃发展,也说明了声音+图像的巨大市场。因此,“虚拟人”这样的产品应运而生,它可以覆盖虚拟主播、虚拟员工、虚拟偶像等各类不同的场景,应用于新闻媒体、智能客服、智能银行、智能城市、泛娱乐应用等系统当中。

判断“留声机”、“虚拟人”这样的使用场景是否是刚需,可以从价值创造、及时性、便利性等不同的方面来分析。

比如,虚拟人如果可以代替部分人工,那会为公司节约人力成本,创造价值。只要是投入成本低于所节约的成本,企业就会乐于投入。比如智能客服为什么能加快速度进行发展,其实就是这些领域的客户尝到了甜头,在使用此类技术后,企业能够更好的降低30%或50%的客服人力成本,大大提升整个财务状况,那么他就会继续扩大在这方面的投入。

又比如,传统的新闻播报有时效性,而录音难以实时满足,而且成本较高,采用留声机或者虚拟人技术,就可以随时低成本地生产内容,既满足了实时性的要求,又降低了成本。

再比如,短视频的编辑,慢慢的变简单,但给视频配上匹配的声音,往往需要找配音演员,而且对声音的控制,也涉及到很多专业的知识。不过我们的技术现在还很难做到给影视作品配音,等到合成效果达到这个水平,我觉得会有彻底的变化。

虚拟人

逃不开的灵魂拷问

目前来看,“留声机”、“虚拟人”市场认知度、成熟度在不断的提高,有些音频内容或者视频内容,已经融入了这些新技术产生的音频或者视频。但我觉得目前存在以下几点挑战,或者说思考的空间,值得全行业一起去寻找答案:

1、语音合成是科学与艺术的结合,比如声音复刻,一方面需要技术创新应用,怎么让声音效果更逼近人声效果,合成速度快、效果好的问题。另一方面,需要做创新性玩法,打磨出更稳定、更个性、更差异化的语音应用体验。后续需要仔细考虑如何提高情感表达方面的技术,这绕不开“语义理解”这个环节的提升。

2、技术提供商提供的是核心的技术,每个具体应用的领域,都有其特殊性,需要深入了解行业,了解用户,这需要结合产品形态去做各个行业的探索,针对不同产品提供更好的解决方案,这不是一个复制粘贴的过程,比如在儿童教育场景,如何利用语音技术,针对不同年龄段开发功能,如何做到 “千人千面,如何能够持续良性发展,如何反哺技术研发,都需要深入考虑。

3、商业化问题需要持续关注。如果产品直接To C,那就要去验证用户愿不愿意付费的问题。我觉得实际上对留声机来说,它最终会是一个To C的产品。产品涉及到训练模型,提供线上服务,如果用户没有付费意愿,那商业化的问题就比较棘手。如果产品To B,比如我们会和玩具厂商、家居、汽车等有一些合作,如果此类合作伙伴不能有很好的商业模式,那么他们购买我们技术服务的动力也会很弱。那么对技术提供商来说,接下来一方面要考虑降低技术成本,让它更容易用很小的成本去尝试去推广,去验证它的商业模式;另一方面,也要帮助合作伙伴收集用户数据去做测试,不断迭代技术和产品,让它在市场端有更好的需求。

4、技术的应用,有时会面临技术有罪与无罪的争论。我相信我们大家都很关心安全风险以及监管的问题,这是一个风险点,但是它可能不会阻碍整个技术的发展。只是我们在应用技术的时候要权衡,是否需要让声音保留一些技术的特征。另外,也需要尽可能提高数据的安全性,比如我们开发了一套完善的账户管理体系,将复刻的声音或者定制的虚拟人进行授权,使之保留在一个特定的范围之内,以尽力保持这个技术的合法利用。随着这类场景不断普及,我认为也会陆续有相关的指导政策出台,以最大化降低相关问题出现的风险。如果要诈骗,其实一个真人去打电话,和让一个虚拟人去打电话,我觉得本质上没有区别,就像菜刀有人拿去切菜有人拿去砍人。所以如果做了该做的防范,遵守了相关的法律和法规,在这个基础上保持一个相对开放的心态,可能会利大于弊。我们大家都希望这个技术能达到真人的效果,但当它快达到100%的时候又会有恐慌,这样的一个问题非常复杂,其实很难有完全正确的答案。

5、理论上,低端、重复性的工作都可以用机器来代替,但是我们发现日常生活中还是有很多此类岗位存在。技术完全替代人,基本上可以认为是不可能的。但技术的发展在不断改变技术替代人的比例,随着人口老龄化,我们的劳动力越来越少,那么在各个行业它替代人的占比都会提升,这最终可能会变成一个社会问题。

目前来看,行业竞争关键也是考验语音技术与配套场景产品结合,未来一定会有大批玩家进入,不乏BAT这样的玩家。可以肯定的是,随着大批玩家的涌入,这个市场会愈发成熟,用户对新技术的接受程度会大大提升。当一个虚拟人或者智能体说话时能达到和真人一样的效果,我相信整个行业会迎来一个爆发。

推荐阅读:

一边赚钱一边做IP,国内虚拟主播离钱比日本近多了 | 超级观点

数字人首登《时代周刊》,虚拟产业的想象力到底有多大? | 超级观点

为什么连BAT都做不好智能语音的商业化? | 超级观点

“超级观点”栏目现发起“特约观察员入驻”计划,邀请各赛道的创业者、大公司业务线带头人等一线的商业践行者,在这里分享你的创业体悟、干货、方法论,你的行业洞察、趋势判断,期待能听到来自最前沿的你的声音。

欢迎与我们联系,微信:cuiyandong66;邮箱:guanchayuan@36kr.com。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!