2018AI开发者大会:推进语音事业发展,标贝科技首次免费开放TTS数据

[知识] 时间:2024-04-19 13:19:06 来源:蓝影头条 作者:时尚 点击:104次

2018年11月8至11日,大展标由中国IT社区CSDN与硅谷AI社区AICamp联合举办的进语技首2018 AI开发者大会在北京盛大召开,来自Google、音事业Amazon、贝科微软、次免Facebook、费开放LinkedIn、数据阿里巴巴、大展标百度、进语技首腾讯、音事业美团、贝科京东、次免小米、费开放字节跳动、数据滴滴、大展标标贝科技、第四范式等国内外领军企业的60余位一线技术大咖将带来一场技术头脑风暴。

据悉,本次大会也是本年度人工智能领域面向专业开发者的一次高规格技术盛会,议题涉及多个AI领域,包括知识图谱、机器学习、智慧金融、自然语言处理、语音技术、计算机视觉、数据分析等,对我国人工智能产业的发展和技术应用的深入落地有着极大推动作用。

在语音技术专题演讲上,扎根该领域国内明星创企出门问问、云知声、标贝科技等公司分别在远场语音交互、声纹识别、AIoT 智能交互等不同细分技术领域讲述了技术实践、应用实践以及现阶段遇到的技术瓶颈,并给出了可能的解决方案。

“AIoT”即“AI+IoT”,指的是人工智能技术与物联网在实际应用中的落地融合。当前,已经有越来越多的人将AI与IoT结合到一起来看,AIoT作为各大传统行业智能化升级的最佳通道,已经成为物联网发展的必然趋势。

在基于IoT技术的市场里,与人发生联系的场景(如智能家居、自动驾驶、智慧医疗、智慧办公)正在变得越来越多。而只要是与人发生联系的地方,势必都会涉及人机交互的需求。而随着智能终端设备的爆发,用户对于人与机器间的交互体验也提出了全新要求——机器声音更自然,更像真人,使得语音合成(TTS)市场被逐渐激发起来。

在标贝科技联合创始人&CTO李秀林看来,语音合成技术作为一项有着悠久历史的技术手段,近两年所运用的技术更新发展得非常快。特别是在今年,端对端技术与神经网络声码器相结合的运用对合成语音的可懂度和自然度有了质的提升,以标贝科技为代表的智能语音企业得以为更多企业找到落地场景。

据悉,标贝科技甚至打造了一个“声音超市”,为合作伙伴提供了一个可供选择的,所听即所得的声音平台,助力智能产品向“人性化”发展。

根据语音合成的实践现状:端到端实际控制难、语音数据少、GPU价格高三大问题,李秀林也提出了解决方案。首先,将输入维度从数万维降为数十维,降低控制难度。其次,充分利用文本数据,构建前端模块,并选择合适的声码器,降低运算量,以此推动语音合成的应用成本降低、应用领域不断向纵深发展。

同时,李秀林在大会上宣布:标贝科技首次免费开放语音合成数据库,数据规模达到10000句,总时长约12小时,以支持非商业用途的学术研究,与行业携手推进语音事业的发展。

此次数据开放的决定得到了大会参与者和同行业的一致高度赞扬。标贝科技认为,在目前这一阶段下,降低数据获取难度可以推动技术的更新迭代,当更多应用场景涌现、社会效益显现时,语音合成才会真正爆发出巨大的能量。

数据获取方式:

关注标贝科技微信公众号(biaobeikeji),直接下载数据包

(责任编辑:综合)

    相关内容
    精彩推荐
    热门点击
    友情链接