首页 > 新闻中心

Google开源Live Transcribe的语音引擎,为长篇对话提供字幕

2019-08-19 08:02:54  来源:亚博成都APP定制开发 作者:亚博成都APP定制开发 点击量:110

8月18日,Google宣告开源Android语音辨认转录东西Live Transcribe的语音引擎。
这家公司期望这样做能够让任何开发人员为长篇对话供给字幕,削减因网络推迟、断网等问题导致的沟通妨碍。源代码现在能够在GitHub上取得。这意味着不管你是出国或是与新朋友碰头,Live Transcribe都能够协助你进行沟通。
亚博成都软件APP开发
沟通时能够实时疏通(只需有网络)
Google于本年2月发布了Live Transcribe。该东西运用机器学习算法将音频转换为实时字幕,与Android行将推出的Live Caption功用不同,Live Transcribe是一种全屏体会,运用智能手机的麦克风(或外接麦克风),并依靠于Google Cloud Speech API。Live Transcribe能够用70多种语言和方言标题实时白话。另一个首要区别是Live Transcribe可在18亿台Android设备上运用(当Live Caption在本年晚些时候推出时,它只适用于部分Android Q设备)。
在云上作业
Google的Cloud Speech API现在不支撑发送无限长的音频流。此外,依靠云意味着网络衔接、数据本钱和推迟方面都有潜在问题。
成果,语音引擎在到达超时之前封闭并从头启动流恳求,包括在长期静默期间从头开始会话而且每逢语音中检测到暂停时封闭。在会话之间,语音引擎还在本地缓冲音频,然后在从头衔接时发送它。因而,Google避免了切断的语句或单词,并削减了会话中丢掉的文本量。
亚博成都软件APP开发
70多种语言和方言中选择自己适宜的
为了下降带宽需求和本钱,Google还评价了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)能够坚持准确性,不会节约太大都据,而且具有显着的编解码器推迟。AMR-WB能够节约很大都据,但在喧闹的环境中准确度较低。
与此一起,Opus答应数据速率比大大都音乐流媒体服务低许多倍,一起仍保存音频信号的重要细节。Google还会在长期的静音期间运用语音检测来封闭网络衔接。
整体而言,该团队能够完成“在不影响准确性的情况下,将数据运用量削减10倍”。
为了比Cloud Speech API更进一步削减推迟,Live Transcribe运用自定义Opus编码器。编码器刚好提高了比特率,使“推迟在视觉上无法区别发送未紧缩的音频”。
Live Transcribe语音引擎功用
Google列出了语音引擎的以下功用(不包括说话人辨认):
无限流媒体。
支撑70多种语言。
能够简化网络丢掉(在网络和Wi-Fi之间切换时)。文字不会丢掉,只会推迟。
强壮的扩展网络损耗。即便网络现已停电数小时,也会从头衔接。当然,没有衔接就不能进行语音辨认。
能够轻松启用和装备Opus,AMR-WB和FLAC编码。
包括文本格式库,用于可视化ASR置信度、发言人ID等。
可离线模型扩展。
内置支撑语音检测器,可在延伸静音期间用于中止ASR,以节约资金和数据。
内置支撑扬声器辨认,可根据扬声器编号符号或上色文本。
亚博成都软件APP开发
字幕会跟着对话的深化而调整
该文档指出这些库与出产应用程序Live Transcribe中运转的库“简直相同”。Google已对其进行了“广泛的现场测验和单元测验”,但测验自身并非开源。但Google的确供给了APK,因而开发者能够在不构建任何代码的情况下试用该库。(亚博成都软件APP开发网(大众号:亚博成都软件APP开发网)亚博成都软件APP开发网亚博成都软件APP开发网)
via:android.comventurebeat
亚博成都软件APP开发网原创文章,未经授权制止转载。概况见转载须知。
亚博成都软件APP开发
新闻中心
新闻中心
支持与帮
隐私策略
反馈邮箱
admin@yabo.com
产品中心
产品展示
联系我们
公司地址:成都市高新西区西芯大道4号
Copyright © 2012-2019 亚博成都APP定制开发有限公司 版权所有