[导读]目前,该更新只在谷歌Pixel手机上可用,但将来应该会在其他设备上使用。
目前,该更新只在谷歌Pixel手机上可用,但将来应该会在其他设备上使用。
新的AI听写方法逐个字符地输入消息,而非一次一个单词。图片来源:谷歌
谷歌正在Pixel手机上更新其Gboard键盘,采用人工智能离线听写。谷歌表示,更新意味着用户可以更快,更可靠地指定电子邮件和文本,而无需担心他们是否已连接到互联网。
谷歌语音识别和移动输入小组的研究科学家兼组长Francoise Beaufays说:“想象一下,你正走出你的大楼,你想向某人发送一条信息,说‘我要迟到了’。这正是你无法上网的时刻,因为你正从Wi-Fi转向蜂窝网络计划。”随着Gboard的升级,Beaufays告诉Verge,“这个问题已经不存在了。”
这可能听起来像一个微不足道的用例,但Beaufays认为语音识别的改进,将慢慢改变我们与移动设备交互的方式。她指出,虽然语音识别近年来有所改善,但它仍然是一项不成熟的技术。它是计算密集型的,这意味着大多数语音识别系统必须通过互联网发送数据,而结果是听写速度缓慢且不可靠。
“如果你使用手机键盘,只要连接情况不好就不能点击键盘,”Beaufays说。“你就是不会用那个键盘。”但她说,通过让系统离线,听写将成为一种更自然的选择。
为实现这一转变,Google团队花了五年时间研究问题并简化应用程序用于语音识别的AI系统。例如,旧版Gboard的听写软件使用三个独立的组件来模拟音频波形,将声音与音素匹配,然后将这些音素组合成书面输出,更新后的版本将所有这些工作集成到一个步骤中。
为了实现这一转变,谷歌的团队花了五年时间研究这个问题,并简化了应用程序用于语音识别的人工智能系统。例如,旧版Gboard的听写软件使用三个独立的组件来模拟音频波形,匹配声音和音素,然后将这些音素组合成书面输出,而更新版本将所有这些工作集成到一个步骤中。
新模型还缩小了系统的一部分,称为“解码器图形”,这个组件的功能类似于书中的索引,将音频波形与书面文字相匹配。在Gboard的听写模型的旧版本中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本仅为80兆字节,小25倍。
新模型还将系统中被称为“解码器图”的部分缩小,该组件的功能类似于书中的索引,将音频波形与书面文字进行匹配。在旧版本的Gboard的听写模型中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本只有80MB,小了25倍。
此次升级目前仅限于美式英语听写和Pixel手机,但Beaufays表示,未来这一功能将得到更广泛的应用——扩展AI语音识别的范围。“从技术的角度来看,我认为我们可以在更多的手机上做到这一点,而不仅仅是Pixel,”Beaufays说。“我认为将会发生的事情是,我们可能会在更多的设备(以及更多的语言)上启动它。”
原标题:Google upgrades Gboard keyboard with faster and more reliable AI dictation
作者:James Vincent
编译:郑翊君
文章来源:
https://www.theverge.com/2019/3/12/18261444/google-gboard-keyboard-dictation-voice-recognition-pixel-ai-offline-update
评论文章