(科大讯飞)2016年,在提出前馈型序列记忆网络FSMN (Feed-forward Seq

2018年7月1日 10:17:41 来源:168炒股学习网阅读：4456人次

网友提问：

科大讯飞(002230)

2016年,在提出前馈型序列记忆网络FSMN (Feed-forward Sequential Memory Network) 的新框架后，科大讯飞又提出了一种名为深度全序列卷积神经网络（Deep Fully Convolutional Neural Network，DFCNN）的语音识别框架，使用大量的卷积层直接对整句语音信号进行建模，更好地表达了语音的长时相关性。DFCNN的结构如下图所示，它输入的不光是频谱信号，更进一步的直接将一句语音转化成一张图像作为输入，即先对每帧语音进行傅里叶变换，再将时间和频率作为图像的两个维度，然后通过非常多的卷积层和池化（pooling）层的组合，对整句语音进行建模，输出单元直接与最终的识别结果比如音节或者汉字相对应。Fig 9. DFCNN框架首先，从输入端来看，传统语音特征在傅里叶变换之后使用各种人工设计的滤波器组来提取特征，造成了频域上的信息损失，在高频区域的信息损失尤为明显，而且传统语音特征为了计算量的考虑必须采用非常大的帧移，无疑造成了时域上的信息损失，在说话人语速较快的时候表现得更为突出。因此DFCNN直接将语谱图作为输入，相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势。其次，从模型结构来看，DFCNN与传统语音识别中的CNN做法不同，它借鉴了图像识别中效果最好的网络配置，每个卷积层使用3x3的小卷积核，并在多个卷积层

网友回复

小苗长成大树：

拥有世界领先技术，科大讯飞牛！

趋势展望：

牛！看来芯片一事靠谱

评论专区

本站有缓存，一般1小时内能看到您的评论

新手入门推荐