neural-network - 卷积神经网络(CNN)用于音频

Closed. This question needs to be more focused。它当前不接受答案。

想改善这个问题吗？更新问题，使其仅关注editing this post的一个问题。

去年关闭。

Improve this question

我一直在关注DeepLearning.net上的教程，以学习如何实现从图像中提取特征的卷积神经网络。本教程讲解清楚，易于理解和遵循。

我想扩展相同的CNN，以同时从视频(图像+音频)中提取多模式功能。

我了解视频输入只不过是在一段时间内(例如30 FPS)与音频相关的一系列图像(像素强度)显示。但是，我不太了解音频是什么，如何工作或如何分解为音频以馈入网络。

我已经阅读了几篇关于该主题的论文(多模式特征提取/表示)，但没有一篇解释音频是如何输入到网络的。

而且，从我的研究中我了解到，多模式表示法是我们大脑真正工作的方式，因为我们没有刻意过滤掉自己的感官来获得理解。所有这些同时发生，而我们却没有通过(联合表示)知道它。一个简单的例子是，如果我们听到狮子的吼叫声，我们立即构想出狮子的心理形象，感到危险，反之亦然。我们的大脑会激发出多种神经模式，以全面了解狮子的外观，声音，感觉，气味等。

上面提到的是我的最终目标，但是暂时为了简化我正在分解我的问题。

如果有人能够阐明音频的解剖方法，然后再在卷积神经网络中进行表示，我将不胜感激。我还要感谢您对多模式同步，联合表示以及使用多模式数据训练CNN的正确方法的想法。

编辑:
我发现音频可以用频谱图表示。它是音频的通用格式，并以具有两个几何尺寸的图形表示，其中水平线表示时间，垂直线表示频率。

这些频谱图上的图像是否可以使用相同的技术？换句话说，我可以简单地将这些频谱图用作卷积神经网络的输入图像吗？

最佳答案

我们在声谱图上使用了深度卷积网络来执行口语识别任务。对于this TopCoder contest提供的数据集，我们的准确率约为95％。详细信息是here。

普通的卷积网络无法捕获时间特征，因此，例如in this work，卷积网络的输出将输入到时延神经网络。但是我们的实验表明，即使没有附加元素，当输入具有相似的大小时，卷积网络也可以至少在某些任务上表现良好。

关于neural-network - 卷积神经网络(CNN)用于音频，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/22471072/