假如你正在构建一个语音识别系统,这个系统中,你需要开发三个组件:
48.更多的端到端学习实例 翻译自 吴恩达新书-Machine Learning Yearning-LMLPHP
这三个组件负责的工作如下:

  1. 计算特征:抽取手工设计的特征,比如MFCC(梅尔频率倒谱系数)特征,采集有用的内容,忽略不相干的属性,比如说话者的音高。
  2. 音素识别:一些语言学家任务,声音的基本单元是音素。比如单词"Keep"中的"K"与单词“cake”中的“c”发音相同,它们是同一个音素。
  3. 最终识别:将识别出的音素序列,组合起来形成最终的输出文本。

与上面这个结构相反,端到端系统输入语音片段后,可以直接输出对应的转录文本:
48.更多的端到端学习实例 翻译自 吴恩达新书-Machine Learning Yearning-LMLPHP
到目前为止,我们所说的机器学习算法流程都是线性线性的:输出序列从一个阶段传递到下一阶段。算法的流程也可能会更复杂,比如,这儿有个自动驾驶汽车的简单结构图:
48.更多的端到端学习实例 翻译自 吴恩达新书-Machine Learning Yearning-LMLPHP
它包含三个组件:一个通过照相机图片检测其他汽车,一个用于检测行人,最后一个组件用于给当前车辆规划路线,避免装上其他车辆或行人。

流程中并不是每一个组件都需要学习的。比如机器人运动规划的文献中,有很多算法都是用于路径规划的,但是但部分算法都不涉及到学习。

相反,端到端方法中可以依据传感器的输入,直接输出导航方向:
48.更多的端到端学习实例 翻译自 吴恩达新书-Machine Learning Yearning-LMLPHP
尽管端到端学习在很多领域取得了成功。但也不是在所有的场景中,他都是最好的方法。比如端到端系统可以很好的完成语音识别任务,但是我对短短的能否完成自动驾驶任务,表示怀疑。下面几章,我们解释其中的原因。

10-05 09:32