我想构建一个脚本,使用语音识别来记录所说的内容,并在说出关键字后将其转换为文本。

我看过 Uberi 的语音识别包,它几乎提供了我在录制所有语音并将其转换为文本方面所需的一切。

有没有办法在每次触发关键字时触发类似于 Alexa 的录音?例如,A 讲了 30 分钟的经济市场。在演讲中,他提到了“危机”、“经济衰退”和“市场崩盘”等词。

是否可以记录并转换为文本 - 也许是触发关键字后所说的接下来的 10 秒?

最佳答案

我做类似的事情。您可能需要考虑使用:

  • snowboy 关键字检测库 https://snowboy.kitt.ai/docs to
    检测关键字。您可以有多个关键字。你需要定义
    先说模型。
  • 在第一个静音时切掉句子,并将其存储在音频文件中
  • 使用先前生成的音频文件作为输入调用翻译服务 API(例如 Google)。我试过这个:https://cloud.google.com/speech-to-text/docs/

  • 您可以使用麦克风或音频文件作为 snowboy 的输入。

    希望能帮助到你

    关于python - 使用热门词/关键字开始录制语音识别,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55106771/

    10-16 06:12