首页 文章

是否有可能在TTS中发出用户的声音而不是内置语音?

提问于
浏览
0

我们具有文本到语音特征,其中存在一组语音和不同音调,男/女声音 . 同样,我们在许多设备和PC中都有语音识别功能 . 系统是否有可能使用用户的语音而不是内置的默认语音?

1 回答

  • 0

    虽然理论上可行,但它很可能不实用 . 基本上有两种类型的人造声音:全合成和基于样本 .

    • 如果您的TTS声音是完全合成的,那么它只能受某些参数的影响,例如音高和速度 . 您最好的方法是尝试估算输入语音中的所有参数 .

    • 如果您的TTS语音是基于样本的,那么您可以尝试从用户收集足够的语音来构建一个全新的数据集 . 通常你需要每一个可能的diphone,这可能需要很长时间才能收集,除非你让用户专门用一些文字来收集它们 . 然后你的引擎需要能够接受语音部分并从中构建新的声音 .

    在这两种情况下,除非您还能模仿用户的韵律和特定发音,否则结果仍然不会很有说服力 . 如果您的TTS和识别模块不是由您自己开发或可扩展的,那么您可能会运气不好,因为大多数软件都不允许在运行时构建新的语音 .

相关问题