是否有可能在TTS中发出用户的声音而不是内置语音？

提问于 2024-04-26T06:57:35+08:00

浏览次

0

我们具有文本到语音特征，其中存在一组语音和不同音调，男/女声音 . 同样，我们在许多设备和PC中都有语音识别功能 . 系统是否有可能使用用户的语音而不是内置的默认语音？

1 回答

0
虽然理论上可行，但它很可能不实用 . 基本上有两种类型的人造声音：全合成和基于样本 .
- 如果您的TTS声音是完全合成的，那么它只能受某些参数的影响，例如音高和速度 . 您最好的方法是尝试估算输入语音中的所有参数 .
- 如果您的TTS语音是基于样本的，那么您可以尝试从用户收集足够的语音来构建一个全新的数据集 . 通常你需要每一个可能的diphone，这可能需要很长时间才能收集，除非你让用户专门用一些文字来收集它们 . 然后你的引擎需要能够接受语音部分并从中构建新的声音 .
在这两种情况下，除非您还能模仿用户的韵律和特定发音，否则结果仍然不会很有说服力 . 如果您的TTS和识别模块不是由您自己开发或可扩展的，那么您可能会运气不好，因为大多数软件都不允许在运行时构建新的语音 .
回复于 2024-04-26T06:57:35+08:00

相关问题