diff --git a/chapters/zh-CN/chapter1/audio_data.mdx b/chapters/zh-CN/chapter1/audio_data.mdx index 86dd45ff..fc2f6d5c 100644 --- a/chapters/zh-CN/chapter1/audio_data.mdx +++ b/chapters/zh-CN/chapter1/audio_data.mdx @@ -187,11 +187,11 @@ plt.colorbar() 和标准频谱一样,我们也会将梅尔频率成分的强度转化为分贝标度。由于分贝的转化过程涉及到对数运算,转化后的梅尔谱通常被称为**对数梅尔时频谱**(log-mel spectrum)。在上面示例中,我们使用`librosa.power_to_db()`函数和`librosa.feature.melspectrogram()`来生成能量对数梅尔时频谱。 -💡 梅尔视频谱间也有各种区别!有两种常用的mel计算标度("htk" 和 "slaney"),此外还有能量谱和幅度谱的区别。对数梅尔谱的转换有时仅仅是简单计算`对数`而不会完整转化为分贝标度。因此,在使用以梅尔谱作为输入的机器学习模型时,我们建议你检查梅尔谱的计算过程是否完全一致。 +💡 梅尔时频谱间也有各种区别!有两种常用的mel计算标度("htk" 和 "slaney"),此外还有能量谱和幅度谱的区别。对数梅尔谱的转换有时仅仅是简单计算`对数`而不会完整转化为分贝标度。因此,在使用以梅尔谱作为输入的机器学习模型时,我们建议你检查梅尔谱的计算过程是否完全一致。 由于梅尔谱的计算过程中需要对信号进行滤波,梅尔谱的计算是一个有损过程。将梅尔谱转化回波形比将标准时频谱转化回波形更加困难,因为我们需要估计在滤波过程中丢失的频率成分。这就是为何我们需要HiFiGAN声码器等机器学习模型来将梅尔谱转化回波形。 与标准时频谱相比,梅尔谱可以捕捉更多人类可感知的音频特征,因此梅尔谱也成为了在语音识别、说话人识别、音乐风格分类等任务中更常用的选择。 -现在你已经学会如何可视化音频数据了,试着可视化看看你最喜欢的声音吧:) \ No newline at end of file +现在你已经学会如何可视化音频数据了,试着可视化看看你最喜欢的声音吧:)