1200字范文 > 音频-特征提取：①幅度谱（短时傅里叶变换谱/STFT） ②梅尔频谱（mel-spectrogram）

音频-特征提取：①幅度谱（短时傅里叶变换谱/STFT） ②梅尔频谱（mel-spectrogram）

时间：2023-10-21 16:34:40

原始信号

从音频文件中读取出来的原始语音信号通常称为raw waveform，是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度是10秒，那么raw waveform中就有160000个值，值的大小通常表示的是振幅。

声音信号是一维信号，直观上只能看到时域信息，不能看到频域信息。

通过傅里叶变换(FT)可以变换到频域，但是丢失了时域信息，无法看到时频关系。为了解决这个问题，产生了很多方法，短时傅里叶变换，小波等都是很常用的时频分析方法。

短时傅里叶变换(STFT)，就是对短时的信号做傅里叶变换。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿时间维度堆叠，得到一张图（类似于二维信号），这张图就是声谱图。

音频-特征提取：①幅度谱（短时傅里叶变换谱/STFT） ②梅尔频谱（mel-spectrogram） ③梅尔倒谱（MFCC）【在梅尔频谱上取对数做DCT（离散余弦变换）变换得梅尔倒谱】

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。