原始信号
从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅。
一、幅度谱(spectrogram)/ STFT
声音信号是一维信号,直观上只能看到时域信息,不能看到频域信息。
通过傅里叶变换(FT)可以变换到频域,但是丢失了时域信息,无法看到时频关系。为了解决这个问题,产生了很多方法,短时傅里叶变换,小波等都是很常用的时频分析方法。
短时傅里叶变换(STFT),就是对短时的信号做傅里叶变换。原理如下:对一段长语音信号,分帧、加窗,再对每一帧做傅里叶变换,之后把每一帧的结果沿时间维度堆叠,得到一张图(类似于二维信号),这张图就是声谱图。
音频-特征提取:①幅度谱(短时傅里叶变换谱/STFT) ②梅尔频谱(mel-spectrogram) ③梅尔倒谱(MFCC)【在梅尔频谱上取对数 做DCT(离散余弦变换)变换 得梅尔倒谱】