经典的深度学习网络 AlexNet 使用数据扩充 (Data Augmentation) 的方式扩大数据集, 取得较好的分类效果. 在深度学习的图像领域中, 通过平移, 翻转, 加噪等方法进行数据扩充. 但是, 在音频 (Audio) 领域中, 如何进行数据扩充呢?
Audio
音频的数据扩充主要有以下四种方式:
音频剪裁(Clip)
音频旋转(Roll)
音频调音(Tune)
音频加噪(Noise)
音频处理基于 https://librosa.github.io/librosa/ 音频库; 矩阵操作基于 scipy 和 numpy 科学计算库.
以下是 Python 的实现方式:
音频剪裁
- import librosa
- from scipy.io import wavfile
- y, sr = librosa.load("../data/love_illusion.mp3") # 读取音频
- print y.shape, sr
- wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr]) # 写入音频
音频旋转
- import librosa
- import numpy as np
- from scipy.io import wavfile
- y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频
- y = np.roll(y, sr*10)
- print y.shape, sr
- wavfile.write("../data/raw/xxx_roll.mp3", sr, y) # 写入音频
音频调音
- import cv2
- import librosa
- from scipy.io import wavfile
- y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频
- ly = len(y)
- y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze()
- lc = len(y_tune) - ly
- y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]
- print y.shape, sr
- wavfile.write("../data/raw/xxx_tune.mp3", sr, y) # 写入音频
音频加噪, 注意: 在添加随机噪声时, 保留 0 值, 否则刺耳难忍!
- import librosa
- from scipy.io import wavfile
- import numpy as np
- y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频
- wn = np.random.randn(len(y))
- y = np.where(y != 0.0, y + 0.02 * wn, 0.0) # 噪声不要添加到 0 上!
- print y.shape, sr
- wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y) # 写入音频
OK, that's all! Enjoy it!
来源: http://www.jianshu.com/p/71876aadff57