[딥러닝] TensorFlow를 사용한 딥러닝 CNN 드럼 소리 분류

💻 My Work/🧠 AI

[딥러닝] TensorFlow를 사용한 딥러닝 CNN 드럼 소리 분류

Jaeseo Kim 2023. 11. 24. 18:58

🏃‍♂️ 해당 글은 Tensorflow를 사용하기에 환경이 구축되어야 합니다.

Anaconda3 + tensorflow 키워드로 구글링해서 나오는 블로그들을 참고 바랍니다!

00. 목표

드럼 소리 파일을 넣었을 때, 무슨 북을 쳤는 지 구분하는 모델을 만듭니다.

input :

Tom Sample 30.wav

0.51MB

output : Tom

01. 기본 지식

음향의 특성에 대한 기본 지식

📌 스펙트럼(Spectrum)
소리 신호를 주파수와 진폭으로 분석
푸리에 변환을 적용하여 시간 영역의 신호를 주파수 영역으로 변환
시간 영역 & 주파수 영역 시각화 (X축: 주파수, Y축: 진폭) https://ratsgo.github.io/speechbook/docs/fe/ft

📌 멜 스펙트로그램(Mel Spectrogram)
인간의 청각 영역을 반영한 Mel scale을 적용
- 인간은 보통 저주파를 더 잘 인식함

📌 MFCC(Mel-Frequency Cepstral Coefficient)
오디오 신호에서 추출할 수 있는 feature로, 소리의 고유한 특징을 나타내는 수치
스펙트로그램 생성 ➡️ Mel scale 적용 ➡️ 멜 스펙트로그램 생성 ➡️ 캡스트럴(Cepstral) 분석 ➡️ MFCC 특성 추출

02. 음향의 특성 추출

음향의 특성을 분석해주는 유용한 파이썬 라이브러리인 librosa가 있습니다.

librosa — librosa 0.10.1 documentation

librosa.org

librosa를 통해 mfcc를 추출 후, numpy를 이용해서 특징의 width를 조절해줍니다.

✨ 우리가 추출하는 데이터의 shape은 (40, 174) 이고, 이 shape은 얼마든지 조절할 수 있습니다.

코드 그대로 2차원으로 추출해도 되고 shape을 조절해서 1차원으로 늘어뜨려도 됩니다.

root = wav_파일이_있는_폴더_path
test = root + .wav_name

max_pad_len = 174

def extract_feature(file_name):
    try:
        audio, sample_rate = librosa.load(file_name, res_type='kaiser_fast')
        mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40)
        pad_width = max_pad_len - mfccs.shape[1]
        mfccs = np.pad(mfccs, pad_width=((0,0), (0, pad_width)), mode='constant')
        print(mfccs.shape)
        
    except Exception as e:
        print("Error encountered while parsing file: ", file_name)
        print(e)
        return None
    return mfccs

extract_feature(test) # 확인

한 wav 파일을 테스트 해보고 shape (40, 174) 이 나오는 걸 확인합니다!

이제 여러 wav 파일을 대상으로 특성을 추출하겠습니다.

우선 저는 Overhead, Snare, Tom, Bass 데이터셋을 40개씩 준비하였습니다.

data는 리브로사로 추출한 특성 mfcc
class_label은 그 드럼의 종류 (Overhead:1, Snare:2, Tom:3, Bass:4 임의로 정함)
➡️ 즉, 딥러닝이 분류할 클래스는 4가지

root_path = wav_파일들이_있는_폴더_path
wav_list = os.listdir(root_path)
wav_files = [os.path.join(root_path, file) for file in wav_list if file.endswith('.wav')]
print(len(wav_files))

features = []
for wav_file in wav_files:      
    # data는 리브로사로 추출한 mfccs라는 특성이고
    # class_label은 그 드럼의 종류를 나타낸다.
    data = extract_feature(wav_file)
    class_label = 0
    if 'Overhead' in wav_file:
        class_label = 1
    elif 'Snare' in wav_file:
        class_label = 2
    elif 'Tom' in wav_file:
        class_label = 3
    elif 'Bass' in wav_file:
        class_label = 4
    else:
        class_label = 0
    features.append([data, class_label])

# Convert into a Panda dataframe 
featuresdf = pd.DataFrame(features, columns=['feature','class_label'])

featuresdf에 Panda 형태로 저장되었습니다!

03. 훈련(Train), 검증(Test) Dataset 생성

featuresdf의 feature는 X로, class_label은 y로 저장합니다.

✨ 여기서 y는 one-hot-encoding 변환을 해야 합니다.

📌one-hot-encoding
예를 들어, 자연수 1, 2, 3 있을 때 1:[1.0.0] / 2:[0.1.0] / 3:[0.0.1] 이런 식으로 변환
이렇게 변환하는 이유는, 해당 글에서의 딥러닝 모델이 멀티 클래스(3~ 가지) 분류를 하기 때문
➡️ 사람이 이해하기 쉬운 데이터를 컴퓨터가 이해하기 쉬운 데이터로 변환하는 기본적인 방법

from keras.utils import to_categorical

X = np.array(featuresdf.feature.tolist())
y = np.array(featuresdf.class_label.tolist())

le = LabelEncoder()
yy = to_categorical(le.fit_transform(y))

훈련, 검증 Dataset 비율은 8:2로 분류했습니다.

x_train, x_test, y_train, y_test = train_test_split(X, yy, test_size=0.2, random_state = 42)

# 확인
print(x_train.shape)
print(x_test.shape)
print(y[:10])
print(yy[:10])
print(y_test[:10])

마지막으로 훈련, 검증 Dataset 각각의 input x 데이터에 대해 shape을 딥러닝 모델에 넣기 위한 모습으로 변환해 줍니다.

n_columns = 174    
n_row = 40       
n_channels = 1
n_classes = 4

# input shape 조정
# cpu를 사용해서 수행
with tf.device('/cpu:0'):
    x_train = tf.reshape(x_train, [-1, n_row, n_columns, n_channels])
    x_test = tf.reshape(x_test, [-1, n_row, n_columns, n_channels])

04. 딥러닝 모델 생성

CNN이라는 딥러닝 모델을 사용합니다.

model = keras.Sequential()

model.add(layers.Conv2D(input_shape=(n_row, n_columns, n_channels), filters=16, kernel_size=2, activation='relu'))
model.add(layers.MaxPooling2D(pool_size=2))
model.add(layers.Dropout(0.2))
model.add(layers.Conv2D(kernel_size=2, filters=32, activation='relu'))
model.add(layers.MaxPooling2D(pool_size=2))
model.add(layers.Dropout(0.2))

model.add(layers.Conv2D(kernel_size=2, filters=64, activation='relu'))
model.add(layers.MaxPooling2D(pool_size=2))
model.add(layers.Dropout(0.2))
model.add(layers.Conv2D(kernel_size=2, filters=128, activation='relu'))
model.add(layers.MaxPooling2D(pool_size=2))
model.add(layers.Dropout(0.2))

model.add(layers.GlobalAveragePooling2D())
model.add(tf.keras.layers.Dense(units=n_classes, activation='softmax'))

model.summary() # 모델 확인

05. 훈련

훈련...

training_epochs = 72
num_batch_size = 128

learning_rate = 0.001
opt = keras.optimizers.Adam(learning_rate=learning_rate)

model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy'])

history = model.fit(x_train, y_train, batch_size=num_batch_size, epochs=training_epochs) # 훈련

train후, 반환한 history를 그래프로 확인하겠습니다.

accuracy, loss 등 에 대한 정보를 확인할 수 있습니다.

import matplotlib.pyplot as plt

def vis(history, key):
    x = np.arange(0, training_epochs)
    y = list(history.history[key])
    plt.plot(x, y)
    plt.title(key)
    
def plot_history(history) :
    # 0 accuracy, 1 loss
    key_value = list(set([i.split("val_")[-1] for i in list(history.history.keys())]))
    plt.figure(figsize=(12, 4))
    for idx , key in enumerate(key_value) :
        plt.subplot(1, len(key_value), idx+1)
        vis(history, key)
    plt.tight_layout()
    plt.show()
    
plot_history(history)

아주 굿입니다.

06. 모델 검증

print('\n# Evaluate on test data')

results = model.evaluate(x_test, y_test, batch_size=128)
print('test loss, test acc:', results)

검증 결과 accuracy 80!

데이터가 그렇게 많지 않고, 샘플 정도로만 있어서 그리 신뢰성 있는 모델은 아니지만..

07. 예측

root = 예측할_wav_파일이_있는_폴더_path
test = root + 예측할_.wav_name

n_columns = 174    
n_row = 40       
n_channels = 1

# input shape 조정
# cpu를 사용해서 수행한다
test = np.array(extract_feature(test))
with tf.device('/cpu:0'):
    test = tf.reshape(test, [-1, n_row, n_columns, n_channels])

# Overhead:1, Snare:2, Tom:3, Bass:4
model.predict(test, batch_size=128)

📌 array([[overhead일 확률, Snare일 확률, Tom일 확률, Bass일 확률]], dtype=float32)

Overhead.wav 파일을 넣었을 때, 가장 높은 확률로 Overhead로 예측했습니다!

감사합니다.

'💻 My Work > 🧠 AI' 카테고리의 다른 글

[딥러닝] Optical Music Recognition(OMR) 드럼 악보 인식 모델 (0)	2024.05.20
[MiniHack] 환경 세팅 (0)	2023.01.04
[인공지능/혼공머신] 07-1. 인공 신경망 (3) (0)	2023.01.02
[인공지능/혼공머신] 07-1. 인공 신경망 (2) (0)	2023.01.01
[인공지능/혼공머신] 07-1. 인공 신경망 (1) (0)	2022.12.17

현재글[딥러닝] TensorFlow를 사용한 딥러닝 CNN 드럼 소리 분류

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

jaeserrr.log