[MIKANTONE] 출력 데이터 처리 방법 개선

잡음을 어느정도 처리했으며, segment 사이의 격차를 줄이는 스무딩 작업을 진행했습니다.

고주파 대역 잡음 처리

문제 제기

현재까지의 MIKANTONE 모델은 input data에 없었던 고주파 대역 잡음이 계속 섞여들어왔습니다.

예를 들면 이런 식이었습니다. y=350 즈음에 밝은 점이 군데군데 찍혀 있는 게 보이죠.

img

이걸 직접 소리로 들어보면, 다음 영상과 같이 계속 높고 날카로운 소리가 섞여 듣기 불편합니다.

보다 쉬운 분석을 위해 DAW 상에서 이퀄라이저를 켜 보면, 이 날카로운 소리는 6000-10000Hz에 걸쳐 있습니다.

이 대역은 인간의 목소리 중 칼칼함을 더해 주며 ㅈ, ㅊ, ㅆ등의 잇소리를 담당하는 부분인데,

(그래서 너무 거슬린다 싶으면 디에서로 눌러 주기도 합니다.)

중요한 부분이라 노이즈 제거한답시고 아예 High-cut으로 잘라내 버리면 소리가 엄청나게 먹먹해지게 됩니다.

해결

이걸 어떻게 따로 처리를 해야 하나,

스무딩을 해야 하나(그러면 당연히 소리가 뭉그러집니다.)

디노이즈만을 담당하는 AI 모델을 따로 만들어야 하나 생각하고 있었는데,

생각보다 간단한 방법으로 처리가 가능했습니다.

우선 “고주파 대역” 에 대한 것입니다.

우리의 목소리는 생각보다 높지 않기에, 대부분 메인 파형은 중음역대에 걸쳐 있습니다.

위 이미지도 보시면 밝은 점이 찍혀있는 부근에서는 기본적으로 그렇게 센 신호가 나오지 않습니다.

반대로 노이즈 자체의 신호는 굉장히 셌습니다.

어느정도냐 하면 아무리 컴프레서를 걸어도 걸어도 노이즈만 들리면 클리핑이 생겼을 정도였죠.

하지만 그렇다고 저음역-중음역대의 신호보다 눈에 띄게 강한 것은 아니었습니다.

클리핑이 생겼던 건 고음역대라 특히 더 크게 들렸나 봅니다.

아무튼 그러니, 고주파 대역에서”만” 특정 임계값보다 강한 신호가 있으면 제거해 주면 되는 일이었습니다.

그러면 제가 할 일은 단지 코드 한 줄을 추가하는 것입니다.

prediction[200:][prediction[200:] > 7] = 0.000001

여기에서 prediction은 모델을 통해 도출된 output 이미지입니다.

prediction의 첫번째 차원 index가 200과 같거나 큰 모든 원소에 대해서,

(즉 고주파 영역대의 신호를 나타내는 모든 원소에 대해서,)

그 원소의 수치가 제가 설정한 임계값보다 크면 (일단은 10으로 설정했다가, 7로 낮추었습니다.)

원래 값을 무시하고 0에 가까운 값으로 대치합니다.

0에 가까운 값인 이유는, 앞으로 저의 모델에 대해서 이야기할 기회가 있으면 설명하겠지만,

결과값 그래프 자체가 로그 스케일이기 때문입니다.

img

이와 같이 튀는 값이 많이 사라졌습니다.

(두번째 그래프가 STFT 그래프, 세번째 그래프가 파형 그래프인데 둘 다 튀는 값이 사라졌어요.)

스무딩 작업

MIKANTONE은 규격이 정해진 img to img 변환을 사용하기 때문에, 가변적인 길이에 취약합니다. 현재까지 5초짜리 음원을 생성할 수 있습니다.

그리고 일반적인 음원은 3분 – 4분 정도의 길이이므로,

지금까지 미캉톤은 5초짜리 STFT 그래프를 전부 갖다 붙여서 GriffinLim 변환을 하는 단순한 방법을 사용했답니다.

하지만 이렇게 하면 당연히 중간에 음높이, 음량 등의 급격한 변화가 생기는 구간이 있게 됩니다.

이번 기회에 각 STFT 그래프들끼리 '겹치는 구간'을 만들어 두 그래프의 값을 평균 내는 식으로 스무딩을 진행해 주었습니다.

잡음 처리, 스무딩 작업이 완료된 후의 음원입니다. 고음역대의 잡음 및 끊김이 거의 없는 것을 보실 수 있습니다.

후기

확실히 지난 최적화도 그렇고, 2023년 중순의 저보다 2024년 초의 저는,

비록 언어가 다르긴 했지만, 그 사이에 이것저것 다양하게 코드를 짜 보아서 그런지,

좀더 많은 문제에 좀더 유연하고 지혜롭게 대처할 수 있었습니다.

발전이 보여서 매우 기쁩니다.

+

여행당일기

잡다한 블로그

카테고리

메인
전체보기
소개
공지
일기
개발
전체보기
연합우주
MIKANTONE
CabinetKey
창작
전체보기
커미션
단편
일러스트
3D
음악
한문
현재연