음향 기반 이상 탐지

1음향 분석의 원리와 장점

음향 기반 이상 탐지(Acoustic-based Anomaly Detection)는 설비가 발생시키는 소리 패턴을 분석하여 이상 상태를 감지합니다. 숙련된 현장 작업자가 "기계 소리가 이상하다"고 느끼는 것을 AI로 자동화하는 것입니다. 음향 분석의 장점은 비접촉(Non-contact) 측정, 넓은 영역 커버, 여러 고장 모드 동시 감지가 가능하다는 점입니다. 마이크 하나로 근처의 여러 설비를 모니터링할 수 있어 센서 비용 대비 효율이 높습니다. 가청 주파수(20Hz~20kHz) 분석과 초음파(20kHz~100kHz) 분석을 모두 활용하여 다양한 고장 유형을 탐지합니다.

음향 AI 분석 파이프라인

🎤

마이크 수집

→

📊

특징 추출

→

🤖

AI 모델

→

⚠️

이상 판정

MFCC

음성 특징

스펙트로그램

2D 이미지

CNN

패턴 학습

오토인코더 (이상 탐지)

비지도 학습 - 레이블 불필요

주파수 대역별 탐지 대상

저주파 (1-20Hz)

구조 진동, 대형 구조물

가청 (20Hz-20kHz)

마모, 불균형, 공진 - 모터/펌프/팬

초음파 (20-100kHz)

누설, 방전, 초기마찰 - 배관/전기설비

분석 유형	주파수 범위	탐지 대상	주요 응용
가청 음향	20Hz ~ 20kHz	마모, 불균형, 공진	모터, 펌프, 팬
초음파	20kHz ~ 100kHz	누설, 방전, 마찰	배관, 전기설비
저주파 음향	1Hz ~ 20Hz	구조 진동	대형 구조물

2MFCC 특징 추출

MFCC(Mel-Frequency Cepstral Coefficients)는 음향 신호를 사람의 청각 특성을 반영한 특징 벡터로 변환합니다. 음성 인식에서 널리 사용되던 기법이 산업 음향 분석에도 효과적입니다. MFCC 추출 과정은 프리엠퍼시스 → 프레이밍 → 윈도잉 → FFT → 멜 필터뱅크 → 로그 변환 → DCT 순서로 진행됩니다. 일반적으로 13~40개의 MFCC 계수를 추출하며, 델타(1차 미분)와 델타-델타(2차 미분)를 추가하여 시간적 변화도 캡처합니다.

MFCC 특징 추출 (수도코드)
# === MFCC 추출 설정 ===
# 샘플레이트: 22050 Hz
# MFCC 계수: 20개
# FFT 크기: 2048
# Hop 길이: 512

# === MFCC 추출 순서 ===
# 1. 오디오 파일 로드
# 2. MFCC 추출 (20개 계수)
# 3. 델타 (1차 미분) 계산
# 4. 델타-델타 (2차 미분) 계산
# 5. 통계 특징 계산

# === 통계 특징 (MFCC, 델타, 델타-델타 각각) ===
# 평균, 표준편차, 최대값, 최소값
# 총 특징 수: 20계수 × 4통계 × 3종류 = 240개

# === 멜 스펙트로그램 추출 (CNN용) ===
# 1. 멜 스펙트로그램 계산 (128 멜 밴드)
# 2. dB 스케일 변환
# 3. 목표 크기로 리사이즈 (128×128)

3스펙트로그램 CNN 분류

스펙트로그램 이미지를 CNN(Convolutional Neural Network)으로 분류하는 방식은 복잡한 음향 패턴을 시각적 패턴으로 변환하여 이미지 분류 기법을 적용합니다. 멜 스펙트로그램을 2D 이미지처럼 처리하면 ImageNet 사전학습 모델(ResNet, EfficientNet)을 전이학습(Transfer Learning)할 수 있어 적은 데이터로도 높은 성능을 달성합니다. 시간-주파수 패턴을 동시에 학습하여 "특정 주파수가 특정 시점에 어떻게 변화하는지"를 인식합니다.

스펙트로그램 CNN 분류 (수도코드)
# === CNN 모델 구조 ===
# 백본: EfficientNet-B0 (사전학습 모델)
# 입력: 1채널 스펙트로그램 이미지
# 출력: 5개 클래스 확률

# === 분류 헤드 ===
# Dropout(0.3) → Dense(256) → ReLU → Dropout(0.2) → Dense(5)

# === 분류 클래스 ===
# 0: 정상
# 1: 베어링 마모
# 2: 불균형
# 3: 느슨함
# 4: 윤활 부족

# === 예측 프로세스 ===
# 1. 음향 파일에서 스펙트로그램 추출
# 2. 텐서로 변환 (배치×채널×높이×너비)
# 3. CNN 모델 추론
# 4. Softmax로 확률 계산
# 5. 최대 확률 클래스 선택

# === 출력 ===
# 예측 클래스, 신뢰도, 전체 클래스별 확률

4오토인코더 기반 비지도 학습

레이블된 고장 데이터가 부족한 경우, 오토인코더(Autoencoder)를 사용한 비지도 이상 탐지가 효과적입니다. 정상 상태의 음향 데이터만으로 오토인코더를 학습시키면, 입력을 압축 후 복원하는 과정에서 정상 패턴의 특징을 학습합니다. 이상 음향이 입력되면 복원 오차(Reconstruction Error)가 증가하여 이상을 탐지합니다. 이 방식은 새로운 유형의 고장도 탐지할 수 있다는 장점이 있습니다.

오토인코더 이상 탐지 (수도코드)
# === VAE 오토인코더 구조 ===
# 입력: MFCC 특징 벡터 (240차원)
# 잠재 공간: 32차원

# 인코더: 240 → 128 → 64 → (평균, 분산)
# 디코더: 32 → 64 → 128 → 240

# === 이상 탐지 원리 ===
# 정상 음향만으로 학습
# 입력 → 압축 → 복원
# 정상: 잘 복원됨 (낮은 오차)
# 이상: 복원 안됨 (높은 오차)

# === 이상 점수 계산 ===
# 이상점수 = 평균제곱오차(입력, 복원)

# === 임계값 설정 (정상 데이터 기반) ===
# 1. 정상 음향 데이터 수집
# 2. 각 샘플의 이상 점수 계산
# 3. 95% 백분위수를 임계값으로 설정

# === 이상 판정 ===
# 이상점수 > 임계값 → 이상
# 심각도 = 이상점수 / 임계값 (최대 3.0)

5초음파 누설 탐지

초음파(Ultrasound) 분석은 압축공기, 가스, 증기 배관의 누설 탐지에 탁월합니다. 누설 시 발생하는 난류가 초음파 대역(40kHz)의 백색 소음을 발생시키며, 이를 가청 주파수로 변환(헤테로다인)하여 분석합니다. 또한 전기 설비의 아크 방전, 코로나 방전도 초음파를 발생시켜 조기 탐지가 가능합니다. 베어링의 초기 마모는 진동보다 초음파에서 먼저 징후가 나타나는 경우가 많습니다.

초음파 누설 탐지 (수도코드)
# === 시스템 설정 ===
# 샘플레이트: 192 kHz
# 중심 주파수: 40 kHz

# === 전처리 순서 ===
# 1. 대역통과 필터 (35-45 kHz)
# 2. 힐버트 변환 → 엔벨로프 추출
# 3. 저역 필터로 스무딩

# === 기준선 설정 ===
# 정상 상태 음향 분석
# 평균 레벨과 표준편차 저장

# === 누설 탐지 ===
# 현재 레벨 계산
# dB 차이 = 20 × log10(현재/기준선)
# 누설 판정: dB 차이 > 임계값(6dB)

# === 심각도 분류 ===
# < 6 dB: 없음 (None)
# 6-12 dB: 경미 (Minor)
# 12-20 dB: 중간 (Moderate)
# > 20 dB: 심각 (Severe)

# === 누설량 추정 (CFM) ===
# 경험적 공식: 0.5 × 10^(dB/20)
# 실제 적용 시 거리, 압력 보정 필요

6실시간 음향 모니터링 시스템

실시간 음향 모니터링 시스템은 연속적인 음향 스트림을 분석하여 이상을 즉시 탐지합니다. 엣지 디바이스에서 오디오를 수집하고, 슬라이딩 윈도우 방식으로 특징을 추출한 후, 경량화된 모델로 실시간 추론을 수행합니다. 이상이 탐지되면 해당 구간의 음향을 클라우드로 전송하여 상세 분석을 진행합니다. 노이즈가 많은 공장 환경에서는 적응형 노이즈 캔슬링과 빔포밍 마이크 어레이가 탐지 성능을 향상시킵니다.

실시간 음향 모니터링 (수도코드)
# === 시스템 설정 ===
# 샘플레이트: 22050 Hz
# 윈도우 길이: 2초
# Hop 간격: 0.5초

# === 버퍼 관리 ===
# 2초 분량의 순환 버퍼 유지
# 0.5초마다 새 데이터로 업데이트

# === 실시간 처리 루프 ===
# 1. 오디오 청크 수신 (콜백)
# 2. 버퍼에 추가 (슬라이딩 윈도우)
# 3. MFCC 특징 추출 (20개 계수)
# 4. 통계 특징 계산 (평균, 표준편차, 최대값)
# 5. 모델로 이상 점수 계산
# 6. 임계값 초과 시 알림 발생

# === 모니터링 시작 ===
# 1. 오디오 스트림 시작
# 2. 처리 스레드 시작
# 3. 연속 분석 수행

# === 이상 탐지 시 ===
# 알림 발생
# 해당 구간 음향 클립 저장
# 타임스탬프 기록

핵심 포인트: 음향 분석은 비접촉으로 넓은 영역을 모니터링할 수 있어 비용 효율적입니다. MFCC+CNN 조합은 복잡한 음향 패턴을 자동으로 학습하고, 오토인코더는 레이블 없이도 새로운 고장 유형을 탐지합니다.