잔여 수명(RUL) 예측

1RUL 예측의 개념과 접근법

RUL(Remaining Useful Life)은 설비가 현재 상태에서 고장까지 남은 시간을 의미합니다. "이 베어링은 며칠 뒤에 교체해야 하는가?"에 대한 답을 제공합니다. RUL 예측 접근법은 크게 세 가지로 분류됩니다: (1) 물리 기반(Physics-based): 열화 메커니즘을 수학적으로 모델링, (2) 통계 기반: 생존 분석, Weibull 분포 활용, (3) 데이터 기반: 머신러닝/딥러닝으로 패턴 학습. 실무에서는 이들을 하이브리드로 결합하여 물리적 이해와 데이터 패턴을 함께 활용합니다.

RUL 예측 방법론 프레임워크

물리 기반

(Physics)

열화 모델링
물리 방정식
Paris 법칙

통계 기반

(Statistical)

생존 분석
Weibull 분포
Cox 회귀

데이터 기반

(Data-driven)

LSTM/GRU
Transformer
CNN

▼

하이브리드 모델

(실무 권장 방식)

RUL 예측 타임라인

정상 운전 열화 시작 고장 임박 고장

◀ RUL (잔여 수명) ▶

접근법	장점	단점	적용 상황
물리 기반	해석 가능, 외삽 가능	모델링 어려움	메커니즘 명확한 경우
통계 기반	불확실성 정량화	분포 가정 필요	고장 이력 풍부한 경우
데이터 기반	복잡 패턴 학습	블랙박스, 데이터 필요	다변량 센서 데이터

2생존 분석(Survival Analysis)

생존 분석은 의학에서 발전한 통계 기법으로, 시간에 따른 이벤트(고장) 발생 확률을 모델링합니다. 핵심 개념은 생존 함수 S(t)(시간 t까지 생존할 확률)와 위험 함수 h(t)(시간 t에서의 순간 고장률)입니다. 카플란-마이어(Kaplan-Meier) 추정량은 비모수적 생존 함수를 추정하고, 콕스 비례 위험(Cox Proportional Hazards) 모델은 공변량(센서 값)이 고장 위험에 미치는 영향을 정량화합니다. 중도 절단(Censoring) 데이터를 자연스럽게 처리할 수 있어, 아직 고장나지 않은 설비 데이터도 활용 가능합니다.

생존 분석 기반 RUL 예측 (수도코드)
# === 핵심 개념 ===
# 생존함수 S(t): 시간 t까지 생존할 확률
# 위험함수 h(t): 시간 t에서의 순간 고장률
# 중도절단: 아직 고장나지 않은 데이터도 활용

# === 카플란-마이어 추정 ===
# 비모수적 생존 함수 추정
# 출력: 생존 함수, 중앙 생존 시간, 신뢰 구간

# === Cox 비례 위험 모델 ===
# 공변량(센서값)이 고장 위험에 미치는 영향 분석
# 위험 비율(Hazard Ratio) 계산
# Concordance Index로 모델 성능 평가

# === Cox 모델 RUL 예측 ===
# 1. 개별 생존 함수 예측
# 2. 현재 나이 이후의 생존 함수 추출
# 3. 50% 생존 시점까지의 잔여 시간 계산

# === Weibull AFT 모델 ===
# 파라미터: lambda(스케일), rho(형상)
# 조건부 생존 함수로 RUL 예측
# 다양한 분위수(25%, 50%, 75%)로 불확실성 표현

3LSTM 기반 RUL 예측

LSTM(Long Short-Term Memory)은 시계열 데이터의 장기 의존성을 학습하는 RNN 아키텍처로, 센서 시계열로부터 RUL을 직접 예측하는 데 효과적입니다. NASA C-MAPSS 터보팬 엔진 데이터셋에서 LSTM이 우수한 성능을 보이며 RUL 예측의 표준 벤치마크가 되었습니다. 입력은 시간 윈도우 내의 다변량 센서 시계열이고, 출력은 해당 시점의 RUL(회귀) 또는 RUL 구간(분류)입니다. Attention 메커니즘을 추가하면 어떤 시점의 센서가 RUL 예측에 중요한지 해석 가능해집니다.

LSTM RUL 예측 모델 (수도코드)
# === LSTM 모델 구조 ===
# 입력: (배치, 시퀀스길이, 센서특징수)
# LSTM: 양방향, 2층, hidden=64
# Attention: 중요 시점에 가중치 부여
# 회귀기: Dense(64) → Dense(32) → Dense(1)

# === Attention 메커니즘 ===
# 1. LSTM 출력에 Linear 적용
# 2. Softmax로 가중치 정규화
# 3. 가중 합으로 컨텍스트 벡터 생성

# === 데이터셋 처리 ===
# 윈도우 크기: 50 타임스텝
# 긴 시퀀스: 마지막 50개 사용
# 짧은 시퀀스: 앞에 0으로 패딩

# === 학습 과정 ===
# 옵티마이저: Adam (lr=0.001)
# 스케줄러: 성능 정체시 학습률 감소
# 손실함수: MSE (평균제곱오차)
# 검증 손실 최소시 모델 저장

4Transformer 기반 RUL 예측

Transformer 아키텍처는 Self-Attention 메커니즘으로 시계열의 모든 시점 간 관계를 직접 모델링하여 LSTM보다 긴 의존성을 효과적으로 캡처합니다. RUL 예측에서 Transformer는 특히 다변량 센서 간 상호작용을 학습하는 데 강점을 보입니다. Positional Encoding으로 시간 순서 정보를 추가하고, 인코더 출력의 평균이나 [CLS] 토큰으로 최종 RUL을 예측합니다. 최근에는 시계열 전용 Transformer 변형(Informer, Autoformer)도 적용됩니다.

Transformer RUL 모델 (수도코드)
# === 위치 인코딩 ===
# 시간 순서 정보를 임베딩에 추가
# Sin/Cos 함수로 위치별 고유 패턴 생성

# === Transformer 모델 구조 ===
# 입력 투영: 센서특징 → d_model(64)
# 위치 인코딩 추가
# Encoder: 3층, 4헤드 Self-Attention
# 출력 집계: 시퀀스 평균
# 회귀기: Dense(64) → Dense(1)

# === Self-Attention의 장점 ===
# 모든 시점 간 관계를 직접 모델링
# LSTM보다 긴 의존성 캡처 가능
# 다변량 센서 간 상호작용 학습

# === 추론 과정 ===
# 1. 입력 특징 투영
# 2. 위치 인코딩 추가
# 3. Transformer 인코딩
# 4. 시퀀스 평균 풀링
# 5. 회귀기로 RUL 출력

# === 해석성 ===
# Attention 가중치 추출로
# 어떤 시점이 중요한지 시각화 가능

5불확실성 정량화

RUL 예측에서 불확실성(Uncertainty) 정량화는 실무에서 매우 중요합니다. "RUL이 30일"보다 "RUL이 25~35일 (90% 신뢰구간)"이 의사결정에 더 유용합니다. 불확실성은 두 종류로 구분됩니다: (1) 알레아토릭(Aleatoric): 데이터 내재적 노이즈, (2) 에피스테믹(Epistemic): 모델의 지식 부족. MC Dropout, 앙상블, Bayesian Neural Network 등으로 불확실성을 추정합니다.

MC Dropout 불확실성 추정 (수도코드)
# === MC Dropout 원리 ===
# 추론 시 Dropout 활성화 상태로 여러 번 예측
# 예측 분포로 불확실성 추정

# === 불확실성 추정 순서 ===
# 1. Dropout 활성화 (train 모드)
# 2. 동일 입력으로 100회 예측
# 3. 예측 분포 계산
#    - 평균 RUL
#    - 표준편차
#    - 90% 신뢰구간 (5%, 95% 분위수)

# === 보정 확인 ===
# 90% 신뢰구간 내 실제값 비율 확인
# 목표: 85-95% 커버리지
# 잘 보정됨 = 예측 불확실성이 실제와 일치

# === 앙상블 예측 ===
# 여러 모델의 예측 결합
# 출력: 평균, 표준편차, 최소, 최대 RUL

# === 불확실성 유형 ===
# 알레아토릭: 데이터 내재적 노이즈
# 에피스테믹: 모델의 지식 부족
# MC Dropout은 주로 에피스테믹 추정

핵심 포인트: RUL 예측의 가치는 불확실성 정량화에 있습니다. 점 추정만으로는 안전 마진을 결정할 수 없으므로, 반드시 신뢰구간과 함께 제공해야 합니다.

6RUL 예측 실무 적용

RUL 예측을 실무에 적용할 때 고려해야 할 사항들입니다. 첫째, RUL 라벨링 전략: 실제 고장 시점을 알아야 라벨링이 가능하므로, Run-to-Failure 데이터 수집 계획이 필요합니다. Piece-wise Linear 열화 모델로 점진적 열화를 가정하거나, Clipping RUL(상한 제한)로 초기 정상 구간을 처리합니다. 둘째, 평가 지표: RMSE뿐 아니라 조기/지연 예측의 비대칭 비용을 반영한 Score Function을 사용합니다. 셋째, 운영 통합: CMMS와 연동하여 예측 RUL이 임계값 이하가 되면 자동으로 작업 지시를 생성합니다.