인과관계 추정 정확도 높인 새로운 방법론 개발

- IBS-KAIST, 수학 모델 기반 방법론 제시 … 정확도는 ↑ 추정 시간은↓ -

- - 다양한 대기 오염원 중 심혈관계 질환 발생에 직접적인 영향 미치는 요인도 찾아 -

기초과학연구원(IBS, 원장 노도영) 수리 및 계산 과학 연구단 의생명 수학 그룹 김재경 CI(Chief Investigator․KAIST 수리과학과 교수) 연구팀은 수학 모델을 기반으로 시계열 데이터의 인과관계를 추정하는 새로운 방법론을 개발했다. 복잡한 계산 과정을 없애 기존보다 빠른 속도로 추론이 가능하면서도, 정확도는 획기적으로 높였다.

매 순간 다양한 데이터가 기록되고 있다. 그중 시간의 흐름을 기준으로 기록된 ‘시계열 데이터’는 일기 예보와 경제 분야뿐만 아니라 의학 분야에서도 가치 있게 쓰인다. 입원 환자의 심전도 측정을 통해 심장 발작의 직접적인 요인을 찾는 것과 같이 인과관계를 추정하는 것이 대표적이다. 최근에는 스마트 워치 등 웨어러블 기기를 통해 일상에서 건강 데이터를 쉽게 수집할 수 있게 되면서, 의학 분야에서 시계열 데이터 분석의 중요성이 더 커지고 있다.

시계열 데이터에서 인과관계를 추정하는 대표적인 방법으로는 2003년 노벨 경제학상을 수상한 클라이브 그레인저 미국 샌디에이고캘리포니아대(UC샌디에이고) 교수가 제시한 ‘그레인저 인과관계 검정(Granger causality test)’이 있다. 이는 미래 경제지표 예측, 질병 요인분석, 지구온난화의 원인 등 수많은 분야에 걸쳐 응용됐다. 그레인저 인과관계 검정을 개선한 정보 이론 기반의 다양한 인과관계 추정 방법이 개발됐지만, 일련의 방법들은 시계열 데이터가 비슷한 주기로 변화하는 동시성을 가지기만 하면, 인과관계가 있다고 잘못 예측하는 경우가 많았다1). 또한, 직접적인 인과관계와 간접적인 인과관계를 구별하지 못한다는 한계도 있었다2).

이러한 한계를 극복하기 위해 최근 수리 모델을 기반으로 하는 방법론3)들이 등장했다. 수리 모델로 주어진 시계열 데이터를 잘 맞출 수 있는지 확인하는 방법을 통해 인과관계를 예측한다. 수리 모델이 정확하기만 하면 기존 그레인저 인과관계 검정의 한계인 동시성과 간접적인 영향을 인과관계와 혼동하지 않는다는 장점이 있다. 그러나 정확한 수리 모델을 알기 힘들고, 현재까지 제시된 수리 모델 기반 방법론들은 복잡한 계산이 필요해 추정 시간이 많이 걸린다는 단점이 있다.

이러한 상황에서 IBS 의생명 수학 그룹은 기존 방법론들의 한계를 모두 해결한 새로운 방법론 ‘GOBI(General ODE-Based Inference)’를 개발했다. 우선, 연구팀은 시계열 데이터가 일반적인 수학 모델로 표현될 수 있는지 확인하는 수학 이론을 만들었다. 그리고 이 이론을 바탕으로 정확한 수리 모델이나 복잡한 계산 없이도 시계열 데이터로부터 인과관계를 추정하는 방법론을 개발했다.

개발한 방법론을 인과관계 분석에 적용해 본 결과 세포 내 분자들의 상호작용, 생태계 네트워크, 기상 시스템 등 다양한 분야의 데이터에서 기존 방법론에 비해 월등한 성능을 보여줬다. 특히, 동시성 및 간접적인 영향을 가지는 시계열 데이터에서도 인과관계를 성공적으로 추론했다. 연구진은 GOBI를 통해서 여러 오염 물질 중 이산화질소와 호흡기로 유입되는 부유 미립자(직경 10㎛ 이하의 입자)가 심혈관계 질환에 영향을 미친다는 것을 확인할 수 있었다.

김재경 CI는 “수학과 통계를 결합하여 정확하면서도 다양한 시스템에 유연하게 적용할 수 있는 새로운 인과관계 추정 방법론을 개발했다”며 “사회 및 자연과학 분야에 걸쳐 두루 사용되는 인과관계 추정 연구에 새로운 패러다임을 제시할 것으로 예상된다”고 말했다.

연구결과는 7월 24일(한국시간) 국제학술지 ‘네이처 커뮤니케이션즈(Nature Communications, IF 17.694)’ 온라인판에 실렸으며, KAIST 학부생 박세호 학생(제1저자)과 하석민 학생(제2저자)이 참여했다.


[그림 1] 시계열 데이터의 인과관계 추론
            서로 다른 대상의 시계열 데이터가 주어졌을 때, 이들 사이에 인과관계가 있는지 추정하는 것은 사회/자연과학 전 분야에 걸쳐 오랫동안 연구가 진행된 중요한 문제이다.
[그림 1] 시계열 데이터의 인과관계 추론
서로 다른 대상의 시계열 데이터가 주어졌을 때, 이들 사이에 인과관계가 있는지 추정하는 것은 사회/자연과학 전 분야에 걸쳐 오랫동안 연구가 진행된 중요한 문제이다.

[그림 2] 기존 개발된 방법론과 새로 제시된 방법론의 인과관계 추정 결과 비교
            (a) 서로 무관한 먹이 포식자 시스템(P와 D)과 세포 내 단백질 상호작용 시스템(과 TetR)을 합친 시스템의 시계열 데이터이다. GC, CCM 등 같은 기존 방법론들은 시계열 데이터에 동시성이 있으면 거의 모든 대상 사이에 인과관계가 있다고 잘못 추정한다. 그러나 GOBI는 실제로 있는 인과관계만 정확히 추정한다.
            (b) 홍콩에서의 심혈관질환 환자수와 대기 중 오염물질의 농도를 나타낸 시계열 데이터이다. 다른 방법론들과는 다르게, GOBI는 사용하는 시계열 데이터의 길이(2년 또는 3년)와 무관하게 오직 이산화질소(NO2)와 호흡 가능한 부유 미립자(Rspar)만이 심혈관질환에 영향을 준다고 바르게 추정한다.
[그림 2] 기존 개발된 방법론과 새로 제시된 방법론의 인과관계 추정 결과 비교
(a) 서로 무관한 먹이 포식자 시스템(P와 D)과 세포 내 단백질 상호작용 시스템(과 TetR)을 합친 시스템의 시계열 데이터이다. GC, CCM 등 같은 기존 방법론들은 시계열 데이터에 동시성이 있으면 거의 모든 대상 사이에 인과관계가 있다고 잘못 추정한다. 그러나 GOBI는 실제로 있는 인과관계만 정확히 추정한다. (b) 홍콩에서의 심혈관질환 환자수와 대기 중 오염물질의 농도를 나타낸 시계열 데이터이다. 다른 방법론들과는 다르게, GOBI는 사용하는 시계열 데이터의 길이(2년 또는 3년)와 무관하게 오직 이산화질소(NO2)와 호흡 가능한 부유 미립자(Rspar)만이 심혈관질환에 영향을 준다고 바르게 추정한다.


[그림 3] 이번 연구에 참여한 연구진의 모습
            (왼쪽부터) 김재경 IBS 의생명 수학 그룹 CI(교신저자), 박세호 KAIST 학생(제1저자), 하석민 KAIST 학생(제2저자).
[그림 3] 이번 연구에 참여한 연구진의 모습
(왼쪽부터) 김재경 IBS 의생명 수학 그룹 CI(교신저자), 박세호 KAIST 학생(제1저자), 하석민 KAIST 학생(제2저자).




IBS 홍보팀
권예슬


1) 기온 변화와 바다 조수는 모두 하루의 주기를 가지고 진동하지만 서로 연관이 없다. 그러나 그레인저 인과관계 검정은 기온과 바다 조수 사이에 인과관계가 있다고 잘못 예측한다.

2) 풀은 사슴의 먹이고, 사슴은 호랑이의 먹이다. 고로 풀이 많아지면 사슴 개체 수가 늘고, 사슴을 먹이로 하는 호랑이의 수도 늘어난다. 풀의 양은 간접적으로 호랑이의 개체 수에 영향을 주지만, 직접적인 연관은 없다. 하지만 그레인저 인과관계 검정은 풀의 양이 호랑이 개체 수에 직접적인 영향을 준다고 잘못 추정한다.

3) 수리 모델 기반 방법론으로 이산화탄소 배출량이 지구 평균기온에 영향을 주는지 알기 위해서는 여러 변수(이산화탄소 배출량, 태양열 세기 등)가 어떻게 지구 평균기온에 영향을 줄 수 있는지를 수학적으로 표현한 상미분방정식을 만든다. 실제 관측 데이터와 상미분방정식의 해가 일치하기 위해 이산화탄소 배출량의 영향이 중요하다고 풀이된다면, 이산화탄소 배출량이 지구 평균기온에 영향을 준다고 추정하는 식이다.