Multi-source Selective Graph Domain Adaptation Network for cross-subject EEG emotion recognition

Journal/Conference : Neural Networks, 180, 106742.
Year(published year): 2024
Author: Jing Wang, Xiaojun Ning, Wei Xu, Yunze Li, Ziyu Jia, Youfang Lin
Subject: EEG Emotion Recognition

Summary

  • 문제점: 기존 방법들은 피험자 간에 변하지 않는 ‘공통 표현’을 추출하는 능력이 부족하고, 여러 피험자의 유용한 정보를 효율적으로 융합하지 못합니다.
  • 제안 모델 (MSGDAN): 다중 소스 선택적 그래프 도메인 적응 네트워크를 제안합니다.
    • 각 피험자만의 개별 정보(Individual information)와 피험자 간 공통적인 공공 정보(Public information)를 분리하여 추출합니다.
    • 동적 그래프 네트워크를 통해 뇌의 기능적 연결성(Functional connectivity)과 지역적 상태(Regional states)를 모두 캡처합니다.
  • 결과: SEED, SEED-IV, DEAP 데이터셋에서 기존 모델보다 우수한 분류 성능과 안정성을 입증했습니다.

Introduction

  • DL 에서는 도메인 일반화가 제대로 되지 않는다.
  • 의료 데이터에서는 실수가 용납될수 없기 때문에 이러한 Domain Adaptation과 Domain Generalisation을 할수 있는 모델이 필수적이다.
  • 현재 domain adaptation approach에는 아직도 완전히 해결되지 않은 두가지 한계가 존재 한다
    1. 많은 모델들이 개별적으로 고유한 정보와 공개적으로 정보를 충분히 활용하지 못하고 있으며, 새로운 주제를 모델링 하기 위해 가장 효과적인 개별 고유 정보를 선택하는 방법은 충분히 다뤄지지 않았다.
      1. 공개 정보를 기반으로 감정을 인식하면 대상간의 차이를 좁힐수 있지만, 인식에 유익한 일부 개인 정보는 무시될수 있다. 예를 들어 연령은 감정을 직접 구분하는데 사용되지 않지만 연령은 뇌파의 강도에 영향을 미치며 이는 모델의 분류에 영향을 준다.
      2. 여러 subject들에서 효과적으로 individual and public 정보를 추출해서 활용하는 방법이 가장 vital 이슈이다.
    2. 서로 다른 피험자의 뇌파에는 기능적 차이(뇌파 특징 분포의 차이) 뿐만 아니라 구조적 차이(뇌 기능적 연결성의 차이)도 존재한다.
      1. 도메인적응을 이용한 기존의 감정인식 접근 방식들은 대개 EEG의 도메인 불변적 뇌 상태표현을 추출하는데 집중하여 좋은 성능을 얻었다.
      2. 그러나 이는 뇌의 기능적 연결성을 간과하고 있는 것이다 → 뇌 뿐만 아니라 기능적 연결성 측면에서피험자들마다 다 다른 구조를 갖고 있다. 뇌의 기능적 연결성(구조)과 뇌 상태(기능)에 대한 도메인 불변 정보를 동시에 추출하는 것은 여전히 과제로 남아있다.
  • 위 한계들을 해결하기 위해 본 논문에서는 Multi-source Selective Graph Domain Adaptation Network(MSGDAN)을 제안한다. 이 네트워크는 brain state와 EEG의 functional connectivity에 집중하여 피험자들의 개인 & 공통 정보를 추출한다.
    1. 첫째, 교차 피험자 감정 인식을 위한 새로운 프레임워크인 MSGDAN을 제안했습니다.
      구조적 차이와 기능적 차이를 모두 고려하여 개별 정보와 공공 정보를 각각 모델링했습니다.
      1. 다중 소스 피험자로부터 정보를 선택하여 새로운 피험자에 대한 모델의 일반화 능력(Generalization ability)을 더욱 향상시켰습니다. 구체적으로, 기능적 연결성과 지역적 뇌 상태에 각각 대응하는 위상적 구조(Topological structure)와 노드 특징(Node features)을 기반으로 EEG를 모델링했습니다.
    2. 둘째, 그래프 도메인 적응 네트워크(GDAN) 모듈을 설계했습니다.
      1. 이 모듈은 동적 그래프 네트워크를 통해 EEG의 동적 기능적 연결성과 지역적 상태를 동시에 추출합니다. 동시에, 도메인 불변의 위상(기능적 연결성)과 특징(뇌 상태)을 모두 추출하기 위한 도메인 적응 모듈을 설계했습니다.

EEG-based Emotion Recognition

  • 많은 신경과학 연구는 서로 다른 감정이 서로 다른 활성화된 뇌 영역에 대응한다는 것을 보여주었습니다. Dalgleish(2004)는 편도체, 시상하부, 전전두엽 피질(PFC), 그리고 전대상 피질(ACC)이 서로 다른 감정에 의해 활성화된다고 서술합니다.Pessoa(2008)는 편도체와 감정 사이의 강한 상관관계를 더욱 강조하며 전전두엽 피질, 두정엽 피질, 그리고 외측 전전두엽 피질이 모두 인지와 감정에서 중요한 역할을 한다고 언급했습니다.
  • 전통적인 감정 인식 시스템은 수동적 특징 추출과 분류라는 두 단계로 나뉠 수 있습니다.
    • 수동으로 추출된 특징에는 전력 스펙트럼 밀도(PSD), 미분 엔트로피(DE), 단시간 푸리에 변환(STFT) 등이 포함됩니다.
    • 분류 모델에는 지원 벡터 머신(SVM), 베이지안 네트워크 등이 포함됩니다.
  • 딥러닝이 많은 분야에서 뛰어난 성능을 보여주었기에, 연구자들은 감정 인식에 적합한 딥러닝 방법들을 모색하고 있습니다.
    • Zhong 등은 미분 엔트로피 에너지 특징을 신경망의 입력으로 활용합니다.
    • Zhang 등은 공간적 및 시간적 특징을 통합하기 위해 순환 신경망(RNN)을 채택합니다.
    • Xing 등은 EEG 신호의 시공간적 표현을 구축하기 위해 LSTM이 결합된 스택 오토인코더(Stack AutoEncoder)를 제안합니다.
    • Zhang 등은 가공되지 않은(raw) EEG 신호의 시공간적 표현을 학습하기 위해 순환 신경망과 합성곱 신경망(CNN) 모델을 모두 활용합니다.
  • EEG 기반 감정 인식 과제를 해결하기 위해 많은 CNN이나 RNN 기반의 접근 방식들이 도입되었음에도 불구하고, 서로 다른 전극들 사이의 복잡한 연결 관계를 표현하는 데에는 한계가 있습니다.
    • 신경과학적 증거들은 서로 다른 감정 상태가 서로 다른 뇌의 기능적 연결성을 가진다는 점을 입증해 왔습니다.
    • Dalgleish(2004)는 전대상 피질과 전전두엽 피질, 그리고 편도체와 다른 뇌 영역들 간의 연결성을 지적했습니다. Pessoa(2008)는 편도체와 전전두엽 피질 사이에서 정보의 통합과 분배가 이루어지며, 외측 전전두엽 피질(LPFC), 전전두엽 피질(PFC), 전대상 피질(ACC)이 하나의 인지-정서 조절 회로로 간주될 수 있다고 언급했습니다.
  • 본 논문에서는 이러한 문제를 해결하기 위해 동적 그래프 네트워크를 활용하여 EEG의 동적 기능적 연결성과 지역적 상태를 동시에 추출하는 그래프 도메인 적응 네트워크(GDAN) 모듈을 설계했습니다.
  • 반면, 피험자 간의 차이로 인해 감정 인식 모델의 성능은 교차 피험자 시나리오에서 큰 도전에 직면해 있습니다. 이러한 장애물은 연구자들이 더 강력한 표현력과 더 나은 일반화 능력을 갖춘 교차 피험자 모델을 개발하도록 동기를 부여했습니다.
    • Chai 등(2016)은 적층 오토인코더(stacked autoencoders)를 사용하여 특징을 도메인 불변 서브스페이스(domain invariant subspaces)로 매핑하는 서브스페이스 정렬 오토인코더(SAAE)를 제시했습니다.
    • 특징 분포의 차이를 줄이기 위해 그래프 정규화(Graph regularization), 커널 PCA, 그리고 최대 평균 편차(MMD) 또한 채택되었습니다.
    • Li, Zheng 등(2019)은 교차 피험자 과제를 위해 양쪽 뇌 반구 도메인 적대적 신경망(bi-hemisphere domain adversarial neural network)을 제안했습니다. 이 모델은 두 개의 국소 도메인 판별기(local domain discriminators)를 사용하여 양쪽 반구의 특징을 적대적으로 추출하고, 피험자 간의 차이를 줄이기 위해 경사 하강 역전층(Gradient Reversal Layer, GRL)이 포함된 전역 판별기를 사용합니다.
    • Zhao 등(2021)은 교차 피험자 감정 인식을 위해 플러그 앤 플레이(plug-and-play) 도메인 적응 방법을 수행합니다. 이는 모델을 조정하기 위해 알려지지 않은 피험자로부터 얻은 소량의 라벨 없는 EEG 신호를 사용합니다.
  • 기존의 교차 피험자 EEG 감정 인식 모델들이 여러 장점을 보여주었음에도 불구하고, 개별 고유 정보(Individual specific information)와 공용 공유 정보(Public shared information)를 완벽하게 함께 고려하거나, 데이터 전이 시 타겟 피험자와 가장 잘 맞는 가장 유사한 소스 도메인을 선택하는 모델은 아직 존재하지 않습니다. 신경과학 연구에서 수행되는 개인차와 집단 공통성의 결합 분석(Apicella et al., 2021; Gao et al., 2020; Nastase et al., 2019)에 영감을 받아, 본 연구에서는 개별 정보와 공용 정보를 분리하여 모델링함으로써 더욱 포괄적이고 강력한 특징을 구현하였으며, 도메인 선택을 통해 타겟 피험자에 대한 최적의 적응을 달성했습니다.

Graph Neural Network

  • 그래프 도메인의 데이터를 처리하기 위해 그래프 신경망(GNN)(Scarselli, Gori, Tsoi, Hagenbuchner, & Monfardini, 2008)이 제안되었으며 놀라운 성과를 거두었습니다.
    • 다른 그래프 기반 방법들로는 그래프 합성곱 네트워크(GCN)(Kipf & Welling, 2016), 그래프 어텐션 네트워크(GAT)(Veličković et al., 2017) 등이 있습니다.
    • 서로 다른 노드 간의 동적인 관계를 모델링하기 위해, Wang 등은 그래프 구조를 자동으로 생성하는 동적 그래프 신경망을 제안했습니다(Wang et al., 2019).
    • 또한 복잡한 시공간적 데이터를 처리하기 위해, Yu 등은 교통 흐름 데이터를 모델링하는 시공간 그래프 신경망(STGCN)을 제안했습니다(Yu, Yin, & Zhu, 2017).
  • EEG 데이터는 뇌의 서로 다른 위치에서 수집된 신호이며, 비유클리드 데이터로 구성하기에 매우 적합합니다. 따라서 이 문제를 해결하기 위해 그래프 합성곱 네트워크가 도입되었습니다 (Jia, Lin, Wang, Ning et al., 2021; Kipf & Welling, 2016).
    • 예를 들어, Song 등은 다채널 EEG 특징을 모델링하기 위해 동적 그래프 합성곱 신경망(DGCNN)을 사용했습니다 (Song, Zheng, Song, & Cui, 2018).
    • Song 등은 EEG를 위한 동적 그래프 구조를 모델링할 수 있는 인스턴스 적응형 그래프 신경망을 제안했습니다 (Song et al., 2020).
  • 고전적인 딥러닝 모델과 비교했을 때, GCN은 EEG 채널 간의 고유한 관계를 포착할 수 있으며 감정 인식에서 뛰어난 잠재력을 보여줍니다. 본 논문에서 우리는 EEG의 공간-주파수 통합 특징을 규명하기 위해 동적 그래프 네트워크를 활용하며, 나아가 이에 적합한 도메인 적응 방법을 제안합니다.

Domain Adaptation

  • 최근 몇 년 동안 피험자 간 가변성(inter-subject variability) 문제를 해결하기 위해 감정 인식 과제에 많은 domain adaptation 접근 방식들이 도입되었습니다.
    • kernel principal component analysis (KPCA), transfer component analysis (TCA), 그리고 transductive parameter transfer (TPT)와 같은 몇몇 전형적인 방법들 외에도, 피험자 불변 특징(subject-invariant features)을 추출하기 위해 domain adaptation 방법들을 결합한 딥러닝 모델들이 개발되어 왔습니다.
    • Li et al.은 bi-hemisphere domain adversarial neural network (BiDANN)을 훈련시켰으며, 교차 피험자 EEG 감정 인식 문제를 해결하기 위해 BiDANN-S 방법을 추가로 제안했습니다.
    • Luo et al.은 교차 피험자 EEG 기반 감정 인식 모델 구축을 위한 새로운 Wasserstein generative adversarial network domain adaptation (WGANDA) 프레임워크를 제안했습니다.
    • Chen et al.은 교차 피험자 EEG 감정 인식을 위한 multi-source marginal distribution adaptation 방법을 제안했습니다.
  • 기존의 도메인 적응 방법들은 EEG ER의 domain shift 문제를 해결하는데 진전을 이루었으나, GAN은 불안정한 기울기 때문에 학습시키기가 어렵습니다. 게다가, 기존 방법들은 전극 간의 위상적 관계를 제대로 모델링하지 못하며 이로 인해 추출된 특징들이 대표성을 충분히 갖지 못합니다.

Preliminaries

EEG feature

  • Differential Entropy를 input으로 사용

  • Entropy란?

    • 어떤 시스템이 가질수 있는 상태의 무작위성을 측정하는 것
    • 엔트로피가 낮다: 다음에 어떤 신호가 올지 뻔히 보인다는 뜻 (예: 일정한 간격으로 소리가 나는 신호) 정보로서의 가치가 낮습니다.
    • 엔트로피가 높다: 다음에 어떤 신호가 올지 전혀 예측할수 없다는 뜻(예: 화이트 노이즈, 아주 복잡한 대화 내용) 한번 신호가 발생했을 때 우리가 얻게되는 정보량이 매우 큼
    • 정보량의 수식화: 놀라움의 측정, 정보의 불확실성을 측정
      • 어떤 사건 $x$가 일어날 확률을 $P(x)$라고 할떄, 그 사건의 정보량 $I(x)$는 다음과 같이 정의: $I(x) = -logP(x)$
        • 위처럼 정의하는 이유 1: 희귀할수록 정보량이 많아야 한다
          • 우리가 이미 알고 있는 사실들보다 전혀 예상하지 못한일이 일어났을때 정보를 얻었다라고 느낌. 따라서 정보량과 확률은 반비례 관계여야 함
        • 이유 2: 정보는 합칠수 있어야 한다(가법성)
          • 로그를 사용하는 또다른 이유
          • 두개의 독립적인 사건 $x$와 $y$가 동시에 일어날 확률은 각 확률의 곱임: $P(x and y) = P(x) * P(y)$
          • 하지만 우리가 느끼는 총 정보량은 각 정보량의 합이어야 직관적임: $I(x and y) = I(x) + I(y)$
          • 곱셈을 덧셈으로 바꿔주는 함수가 로그이기 떄문에 정보량을 정의할때 독립적인 정보들을 단순히 더할수 있게 됨
        • 이유 3: 정보량은 0보다 커야 한다 (비음수성)
          • 확률 $P(x)$는 항상 0과 1사이의 값 $(0 ≤ P(x) ≤ 1)$ 입니다.
          • 로그함수에서 1보다 작은 값의 로그를 취하면 결과는 항상 음수가 나옴 $(log 0.5 = -0.3)$
          • 정보를 얻었는데 정보량이 마이너스 일수는 없으니 -를 붙여서 양수로 만들어줌
  • Differential: 여기서의 미분은 “함수를 미분하여 기울기를 구한다”는 행위가 아니라 연속적인 상태를 다룬다는 수학적인 명칭임

    • 위에 정리한 엔트로피는 동전던지기처럼 결과가 딱딱 끊어지는 이산(Discrete) 확률 변수에 사용됨. 이떄는 시그마를 써서 모든 확률을 더함
    • 그러나 뇌파는 끊기지 않고 흐르는 연속(Continuous) 신호임
      • 이산형(Discrete): 값이 1, 2, 3처럼 딱 떨어짐 → 합계($\sum$) 사용.
      • 연속형(Continuous): 값이 1.001, 1.0012… 처럼 무한히 이어짐 → 적분($\int$) 사용.
    • 수학에서는 이렇게 미세하게 연속된 구간(infinitesimal)을 다룰때 미분이라는 표현을 사용함. 즉, 연속적인 확률 분호에서 구한 엔트로피라는 뜻으로 Differential Entropy라고 부르는 것이지 수식 자체를 미분해서 푸는 것이 아님. 오히려 수식은 적분( $\int$ )을 기반으로 함.
  • 본 논문에서 사용한 DE의 정의:

    $h(X_s) = -\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \right) dx$

    • $\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ : 확률 밀도 함수(Probability Density Function)
      • 연속적인 값을 가지는 데이터(뇌파 신호)가 특정 구간에서 나타날 밀도 혹은 상대적인 가능성을 수식으로 표현한 것
      • 이산형 데이터에서는(동전던지기 등) 앞면이 나올 확률은 0.5라고 딱 잘라 말할수 있지만, 뇌파처럼 소수점이 무한히 이어지는 데이터에서는 값이 정확히 1.23455..일 확률을 구하는 것이 불가능(0에 수렴)하기 때문에 이 밀도 개념을 사용함
      • 가우스 확률 밀도 함수( $f(x)$ )의 구성 요소
        • 논문에 나온 수식 $\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 을 뜯어보면, PDF가 데이터를 어떻게 설명하는지 보입니다.
        • $\mu$ (평균, Mean): 그래프의 중심점입니다. 뇌파 신호가 가장 빈번하게 관측되는 기준값입니다.
        • $\sigma^2$ (분산, Variance): 그래프의 퍼짐 정도입니다. 이 값이 클수록 뇌파 신호가 평균에서 멀리까지 넓게 분포한다는 뜻입니다.
        • $e^{-\dots}$ (지수 함수 부분): 이 부분이 가우스 분포 특유의종 모양(Bell-curve)을 만듭니다. 중심($\mu$) 에서 멀어질수록 확률 밀도($f(x)$ )가 급격히 낮아지게 설계되어 있습니다.
    • 연속형 변수에서 특정점의 함수값 $f(x)$ 자체가 곧 확률은 아님
      • 면적이 곧 확률: PDF 그래프 아래의 면적이 해당 구간의 확률이 됨. 예를 들어 뇌파 값이 1.0에서 1.2사이일 확률은 그 구간의 PDF를 적분한 값임.
      • 전체 면적은 1: 뇌파가 어떤 값이든 가질 확률의 총합은 당연히 1(100%)이어야 하므로 적분하면 항상 1이 나옴
    • PDF 함수를 $f(x)$ 로 두고 보면 의미가 명확해짐
      • $\log f(x)$ : 각 지점에서의 ‘놀라움(정보량)’을 계산합니다. 확률 밀도가 낮은(희귀한) 곳일수록 이 값은 커집니다.
      • $f(x)$ (가중치 역할): 그 ‘놀라움’이 실제로 얼마나 자주 발생하는지 곱해줍니다.
      • $\int \dots dx$ : 모든 가능한 뇌파 값에 대해 이 ‘기대 정보량’을 싹 다 더합니다.
      • 결과적으로 “이 뇌파 신호의 분포가 평균 근처에 옹기종기 모여 있는가(예측 쉬움), 아니면 넓게 퍼져 있는가(예측 어려움)”를 PDF라는 자를 이용해 측정하는 것입니다.

Multi-source selective domain adaptation

  • 다중 소스 선택적 도메인 적응의 과제 설정에서 우리는 라벨이 있는 K개의 소스 도메인과 라벨이 없는 하나의 타겟 도메인이 있다고 가정
  • $i$ 번째 소스 도메인의 라벨링된 데이터는 $\mathcal{X}{si} = {X{si}^j}_{j=1}^m$ 로 표현되며, 타겟 도메인의 라벨링되지 않은 데이터는 $\mathcal{X}t = {X_t^j}{j=1}^n$ 로 표현됩니다. 여기서 $m$ 과 $n$ 은 각각 소스 도메인과 타겟 도메인의 데이터 샘플 수를 나타냅니다.
Share