Abstract

  • 수화 인식의 주요 문제를 해결하는 CSLR을 위한 자급자족 프레임워크를 개발하는것이 목표
  • 손,얼굴 및 입과 같은 복잡한 다중 스케일 기능의 필요성과 프레임 수준 주석의 부재가 포함된다.
    • 추가 네트워크나 annotation없이 manual or non-manual feature를 모두 추출하는 분할 및 초점 convolution 제안
    • 실제 gloss 시퀀스 레이블을 예측 시퀀스와 결합하여 non-spiky한 프레임 수준의 유사 레이블을 전파하는 DPLR 제안

Introduction

  • CSLR작업은 수화 비디오에서 gloss1 시퀀스를 인식하는 것을 목표로 한다.
  • 표현의 의미를 포착하기 위해, RGB depth, 적외선 지도 및 optical flow와 같은 다른 양식과 융합하거나 기성 검출기를 사용하여 다중 큐 feature 또는 human keypoint를 명시적으로 추출하여 manual or non-manual feature를 얻는다.
  • 이러한 추가 구성 요소를 사용하면 training 과 추론 프로세스에서 병목현상 발생
  • 대부분의 CSLR 데이터 세트에는 프레임 또는 gloss레이블이 없는 문장 수준의 gloss 레이블만 있다.
  • 프레임 수준의 감독 없이 CTC 손실을 사용하면 모델이 중요한 시간 세그먼트를 현지화 하지 못할 수 있는 시간적으로 급증하는 주의를 생성할 수 있음
  • 이에 따라 프레임워크를 개발하여 추가 양식이나 주석 없이 유용한 다중 큐 정보를 캠처하는 동시에 의미이는 광택 감독을 제공한다.
    • 분할 및 초점 컨볼루션
    • DPLR
  • DFConv
    • 공간 영역을 분할하여 시각적 멀티큐 feature를 추출하는 작업 인식 컨벌루션 레이어
    • 추가 네트워크나 양식 없이 인체 구조에 대한 사전 지식을 활용하도록 설계
  • DPLR
    • 지상 실측 gloss를 참조하여 초기에 예측된 gloss 시퀀스를 모델에서 정교하게 다듬고 추가 네트워크 없이 프레임 수준 gloss 감독을 전파

Method

  • CSLR task : 주어진 입력 비디오를 n개의 gloss를 해당 gloss 시퀀스에 매핑하는것을 목표로 한다.
  • 비디오는 feature를 추출하기 위해 여러 DFConv 계층과 다중 큐 임베딩 계층으로 구성된 공간 모델링 모듈에 공급된다.
  • 모든 프레임의 멀티큐 기능은 인접한 프레임 간에 더 중요한 정보를 캡처하는 병목 기반 시간 주의와 TMC블록으로 구성된 시간 모델링 모듈을 통해 전달된다.
  • 그 다음 마지막 TMC블록의 출력은 최종 모델 출력에서 gloss 시퀀스를 예측하기 위해 Bi-LSTM 계층과 FC 게층으로 구성된 시퀀스 학습 단계를 통과.
  • 마지막으로 고밀도의 프레임 수준 유사 레이블을 생성하여 잠재 표현을 효과적으로 훈련하기 위해 DPLR 모듈이 도입되었다.
  • Divide and Focus Convolution
    • non-manual 표현이 CSLR 데이터 세트의 상위 영역에서 자주 발생하는 것을 관찰
    • 표현식은 주로 하위 영역에서 발생
    • 2d 컨볼루션 레이어는 전체 이미지에 대해 가장 지배적인 하나의 정보만을 캠처하는 경향이 있다.
    • 이를 해결하기 위해 RGB 모달리티에서만 non-manual feature와 manual feature를 독립적으로 캡처하도록 설계된 새로운 분할 및 초점 컨벌루션 계층 제안(DFConv)
  • Dense Pseudo-Label Refinement
    • 대부분의 기존 수화 데이터 세트에는 시간적으로 지역화된 gloss 레이블이 없다.
    • CSLR 모델은 각 gloss token에 대해 직접적이고 정확한 정렬 감독을 받기 어렵다.
    • 이는 전체 시퀀스에 의존하기 때문에 모델의 견고성을 심각하게 제한. -> 유사한 시퀀스와 약간 다른 단어를 쉽게 혼동할 수 있다.
    • 이러한 단점을 보완하기 위해 모델에서 예측한 정렬 정보를 사용하여 DPL을 생성하는 DPLR 이라는 추가 교육 목표 도입
    • 먼저 모델의 비공백 예측의 시퀀스 길이를 해당 실측값 광택 시퀀스와 비교합니다. 시퀀스 길이가 일치하면 사례 1로 이동하여 예측된 광택 시퀀스와 실제 결과 시퀀스를 비교합니다. 예측된 광택이 잘못된 경우, 우리는 의사 레이블의 신뢰성을 높이기 위해 실제의 정확한 광택을 교환합니다. 앞에서 언급했듯이, 예측은 CTC 손실의 특성으로 인해 희박하며, 시간 축을 따르는 대부분의 예측은 공백입니다. 여기서는 각 빈칸을 가장 가까운 예측 광택으로 채워 DPL을 만듭니다. 예측된 시퀀스 길이가 실측값과 하나의 글로스 길이 차이가 나는 경우 사례 2로 이동합니다. 그런 다음, 우리는 광택의 정확성에 관계없이 어떠한 광택도 교환하지 않고 가장 가까운 광택을 사용하여 유사 레이블을 밀도화합니다. 시퀀스 길이가 두 개 이상의 광택으로 다를 경우 모델의 예측이 저하될 수 있으므로 시퀀스를 무시하므로 정제 손실 Lrefine을 전파하지 않습니다.

사례 1과 사례 2의 유사 레이블만 사용하여 [2]와 유사한 잠재 기능에서 교차 엔트로피(CE) 손실을 가진 모델을 다음과 같이 세분화합니다:
또한 모델에서 생성된 유사 레이블의 품질은 모델의 성능에 크게 좌우됩니다. CSLR 작업은 인접한 여러 프레임을 하나의 글로스로 매핑하여 수화 비디오를 글로스 시퀀스로 변환하는 것을 목표로 하기 때문에 비디오에서 주요 프레임을 추출하는 것이 중요합니다. 따라서, 우리는 인접한 프레임 중에서 시간적으로 돌출된 프레임에 대응하도록 병목 기반 시간적 주의(BTA) 모듈을 설계합니다. BTA는 1D 컨볼루션 레이어를 사용하는 시간적 측면 주의 맵과 시간적으로 돌출된 프레임을 캡처하는 최대 풀링 레이어로 구성됩니다. 그런 다음 CTC 손실은 다음에 병목 현상으로 전파됩니다
풀링된 최대 피쳐이므로 이름은 병목입니다.
추가 모듈의 경우 최종 손실 함수는 다음과 같습니다:

태그:

카테고리:

업데이트: