Vet IT

TOP 統計学 獣医学 IT 生命工学 バイオインフォマティクス ケモインフォマティクス 機械学習 数学(統計以外) 趣味 ブログについて

作成日:2024年4月9日

元論文

ニューラル信号からの音声復号フレームワーク

目的:神経障害による言語障害をdeep learningベースの神経言語デーコードフレームワークで解決する。

背景:
神経信号から人間の音声を解読することはBCI(ブレイン・コンピューター・インターフェイス)技術に不可欠である。しかし現状では音声に対応する神経信号が乏しいこと、データが複雑で高次元であることなどが、この難易度の高い課題に拍車をかけている。この論文では、ECoGデコーダーを含む、ディープラーニングベースのneural speech decodingのフレームワークを開発した。
研究内容:
データの収集と前処理:48人の被験者が5つのスピーチタスクを行っている間の、perisylvian cortexからのECoGシグナルを記録した。
ディープラーニングフレームワークを作るうえでの課題は主に2つ存在する。
1つ目は個人のデータは限らていてさらなるデータが必要なこと。もう一つは同じ単語を話す一人の話者であっても、発話速度、イントネーション、ピッチなどが異なるため、基礎となるモデル表現が複雑になってしまうという点である。
これまで、線形モデル(大きなデータセットを必要とせず、解釈しやすい)やCNNやRNNを用いた研究がされてきたが精度は限定的で、HuBERTも個々人のデータに適応させる必要があった。この研究でのECoGデコーダーは音声エンコーダーによって生成された潜在表現に関するガイダンスとともにデータ不足を解消する。

新規性・進歩性:
音声信号のみを用いた被験者固有の事前学習によって導かれる低次元の中間表現を用いている点が新しい。ECoGデコーダーがECoG信号を解釈可能な音声パラメータ(ピッチ、ボイシング、フォルマント周波数)などにマップする。

気になったこと:動物のECoG信号の場合に同様のデータの扱い方をする研究があるのだろうか

Code Availability:https://github.com/flinkerlab/neural_speech_decoding

用語:
ECoG:高密度皮質脳波のこと。
perisylvian cortex: 側頭裂を取り囲む脳の領域、左半球では言語に関連する。