作成日:2024年5月18日
背景:配列長をスケーリングすることはLLMにおいて重要な要求となっているが、既存の方法では計算の複雑さやモデルの表現力のどちらかに苦戦していて最大配列長が制限されている。
LONGNETは短いシーケンスに対する性能を犠牲にすること無く、シーケンス長を10億トークン以上に拡張することができる。具体的には注意領域を拡張する dilated attentionを提案する。
研究内容:
dilated attention
新規性・進歩性:
気になったこと:
参考:
用語:
・Many shot learning