EasyContext是一个旨在通过结合多种技术手段来实现语言模型训练的开源项目,旨在将语言模型的上下文长度达到100万词元。主要采用的技术包括序列并行、Deepspeed zero3离载、Flash注意力以及激活checkpoint等。
EasyContext的主要特色包括序列并行、Deepspeed zero3离载、Flash注意力和融合交叉熵核心激活checkpoint。
EasyContext通过组合现有技术手段成功提升了语言模型的上下文长度,为视频生成等应用奠定了基础。
EasyContext主要用于训练具有超长上下文的语言模型,例如使用EasyContext在8块A100上训练Llama-2-7B模型,实现了700K词元的上下文长度,以及使用EasyContext在16块A100上训练Llama-2-13B模型,实现了1M词元的上下文长度。
EasyContext的使用可以大幅提升语言模型的上下文长度,为视频生成等应用提供更多可能性。