来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Exploring the Benefit of Activation Sparsity in Pre-training论文地址:[链接]论文代码:[链接]创新点研究了激活属性在预训练过程中的变化,发现Transformer在大多数预训练过程中表现出稀疏激活,同时激活相关性随着训练的进行而不断演变。提出了可切换的稀疏-...
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Target-Aware Language Modeling via Granular Data Sampling论文地址:[链接]创新点提出了一种将预先训练好的标记符与多粒度标记符合并的算法,生成高效的n-gram特征,而且与下游任务的性能有很高的相关性。利用上述研究成果,改进了基于重要性的数据采样技术,...
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Anytime Continual Learning for Open Vocabulary Classification论文地址:[链接]论文代码:[链接]创新点在线训练时,每个批次由新训练样本和类别平衡的存储样本组成。在线学习每个标签的准确性,以有效对原始模型和调整后模型的预测进行加权。损失修改以支持“以...
来源:晓飞的算法工程笔记 公众号,转载请注明出处论文: Training-Free Model Merging for Multi-target Domain Adaptation论文地址:[链接]论文代码:[链接]创新点对域适应的场景解析模型中的模式连通性进行了系统的探索,揭示了模型合并有效的潜在条件。引入了一种模型合并技术,包括参数合并和缓冲区合并,适用于多目...