AI 大模型
语言大模型 / LLM
大语言模型、预训练、指令微调、后训练和语言模型应用。
Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
Connect the Dots:通过强化学习训练具备跨域泛化能力的长期生命周期智能体
专题命中 后训练 :通过强化学习训练LLM的元能力。
AI总结 提出Connect the Dots框架,通过端到端强化学习训练LLM在长期任务中自我更新上下文并泛化到新领域,实验验证了跨域泛化能力。
Comments Work in progress; we will continuously update the codebase and arXiv version
GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs
GEMS: 几何约束使LLM中多语义叠加成为可能
专题命中 后训练 :提出无训练多语义方向激活干预方法GEMS
AI总结 提出GEMS方法,通过范数保持加权叠加、目标注意力路径注入和实时正交化两个几何约束,解决无训练多方向激活干预中的分布偏差和方向干扰问题,在GSM8K上保持98%准确率。
Comments 30 pages, 5 figures, 20 tables. Code and logs are available at: https://github.com/LuLu663939/gems-multi-semantic-steering