应用介绍
第二幕则是后训练优化的探索,包括推理增强、知识具象化等方向,这一阶段的核心目标是通过引入类人的问题求解过程继续提升大模型解决复杂问题的决策能力(Decision)。强化学习、工具调用、思维链、多模态成为关键词,代表性成果包括 GPT o1/o3、DeepSeek-R1、AnyGPT 等。
第二幕则是后训练优化的探索,包括推理增强、知识具象化等方向,这一阶段的核心目标是通过引入类人的问题求解过程继续提升大模型解决复杂问题的决策能力(Decision)。强化学习、工具调用、思维链、多模态成为关键词,代表性成果包括 GPT o1/o3、DeepSeek-R1、AnyGPT 等。