大模型后训练学习DPO与GRPO,哪种方法更有效?🤔