基于强化学习的值迭代算法