Math Problem Statement

请你根据这个公式LDPO(θ) = −E(x,yw,yl)∼D h log ρ  β log πθ(yw|x) πref (yw|x) − β log πθ(yl|x) πref (yl|x) i告诉我为什么可以这么表示πθ(σ) = QT t=k πθ(st, at),为什么每个阶段的条件概率累积可以等于最终的函数,怎么从最终的函数反推回每个条件概率,请给我详细的数学解释和推导

Solution