Pergunta de entrevista da empresa TikTok

Describe GRPO loss and other RL algorithm