RL에서 multi agent는 일종의 학습 알고리즘으로 접근해서 여러 개체를 동시에 학습시켜 협력을 하는 방식을 뜻하지만 알파스타에서 멀티에이전트는 learning framework에 가깝고 경쟁을 통해 자동화된 커리큘럼 러닝을 위한 환경(Automated curriculum learning) 이라고 생각 할 수 있다. AI의 지능을 더 발전시키기 위한 학습 방법론에 가깝다고 할 수 있다. 이에 대해 PBT나 self play , FSP 같은 이전의 deepmind의 여러가지 학습 방법론을 소개하고 알파스타에 쓰인 PFSP를 소개한다.