stable

Author	SHA1	Message	Date
robcaulk	acf3484e88	add multiprocessing variant of ReinforcementLearningPPO	2022-08-24 13:00:55 +02:00
robcaulk	926023935f	make base 3ac and base 5ac environments. TDQN defaults to 3AC.	2022-08-24 13:00:55 +02:00
robcaulk	91683e1dca	restructure RL so that user can customize environment	2022-08-24 13:00:55 +02:00