Eclectic-Sheep · belerico · Nov 30, 2023 · Nov 29, 2023 · Nov 29, 2023
@@ -40,7 +40,7 @@ dependencies = [
   "torchmetrics",
   "rich==13.5.*",
   "opencv-python==4.8.0.*",
-  "torch==2.0.*"
+  "torch>=2.0"
 ]
 dynamic = ["version"]
 

@@ -314,8 +314,8 @@ def main(fabric: Fabric, cfg: Dict[str, Any]):
             step_data["logprobs"] = logprobs
             step_data["rewards"] = rewards
             if cfg.buffer.memmap:
-                step_data["returns"] = torch.zeros_like(rewards)
-                step_data["advantages"] = torch.zeros_like(rewards)
+                step_data["returns"] = torch.zeros_like(rewards, dtype=torch.float32)
+                step_data["advantages"] = torch.zeros_like(rewards, dtype=torch.float32)
 
             # Append data to buffer
             rb.add(step_data.unsqueeze(0))
@@ -347,7 +347,7 @@ def main(fabric: Fabric, cfg: Dict[str, Any]):
             normalized_obs = normalize_obs(next_obs, cfg.algo.cnn_keys.encoder, obs_keys)
             next_values = agent.module.get_value(normalized_obs)
             returns, advantages = gae(
-                rb["rewards"],
+                rb["rewards"].to(torch.float64),
                 rb["values"],
                 rb["dones"],
                 next_values,
@@ -359,6 +359,7 @@ def main(fabric: Fabric, cfg: Dict[str, Any]):
             # Add returns and advantages to the buffer
             rb["returns"] = returns.float()
             rb["advantages"] = advantages.float()
+            rb["rewards"] = rb["rewards"].float()
 
         # Flatten the batch
         local_data = rb.buffer.view(-1)

@@ -236,8 +236,8 @@ def player(
             step_data["logprobs"] = logprobs
             step_data["rewards"] = rewards
             if cfg.buffer.memmap:
-                step_data["returns"] = torch.zeros_like(rewards)
-                step_data["advantages"] = torch.zeros_like(rewards)
+                step_data["returns"] = torch.zeros_like(rewards, dtype=torch.float32)
+                step_data["advantages"] = torch.zeros_like(rewards, dtype=torch.float32)
 
             # Append data to buffer
             rb.add(step_data.unsqueeze(0))
@@ -267,7 +267,7 @@ def player(
         normalized_obs = normalize_obs(next_obs, cfg.algo.cnn_keys.encoder, obs_keys)
         next_values = agent.get_value(normalized_obs)
         returns, advantages = gae(
-            rb["rewards"],
+            rb["rewards"].to(torch.float64),
             rb["values"],
             rb["dones"],
             next_values,
@@ -279,6 +279,7 @@ def player(
         # Add returns and advantages to the buffer
         rb["returns"] = returns.float()
         rb["advantages"] = advantages.float()
+        rb["rewards"] = rb["rewards"].float()
 
         # Flatten the batch
         local_data = rb.buffer.view(-1)

@@ -376,7 +376,7 @@ def main(fabric: Fabric, cfg: Dict[str, Any]):
             rnn_out, _ = agent.module.rnn(torch.cat((feat, actions), dim=-1), states)
             next_values = agent.module.get_values(rnn_out)
             returns, advantages = gae(
-                rb["rewards"],
+                rb["rewards"].to(torch.float64),
                 rb["values"],
                 rb["dones"],
                 next_values,