added the experiments

scioip34 · Jan 17, 2024 · 5f09d2f · 5f09d2f
1 parent 2688947
commit 5f09d2f
Show file tree

Hide file tree

Showing 68 changed files with 285 additions and 0 deletions.
diff --git a/abm/agent/experiments/exp_0/Screenshot 2024-01-03 at 13.31.25.png b/abm/agent/experiments/exp_0/Screenshot 2024-01-03 at 13.31.25.png
diff --git a/abm/agent/experiments/exp_0/hyperparameters.txt b/abm/agent/experiments/exp_0/hyperparameters.txt
@@ -0,0 +1,25 @@
+DQN Architecture and Hyperparameters:
+DQNAgent:
+- number of agents: 2
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-4
+- reward = collected / time
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every step
diff --git a/abm/agent/experiments/exp_0/model_0.pth b/abm/agent/experiments/exp_0/model_0.pth
diff --git a/abm/agent/experiments/exp_0/model_1.pth b/abm/agent/experiments/exp_0/model_1.pth
diff --git a/...nt/experiments/exp_0/tf_logs/events.out.tfevents.1704280575.Feriels-MBP.fritz.box.31020.0 b/...nt/experiments/exp_0/tf_logs/events.out.tfevents.1704280575.Feriels-MBP.fritz.box.31020.0
diff --git a/abm/agent/experiments/exp_1/Screenshot 2024-01-08 at 12.46.22.png b/abm/agent/experiments/exp_1/Screenshot 2024-01-08 at 12.46.22.png
diff --git a/abm/agent/experiments/exp_1/hyperparameters.txt b/abm/agent/experiments/exp_1/hyperparameters.txt
@@ -0,0 +1,25 @@
+DQN Architecture and Hyperparameters:
+DQNAgent:
+- number of agents: 2
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5
+- reward = collected / time
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every step
diff --git a/abm/agent/experiments/exp_1/model_0.pth b/abm/agent/experiments/exp_1/model_0.pth
diff --git a/abm/agent/experiments/exp_1/model_1.pth b/abm/agent/experiments/exp_1/model_1.pth
diff --git a/...nt/experiments/exp_1/tf_logs/events.out.tfevents.1704285608.Feriels-MBP.fritz.box.31812.0 b/...nt/experiments/exp_1/tf_logs/events.out.tfevents.1704285608.Feriels-MBP.fritz.box.31812.0
diff --git a/abm/agent/experiments/exp_10/Screenshot 2024-01-08 at 13.01.19.png b/abm/agent/experiments/exp_10/Screenshot 2024-01-08 at 13.01.19.png
diff --git a/abm/agent/experiments/exp_10/Screenshot 2024-01-08 at 13.01.36.png b/abm/agent/experiments/exp_10/Screenshot 2024-01-08 at 13.01.36.png
diff --git a/abm/agent/experiments/exp_10/hyperparameters.txt b/abm/agent/experiments/exp_10/hyperparameters.txt
@@ -0,0 +1,27 @@
+DQN-Architecture and Hyperparameters:
+
+DQNAgent:
+- number of agents: 3
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- if self.t!=0 reward= (0.2*ag.collected_r + 0.8*collective_reward) /self.t else reward=0
+where collective_reward = sum of ag.collected_r / (self.t*len(agents))
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_10/model_0.pth b/abm/agent/experiments/exp_10/model_0.pth
diff --git a/abm/agent/experiments/exp_10/model_1.pth b/abm/agent/experiments/exp_10/model_1.pth
diff --git a/abm/agent/experiments/exp_10/model_2.pth b/abm/agent/experiments/exp_10/model_2.pth
diff --git a/...periments/exp_10/tf_logs/events.out.tfevents.1704708244.Feriels-MacBook-Pro.local.57757.0 b/...periments/exp_10/tf_logs/events.out.tfevents.1704708244.Feriels-MacBook-Pro.local.57757.0
diff --git a/abm/agent/experiments/exp_2/Screenshot 2024-01-08 at 12.47.16.png b/abm/agent/experiments/exp_2/Screenshot 2024-01-08 at 12.47.16.png
diff --git a/abm/agent/experiments/exp_2/hyperparameters.txt b/abm/agent/experiments/exp_2/hyperparameters.txt
@@ -0,0 +1,26 @@
+DQN Architecture and Hyperparameters:
+DQNAgent:
+- number of agents: 1
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- reward = collected / time
+
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every step
diff --git a/abm/agent/experiments/exp_2/model_0.pth b/abm/agent/experiments/exp_2/model_0.pth
diff --git a/...nt/experiments/exp_2/tf_logs/events.out.tfevents.1704297112.Feriels-MBP.fritz.box.32628.0 b/...nt/experiments/exp_2/tf_logs/events.out.tfevents.1704297112.Feriels-MBP.fritz.box.32628.0
diff --git a/abm/agent/experiments/exp_3/Screenshot 2024-01-08 at 12.49.08.png b/abm/agent/experiments/exp_3/Screenshot 2024-01-08 at 12.49.08.png
diff --git a/abm/agent/experiments/exp_3/hyperparameters.txt b/abm/agent/experiments/exp_3/hyperparameters.txt
@@ -0,0 +1,26 @@
+DQN Architecture and Hyperparameters:
+DQNAgent:
+- number of agents: 1
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- reward = collected / time
+
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_3/model_0.pth b/abm/agent/experiments/exp_3/model_0.pth
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704302074.Feriels-MBP.fritz.box.33609.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704302074.Feriels-MBP.fritz.box.33609.0
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704302118.Feriels-MBP.fritz.box.33626.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704302118.Feriels-MBP.fritz.box.33626.0
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704303586.Feriels-MBP.fritz.box.33871.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704303586.Feriels-MBP.fritz.box.33871.0
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704303788.Feriels-MBP.fritz.box.33909.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704303788.Feriels-MBP.fritz.box.33909.0
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704309517.Feriels-MBP.fritz.box.34798.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704309517.Feriels-MBP.fritz.box.34798.0
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704310165.Feriels-MBP.fritz.box.34920.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704310165.Feriels-MBP.fritz.box.34920.0
diff --git a/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704312280.Feriels-MBP.fritz.box.35263.0 b/...nt/experiments/exp_3/tf_logs/events.out.tfevents.1704312280.Feriels-MBP.fritz.box.35263.0
diff --git a/abm/agent/experiments/exp_4/hyperparameters.txt b/abm/agent/experiments/exp_4/hyperparameters.txt
@@ -0,0 +1,25 @@
+DQN Architecture and Hyperparameters:
+DQNAgent:
+- number of agents: 1
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- reward = 1 if resource is exploited, 0 otherwise
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_4/img.png b/abm/agent/experiments/exp_4/img.png
diff --git a/abm/agent/experiments/exp_4/model_0.pth b/abm/agent/experiments/exp_4/model_0.pth
diff --git a/abm/agent/experiments/exp_4/model_1.pth b/abm/agent/experiments/exp_4/model_1.pth
diff --git a/...xperiments/exp_4/tf_logs/events.out.tfevents.1704539912.Feriels-MacBook-Pro.local.46631.0 b/...xperiments/exp_4/tf_logs/events.out.tfevents.1704539912.Feriels-MacBook-Pro.local.46631.0
diff --git a/abm/agent/experiments/exp_5/Screenshot 2024-01-06 at 14.02.34.png b/abm/agent/experiments/exp_5/Screenshot 2024-01-06 at 14.02.34.png
diff --git a/abm/agent/experiments/exp_5/hyperparameters.txt b/abm/agent/experiments/exp_5/hyperparameters.txt
@@ -0,0 +1,26 @@
+DQN Architecture and Hyperparameters:
+DQNAgent:
+- number of agents: 2
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- o if not exploit else reward = collected / time
+
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_5/model_0.pth b/abm/agent/experiments/exp_5/model_0.pth
diff --git a/abm/agent/experiments/exp_5/model_1.pth b/abm/agent/experiments/exp_5/model_1.pth
diff --git a/...xperiments/exp_5/tf_logs/events.out.tfevents.1704543170.Feriels-MacBook-Pro.local.47226.0 b/...xperiments/exp_5/tf_logs/events.out.tfevents.1704543170.Feriels-MacBook-Pro.local.47226.0
diff --git a/abm/agent/experiments/exp_6/Screenshot 2024-01-06 at 14.50.46.png b/abm/agent/experiments/exp_6/Screenshot 2024-01-06 at 14.50.46.png
diff --git a/abm/agent/experiments/exp_6/hyperparameters.txt b/abm/agent/experiments/exp_6/hyperparameters.txt
@@ -0,0 +1,26 @@
+DQN-Architecture and Hyperparameters:
+
+DQNAgent:
+- number of agents: 2
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- if self.t!=0 reward= ag.collected_r /self.t else reward=0
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_6/model_0.pth b/abm/agent/experiments/exp_6/model_0.pth
diff --git a/abm/agent/experiments/exp_6/model_1.pth b/abm/agent/experiments/exp_6/model_1.pth
diff --git a/...xperiments/exp_6/tf_logs/events.out.tfevents.1704546260.Feriels-MacBook-Pro.local.47833.0 b/...xperiments/exp_6/tf_logs/events.out.tfevents.1704546260.Feriels-MacBook-Pro.local.47833.0
diff --git a/...xperiments/exp_6/tf_logs/events.out.tfevents.1704546641.Feriels-MacBook-Pro.local.47913.0 b/...xperiments/exp_6/tf_logs/events.out.tfevents.1704546641.Feriels-MacBook-Pro.local.47913.0
diff --git a/abm/agent/experiments/exp_7/Screenshot 2024-01-08 at 12.52.38.png b/abm/agent/experiments/exp_7/Screenshot 2024-01-08 at 12.52.38.png
diff --git a/abm/agent/experiments/exp_7/Screenshot 2024-01-08 at 12.53.06.png b/abm/agent/experiments/exp_7/Screenshot 2024-01-08 at 12.53.06.png
diff --git a/abm/agent/experiments/exp_7/hyperparameters.txt b/abm/agent/experiments/exp_7/hyperparameters.txt
@@ -0,0 +1,26 @@
+DQN-Architecture and Hyperparameters:
+
+DQNAgent:
+- number of agents: 3
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- if self.t!=0 reward= ag.collected_r /self.t else reward=0
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_7/model_0.pth b/abm/agent/experiments/exp_7/model_0.pth
diff --git a/abm/agent/experiments/exp_7/model_1.pth b/abm/agent/experiments/exp_7/model_1.pth
diff --git a/abm/agent/experiments/exp_7/model_2.pth b/abm/agent/experiments/exp_7/model_2.pth
diff --git a/...xperiments/exp_7/tf_logs/events.out.tfevents.1704559485.Feriels-MacBook-Pro.local.49934.0 b/...xperiments/exp_7/tf_logs/events.out.tfevents.1704559485.Feriels-MacBook-Pro.local.49934.0
diff --git a/abm/agent/experiments/exp_8/Screenshot 2024-01-08 at 12.54.50.png b/abm/agent/experiments/exp_8/Screenshot 2024-01-08 at 12.54.50.png
diff --git a/abm/agent/experiments/exp_8/Screenshot 2024-01-08 at 12.55.28.png b/abm/agent/experiments/exp_8/Screenshot 2024-01-08 at 12.55.28.png
diff --git a/abm/agent/experiments/exp_8/hyperparameters.txt b/abm/agent/experiments/exp_8/hyperparameters.txt
@@ -0,0 +1,26 @@
+DQN-Architecture and Hyperparameters:
+
+DQNAgent:
+- number of agents: 3
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- if self.t!=0 reward= ag.collected_r + ag.collective_reward /self.t else reward=0
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_8/model_0.pth b/abm/agent/experiments/exp_8/model_0.pth
diff --git a/abm/agent/experiments/exp_8/model_1.pth b/abm/agent/experiments/exp_8/model_1.pth
diff --git a/abm/agent/experiments/exp_8/model_2.pth b/abm/agent/experiments/exp_8/model_2.pth
diff --git a/...xperiments/exp_8/tf_logs/events.out.tfevents.1704625868.Feriels-MacBook-Pro.local.53954.0 b/...xperiments/exp_8/tf_logs/events.out.tfevents.1704625868.Feriels-MacBook-Pro.local.53954.0
diff --git a/abm/agent/experiments/exp_9/Screenshot 2024-01-08 at 12.56.41.png b/abm/agent/experiments/exp_9/Screenshot 2024-01-08 at 12.56.41.png
diff --git a/abm/agent/experiments/exp_9/Screenshot 2024-01-08 at 12.57.07.png b/abm/agent/experiments/exp_9/Screenshot 2024-01-08 at 12.57.07.png
diff --git a/abm/agent/experiments/exp_9/hyperparameters.txt b/abm/agent/experiments/exp_9/hyperparameters.txt
@@ -0,0 +1,27 @@
+DQN-Architecture and Hyperparameters:
+
+DQNAgent:
+- number of agents: 3
+- state_size: self.v_field_res+ 1, action_size=3
+- action_size: 3 [1: explore, 2: exploit, 3: relocate]
+- replay_memory_capacity: 10,000
+- batch_size: 128
+- gamma: 0.99
+- epsilon_start: 0.9
+- tau: 0.005
+- epsilon_decay: 1000
+- epsilon_end: 0.05
+- lr: 1e-5 with scheduler
+- if self.t!=0 reward= (0.2*ag.collected_r + 0.8*collective_reward) /self.t else reward=0
+where collective_reward = sum of ag.collected_r / (self.t*len(agents))
+
+DQNetwork:
+- input_size: [Specify the size of the input]
+- output_size: [Specify the size of the output layer]
+
+Training Process:
+- Experience replay with a deque (max capacity: 10,000)
+- Epsilon-greedy exploration
+- Q-network trained with mini-batches (batch size: 128)
+- Mean Squared Error (MSE) loss
+- Target Q-network updated with soft update (tau: 0.005) every 50 iterations
diff --git a/abm/agent/experiments/exp_9/model_0.pth b/abm/agent/experiments/exp_9/model_0.pth
diff --git a/abm/agent/experiments/exp_9/model_1.pth b/abm/agent/experiments/exp_9/model_1.pth
diff --git a/abm/agent/experiments/exp_9/model_2.pth b/abm/agent/experiments/exp_9/model_2.pth
diff --git a/...xperiments/exp_9/tf_logs/events.out.tfevents.1704644122.Feriels-MacBook-Pro.local.56489.0 b/...xperiments/exp_9/tf_logs/events.out.tfevents.1704644122.Feriels-MacBook-Pro.local.56489.0