skypilot-org · infwinston · Nov 30, 2022 · Nov 30, 2022 · Nov 30, 2022 · Michaelvll
diff --git a/sky/backends/backend_utils.py b/sky/backends/backend_utils.py
@@ -1220,8 +1220,11 @@ def _get_tpu_vm_pod_ips(ray_config: Dict[str, Any],
 
     cluster_name = ray_config['cluster_name']
     zone = ray_config['provider']['availability_zone']
+    # Excluding preempted VMs is safe as they are already terminated and
+    # do not charge.
     query_cmd = (f'gcloud compute tpus tpu-vm list --filter='
-                 f'\\(labels.ray-cluster-name={cluster_name}\\) '
+                 f'"(labels.ray-cluster-name={cluster_name} AND '
+                 f'state!=PREEMPTED)" '
                  f'--zone={zone} --format=value\\(name\\)')
 if len(ips) == 0: 
     raise exceptions.FetchIPError( 
         reason=exceptions.FetchIPError.Reason.HEAD) 
 if len(ips) == 0: 
     raise exceptions.FetchIPError( 
         reason=exceptions.FetchIPError.Reason.HEAD) 
     if not get_internal_ips:
         tpuvm_cmd = (f'gcloud compute tpus tpu-vm describe $({query_cmd})'
@@ -1242,10 +1245,14 @@ def _get_tpu_vm_pod_ips(ray_config: Dict[str, Any],
                            '**** STDOUT ****\n'
                            '{stdout}\n'
                            '**** STDERR ****\n'
-                           '{stderr}')
+                           '{stderr}\n'
+                           '**** CMD ****\n'
+                           '{tpuvm_cmd}')
         with ux_utils.print_exception_no_traceback():
             raise RuntimeError(
-                failure_massage.format(stdout=stdout, stderr=stderr))
+                failure_massage.format(stdout=stdout,
+                                       stderr=stderr,
+                                       tpuvm_cmd=tpuvm_cmd))
     all_ips = re.findall(IP_ADDR_REGEX, stdout)
     return all_ips
 

diff --git a/sky/backends/cloud_vm_ray_backend.py b/sky/backends/cloud_vm_ray_backend.py
@@ -2621,9 +2621,12 @@ def teardown_no_lock(self,
                     # check if gcloud includes TPU VM API
                     backend_utils.check_gcp_cli_include_tpu_vm()
 
+                    # Excluding preempted VMs is safe as they are already
+                    # terminated and do not charge.
                     query_cmd = (
                         f'gcloud compute tpus tpu-vm list --filter='
-                        f'\\(labels.ray-cluster-name={cluster_name}\\) '
+                        f'"(labels.ray-cluster-name={cluster_name} AND '
+                        f'state!=PREEMPTED)" '
                         f'--zone={zone} --format=value\\(name\\)')
                     terminate_cmd = (
                         f'gcloud compute tpus tpu-vm delete --zone={zone}'