Respond to rpc requests on stop until hash ring reset

Currently when a conductor is stopped, the rpc service stops responding to requests as soon as self.manager.del_host returns. This means that until the hash ring is reset on the whole cluster, requests can be sent to a service which is stopped. This change waits for the remaining seconds to delay stopping until CONF.hash_ring_reset_interval has elapsed. This will improve the reliability of the cluster when scaling down or rolling out updates. This delay only occurs when there is more than one online conductor, to allow fast restarts on single-node ironic installs (bifrost, metal3). Change-Id: I643eb34f9605532c5c12dd2a42f4ea67bf3e0b40
author: Steve Baker <sbaker@redhat.com> 2023-02-03 10:36:50 +1300
committer: Steve Baker <sbaker@redhat.com> 2023-02-27 11:09:25 +1300
commit: e54ee2ba4cb818e25c75fcdc69f7ff1dc4956c73 (patch)
tree: 9213ee99ad5e0fbf5985de4e2076fa7c0298dc83 /ironic/common/rpc_service.py
parent: eb03345006a04677d674aedc84c1af6b5fd29ed6 (diff)
download: ironic-e54ee2ba4cb818e25c75fcdc69f7ff1dc4956c73.tar.gz
1 files changed, 22 insertions, 5 deletions
diff --git a/ironic/common/rpc_service.py b/ironic/common/rpc_service.py
index b0eec7758..cb0f23c98 100644
--- a/ironic/common/rpc_service.py
+++ b/ironic/common/rpc_service.py
@@ -14,6 +14,7 @@
 # License for the specific language governing permissions and limitations
 # under the License.
 
+import datetime
 import signal
 import sys
 import time
@@ -24,6 +25,7 @@ from oslo_log import log
 import oslo_messaging as messaging
 from oslo_service import service
 from oslo_utils import importutils
+from oslo_utils import timeutils
 
 from ironic.common import context
 from ironic.common import rpc
@@ -93,6 +95,26 @@ class RPCService(service.Service):
                   'transport': CONF.rpc_transport})
 
     def stop(self):
+        initial_time = timeutils.utcnow()
+        extend_time = initial_time + datetime.timedelta(
+            seconds=CONF.hash_ring_reset_interval)
+
+        try:
+            self.manager.del_host(deregister=self.deregister)
+        except Exception as e:
+            LOG.exception('Service error occurred when cleaning up '
+                          'the RPC manager. Error: %s', e)
+
+        if self.manager.get_online_conductor_count() > 1:
+            # Delay stopping the server until the hash ring has been
+            # reset on the cluster
+            stop_time = timeutils.utcnow()
+            if stop_time < extend_time:
+                stop_wait = max(0, (extend_time - stop_time).seconds)
+                LOG.info('Waiting %(stop_wait)s seconds for hash ring reset.',
+                         {'stop_wait': stop_wait})
+                time.sleep(stop_wait)
+
         try:
             if self.rpcserver is not None:
                 self.rpcserver.stop()
@@ -100,11 +122,6 @@ class RPCService(service.Service):
         except Exception as e:
             LOG.exception('Service error occurred when stopping the '
                           'RPC server. Error: %s', e)
-        try:
-            self.manager.del_host(deregister=self.deregister)
-        except Exception as e:
-            LOG.exception('Service error occurred when cleaning up '
-                          'the RPC manager. Error: %s', e)
 
         super(RPCService, self).stop(graceful=True)
         LOG.info('Stopped RPC server for service %(service)s on host '
author	Steve Baker <sbaker@redhat.com>	2023-02-03 10:36:50 +1300
committer	Steve Baker <sbaker@redhat.com>	2023-02-27 11:09:25 +1300
commit	e54ee2ba4cb818e25c75fcdc69f7ff1dc4956c73 (patch)
tree	9213ee99ad5e0fbf5985de4e2076fa7c0298dc83 /ironic/common/rpc_service.py
parent	eb03345006a04677d674aedc84c1af6b5fd29ed6 (diff)
download	ironic-e54ee2ba4cb818e25c75fcdc69f7ff1dc4956c73.tar.gz