Learning to Orchestrate: AI and Digital Twin Approaches for the Compute Continuum

Zaccarini, Mattia

In recent years, modern computing environments have been evolving towards the Compute Continuum (CC), an ecosystem that encloses cloud, fog, and edge resources to support increasingly complex, distributed, and latency-sensitive applications. Within this paradigm, Kubernetes (K8s) has become the de-facto standard for orchestrating microservice-based architectures, although its operational complexity and dynamic nature pose significant challenges to efficient deployment, configuration, and fault resilience. This doctoral research addresses these challenges by combining Digital Twin (DT) modeling, Reinforcement Learning (RL), and Computational Intelligence (CI) to design data-driven adapted orchestration frameworks for distributed CC environments. The main contribution that this thesis introduces lies in KubeTwin (KT), a DT framework that enables the accurate simulation of K8s deployments, allowing what-if analy- ses and automated optimization of management policies. KT leverages both simulation-based inference and Machine Learning (ML) techniques, such as Mixture Density Network (MDN), to model microservice response times and validate DT accuracy in realistic multi-access edge scenarios. Building on this foundation, this research also explores RL-based orchestration for optimal service allocation across multi-cluster K8s setups in the CC. The proposed approaches, implemented in framework solutions such as gym-multi-k8s and HephaestusForge, integrate Deep Sets (DS) neural architectures to generalize deployment policies over varying cluster configurations, achieving near-optimal trade-offs between latency, cost, and fairness. Complementary studies compare multiple optimization algorithms, from Deep Q-Network (DQN) and Proximal Policy Optimization (PPO) to Genetic and swarm-based metaheuristics, highlighting the strengths of hybrid RL–CI strategies and Multi-Objective (MO) optimization for adaptive service management. As a final contribution, this thesis also investigates resilience and fault tolerance through Twin-Enhanced Learning for Kubernetes Applications (TELKA), a DT-driven RL scheduler that incorporates Chaos Engineering (CE) to detect and mitigate system faults proactively. Overall, this work advances the state of the art in autonomous orchestration for distributed cloud systems by integrating DTs, RL, and CI into several unified methodological frameworks. The proposed solutions demonstrate how simulation-enhanced learning and intelligent optimization can provide flexible, efficient, and resilient orchestration strategies for next-generation cloud native applications operating across the CC.

Negli ultimi anni, gli ambienti di calcolo moderni si sono evoluti verso il Compute Continuum (CC), un ecosistema che comprende risorse cloud, fog ed edge per supportare applicazioni sempre più complesse, distribuite e sensibili alla latenza. All'interno di questo paradigma, Kubernetes (K8s) è diventato lo standard de-facto per l’orchestrazione di architetture basate su microservizi, sebbene la sua complessità operativa e la natura dinamica pongano sfide significative per un’implementazione, configurazione e resilienza ai guasti efficienti. Questa ricerca di dottorato affronta tali sfide combinando modellazione tramite Digital Twin (DT), Reinforcement Learning (RL) e Computational Intelligence (CI) per progettare framework di orchestrazione adattati e guidati dai dati per ambienti CC distribuiti. Il principale contributo introdotto da questa tesi risiede in KubeTwin (KT), un framework DT che abilita la simulazione accurata di deployment K8s, consentendo analisi what-if e l’ottimizzazione automatizzata delle politiche di gestione. KT sfrutta sia l’inferenza basata su simulazione sia tecniche di Machine Learning (ML), come le Mixture Density Network (MDN), per modellare i tempi di risposta dei microservizi e validare l’accuratezza del DT in scenari realistici di multi-access edge. Su questa base, la ricerca esplora anche l’orchestrazione basata su RL per l’allocazione ottimale dei servizi attraverso configurazioni K8s multi-cluster nel CC. Gli approcci proposti, implementati in soluzioni framework come gym-multi-k8s e HephaestusForge, integrano architetture neurali Deep Sets (DS) per generalizzare le politiche di deployment su configurazioni di cluster variabili, raggiungendo compromessi quasi ottimali tra latenza, costo ed equità. Studi complementari confrontano molteplici algoritmi di ottimizzazione, dal Deep Q-Network (DQN) e Proximal Policy Optimization (PPO) fino a metaeuristiche genetiche e basate su swarm, evidenziando i punti di forza delle strategie ibride RL–CI e dell’ottimizzazione Multi-Objective (MO) per la gestione adattiva dei servizi. Come contributo finale, questa tesi indaga anche la resilienza e la tolleranza ai guasti attraverso Twin-Enhanced Learning for Kubernetes Applications (TELKA), uno scheduler RL guidato da DT che incorpora Chaos Engineering (CE) per rilevare e mitigare proattivamente i guasti di sistema. Nel complesso, questo lavoro avanza lo stato dell’arte nell’orchestrazione autonoma per sistemi cloud distribuiti integrando DT, RL e CI in diversi framework metodologici unificati. Le soluzioni proposte dimostrano come l’apprendimento potenziato dalla simulazione e l’ottimizzazione intelligente possano fornire strategie di orchestrazione flessibili, efficienti e resilienti per applicazioni cloud native di nuova generazione operanti lungo il CC.