Efficient data movement in large-scale heterogeneous systems

López Paradís, Guillem

Efficient data movement in large-scale heterogeneous systems

Autor/a

López Paradís, Guillem

Director/a

Moretó Planas, Miquel

Armejach Sanosa, Adrià

Data de defensa

2025-07-07

Pàgines

158 p.

Departament/Institut

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Programa de doctorat

DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)

Resum

(English) Modern computer systems have become universally heterogeneous. Computer architects have addressed the slowdown of Moore’s Law and the end of Dennard scaling by incorporating a variety of cores, including multi-core and many-core designs, and more recently, by integrating specialised hardware components both inside and outside the chip. While current commercial CPUs offer hundreds of cores in the server market, CPUs designed for laptops and mobile devices feature manycore architectures alongside a myriad of accelerators for tasks such as audio processing, video decoding, security, and machine learning (ML). The current era, often referred to as the golden age of computer architecture, has been driven by the design of accelerators aimed at achieving maximum performance. A significant enabler of this trend has been the open-source RISC-V instruction set architecture (ISA). By removing licensing costs, RISC-V has democratised hardware design and facilitated collaboration between industry and academia. This has led to a proliferation of proposals for new CPUs, GPUs, and accelerators, and RISC-V-based designs are beginning to see commercial adoption. However, this growing heterogeneity on the hardware side has substantially increased software complexity at all levels — from device drivers and operating systems to libraries and final applications. To optimise software effectively, engineers must now have a detailed understanding of the hardware platforms on which their code will execute. These platforms may integrate CPUs, GPUs, FPGAs, and domain-specific accelerators, making memory management, software compatibility, and data movement strategies significantly more complex. Although mature frameworks exist for GPU programming, especially in the context of ML, emerging accelerators still lack robust, general-purpose software solutions. Machine learning applications, in particular, have introduced unprecedented demands on computation, memory, storage, and networking. Companies such as Google, AWS, and Meta have responded by developing dedicated ML accelerators, advanced networking solutions, and even custom supercomputers to handle the scale and performance requirements. Moreover, petabyte-scale datasets have become commonplace not only in ML but also in big data analytics, genomics, and physics simulations. At this scale, efficient data movement is critical — not only across data centres but also within chips — to ensure fast and reliable communication among the components of heterogeneous systems. In this thesis, we characterise and develop new tools for researching heterogeneous systems, scaling and improving RTL simulations, enabling flexible on-chip communication between accelerators, and finally, proposing an innovative solution for data movement at the data centre level.

(Català) Els sistemes informàtics moderns s'han tornat universalment heterogenis. Els arquitectes de maquinari han abordat la desacceleració de la Llei de Moore i el final de l'escalat de Dennard mitjançant la incorporació de diversos tipus de nuclis, incloent-hi dissenys multinúcli i manycore, i més recentment, mitjançant la integració de components de maquinari especialitzats tant dins com fora del xip. Mentre que les CPU comercials actuals ofereixen centenars de nuclis en el mercat de servidors, les CPU dissenyades per a portàtils i dispositius mòbils incorporen arquitectures manycore juntament amb una gran varietat d’acceleradors per a tasques com el processament d’àudio, la descodificació de vídeo, la seguretat i l’aprenentatge automàtic (ML). L’era actual, sovint anomenada l’edat d’or de l’arquitectura de computadores, ha estat impulsada pel disseny d’acceleradors orientats a aconseguir el màxim rendiment. Un dels factors clau d’aquesta tendència ha estat la ISA de codi obert RISC-V. En eliminar els costos de llicència, RISC-V ha democratitzat el disseny de maquinari i ha facilitat la col·laboració entre la indústria i l’àmbit acadèmic. Això ha donat lloc a una proliferació de propostes de noves CPU, GPU i acceleradors, i els dissenys basats en RISC-V comencen a veure una adopció comercial creixent. Tanmateix, aquesta heterogeneïtat creixent del maquinari ha incrementat de manera considerable la complexitat del programari a tots els nivells, des dels controladors de dispositius i sistemes operatius fins a les biblioteques i aplicacions finals. Per optimitzar el programari de manera eficient, els enginyers han d’entendre detalladament les plataformes de maquinari on s’executarà el codi. Aquestes plataformes poden integrar CPU, GPU, FPGA i acceleradors específics de domini, fet que complica la gestió de la memòria, la compatibilitat del programari i les estratègies de moviment de dades. Tot i que hi ha frameworks madurs per a la programació en GPU, especialment en l’àmbit de ML, els acceleradors emergents encara manquen de solucions genèriques robustes. Les aplicacions d’aprenentatge automàtic, en particular, han generat demandes sense precedents en càlcul, memòria, emmagatzematge i xarxa. Empreses com Google, AWS i Meta han desenvolupat acceleradors dedicats per a ML, solucions avançades d’interconnexió i fins i tot superordinadors personalitzats per satisfer els requisits d’escala i rendiment. A més, els conjunts de dades a escala de petabytes s’han tornat habituals, no només en ML, sinó també en l’anàlisi de grans volums de dades, la genòmica i les simulacions físiques. A aquesta escala, el moviment eficient de dades és fonamental — no només entre centres de dades, sinó també dins dels mateixos xips — per garantir una comunicació ràpida i fiable entre els components de sistemes heterogenis. En aquesta tesi, caracteritzem i desenvolupem noves eines per a la recerca en sistemes heterogenis, l’escalat i la millora de simulacions RTL, la comunicació flexible entre acceleradors dins del xip i, finalment, proposem una solució innovadora per al moviment de dades en l’àmbit del centre de dades.

(Español) Los sistemas informáticos modernos se han vuelto universalmente heterogéneos. Los arquitectos de hardware han afrontado la desaceleración de la Ley de Moore y el fin del escalado de Dennard mediante la incorporación de una variedad de núcleos, incluyendo diseños multinúcleo y de muchos núcleos, y más recientemente, mediante la integración de componentes de hardware especializados tanto dentro como fuera del chip. Mientras que las CPU comerciales actuales ofrecen cientos de núcleos en el mercado de servidores, las CPU diseñadas para portátiles y dispositivos móviles incorporan arquitecturas manycore junto con una multitud de aceleradores para tareas como procesamiento de audio, decodificación de vídeo, seguridad y aprendizaje automático (ML). La era actual, a menudo denominada la edad de oro de la arquitectura de computadores, ha sido impulsada por el diseño de aceleradores orientados a lograr el máximo rendimiento. Un factor clave en esta tendencia ha sido la arquitectura de conjunto de instrucciones (ISA) de código abierto RISC-V. Al eliminar los costes de licencias, RISC-V ha democratizado el diseño de hardware y ha facilitado la colaboración entre la industria y el ámbito académico. Esto ha dado lugar a una proliferación de propuestas para nuevas CPU, GPU y aceleradores, y los diseños basados en RISC-V comienzan a ver adopción comercial. Sin embargo, esta creciente heterogeneidad en el hardware ha incrementado significativamente la complejidad del software en todos los niveles, desde los controladores de dispositivos y sistemas operativos hasta las bibliotecas y aplicaciones finales. Para optimizar el software de manera efectiva, los ingenieros deben comprender en detalle las plataformas de hardware en las que se ejecutará su código. Estas plataformas pueden integrar CPU, GPU, FPGA y aceleradores específicos de dominio, lo que complica notablemente la gestión de memoria, la compatibilidad del software y las estrategias de movimiento de datos. Aunque existen frameworks maduros para la programación en GPU, especialmente en el contexto de ML, los aceleradores emergentes todavía carecen de soluciones genéricas y robustas. Las aplicaciones de aprendizaje automático, en particular, han generado demandas sin precedentes en cuanto a cómputo, memoria, almacenamiento y red. Empresas como Google, AWS y Meta han desarrollado aceleradores dedicados para ML, soluciones de red avanzadas e incluso superordenadores personalizados para afrontar las exigencias de escala y rendimiento. Además, los conjuntos de datos a escala de petabytes se han vuelto comunes, no solo en ML, sino también en análisis de grandes volúmenes de datos, genómica y simulaciones físicas. A esta escala, el movimiento eficiente de datos es fundamental, no solo entre centros de datos, sino también dentro de los propios chips, para asegurar una comunicación rápida y fiable entre los componentes de sistemas heterogéneos. En esta tesis, caracterizamos y desarrollamos nuevas herramientas para investigar sistemas heterogéneos, escalar y mejorar simulaciones RTL, habilitar comunicaciones flexibles dentro del chip entre aceleradores, y finalmente, proponer una solución innovadora para el movimiento de datos a nivel de centro de datos.

Matèries

004 - Informàtica

Àrea de coneixement

Àrees temàtiques de la UPC::Informàtica

Nota

Tesi amb menció de Doctorat Internacional

Documents

Aquest document conté fitxers embargats fins el dia 11-03-2026

Exportar

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Drets

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)

Programa de Doctorat en Arquitectura de Computadors [269]