Livre blanc sur la nouvelle infrastructure de calcul IA : Essor du refroidissement liquide, des interconnexions optiques et des puces spécialisées

Préface :
En 2025, quiconque entrant dans un centre de données nouvellement construit serait choqué par la scène : pas de rugissement de ventilateurs, pas de forêt dense de câbles réseau.
Au lieu de cela, des serveurs bouillant silencieusement immergés dans un liquide fluoré, et des signaux laser clignotant entre les racks.

Avec la croissance exponentielle des paramètres des grands modèles, le goulot d'étranglement du calcul est passé du "Calcul" à l'"Interconnexion" et à la "Dissipation de chaleur". Cet article explore la couche physique, démantelant la fondation matérielle soutenant l'ère de l'IA 2.0.

Chapitre 1 : Mur d'interconnexion : L'inévitabilité de l'optique remplaçant le cuivre

À l'ère H100, nous utilisions encore des câbles en cuivre (DAC) pour connecter les GPU au sein d'un rack. Mais aujourd'hui, avec l'entraînement parallèle de modèles à mille milliards de paramètres, la limite physique des câbles en cuivre a été franchie.

1.1 L'explosion de la photonique sur silicium

En 2025, la technologie CPO (Co-Packaged Optics) a enfin atteint la maturité pour la production de masse.

Principe : Auparavant, les modules optiques étaient branchés sur des panneaux de commutation, à des dizaines de centimètres de la puce, provoquant une énorme perte de signal lors de la transmission. La technologie CPO intègre le moteur optique directement sur le substrat de la puce GPU.
Avantages :
- Réduction de puissance de 50% : Les signaux n'ont plus besoin de parcourir de longues distances.
- Augmentation de la densité de bande passante : La bande passante IO d'une seule puce dépasse 51,2 Tbps, résolvant complètement le problème du mur de mémoire "calcul rapide, transmission lente".

1.2 Réseau de commutation tout optique

L'architecture de centre de données Jupiter de Google a montré la direction future : OCS (Optical Circuit Switches).

Les commutateurs électriques traditionnels doivent convertir les signaux optiques en électriques, les traiter et les reconvertir en optiques (O-E-O), ce qui entraîne une latence élevée et une consommation d'énergie.
L'OCS utilise de minuscules miroirs dans des MEMS pour réfléchir directement les faisceaux lumineux pour le routage. Entrée lumière, sortie lumière, latence nulle, ne consommant aucune énergie de signal.

Chapitre 2 : Révolution de la dissipation thermique : De l'air au liquide

Lorsque le TDP (Thermal Design Power) d'une seule puce dépasse 1000W (comme Blackwell B200), les dissipateurs thermiques à refroidissement par air rendus aussi gros que des briques ne peuvent toujours pas supprimer la chaleur.

2.1 Popularisation du refroidissement liquide à plaque froide

C'est actuellement la solution de transition dominante.

Schéma : Fixation d'un bloc d'eau en cuivre étroitement à la surface du GPU, avec du liquide de refroidissement circulant dans des tuyaux pour emporter la chaleur.
Défi : Risque de fuite. Une fois que le liquide de refroidissement fuit, toute la machine est mise au rebut. Ainsi, les Systèmes à pression négative sont apparus en 2025 — la pression à l'intérieur des tuyaux est inférieure à l'extérieur, donc même en cas de rupture, l'air est aspiré plutôt que le liquide ne s'écoule.

2.2 La phase finale du refroidissement par immersion

C'est le véritable avenir.

Immersion monophasée : Serveurs complètement immergés dans de l'huile isolante, utilisant la convection naturelle du liquide pour la dissipation thermique.
Immersion biphasée : Serveurs immergés dans un liquide fluoré. Le liquide bout lors du chauffage se transformant en gaz (le changement de phase emporte une énorme chaleur latente), le gaz monte vers le couvercle, se condense en liquide et retombe.
PUE (Efficacité d'utilisation de l'énergie) : Le PUE traditionnel refroidi par air est d'environ 1,5, l'immersion biphasée peut réduire le PUE à 1,02. Cela signifie que presque toute l'électricité est utilisée pour le calcul, pas pour la climatisation.

Chapitre 3 : Architecture de puce : Contre-attaque des ASIC

Les GPU sont polyvalents, mais dans l'inférence, la polyvalence signifie gaspillage.

3.1 Moteur à l'échelle de la tranche

Cerebras emprunte une voie extrêmement radicale : Ne pas couper la tranche.

Les puces traditionnelles sont de petits morceaux (Die) coupés dans une tranche. Cerebras transforme la tranche entière de 12 pouces en une seule puce, possédant 850 000 cœurs.
Avantage : La communication entre les cœurs se fait entièrement à l'intérieur de la puce, avec une bande passante des milliers de fois supérieure à celle des interconnexions GPU. Cela lui permet d'atteindre une latence extrêmement faible de Batch Size = 1 lors du traitement d'une inférence de modèle super large.

3.2 Traitement en mémoire (PIM)

Le péché originel de l'architecture de Von Neumann réside dans la séparation des unités de calcul et de stockage. Le mouvement des données entre les deux consomme 90% de l'énergie.

Technologie PIM : Intégration d'une logique de calcul simple directement à l'intérieur des granules de mémoire DRAM. Calculez là où sont les données.
Application : Très adapté aux opérations de base de l'IA comme la multiplication matricielle. Bien que la précision soit inférieure, elle a un potentiel énorme dans les scénarios d'inférence Edge.

Chapitre 4 : Informatique verte : Le carcan des émissions de carbone

L'IA est un gouffre énergétique. En 2025, la capacité d'acquisition d'énergie est devenue le principal facteur de sélection des sites de centres de données.

4.1 Suivre la source

Les centres de données migrent des villes de premier rang vers la Mongolie intérieure, le Guizhou et même l'Islande.

Partout où il y a de l'énergie éolienne ou hydraulique bon marché, le calcul est construit là-bas.
Microsoft tente même de construire des centres de données sous la mer (Projet Natick), utilisant l'eau de mer infinie pour la dissipation thermique.

4.2 Récupération de chaleur

Les centres de données en Europe ont commencé à assumer des tâches de chauffage.

Puisque les puces IA génèrent tant de chaleur, pourquoi ne pas collecter cette chaleur résiduelle pour chauffer les communautés résidentielles environnantes ? Cela réduit non seulement les émissions de carbone mais crée également des revenus économiques supplémentaires.

Conclusion

La concurrence de l'infrastructure de calcul a évolué en une course globale de science des matériaux, de dynamique des fluides et d'optique.
Dans cette course aux armements, il n'y a pas de "surplus de performance". Parce que le logiciel (modèles) dévore le calcul avidement ; chaque progrès matériel sera instantanément comblé par des modèles plus grands et plus intelligents.

Ce document est rédigé par le Groupe Matériel de l'Institut Augmunt pour la technologie de pointe, basé sur des enquêtes mondiales sur la chaîne d'approvisionnement des semi-conducteurs en 2025.