Samsung Processing in Memory Technology a Hot Chips 2023

All'Hot Chips 2023 (35) Samsung torna a parlare del suo Processing-in-Memory (PIM) con nuove ricerche e una nuova svolta. Ne abbiamo parlato in precedenza, ad esempio nei nostri Hot Chips 33 Samsung HBM2-PIM e Aquabolt-XL. Ora Samsung lo mostra nel contesto dell’intelligenza artificiale.

Poiché queste vengono eseguite in diretta dall'auditorium, vi preghiamo di scusare gli errori di battitura. Hot Chips ha un ritmo pazzesco.

Uno dei costi maggiori nel settore informatico è lo spostamento dei dati da diverse posizioni di archiviazione e memoria ai motori di elaborazione effettivi.

Attualmente, le aziende cercano di aggiungere più corsie o canali per diversi tipi di memoria. Questo ha i suoi limiti.

Samsung sta discutendo di CXL. CXL aiuta perché consente cose come riutilizzare i cavi per PCIe per fornire maggiore larghezza di banda di memoria. Discuteremo di più sui dispositivi CXL Type-3 in futuro su STH e ne parleremo alcune volte.

Samsung sta discutendo dei colli di bottiglia GPT.

Samsung ha profilato i carichi di lavoro legati alla memoria e all'elaborazione di GPT.

Ecco qualcosa in più sul lavoro di profilazione in termini di utilizzo e tempo di esecuzione.

Samsung mostra come parti della pipeline di calcolo possono essere scaricate sui moduli PIM (elaborazione in memoria).

L'elaborazione sul modulo di memoria, invece che sull'acceleratore, consente di risparmiare il movimento dei dati, riducendo il consumo energetico e i costi di interconnessione.

Mentre SK hynix parlava di GDDR6 per la sua soluzione, Samsung mostra la sua memoria ad alta larghezza di banda HBM-PIM. Mostreremo HBM sulle CPU Intel Xeon MAX nella prossima settimana su STH, ma non utilizzeremo questo nuovo tipo di memoria.

Apparentemente, Samsung e AMD avevano MI100 con HBM-PIM invece del solo PIM standard in modo da poter costruire un cluster in modo da poter avere quello che sembra un cluster a 12 nodi e 8 acceleratori per provare la nuova memoria.

Ecco come il modello T5-MoE utilizza HBM-PIM nel cluster.

Ecco i miglioramenti in termini di prestazioni ed efficienza energetica.

Gran parte di questo è anche come fare in modo che i moduli PIM svolgano un lavoro utile. Ciò richiede lavoro sul software per programmare e utilizzare i moduli PIM.

Samsung spera di ottenere questo modulo di programmazione standard integrato.

Ecco il futuro stato di OneMCC per l'elaborazione accoppiata alla memoria, ma sembra uno stato futuro, piuttosto che attuale.

Sembra che Samsung stia mostrando non solo l'HBM-PIM, ma anche un LPDDR-PIM. Come ogni cosa oggi, ha bisogno di un’etichetta di AI generativa.

Questo sembra essere più un concetto piuttosto che l'HBM-PIM utilizzato sugli AMD MI100 in un cluster.

Questo LPDDR-PIM ha solo 102,4 GB/s di larghezza di banda interna, ma l'idea è che mantenere il calcolo sul modulo di memoria significa ridurre la potenza non dovendo ritrasmettere i dati alla CPU o alla xPU.

Ecco l'architettura con i banchi PIM e i banchi DRAM sul modulo.

Ecco come appaiono le prestazioni e l'analisi della potenza sui possibili moduli LP5-PIM.

Se HBM-PIM e LPDDR-PIM non fossero sufficienti, Samsung sta cercando di mettere l'elaborazione sui moduli CXL nel PNM-CXL.

L'idea qui non è solo quella di mettere memoria sui moduli CXL Type-3. Samsung propone invece di mettere l'elaborazione sul modulo CXL. Ciò può essere fatto aggiungendo un elemento di calcolo al modulo CXL e utilizzando la memoria standard oppure utilizzando PIM sui moduli e un controller CXL più standard.

Naturalmente, abbiamo la nostra dimostrazione di come questo aiuti l'IA generativa dal lato GPT.

Samsung ha una scheda CXL-PNM da 512 GB con una larghezza di banda fino a 1,1 TB/s.

Ecco lo stack software CXL-PNM proposto da Samsung.

Di seguito sono riportati i risparmi energetici e il throughput previsti per i carichi di lavoro LLM su larga scala. CXL di solito utilizza cavi utilizzati anche per PCIe, quindi i costi energetici per la trasmissione dei dati sono molto elevati. Di conseguenza, si ottengono grandi vantaggi potendo evitare tale trasferimento di dati.

Samsung si concentra anche sulla riduzione delle emissioni come risultato di quanto sopra.

Oggi Google ha tenuto un grande discorso sulle emissioni di CO2 nell'informatica basata sull'intelligenza artificiale. Abbiamo intenzione di parlarne più avanti questa settimana su STH.