Март 2026 года на NVIDIA GTC ознаменовался важным сдвигом в архитектуре ИИ-систем: компания представила инициативу Storage-Next, а партнёры — в первую очередь KIOXIA и Samsung — анонсировали SSD нового поколения, позволяющие графическому процессору напрямую обращаться к флеш-памяти для расширения возможностей высокоскоростной памяти HBM. Это решение снимает ключевое ограничение современных ИИ-систем — дефицит доступной для GPU памяти — и открывает путь к обработке контекстных окон в миллионы токенов и моделей с триллионами параметров.
Современные ИИ-модели сталкиваются с «узким местом»: объём высокоскоростной памяти HBM (High Bandwidth Memory) на графических процессорах NVIDIA ограничен 80–144 ГБ на чип, тогда как контекстные окна LLM и KV-кеш растут экспоненциально. Традиционная архитектура требует копирования данных через CPU, что добавляет задержки и снижает утилизацию GPU. NVIDIA Storage-Next решает эту проблему, превращая SSD из пассивного хранилища в активное расширение памяти, доступное для прямого доступа со стороны GPU.
| Параметр | Традиционная архитектура | NVIDIA Storage-Next + GP Series |
|---|---|---|
| Путь данных | SSD → CPU → RAM → GPU | SSD → GPU (прямой DMA) |
| Мин. размер блока | 4 КБ (стандарт NVMe) | 512 байт (тонкая гранулярность) |
| Латентность доступа | Высокая (через CPU) | Низкая (GPU-initiated I/O) |
| Доступный объём памяти | Ограничен HBM (до 144 ГБ) | Расширен флеш-памятью (до ТБ) |
| Энергия на операцию | Базовый уровень | До 40% ниже |
| Сценарий | Обучение, инференс | Агентный ИИ, длинный контекст, RAG |
KIOXIA представила семейство GP Series Super High IOPS SSD — первые накопители, оптимизированные для архитектуры NVIDIA Storage-Next. Ключевые особенности:
- XL-FLASH Storage Class Memory: технология, сочетающая скорость, близкую к DRAM, с плотностью и стоимостью флеш-памяти
- Прямой доступ с GPU: поддержка GPU-initiated I/O через NVIDIA GPUDirect Storage и SCADA
- Гранулярность 512 байт: эффективная работа с мелкими блоками данных, характерными для KV-кеша и векторных баз
- Сниженное энергопотребление: до 40% меньше энергии на операцию ввода-вывода по сравнению с обычными TLC SSD
- Форм-фактор E3.S: высокая плотность монтажа в серверах следующего поколения
| Параметр | KIOXIA GP Series (Super High IOPS) | KIOXIA CM9 Series (для KV-кеша) |
|---|---|---|
| Тип памяти | XL-FLASH (Storage Class Memory) | TLC 3D NAND (BiCS FLASH) |
| Интерфейс | PCIe 5.0 x4, NVMe 2.0 | PCIe 5.0, E3.S форм-фактор |
| Ёмкость | Оптимизирован под производительность | до 25,6 ТБ |
| Выносливость | Высокая для интенсивных операций | 3 DWPD (полная перезапись в день) |
| Гранулярность | 512 байт (мин. размер доступа) | 4 КБ (стандарт NVMe) |
| Целевое применение | Расширение HBM, GPU-initiated I/O | KV-кеш, контекстная память (CMX) |
| Доступность | Оценочные образцы — конец 2026 | Поставки — Q3 2026 |
Источник: KIOXIA Press Release, NVIDIA GTC 2026. GP Series — первое коммерческое решение класса «память-как-хранилище» для прямого доступа GPU.
Инициатива Storage-Next от NVIDIA определяет требования к накопителям для ИИ-систем будущего. Ключевые принципы:
- GPU-initiated I/O: накопитель должен принимать команды напрямую от GPU, минуя CPU
- Тонкая гранулярность: поддержка блоков размером 512 байт для эффективной работы с метаданными и векторами
- Низкая латентность: задержка доступа должна быть сопоставима с оперативной памятью
- Масштабируемость: возможность объединения накопителей в пулы для распределённых ИИ-кластеров
- Энергоэффективность: минимизация энергии на операцию ввода-вывода для снижения TCO дата-центра
| Решение | Технология | Задержка | Пропускная способность | Ёмкость | Энергия/оп | Статус |
|---|---|---|---|---|---|---|
| HBM3E / HBM4 | 3D-stacked DRAM | ~100 нс | до 4,0 ТБ/с | до 144 ГБ | Высокая | Массовое |
| KIOXIA GP Series | XL-FLASH SCM | ~1–5 мкс | Высокий IOPS | до 8 ТБ | ↓ 40% | Образцы Q4'26 |
| KIOXIA CM9 Series | TLC 3D NAND | ~10–50 мкс | Высокая пропускная | 25,6 ТБ | Средняя | Поставки Q3'26 |
| Samsung PM1743 | QLC 3D NAND | ~50–100 мкс | Стандартная | до 64 ТБ | Базовая | Массовое |
Агентные ИИ-системы (планирование задач, вызов инструментов, оркестрация субагентов) генерируют огромные объёмы промежуточных данных: KV-кеш, векторные индексы, контекстные окна. Традиционная архитектура не справляется с такими нагрузками из-за ограниченного объёма HBM. Прямой доступ GPU к флеш-памяти через GP Series позволяет:
