Начиная с поколения Ampere, компания Nvidia заменила свой флагманский Titan картами 90-й серии, ориентированными на профессионалов, которые также играют в игры.
На сайте Nvidia GeForce RTX 5090графический процессор GB202 имеет значительные аппаратные улучшения по сравнению с RTX 4090'AD102 и RTX 3090 Ti'GA102 GPU.
В то время как RTX 3090 Ti и RTX 4090 предлагали возможность переключать состояние VRAM ECC в драйвере, в RTX 5090 эта опция, как ни странно, отсутствует.
Что такое память ECC?
ECC, что расшифровывается как код коррекции ошибок, - это техника, позволяющая памяти самокорректироваться. Ошибки в памяти возникают, если во время передачи данных происходит переворот битов или когда ошибки вкрадываются в данные по мере того, как ячейки памяти разгружаются и пополняют свой заряд.
Самокоррекция осуществляется либо с помощью специального девятого чипа памяти, который проверяет четность среди остальных восьми чипов модуля ОЗУ (так называемый on-die ECC), либо на уровне контроллера памяти (DRAM ECC).
Потребительская системная память DDR5 поддерживает ECC, но не в полном объеме. По умолчанию оперативная память DDR5 может обнаруживать многобитные ошибки, но способна исправлять только однобитные ошибки с помощью встроенной проверки данных.
Из-за фундаментального способа, которым DDR5 разбивает 64-битную память на два 32-битных подканала, оперативная память DDR5-ECC поставляется в 72-битных (32+4) EC4 или 80-битных (32+8) EC8 модулях.
Память ECC редко нужна для большинства потребительских задач. Если Вы не уверены в этом термине, скорее всего, ECC-память Вам не понадобится.
Тем не менее, ECC-память имеет первостепенное значение в критически важных приложениях и приложениях машинного обучения, где целостность данных должна поддерживаться по всей цепочке.
Компания Google поняла это на собственном опыте еще в 1999 году, когда небрежное отношение к использованию ECC-памяти резко ухудшило производительность ее поисковой системы из-за повреждения памяти.
Все графические процессоры с GDDR5 и GDDR6/6X VRAM имеют способ обнаружения ошибок памяти, который называется Код Обнаружения Ошибок (EDC).
В графических процессорах Nvidia эта функция называется Error Detection and Replay (EDR) - это способ запроса повторной передачи битов от контроллера памяти после выполнения циклической проверки избыточности (CRC).
EDR помогает минимизировать пиксельные артефакты при разгоне VRAM, хотя это может несколько повлиять на производительность.
ECC VRAM в RTX 4090 и RTX 5090
Несмотря на то, что этот вопрос широко не обсуждается, отличительной особенностью, обнаруженной на Nvidia GeForce RTX 3090 Ti и RTX 4090 настольных GPU является возможность переключения между ECC и не ECC состояниями памяти с помощью драйвера.
Однако в новом RTX 5090 эта функция отсутствует.
Влияние включения ECC на производительность
В RTX 3090 Ti и RTX 4090 реализована так называемая "мягкая ECC". Этот подход не предусматривает отдельной микросхемы для поддержания четности; вместо этого при включении данной функции часть VRAM выделяется для работы аналогично встроенному модулю ECC.
В результате общий объем доступной VRAM и скорость работы памяти уменьшаются. В случае RTX 4090 полезный объем VRAM уменьшается с 24 ГБ до 22,5 ГБ, при этом 1,5 ГБ отводится под функции ECC.
Переключение состояния ECC влияет на производительность, как показано ниже. При активированном ECC на RTX 4090 показатели 3DMark Speed Way снижаются на 6,4%, а Cyberpunk 2077 2.21 Phantom Liberty демонстрирует примерно 5%-ное снижение среднего fps.
Степень влияния на производительность зависит от рабочей нагрузки.
VRAM GDDR7 в RTX 5090 официально специфицирована для встроенного ECC
В GDDR7 JEDEC включил встроенный ECC в спецификацию VRAM, принимая во внимание возрастающую вероятность ошибок из-за более высокой плотности памяти. В GDDR7 используется встроенный ECC с протоколом прозрачности, который информирует контроллер памяти о типе возникших ошибок.
По данным JEDEC, GDDR7 способна на 100% исправлять 1-битные ошибки и на 100% обнаруживать 2-битные ошибки, хотя коэффициент обнаружения немного снижается до 99,3% для редких 3-битных ошибок.
Кроме того, в официальную спецификацию также включена функция четности адреса команд с блокировкой команд (CAPARBLK) для дальнейшего повышения надежности шины адреса команд.
Однако неясно, использует ли контроллер памяти Blackwell эту встроенную функцию ECC по умолчанию.
512-битная память GDDR7 в RTX 5090 рассчитана на пропускную способность 1,792 ТБ/с при тактовой частоте 28 Гбит/с, что потенциально может привести к ошибкам при передаче данных. Кроме того, Nvidia предлагает RTX 5090 для рабочих процессов ИИ, которые могут извлечь выгоду из ECC при обучении больших наборов данных.
Несмотря на это, в техническом описании архитектуры Nvidia https://images.nvidia.com/aem-dam/Solutions/geforce/blackwell/nvidia-rtx-blackwell-gpu-architecture.pdf упоминается только поддержка "Enhanced Cyclic Redundancy Check (CRC) for Reliability, Availability, and Serviceability (RAS)", что не то же самое, что ECC.
Хотя можно с уверенностью ожидать, что Nvidia включит функцию ECC на кристалле GDDR7 для графических процессоров для рабочих станций Blackwell, о которых ходят слухи https://www.tomshardware.com/pc-components/gpus/nvidias-rtx-blackwell-workstation-gpu-spotted-with-96gb-gddr7-proviz-gpu-with-a-512-bit-busно пока неясно, появится ли возможность переключения состояния ECC в потребительских RTX 5090 через будущий драйвер или обновление VBIOS.
Источник(и)
Собственный