Производительность обучения и отправки данных сервера Gooxi 4090 увеличилась на 35%
Сервер Gooxi 4090 имеет лучшую производительность обучения и push в отрасли, с улучшением производительности на 35%
Срочные новости: производительность обучения и push выросла на 35%! Намного опережая своих аналогов. Благодаря полностековой технологии вертикальной оптимизации производительность NCCL (NVIDIA Collective Communications Library) всего спектра 8-карточных GPU-серверов Gooxi увеличилась на 35%, а пропускная способность NCCL всей машины достигла 26 ГБ, что является скачком вперед в эффективности рассуждений ИИ и энергоэффективности. Кроме того, на основе фактического тестирования и проверки больших моделей DeepSeek и llama2/3 серверы Gooxi могут достичь максимального повышения эффективности на 35% в сценарии рассуждений модели на уровне 100 миллиардов параметров, а TCO (совокупная стоимость владения) была снижена почти на 30%. Это достижение не только обновило эталон производительности отечественных серверов в области вычислительной мощности ИИ, но и означает, что Gooxi предоставил ключевую поддержку для «последней мили» рассуждений больших моделей для производителей больших моделей.
Вертикальная оптимизация преодолевает ограничение, и производительность NCCL напрямую бьет по болевым точкам больших моделей
В обучении и рассуждениях больших моделей ИИ эффективность связи между многокарточными графическими процессорами является основным узким местом, ограничивающим высвобождение вычислительной мощности. Команда исследований и разработок Gooxi реконструировала весь стек для базового протокола связи, топологии оборудования и механизма планирования потока данных NCCL и оптимизировала путь связи с помощью динамических алгоритмов балансировки нагрузки и путей связи с малой задержкой. Этот прорыв напрямую решил распространенную проблему «коммуникационной стены» в крупномасштабном распределенном обучении и улучшил производительность обучения и отправки моделей с сотнями миллиардов параметров до 35%, предоставив аппаратный механизм ускорения для быстрой итерации сверхбольших моделей, таких как DeepSeek.
Чтобы проверить фактическую ценность технологического прорыва, команда Guoxin R&D провела полноценный стресс-тест на большой модели DeepSeek. Результаты показали, что пропускная способность вывода увеличилась до 35%: при той же конфигурации оборудования количество токенов, обрабатываемых в секунду, поддерживаемых сервером Guoxin, значительно возросло, а скорость ответа вывода в реальном времени приблизилась к уровню миллисекунд;
Коэффициент энергоэффективности был оптимизирован на 35%: благодаря интеллектуальным алгоритмам управления энергопотреблением и оптимизации нагрузки связи потребление энергии одной задачей вывода было снижено более чем на 1/3, что помогло предприятиям достичь зеленой трансформации вычислительной мощности; Были подчеркнуты преимущества задач с длинным контекстом: в сценариях генерации длинных текстов и сложных логических рассуждений, в которых DeepSeek преуспевает, уменьшенная задержка связи увеличила согласованность выходных данных модели на 15%, а пользовательский опыт был значительно оптимизирован. TCO можно снизить на 30%: повышение производительности напрямую означает снижение затрат и повышение эффективности для предприятий — на основе среднего ежедневного количества запросов на вывод, поддерживаемых одним сервером, TCO можно снизить на 30%, что имеет стратегическое значение для крупномасштабного внедрения приложений ИИ.