На GTC 2018 в Японии NVIDIA представила следующее поколение ИИ-ускорителей в лице Tesla T4 на базе архитектуры Turing.
Устройство выполнено в низкопрофильном дизайне, потребляет до 75 Вт и не требует внешнего питания, но при этом может предложить кратный прирост в ключевых областях машинного обучения по сравнению с Tesla P4.
NVIDIA вслед за профессиональной графикой Quadro RTX и игровыми ускорителями GeForce RTX представила на GTC 2018 в Японии новое семейство GPU для машинного обучения и анализа информации в центрах обработки данных. Новые решения Tesla T4 («T» в названии означает новую архитектуру Turing) являются преемниками текущего семейства GPU P4, которые сейчас предлагают практически все крупные поставщики облачных вычислений. По словам NVIDIA, Google будет в числе первых компаний, которые задействуют в своей облачной платформе ускорители T4.
NVIDIA утверждает, что T4 значительно быстрее, чем P4. Например, в задачах принятия решений, связанных с лингвистикой, T4 в 34 раза быстрее, чем CPU и более чем в 3,5 раза быстрее, чем P4. Пиковая производительность T4 составляет 260 TOPS для 4-битных целочисленных операций INT4, 130 TOPS — для INT8 и 65 терафлопс для смешанных тензорных операций FP16. При обычных расчётах с плавающей запятой FP32 обещана пиковая производительность в 8,1 терафлопс.
Низкопрофильная карта T4 предназначена для установки в стандартный 75-Вт слот PCI Express. Это означает, что для установки в 1U, 4U или иные стандартные серверные стойки не требуется думать о внешнем источнике питания: достаточно возможностей слота PCIe. А низкопрофильная конструкция обеспечивает широкую совместимость с самыми разными серверами.
Но главное, что NVIDIA разработала эти чипы специально для процессов логического умозаключения в искусственном интеллекте. «Столь эффективным графическим процессором для задач принятия решений Tesla T4 делают новые тензорные ядра архитектуры Turing, — подчеркнул вице-президент и руководитель по бизнесу ЦОД в NVIDIA Tesla Ян Бак (Ian Buck). — Исполнительный директор Дженсен Хуанг (Jensen Huang) уже говорил о тензорных ядрах и о том, что они могут предложить в играх, задачах рендеринга и в области ИИ, но они прежде всего предназначены для наибольшей эффективности в процессах логического умозаключения». Сообщается, что ускоритель включает 320 тензорных ядер и 2560 ядер CUDA Turing.
Поскольку объем онлайн-видео продолжает расти экспоненциально, спрос на решения для эффективного поиска и извлечения информации из видео также увеличивается. Tesla T4 обеспечивает высокую производительность и для задач, связанных с ИИ-анализом видео. А отдельные блоки перекодировки видеопотока обеспечивают двукратный рост производительности декодирования по сравнению с GPU предыдущего поколения. T4 может декодировать до 38 потоков видео 1080p, что позволяет легко интегрировать масштабируемое глубинное обучение в видеопрограммы для создания новых интеллектуальных услуг.
В дополнение к собственно Tesla T4 компания также представила обновление своего программного обеспечения TensorRT 5 для оптимизации моделей глубинного обучения. Эта новая версия также включает в себя сервер принятия решений TensorRT, полностью контейнерный микросервис для процессов логического умозаключения в центрах обработки данных, который легко подключается к существующей инфраструктуре Kubernetes.
Источники: