В этот период мы провели масштабное тестирование локальных ИИ-моделей.
Проверили большое количество актуальных решений и сформировали собственный рейтинг — стало понятно, какие модели лучше подходят под разные задачи.
На основе этого мы:
- подобрали оптимальные модели под каждый сценарий
- внедрили их в текущие проекты
- и полностью отказались от API сторонних сервисов
Все наши продукты были переведены на
локальную инфраструктуру, и мы добились полной автономности работы.
Что это даёт нашим клиентам:- Стабильная работа без сбоев
Сервисы не зависят от внешних платформ — ничего не “падает” из-за чужих ограничений
- Быстрые ответы без задержек
Всё работает на наших серверах, без лишних запросов “куда-то в интернет”
Вся информация остаётся внутри системы и не передаётся третьим лицам
- Предсказуемость и контроль
Нет неожиданных отключений, блокировок или изменений условий со стороны внешних сервисов
- Гибкость под задачи бизнеса
Мы можем дообучать и настраивать модели под конкретную компанию
Когда всё оборудование приехало, начался монтаж.
Параллельно мы докупили: свитч и патч-панель.
Это нужно для того, чтобы сеть работала стабильно и быстро, а всё было аккуратно и удобно в обслуживании.
После этого мы первично собрали всё в стойке и приступили к настройке и тестированию нового оборудования.
Следующим этапом стало определение места размещения оборудования и подготовка инфраструктуры.
Мы решили подойти к этому правильно: заказали полноценную серверную стойку и подготовили отдельное помещение.
Так как важно иметь постоянный доступ к оборудованию, мы разместили сервер рядом с нашим системным администратором.
Для этого арендовали помещение напротив офиса и организовали подведение выделенной линии интернет и сделали резервный канал на случай сбоев.
После успешного тестирования на RTX 5090 стало очевидно, что выбранное направление имеет высокий потенциал. Встал вопрос увеличения вычислительных мощностей и подготовки инфраструктуры к масштабированию.
В результате было принято решение о переходе на более производительное решение!
При выборе аппаратной платформы для ИИ-задач мы рассматривали несколько вариантов ускорителей, включая GeForce RTX 5090, NVIDIA H100 и RTX PRO 6000 Blackwell.
В результате выбор был сделан в пользу конфигурации на базе Nvidia PRO 6000 по 96 ГБ, поскольку именно она оптимально сочетает современную архитектуру Blackwell, поддержку низкоточных форматов вычислений, включая 4-битное квантование, и большой объем видеопамяти, критически важный для работы с крупными языковыми моделями и тяжелым инференсом.
Квантование в данном случае играет ключевую роль: оно позволяет уменьшать точность представления весов и активаций модели, например до 4 бит, чтобы значительно сократить потребление видеопамяти, ускорить выполнение запросов и повысить экономическую эффективность эксплуатации без заметной потери качества результата.
Аппаратной основой решения стал сервер с процессором AMD Ryzen Threadripper PRO 7975WX (32 ядра / 64 потока, 128 МБ кэша), 512 ГБ оперативной памяти DDR5 ECC, накопителем 1 ТБ SSD NVMe M.2 и материнской платой ASUS PRO WS WRX90E-SAGE SE с Dual 10GbE, что обеспечивает высокую пропускную способность, отказоустойчивость и запас по ресурсам для многопоточных вычислений и обслуживания AI-нагрузок.
Отдельное внимание было уделено надежности: вычислительные узлы оснащены системой жидкостного охлаждения, которая отводит тепло не только от процессора, но и от видеокарт, включая подсистему питания VRM и память GDDR. При этом используется независимый контроллер управления системой охлаждения с функциями самодиагностики, защиты, мониторинга температуры воздуха и жидкости, управления скоростью вентиляторов и помп, управления включением, выключением и перезагрузкой, записи логов, обновления программного обеспечения и настройки режимов работы в зависимости от условий эксплуатации.
Дополняют систему четыре блока питания по 2000 Вт, что особенно важно для стабильной работы двух профессиональных GPU под длительной высокой нагрузкой. Таким образом, выбор был сделан не просто в пользу мощных видеокарт, а в пользу сбалансированной серверной платформы, рассчитанной на стабильную, масштабируемую и непрерывную работу с современными ИИ-моделями.
Основной задачей было определить дальнейшее направление развития и оценить необходимые вычислительные мощности для масштабирования проекта.
Мы поставили цель —
полностью отказаться от API иностранных платформ и перейти на собственную автономную инфраструктуру.
Для этого данная конфигурация использовалась как тестовый стенд:
мы проводили эксперименты с транскрибацией звонков, запускали локальные модели и анализировали нагрузку.
Это позволило нам:
- определить реальные требования к железу
- протестировать ключевые сценарии использования
- сформировать стратегию дальнейшего развития собственной инфраструктуры