-
Квантование нейросетей до 4-бит: как уменьшают размер LLM
За последние годы большие языковые модели стали основой множества интеллектуальных сервисов — от чат-ботов и систем автоматического перевода до инструментов программирования и анализа данных. Однако вместе с ростом возможностей нейросетей резко увеличились и требования к вычислительным ресурсам. Современные модели могут содержать десятки миллиардов параметров, а иногда и значительно больше. Это приводит к огромному объёму памяти,…
-
ONNX Runtime: запуск нейросетей на edge-устройствах без облака
Искусственный интеллект всё активнее выходит за пределы дата-центров и облачных сервисов. Если несколько лет назад большинство нейросетевых моделей запускались исключительно на мощных серверах, то сегодня всё больше задач выполняется непосредственно на устройствах пользователя. Камеры видеонаблюдения, смартфоны, промышленные датчики, автомобильные системы помощи водителю и умные бытовые приборы требуют мгновенной обработки данных без постоянного подключения к интернету.…