Метка: машинное обучение

  • Квантование нейросетей до 4-бит: как уменьшают размер LLM

    За последние годы большие языковые модели стали основой множества интеллектуальных сервисов — от чат-ботов и систем автоматического перевода до инструментов программирования и анализа данных. Однако вместе с ростом возможностей нейросетей резко увеличились и требования к вычислительным ресурсам. Современные модели могут содержать десятки миллиардов параметров, а иногда и значительно больше. Это приводит к огромному объёму памяти,…

  • Mixture-of-Experts архитектуры: как работают модели с динамическими экспертами

    Современные системы искусственного интеллекта становятся всё более масштабными. Если несколько лет назад крупной считалась нейросеть с сотнями миллионов параметров, то сегодня ведущие языковые модели оперируют десятками и даже сотнями миллиардов параметров. Однако с ростом размера моделей возникает серьёзная проблема: вычислительная стоимость обучения и запуска таких систем растёт экспоненциально. Инженеры и исследователи ищут способы увеличивать мощность…

  • ONNX Runtime: запуск нейросетей на edge-устройствах без облака

    Искусственный интеллект всё активнее выходит за пределы дата-центров и облачных сервисов. Если несколько лет назад большинство нейросетевых моделей запускались исключительно на мощных серверах, то сегодня всё больше задач выполняется непосредственно на устройствах пользователя. Камеры видеонаблюдения, смартфоны, промышленные датчики, автомобильные системы помощи водителю и умные бытовые приборы требуют мгновенной обработки данных без постоянного подключения к интернету.…

  • Whisper-модели распознавания речи: как работает потоковая транскрипция

    Технологии распознавания речи за последние десять лет совершили огромный скачок. Если раньше голосовые интерфейсы часто ошибались и требовали четкой дикции, то современные нейросети способны понимать речь с акцентами, фоновым шумом и даже несколькими говорящими. Одной из наиболее известных систем в этой области стала серия моделей Whisper — нейросетевой алгоритм распознавания речи, разработанный компанией OpenAI. Эти…

  • FlashAttention: ускорение трансформеров за счёт оптимизации памяти GPU

    За последние годы архитектура трансформеров стала фундаментом большинства современных систем искусственного интеллекта. Именно на ней построены крупные языковые модели, системы генерации изображений и многие инструменты анализа данных. Однако вместе с ростом размеров моделей появилась и новая проблема: огромные вычислительные требования. Даже самые мощные графические процессоры сталкиваются с ограничениями пропускной способности памяти при обработке длинных последовательностей…