Метка: трансформеры

  • Mixture-of-Experts архитектуры: как работают модели с динамическими экспертами

    Современные системы искусственного интеллекта становятся всё более масштабными. Если несколько лет назад крупной считалась нейросеть с сотнями миллионов параметров, то сегодня ведущие языковые модели оперируют десятками и даже сотнями миллиардов параметров. Однако с ростом размера моделей возникает серьёзная проблема: вычислительная стоимость обучения и запуска таких систем растёт экспоненциально. Инженеры и исследователи ищут способы увеличивать мощность…

  • Whisper-модели распознавания речи: как работает потоковая транскрипция

    Технологии распознавания речи за последние десять лет совершили огромный скачок. Если раньше голосовые интерфейсы часто ошибались и требовали четкой дикции, то современные нейросети способны понимать речь с акцентами, фоновым шумом и даже несколькими говорящими. Одной из наиболее известных систем в этой области стала серия моделей Whisper — нейросетевой алгоритм распознавания речи, разработанный компанией OpenAI. Эти…

  • FlashAttention: ускорение трансформеров за счёт оптимизации памяти GPU

    За последние годы архитектура трансформеров стала фундаментом большинства современных систем искусственного интеллекта. Именно на ней построены крупные языковые модели, системы генерации изображений и многие инструменты анализа данных. Однако вместе с ростом размеров моделей появилась и новая проблема: огромные вычислительные требования. Даже самые мощные графические процессоры сталкиваются с ограничениями пропускной способности памяти при обработке длинных последовательностей…

  • LoRA-адаптация: как дообучают большие языковые модели на обычной видеокарте

    Большие языковые модели (LLM) стали одним из главных технологических прорывов последних лет. Системы вроде современных генеративных нейросетей умеют писать тексты, переводить, программировать и анализировать данные. Однако за их впечатляющими возможностями скрывается серьезная проблема: такие модели содержат миллиарды параметров и требуют огромных вычислительных ресурсов. Полное дообучение подобных систем может стоить сотни тысяч долларов и требовать кластеры…