Больше не надо тратить время на дизайн и тексты писем. ИИ‑ассистент всё сделает сам.
Подборка нейронок на все случаи жизни
Локальные нейросети — это модели искусственного интеллекта, которые полностью работают на устройстве: используют мощности компьютера или сервера и не нуждаются в подключении к интернету. Они работают автономно и не передают данные на сторонние сервера. Поэтому более безопасны, так как вся информация не выходит за пределы ПК или сервера пользователя. Но и менее производительны, т. к. работают на основе меньшего количества обучающих данных.
В статье разберем сильные и слабые стороны таких нейронок, а также приведем примеры.
Многие думают, что локальная нейросеть — это здоровенная база данных, которая лежит на компьютере и в которой модель ищет готовые ответы. Спойлер: это не так.
На самом деле нейросеть — это не библиотека с текстами, а набор математических параметров. Представьте: вы учились в школе, читали книги, общались с людьми. Сейчас вы не носите с собой все учебники и не цитируете их слово в слово, но можете рассуждать и отвечать на вопросы. Нейросеть работает похоже: она запомнила паттерны и закономерности из текстов, на которых училась.
Когда вы спрашиваете что-то у нейросети, она не открывает архив и не ищет там готовый ответ. Она генерирует текст на лету, основываясь на том, что выучила.
Что это значит на практике:
Отсюда и размеры моделей: чем больше параметров, тем больше паттернов модель может запомнить и тем точнее ее ответы.
Преимущества:
Недостатки:
Вывод следующий: локальная нейросеть незаменима, если критически важна конфиденциальность, а это актуально главным образом для корпоративных нужд.
Перед тем как перейти к подборке, давайте разберемся с терминами, которые будут встречаться в статье.
Параметры — это настройки нейросети, которые она выучила в процессе обучения. Представьте, что параметры — это нейронные связи в мозге модели. Чем больше параметров, тем больше паттернов модель может запомнить. Например, модель на 7 миллиардов параметров (7B) — это компактный помощник, а 671 миллиард (671B) — настоящий монстр.
Активные параметры — это те параметры, которые реально работают при каждом запросе. В современных MoE-моделях из сотни миллиардов параметров могут активироваться только десятки миллиардов. Благодаря этому модели работают быстрее и жрут меньше памяти. При этом качество ответов из-за этого не страдает.
Mixture of Experts (MoE) — архитектура нейросети, где модель разделена на множество экспертов (специализированных блоков). Для каждого запроса активируются только несколько нужных экспертов, а не вся модель целиком. Это также ускоряет работу модели и не влияет на качество ответов.
Бенчмарк — это стандартизированный тест для оценки качества работы нейросети. Модели прогоняют через одни и те же задачи (математика, код, логика, понимание текста), чтобы сравнить результаты.
Контекстное окно (контекст) — это объем текста, который модель может «помнить» одновременно. Измеряется в токенах (примерно 1 токен = 0.75 слова). Модель с контекстом 128K токенов (~96 тысяч слов) может держать в памяти целую книгу. Модель с 8K токенов — только несколько страниц.
Токен — минимальная единица текста для нейросети. Это может быть слово, часть слова или символ. Например, слово «нейросеть» может быть разбито на 2-3 токена. Контекст в 128K токенов — это примерно 400-страничная книга.
VRAM — видеопамять вашей видеокарты. Чем больше VRAM, тем более крупную модель можно запустить. Для моделей на 7–14B параметров нужно минимум 8–16 ГБ VRAM, для 70B+ — уже 80+ ГБ.
RAM — обычная оперативная память компьютера. Если VRAM не хватает или вы запускаете модель на процессоре (CPU) без видеокарты, модель загружается в RAM. Но работать она будет гораздо медленнее.
Квантизация — это сжатие модели за счет уменьшения точности вычислений. Например, квантизация int4 или FP8 позволяет ужать модель в 2-4 раза, почти не теряя в качестве. Благодаря квантизации даже большую модель теоретически возможно запустить но мощном ПК.
Кластер — это несколько компьютеров или серверов, объединенных в одну систему. Супермощные модели (типа DeepSeek V3 на 671B) нельзя запустить на одном компьютере — нужен кластер из нескольких машин с кучей видеокарт.
Мультимодальная модель — нейросеть, которая понимает не только текст, но и другие форматы: изображения, видео, аудио.
Fine-tuning — это дообучение уже готовой модели под конкретные задачи. Например, можно взять модель нейросети и дообучить ее на своих корпоративных документах, чтобы она лучше понимала специфику вашего бизнеса.
Chain-of-thought (цепочка мыслей) — режим, когда модель не просто выдает ответ, а показывает пошаговый процесс рассуждений. Полезно для сложных задач, где важно понять логику решения.
А теперь поговорим про сами нейронки.
Ссылка: https://ollama.com/search?q=deepseek
Стоимость: бесплатно
Deepseek — китайская большая языковая модель (LLM), которая работает в формате чат-бота. Умеет генерировать текст, писать код, анализировать данные и выполнять сложные вычисления. Одна из самых мощных локальных нейросетей на текущий момент.
Доступны разные версии модели с различным количеством параметров: от компактной 1.5B до огромной 671B.
Актуальная версия — DeepSeek V3.1. Это гибридная модель на 671 миллиард параметров (из них активируются 37 миллиардов для каждого запроса). Главная фишка — два режима работы:
По производительности V3.1 сравнима с GPT-4o и Claude-3.5-Sonnet на большинстве бенчмарков, при этом требует вдвое меньше активных параметров, чем многие конкуренты.
Системные требования. Для DeepSeek V3 нужен кластер из нескольких мощных GPU с суммарным объемом памяти от 80 ГБ VRAM. Для домашнего использования лучше выбрать более компактные версии (например, 1.5B-7B), которые запустятся на обычной видеокарте с 16+ ГБ RAM.
Ссылка: https://www.llama.com/
Стоимость: бесплатно
Llama 4 — семейство языковых моделей от Meta с поддержкой изображений, видео и текста. Это первая версия Llama с архитектурой Mixture of Experts (MoE), которая делает модель одновременно мощной и экономичной — активируется только 17 миллиардов параметров, хотя всего их намного больше.
Сейчас доступны две модели, и у каждой своя специализация:
Llama 4 Scout — модель на 109 миллиардов параметров (активных 17B) с 16 экспертами. Главная фишка — рекордный контекст в 10 миллионов токенов. Это самое большое окно контекста среди всех публично доступных моделей. Scout идеально подходит для анализа огромных документов, работы с большими кодовыми базами и задач, где нужна долгая память диалога.
Llama 4 Maverick — модель на 400 миллиардов параметров (активных 17B) со 128 экспертами. Maverick хорошо справляется с мультимодальными задачами — может одновременно работать с текстом, изображениями и видео. Контекстное окно — 1 миллион токенов.
Обе модели отлично показывают себя в кодинге, математике и понимании изображений.
Системные требования:
Ссылка: https://ollama.com/library/gpt-oss
Стоимость: бесплатно
gpt-oss — первое семейство моделей с открытым исходным кодом от OpenAI. Модели заточены под рассуждения, работу с инструментами и агентские задачи.
Доступны две версии:
gpt-oss-20b — компактная модель на 20 миллиардов параметров (активных 3.6B). Работает даже на слабом железе — нужно всего 16 ГБ памяти. Отлично подходит для локального запуска и быстрых экспериментов.
gpt-oss-120b — большая модель на 120 миллиардов параметров. По производительности почти дотягивает до o4-mini на задачах рассуждений, при этом умещается на одной видеокарте с 80 ГБ памяти.
Модели могут выполнять код на Python, искать в интернете и анализировать информацию.
Также в моделях можно настраивать уровень рассуждений (low, medium, high) в зависимости от задачи. И проверять весь цикл мыслей, чтобы понять, как модель думает.
Системные требования:
Qwen — мощная китайская нейросеть от Alibaba для генерации текстов, изображений, коротких видео и кода. По производительности соревнуется с DeepSeek-R1, ChatGPT o3-mini и Gemini 2.5 Pro.
Для установки доступны две MoE-модели с 235 миллиардами параметров (активируется 22 миллиарда):
Qwen3-235B-A22B — универсальная модель с уникальной фишкой: умеет переключаться между двумя режимами работы прямо в процессе диалога. Добавляете /think в промпт — модель включает режим размышлений и показывает весь процесс рассуждений. Пишете /no_think — переключается на быстрые ответы для обычных разговоров.
Qwen3-235B-A22B-Thinking-2507 — специализированная модель, которая работает только в thinking mode. В отличие от универсальной версии, ее нельзя переключить в быстрый режим — она всегда показывает пошаговый процесс размышлений. Подходит для сложных задач, где нужно отслеживать логику: математика, написание кода, научный анализ, решение комплексных проблем. По бенчмаркам обгоняет многие более крупные модели.
Системные требования. Обе версии требуют серьезного железа — от 96 ГБ RAM и от 8 ГБ VRAM. Это модели скорее для серверов или мощных рабочих станций, чем для домашнего ПК.
Ссылка: https://stability.ai/news/introducing-stable-diffusion-3-5
Стоимость: бесплатно
Stable Diffusion 3.5 — модель для генерации изображений по текстовому запросу от Stability AI. Генерирует качественные картинки с высокой точностью соблюдения промпта. Особенно хорошо справляется со сложными запросами, которые не тянут другие модели.
Семейство Stable Diffusion 3.5 включает три модели на выбор:
Stable Diffusion 3.5 Large — самая мощная модель с 8.1 миллиарда параметров. Хорошо соблюдает промпт и прорабатывает на картинках мельчайшие детали.
Stable Diffusion 3.5 Large Turbo — ускоренная версия Large. При этом за счет внутренних настроек качество генерации почти не страдает.
Stable Diffusion 3.5 Medium — модель с 2.5 миллиардами параметров, которая хорошо работает на более слабых ПК.
Все версии работают с текстом на изображениях, понимают сложные промпты и могут генерировать любые стили — от фотореализма до абстракции. Модели также можно кастомизировать под свои нужды через fine-tuning.
Системные требования:
Если у вас нет мощной видеокарты или просто не хочется заморачиваться с настройкой тяжелых моделей — есть отличные компактные варианты. Они не дотягивают до уровня GPT или Claude, но хорошо подходят для повседневных задач вроде общения в чате, суммаризации текстов, объяснения концепций, черновых набросков кода. И главное — запускаются даже на ноутбуке.
Phi-4. Компактная модель от Microsoft на 14 миллиардов параметров. Несмотря на размер, хорошо справляется с математикой и программированием. Phi-4 работает быстро и требует всего 8 ГБ RAM.
Gemma 2 (Google). Семейство моделей от Google в диапазоне от 2 до 27 миллиардов параметров. Gemma 2 обучалась на тех же данных, что и большая Gemini, поэтому выдает неплохое качество при скромных требованиях. Версия на 9B параметров работает на обычной видеокарте с 8 ГБ VRAM и справляется с большинством текстовых задач.
LLaMA 3.1 (Meta). Предыдущее поколение от Meta, но все еще актуальное. Доступны версии от 8B до 70B параметров. Модель на 8B отлично работает локально и справляется с базовыми задачами — ответы на вопросы, написание текстов, простой код. Можно использовать для анализа длинных документов.
Qwen 2.5. Младшие братья Qwen 3 — модели от 0.5B до 14B параметров. Версия Qwen 2.5 на 7B параметров запустится практически на любом железе и при этом неплохо справляется с текстовыми задачами.
Системные требования для всех: от 8 ГБ RAM (для самых маленьких версий) до 16 ГБ RAM (для версий на 14-27B параметров). Видеокарта желательна, но необязательна — многие работают и на CPU, просто медленнее.
Где скачать. Все модели доступны через Ollama, LM Studio или напрямую с Hugging Face. Установка занимает пару минут, и можно сразу начинать работать.
Надеемся, что наша подборка помогла вам сориентироваться в мире нейросетей. Перед установкой обязательно учитывайте системные требования модели.
Читайте только в Конверте
Искренние письма о работе и жизни, эксклюзивные кейсы и интервью с экспертами диджитала.
Проверяйте почту — письмо придет в течение 5 минут (обычно мгновенно)