Разборы

Как проверить, что текст сгенерирован нейросетью

И почему сгенерированный контент — это плохо
Как проверить текст на нейросеть

В 2024 году в Google сказали, что будут занижать в поисковой выдаче сайты со сгенерированным контентом. Но что делать, если вы не пишете тексты сами, а заказываете у авторов и знаете: написан текст с нуля или сгенерирован с нейросетью. Разобрались, как самостоятельно и с помощью специальных сервисов проверить, что текст сгенерирован нейросетью. Спойлер — сервисы не умеют вычислять нейросетевые тексты, если они генерировались по хорошему промпту.

Почему нельзя публиковать контент, сгенерированный нейросетями

С 2024 года в Google будут бороться с массовой генерацией контента, которую используют для повышения рейтинга сайта. Создание контента нейросетями входит в число способов, которые используют для массовой генерации контента. 

Санкции за использование ИИ будут жесткими — дезиндексация или пессимизация. По данным Nishe Site Metrics, 1,7% сайтов их базы уже были деиндексированы. А согласно исследованию Originality, которые проверяли деиндексированные сайты, 100% ресурсов содержали признаки использования ИИ для генерации контента.

В случае с пессимизацией, страницы просто опустятся на N-ю страницу результатов выдачи. Но эффект тоже будет негативным — отсутствие посетителей, конверсий, дохода с рекламы и т.д.

Возможно, блокировать сайт с ИИ-контентом начнут и в Яндексе. Потому что главная проблема большинства сгенерированных материалов — они не несут пользы. Их создают только для того, чтобы захватить как можно больше популярных поисковых запросов, искусственно увеличить количество контента на сайте и за счёт этого выйти в топ поисковой выдачи.

Как самостоятельно проверить, что текст не сгенерирован нейросетью

Нейросети обучились на множестве текстов, поэтому отличить их тексты от человеческих становится труднее. 

Но некоторые пользователи пользуются только бесплатными нейросетями, качество ответов у которых низкое. Кроме того, не все пользователи прописывают подробные и рабочие промпты. Поэтому посредственных генераций много. И их можно вычислить.

В плохих генерациях много воды и общих фраз. Если генерировать тексты по простым промптам вроде «напиши текст о том, как нейросети помогают копирайтерам», то нейросеть напишет поверхностный, короткий и неинтересный текст.

В нём не будет конкретики, деталей и примеров. Зато будет много вводных слов, причастий, деепричастий и отглагольных существительных. Часто вместо аббревиатур будут использоваться полные наименования. 

Причина в том, что нейросеть не может додумать задание за пользователя. Она может выполнять только конкретный запрос. Чем хуже промпт — тем хуже ответ. 

Если пользователь работает в бесплатной нейросети вроде ChatGPT-3.5, то без долгой редактуры хороший текст он вряд ли получит. Все потому, что такие нейросети хуже понимают запросы и обрабатывают их.

Текст, который ChatGPT сгенерировал по запросу «как нейросети помогают копирайтерам»
Текст, который ChatGPT сгенерировал по запросу «как нейросети помогают копирайтерам»

В этом тексте много проблем: все новые строки начинаются с отглагольных существительных и заканчиваются двоеточием. Это главный признак того, что текст сгенерирован нейросетью. Обычно копирайтеры начинают предложениях в списках начинают с глаголов, существительных или прилагательных и ставят после них точку. 

Вторая проблема — в тексте много деепричастий. Обычные авторы их тоже используют, но не так часто, как нейросети.

И последнее — в предложениях нет согласования. Нейросеть написала: «текст для различных платформ — социальные сети…». Хотя правильно писать «текст для различных платформ — социальных сетей…». Других ошибок на скриншоте нет. Но и текст небольшой, нейросеть не успела ошибиться еще раз.

Подобная стилистика и ошибки бывают и у авторов. Но если в одном тексте вы видите несколько признаков нейронки: отглагольные существительные в начале списка, двоеточия, причастия, деепричастия и несогласование словосочетаний или частей предложений — поговорите с автором. Вдруг он сам признается, что генерировал текст с нейронкой.

Чтобы ответы нейросети были качественными, а тексты были разнообразными и интересными, нужно придумывать подробные промпты. Например, вот, какой промпт при работе с текстами использую я:

Промпт, который я использую

<ИНСТРУКЦИЯ>

Твоя задача — написать полноценную информационную статью [тема статьи], используя предоставленную структуру текста, шаблон и стиль письма.

Запомни несколько важных фактов о миссии, которой ты придерживаешься во время генерации текстов:

Ты не информируешь читателя, а помогаешь ему разобраться.

Помочь разобраться — значит сформировать целостный образ предмета, его взаимосвязей, причин и логики.

Чтобы человек смог разобраться, он должен увидеть в головке картинку вроде фильма.

Слова — это то, чем ты и формируешь фильм.

</ИНСТРУКЦИЯ>

<ШАБЛОН>

[Сюда вставляем план вашей статьи и ничего больше.]

Других подзаголовков в тексте быть не должно. Пишешь только по этой структуре.

</ШАБЛОН>

<СТИЛЬ ПИСЬМА>

  1. Ты не пишешь вводный абзац.
  2. Используй разговорный тон, краткий язык и избегай сложного жаргона. Пример: «Привет, сегодня я расскажу, как писать…».
  3. Разбивай длинные предложения. Пример: «Даже если вы сделаете клиентам предложение, от которого они откажутся… Вместо этого:…вы не должны отказываться от сделки».
  4. Текст всегда отвечает на вопросы читателя. Ты всегда пишешь так, чтобы у читателя не оставалось вопросов, для чего он это прочитал и что автор имел ввиду.

Пример такого текста:

Ремонт и помощь на дороге. Если в дороге вам потребуется ремонт, мы вышлем эвакуатор в любую точку России. Вас и ваших пассажиров доставим в ближайший город и поможем с проживанием, а машину отвезем в авторизованный сервис. Когда машина будет готова, доставим ее к вам.

Бронирование и организация путешествий. Мы помогаем спланировать длинные путешествия с посещением множества городов и со сложными требованиями — например, если вам нужно особое питание, коляски и детские кроватки, кемпинг или экстремальный спорт. Мы спланируем перемещения, организуем трансфер, все забронируем и обо всём договоримся.

  1. Пиши простым языком. Так, чтобы тебя понял ученик 5 класса.
  2. Используй примеры и сравнения. Пример: «Создать email-курса с помощью ИИ проще, чем нанять копирайтера, дизайнера и продюсера». 
  3. Пиши максимально подробно. Разжевывай каждый пункт. Помни! Ты нейросеть и знаешь все. А твой читатель не знает ничего.

Каждый пункт —3-5 предложений. Одно предложение — до 10 слов. Пиши со смыслом.

Пиши по правилам русского языка 2024 года. И помни, что на дворе 2024 год: никто не пишет витиеватыми конструкциями и сложными словами вроде калейдоскоп, нагромождены и т. д. Все любят простоту.

  1. НЕ используй риторические вопросы. Пример: «Хорошая новость? Мой 3-этапный процесс может быть применен к любому бизнесу».
  2. НЕ используй эмодзи или хэштеги.
  3. НЕ используй слова вроде «овладейте, освойте или революционный».
  4. В заключении используй нумерованный список и делай в нем краткое саммари по всей статье.
  5. Пиши текст так, чтобы в нем не было вводных слов. Вместо них для связки предложений используй «Также», «Кроме того», «А еще», «Поэтому», «Все дело в том, что…», «Все потому, что».

</СТИЛЬ ПИСЬМА>

В итоге у меня получаются разнообразные тексты, которые остается чуть-чуть отредактировать. И по ним не скажешь, что их генерировала нейросеть.

Текст, который получилось написать по промпту выше — сразу тяжело понять, что он сгенерирован нейросетью
Текст, который получилось написать по промпту выше — сразу тяжело понять, что он сгенерирован нейросетью

В тексте часто повторяются одни и те же слова и фразы. Это еще одна проблема нейросетей. Причина тоже в промпте. Если в нем нет подробностей или автор не просит нейросеть быть креативной — она будет писать максимально простые тексты.

Большой текст, который написала нейросеть

В этом тексте часто повторяется только слово контент. И это нормально, в текстах копирайтеров такое тоже бывает. Зато сам текст выглядит однотипно, в нем используются похожие по конструкции предложения. Во всех блоках придаточные и подчиненные части идут друг за другом. В общем, отдельные подзаголовки сильно похожи между собой и не несут почти никакой ценности.

Еще одно доказательство, что нейросети часто повторяются, заметил пользователь в X (Twitter). Он рассказал, что с момента популяризации ChatGPT в медицинских статьях стали чаще встречаться слова «вникать», «покопаться» и другие похожие. Все потому, что люди задают нейросети некачественные запросы и не вычитывают результат. В итоге их тексты получаются однотипными, с частыми повторами одного и того же слова.

Рост популярности слова «вникать» после запуска ChatGPT
Рост популярности слова «вникать» после запуска ChatGPT. Источник

Поэтому вычитывайте статьи и проверяйте, как часто там повторяются отдельные слова.

Чтобы вручную вычислить нейросетевой текст, запомните:

  • Нейросети дают много много воды и общих фраз. Они любят использовать много причастий, деепричастий и отглагольных существительных.
  • Нейросети часто повторяют одни и те же слова, словосочетания или строят предложения по одному принципу.

В каких сервисах проверять текст на нейросеть

Если вручную вычитывать текст не хочется, можно проверить его в специальных сервисах. Они проанализируют материал и покажут вероятность того, что его сгенерировала нейросеть.

Crossplag

Ссылка: https://app.crossplag.com/individual/detector 

Помогает в проверках: может вычислить только плохо написанные тексты.

Стоимость. Условно-бесплатный сервис, в котором после регистрации дают 10 кредитов на проверку текстов. Но пока что сервисом можно пользоваться бесплатно — после проверок кредиты не снимаются, возможно, в будущем это починят.

Работает сервис просто: вставляете текст и кликаете «Check». Справа появляется результат: сгенерированный текст или нет.

Я загрузил в бота 2 текста: 1 сгенерировал сложным промптом, 2 — простым запросом «напиши статью…». Первый текст бот одобрил и сказал, что нейронка в их создании не участвовала.

проверка текста на нейросеть Crossplag

А второй текст сервис посчитал 100% сгенерированным. Не ошибся.

проверка текста на нейросеть Crossplag

GPTZero

Ссылка: https://gptzero.me/ 

Помогает в проверках: не видит сгенерированных текстов. Но все, что оценивает на 50% человечески и ниже — можно считать сгенерированным.

Стоимость. Бесплатно можно проверить статьи размером до 5000 символов. Если нужно проверять большие тексты, придётся оформлять подписку за $15 в месяц.

Сервис хуже справляется с анализом текстов, чем Crossplag. Чтобы проверить текст, нужно вставить его в поле для ввода и нажать «Scan». Справа появится результат. Также справа есть 3 переключателя: «Result», «Deep Scan», «Sources». На вкладке «Deep Scan» вы можете посмотреть, какие именно фрагменты текста сгенерированы нейросетью, а какие слова встречаются чаще остальных. На вкладке «Sources» вы увидите, с какими референсами совпадает ваш текст.

Вот результат проверки текста, который я сгенерировал по сложному промпту:

GPTZero проверка текста
GPTZero только считает, что мой текст написан человеком

Текст по простому промпту сервис посчитал на 59% человеческим.

GPTZero
Полностью сгенерированный текст GPTZero посчитал на 59% человеческим

Есть и другие сервисы для проверки текстов, но они с задачами не справляются и даже самые плохие тексты не считают сгенерированными. Поэтому их в подборку не брали.

Еще один вариант проверить текст — показать его нейросети и спросить ее мнение. Использовать можно простой запрос: «проанализируй этот текст и скажи: он сгенерирован нейросетью или нет».

Но и он работает не всегда. Например, один и тот же сгенерированный текст ChatGPT посчитал человеческим, а Claude (другая нейросеть) — сгенерированным. 

Ответ ChatGPT
Это ответ ChatGPT
Ответ Claude
Ответ Claude

Что в итоге

Если человек хотя бы чуть-чуть редактирует сгенерированный текст или использует правильные промпты, никто не поймет, что текст сделала нейросеть. 

Пока что сгенерированный контент проще всего проверять вручную. В нейросетевых текстах обычно:

  • много много воды и общих фраз — нейросети любят использовать много причастий, деепричастий и отглагольных существительных;
  • много повторов одних и тех же слов, словосочетаний или принципов построения предложений.

Если не хотите вычитывать текст вручную, его можно проверить в сервисах Crossplag и GPTZero. Но не факт, что они правильно определят сгенерированный контент.

Кстати, в школе Unisender есть онлайн-курс «AI & контент-маркетинг» для копирайтеров, SMM-специалистов, продюсеров и не только. Он помогает освоить необходимые скиллы, чтобы вместе с ИИ разрабатывать креативные контент-стратегии и рекламные кампании. Есть 100% кэшбэк на баланс в Unisender.

Как проверить, что текст сгенерирован нейросетью 15