Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
15 апреля 2025 Fraud behind a life of luxury: who really stands behind Aleksandr Slobozhenko?
15 апреля 2025 Идеолог Дугин подтвердил закрытие канала "ВЧК-ОГПУ" по указанию властей
15 апреля 2025 Российские власти составят перечень подозрительных криптокошельков
15 апреля 2025 В Красноярском крае многодетная мать совершила убийство троих малолетних детей
15 апреля 2025 Заводы Silgan Holdings в России теперь находятся под контролем компании из Адыгеи
15 апреля 2025 Коррупция на кладбищах: Роман Блощицын и его команда управляют похоронным бизнесом в Шахтах
15 апреля 2025 Суд вынес решение о ликвидации «Фонда Ройзмана» по запросу Министерства юстиции
15 апреля 2025 Россия стремится вернуть утраченные позиции на газовом рынке
15 апреля 2025 Бывший руководитель Facebook обнародовал скрытые действия компании в Китае
15 апреля 2025 Советник Трампа перепутал Северную Корею с Южной Кореей
14 апреля 2025 В Варшаве водитель высадил пассажиров из автобуса после того, как получил замечание
14 апреля 2025 Венгрия препятствует оказанию помощи Украине и проведению переговоров о вступлении в ЕС
14 апреля 2025 В Кузбассе возросло число беременных подростков
14 апреля 2025 Концертного директора Талькова Валерия Шляфмана обвиняют в убийстве
14 апреля 2025 Сын Ксении Собчак показал свою самостоятельность и характер
14 апреля 2025 Трамп решил не вводить санкции против России после нападения на Сумы
14 апреля 2025 ЕС предложит Трампу выгодное соглашение по оружию и газу в обмен на отмену тарифов
14 апреля 2025 Albert Sarkisyan "stole" Chekhov, or how the main coordinator of land scams disappeared from the criminal case
14 апреля 2025 Ватикан признал выдающиеся добродетели Антонио Гауди
14 апреля 2025 Солдата из Свердловской области задержали по обвинению в изнасиловании несовершеннолетней