По мере того как искусственный интеллект (ИИ) продолжает набирать популярность и революционизировать различные отрасли, исследователи высказывают опасения по поводу возможной нехватки обучающих данных. Обучающие данные необходимы для создания мощных систем ИИ и обеспечения точности и качества моделей ИИ, особенно больших языковых моделей. Без достаточного количества высококачественных данных развитие моделей ИИ может быть затруднено, что может изменить траекторию революции в области ИИ.
Важность высококачественных данных для ИИ
Для обучения точных и высокопроизводительных алгоритмов ИИ требуется значительный объем данных. Например, популярная языковая модель ChatGPT была обучена на 570 гигабайтах текстовых данных, что соответствует примерно 300 миллиардам слов. Аналогично, алгоритм стабильной диффузии, используемый в таких приложениях для создания изображений, как DALL-E, Lensa и Midjourney, был обучен на наборе данных LIAON-5B, состоящем из 5,8 млрд. пар «изображение-текст».
Недостаточное количество обучающих данных может привести к неточным или некачественным результатам работы моделей ИИ. Кроме того, качество обучающих данных имеет решающее значение. Хотя посты в социальных сетях и размытые фотографии являются легкодоступными источниками данных, они часто оказываются недостаточными для обучения высокоэффективных моделей ИИ. Такие данные могут быть необъективными, содержать дезинформацию или нелегальный контент, который может быть воспроизведен моделью ИИ. Попытка Microsoft обучить ИИ-бота, используя контент Twitter, привела к появлению расистских и женоненавистнических результатов.
Для создания надежных моделей ИИ разработчики ищут высококачественный контент в таких источниках, как книги, статьи в Интернете, научные работы, Википедия, а также определенный отфильтрованный веб-контент. Например, Google Assistant был обучен на 11 000 романтических романов с сайта Smashwords для улучшения его разговорных способностей.
Проблема нехватки данных
В то время как индустрия ИИ обучает системы искусственного интеллекта на все более крупных наборах данных, исследования показывают, что запасы данных в Интернете растут медленнее, чем наборы данных, используемые для обучения ИИ. В прошлом году группа исследователей опубликовала работу, в которой прогнозируется, что при сохранении нынешних тенденций обучения ИИ высококачественные текстовые данные могут быть исчерпаны до 2026 года. По их оценкам, низкокачественные языковые данные могут быть исчерпаны в период с 2030 по 2050 год, а низкокачественные изображения — в период с 2030 по 2060 год.
Потенциальные последствия исчерпания пригодных для использования данных весьма значительны, поскольку, по прогнозам PwC, к 2030 году ИИ внесет в мировую экономику до 15,7 трлн. долларов США (24,1 трлн. австралийских долларов). Нехватка обучающих данных может помешать развитию и прогрессу технологий ИИ.
Устранение риска нехватки данных
Хотя перспектива нехватки данных может вызывать опасения, существуют потенциальные решения и стратегии по снижению этого риска.
1. Повышение эффективности алгоритмов: Разработчики ИИ могут сосредоточиться на совершенствовании алгоритмов для более эффективного использования имеющихся данных. Оптимизация алгоритмов может позволить обучать высокопроизводительные системы ИИ, используя меньшее количество данных и вычислительных мощностей. Это не только решит проблему нехватки данных, но и будет способствовать снижению «углеродного следа» ИИ.
2. Генерация синтетических данных: Другим вариантом является использование самого ИИ для создания синтетических данных для обучающих систем. Разработчики могут создавать наборы данных, специально адаптированные к требованиям моделей ИИ. Генерация синтетических данных позволяет преодолеть ограничения, связанные с недостаточным количеством реальных данных, и обеспечить непрерывный приток обучающих данных.
Оригинал earth-chronicles.ru