Перейти к главному контенту

Что такое дополнение данных?

Дополнение данных – это процесс искусственного генерирования новых данных на основе существующих, который используется преимущественно для обучения новых моделей машинного обучения. Для начального обучения моделей машинного обучения требуются большие и разнообразные наборы данных, которые часто непросто собрать воедино из-за их обособленности, нормативных требований и других ограничений. Дополнение данных позволяет искусственным образом увеличить набор данных, внося в исходные данные небольшие изменения. Решения на базе генеративного искусственного интеллекта активно применяются в разных отраслях для быстрого дополнения данных с сохранением их качества.

Подробнее о машинном обучении

Подробнее о генеративном искусственном интеллекте

Почему дополнение данных важно?

Модели глубокого обучения используют большие объемы разнообразных данных для получения точных прогнозов во многих контекстах. Дополнение данных позволяет создавать новые вариации данных, которые помогают повысить точность прогнозов обучаемой модели. Дополнение данных жизненно важна для обучения.

Вот лишь некоторые из преимуществ дополнения данных.

Улучшенная производительность модели

Методы дополнения данных помогают обогащать наборы данных, создавая множество новых вариантов на основе существующих данных. Это обеспечивает более широкий набор обучающих данных и позволяет модели более широко использовать разные признаки. Дополнение данных позволяет модели лучше обобщить результаты на новые данные, то есть повысить общую производительность в реальных условиях. 

Снижение зависимости от данных

Сбор и подготовка больших объемов данных для обучения часто требуют много сил и средств. Методы дополнения данных повышают эффективность ограниченных наборов данных, значительно снижая зависимость от наличия больших объемов информации для обучения. На основе даже небольших наборов данных можно получить новые синтетические точки данных.

Предотвращение чрезмерной адаптации по обучающим данных

Дополнение данных помогает избежать чрезмерной адаптации при обучении моделей машинного обучения. Чрезмерная адаптация – нежелательное поведение машинного обучения, когда модель может давать точные прогнозы для обучающих данных, но при этом испытывает трудности с новыми данными. Если модель работает только с узким набором данных, она может оказаться неподходящей, а ее прогнозы могут подходить только к одному конкретному типу данных. Дополнение данных позволяет получить гораздо более крупный и полный набор данных для обучения модели. Благодаря этой технологии обучающие наборы будут выглядеть уникальными для глубоких нейронных сетей, не позволяя им выделять слишком узкие характеристики. 

Подробнее о чрезмерной адаптации

Подробнее о нейронных сетях

Улучшенная конфиденциальность данных

Если вам нужно обучить модель глубокого обучения по конфиденциальным данным, вы можете использовать методы дополнения данных для создания синтетических данных. Такой набор данных сохранит все статистические свойства и веса входных данных, защищая при этом исходные данные и ограничивая доступ к ним.

Как на практике используется дополнение данных?

Дополнение данных имеет несколько важных применений в разных отраслях, позволяя повышать производительность моделей машинного обучения во многих секторах.

Здравоохранение

Дополнение данных – это полезная технология в медицинской визуализации, поскольку она помогает улучшить диагностические модели для выявления, распознавания и диагностики заболевания на основе изображений. Создание дополнительных изображений позволяет получить больше обучающих данных для моделей, что особенно важно для редких заболеваний, по которым в исходных данных мало вариативности. Производство и использование синтетических данных о пациентах помогает развивать медицинские исследования, не нарушая при этом требований к конфиденциальности данных. 

Финансы

Дополнение данных помогает создавать синтетические примеры мошенничества, чтобы более точно обучать модели для выявления мошеннических действий в реальных сценариях. Более крупные пулы обучающих данных помогают в сценариях оценки рисков, расширяют потенциал моделей глубокого обучения по оценке рисков и прогнозированию тенденций. 

Производство

В производстве модели машинного обучения используются для обнаружения визуальных дефектов в продуктах. Дополняя реальные данные, мы можем улучшить возможности модели по распознаванию изображений и выявлению потенциальных дефектов. Также эта стратегия снижает вероятность отправки поврежденных или дефектных проектов на фабрики и производственные линии.

Розничная торговля

В розничной торговле модели широко используются для идентификации продуктов и распределения их по категориям на основе визуальных факторов. Дополнение данных позволяет создавать синтетические вариации изображений продуктов, чтобы получить более разнообразный набор обучающих данных с разными условиями освещенности, фонами и ракурсами.

Как работает дополнение данных?

В процессе дополнения существующие данные преобразуются, редактируются или модифицируются для создания вариаций. Ниже приводится краткий обзор этого процесса.

Изучение набора данных

Первый этап дополнения данных заключается в анализе существующего набора данных для понимания его характеристик. Такие характеристики, как размер изображений, распределение данных или структура текста, предоставляют дополнительный контекст для дополнения. 

Вы можете выбрать разные методы дополнения данных в зависимости от типа исходных данных и желаемых результатов. Например, можно расширить набор изображений в несколько раз, добавляя к ним визуальный шум, масштабируя и обрезая исходные изображения. Также можно расширить набор текстовых данных для обработки естественного языка (NLP), заменяя слова синонимами или парафразируя отрывки. 

Подробнее об обработке естественного языка (NLP)

Дополнение существующих данных

Выбрав наиболее подходящий для вашей цели метод дополнения данных, вы начинаете применять преобразования. Точки данных или образцы изображений в наборе данных преобразуются с использованием выбранного метода дополнения, создавая ряд новых дополненных выборок. 

В процессе дополнения важно сохранять одни и те же правила маркировки, чтобы обеспечить согласованность данных и гарантировать, что синтетические данные содержат те же метки, что и исходные данные.

Обычно синтетические изображения стоит просматривать визуально, чтобы убедиться в успешности преобразования. Этот дополнительный шаг, выполняемый человеком, помогает поддерживать высокое качество данных. 

Интеграция форм данных

Следующим шагом вы объединяете новые синтетические данные с исходными, чтобы получить больший набор обучающих данных для модели машинного обучения. При обучении модели вы используете этот составной набор с данными обоих типов.

Важно отметить, что новые синтетические точки данных, полученные при дополнении данных, имеют такие же статистические характеристики, что и входные данные. Чтобы предотвратить перенос ошибок в новые данные, следует устранить их в исходных данных прежде, чем начинать процесс дополнения данных.

Какие существуют методы дополнения данных?

Методы дополнения данных будут разными в зависимости от типа данных и бизнес-контекста.

Машинное зрение

Дополнение данных является центральным звеном многих задач машинного зрения. Она помогает повысить разнообразие представления данных и устранить дисбаланс между классами в обучающем наборе данных. 

Первое очевидное применение дополнения для машинного зрения – это увеличение разнообразия положений. Эта стратегия изменяет обрезку, зеркально отражает или поворачивает исходное изображение для создания дополнительных изображений. Обрезка изменяет размер изображения или отбрасывает небольшую часть исходного изображения для создания нового. Поворот, отражение и изменение размера – такие действия случайным образом с заданной вероятностью изменяют оригинальные изображения, чтобы получить набор новых.

Еще одно применение дополнения в машинном зрении – корректировка цвета. Эта стратегия изменяет такие параметры обучающего изображения, как яркость, контрастность или насыщенность. Такие преобразования изображений изменяют оттенок, баланс и распределение теней и светлых участков изображения, и часто используются для создания дополненных изображений.

Подробнее о машинном зрении

Дополнение аудиоданных

Аудиофайлы, например с записью речи, также являются распространенной сферой применения дополнения данных. Преобразование аудио обычно выполняется путем добавления случайного или гауссовского шума в некоторые фрагменты аудио, отбрасывания некоторых фрагментов, изменения скорости на фиксированный множитель в разных частях файла или изменения высоты тона.

Дополнение текстовых данных

Дополнение текста является важным методом для увеличения объема данных в технологиях NLP и других методах машинного обучения, применяемых к текстам. К преобразованиям текстовых данных относится перемешивание предложений, изменение положения слов, замена слов близкими синонимами, вставка и удаление случайных слов.

Перенос нейронного стиля

Перенос нейронного стиля – это усовершенствованный вариант дополнения данных, который выполняется разбиением изображений на более мелкие части. Несколько сверточных слоев разделяют стиль и контекст изображения, создавая множество изображений из одного исходного. 

Состязательное обучение

Изменения на уровне пикселей создают проблемы для модели машинного обучения. Некоторые образцы содержат слой незаметного шума, наложенного на изображение, чтобы проверить способность модели воспринимать зашумленное изображение. Эта стратегия представляет собой превентивную форму дополнения данных, которая направлена на предотвращение потенциального несанкционированного доступа в реальном мире.

Как генеративный искусственный интеллект используется для дополнения данных?

Генеративный искусственный интеллект играет важную роль в дополнении данных, поскольку упрощает создание синтетических данных. Это помогает повышать разнообразие данных, упростить их подготовку и сохранить конфиденциальность. 

Генеративные состязательные сети

Генеративные состязательные сети (GAN) представляют собой структуру из двух нейронных сетей, которые соперничают друг с другом. Одна из них («генератор») создает образцы синтетических данных, а вторая («дискриминатор») пытается отличить реальные образцы от синтетических.

По такой схеме GAN постепенно улучшает возможности генератора, которому нужно научиться обманывать дискриминатор. Данные, которые дискриминатор не может распознать, считаются высококачественными синтетическими данными и используются для дополнения данных как высоконадежные выборки, точно имитирующие исходное распределение данных.

Вариационные автокодировщики

Вариационные автокодировщики (VAE) – это тип нейронных сетей, которые помогают увеличить размер выборки данных и снизить потребность в трудоемком сборе данных. VAE состоят из двух взаимосвязанных сетей: кодировщика и декодировщика. Кодировщик принимает на вход образцы изображений и переводит их в промежуточное представление. Декодировщик принимает на вход представление и воссоздает изображения, исходя из накопленного понимания исходных образцов. VAE полезны тем, что позволяют создавать данные, очень похожие на исходные, чтобы разнообразить выборки их при сохранении исходного распределения данных.

Как AWS может удовлетворить ваши требования к дополнению данных?

Генеративный искусственный интеллект от Amazon Web Services (AWS) – это набор технологий, на основе которых организации любого размера могут создавать и масштабировать приложения на базе генеративного искусственного интеллекта на основе настраиваемых данных, чтобы реализовать собственные примеры использования. Ускорьте внедрение инноваций благодаря новым возможностям, набору лучших в отрасли базовых моделей (FM) и самой экономичной инфраструктуре. Ниже приведены два примера сервисов AWS для работы с генеративным искусственным интеллектом.

Amazon Bedrock – это полностью управляемый сервис, который предлагает широкий выбор высокопроизводительных ведущих моделей от лидеров в отрасли искусственного интеллекта. Вы можете безопасно интегрировать и развертывать возможности на основе генеративного искусственного интеллекта, чтобы улучшать свои данные, не беспокоясь об управлении инфраструктурой.

Amazon Rekognition – это полностью управляемый сервис машинного обучения, который предлагает возможности предварительно обученного и настраиваемого машинного зрения для получения полезной информации из ваших изображений и видеозаписей. Разработка специальной модели для анализа изображений – это серьезное мероприятие, требующее много времени, опыта и ресурсов. Чтобы предоставить модели достаточно данных для точного принятия решений, зачастую нужно подготовить и вручную промаркировать несколько тысяч или десятков тысяч изображений. 

С помощью Amazon Rekognition для меток можно выполнять дополнение данных при обучении модели, включая случайную обрезку изображений, добавление цветового шума и случайных гауссовских шумов. Вы сможете обойтись без нескольких тысяч изображений, добавив лишь небольшой набор обучающих изображений (обычно несколько сотен или меньше), соответствующих вашему примеру использования, с помощью простой в применении консоли.

Создайте аккаунт и начните работу с дополнением данных на AWS уже сегодня.

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Загрузка
Загрузка
Загрузка
Загрузка
Загрузка

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages