Возможности Amazon Comprehend
Уведомление о прекращении поддержки
Функции тематического моделирования Amazon Comprehend, обнаружения событий и быстрой классификации безопасности больше не будут доступны новым клиентам с 30 апреля 2026 года. Если вы хотите использовать эти функции с новыми учетными записями, это необходимо сделать до указанной даты. Для учетных записей, в которых использовались эти функции в течение последних 12 месяцев, никаких действий не требуется – доступ к этим учетным записям сохранится. Узнайте об альтернативах увольнения и этапах миграции здесь. Примечание. Это не влияет на доступность других функций Amazon Comprehend.
Какие преимущества дает Amazon Comprehend?
Распознавание пользовательских сущностей
Распознавание пользовательских сущностей позволяет настроить Amazon Comprehend для выявления терминов, относящихся к вашему домену. Сервис Amazon Comprehend, используя AutoML, будет обучаться на небольших наборах примеров (таких как список номеров политик, номера заявок или SSN), а после тренировать частную пользовательскую модель распознавания терминов наподобие номеров заявок в любом другом блоке текста в PDF, простых текстовых файлах или документах Microsoft Word без необходимости машинного обучения. Подробнее см. на странице документации.
Пример. В этом примере страховой компании нужно проанализировать текстовые документы на наличие актуальных для их деятельности сущностей и номеров политик.
Пример текста. Здравствуйте! Меня зовут Сэм Форд, и мне нужно подать заявление на страховое возмещение после ДТП. Номер моего полиса – 456-YQT.
Пример
|
Сущность
|
Категория
|
Количество
|
Уверенность
|
|---|---|---|---|
|
456-YQT
|
Policy_ID |
1 |
0,95 |
Пользовательская классификация
API пользовательской классификации позволяет без труда создавать пользовательские модели классификации текста с помощью специфических для компании меток. При этом изучать технологии машинного обучения не требуется. Например, компания по поддержке клиентов может использовать для автоматического распределения входящих запросов по типу проблемы пользовательскую классификацию, которая основывается на описании проблемы клиентами. С помощью пользовательской модели можно без труда модерировать комментарии на веб‑сайте, анализировать отзывы клиентов и систематизировать документы рабочей группы. Подробнее см. на странице документации.
Пример. Допустим, вы хотите упорядочить в авиакомпании обратную связь от клиентов службы поддержки. Все отзывы нужно распределить по разделам: вопросы по оплате, возврат стоимости билетов и претензии по авиарейсам. Чтобы обучить сервис, создайте файл в формате CSV, содержащий примеры текста по каждому разделу, и пометьте каждый пример одной из трех применимых меток. Сервис автоматически обучит пользовательскую модель от вашего имени. Чтобы использовать полученную модель для анализа всех обращений за следующий день, нужно отправить каждый текстовый файл в сервис и получить помеченные результаты с присвоенными им показателями степени уверенности.
Пример
|
Текст
|
Метка
|
Степень уверенности
|
|---|---|---|
|
Строка 0
|
Вопрос по оплате |
0,92 |
|
Строка 1
|
Возврат стоимости билетов |
1 |
|
Строка 2
|
Претензии по рейсам |
1 |
|
Строка 3
|
Претензии по рейсам |
0,91 |
|
Doc5.csv
|
Возврат стоимости билетов |
1 |
Распознавание сущностей
API распознавания сущностей возвращает именованные сущности («Люди», «Места», «Местоположения» и т. д.), которые автоматически группируются по категориям на основании предоставленного текста. Подробнее см. на странице документации.
Пример. В этом примере мы видим описание компании. API выделяет такие сущности, как организация, дата, местоположение, и возвращает уровень уверенности.
Пример текста. Компания Amazon.com, Inc., основанная 5 июля 1994 г. Джеффом Безосом, расположена в г. Сиэтл, штат Вашингтон. Она обеспечивает клиентам возможность покупать любые товары, от книг до блендеров. Сиэтл расположен к северу от Портленда и к югу от Ванкувера, Британская Колумбия. В Сиэтле также расположены такие известные компании, как Starbucks и Boeing.
Пример
|
Сущность
|
Категория
|
Уверенность
|
|---|---|---|
|
Amazon.com, Inc.
|
Организация |
0,96 |
|
Сиэтл, Вашингтон
|
География |
0,96 |
|
5 июля 1994 г.
|
0,99 |
|
|
Джефф Безос
|
Человек |
0,99 |
|
Сиэтл
|
География |
0,98 |
|
Портленд
|
География |
0,99 |
|
Ванкувер, Британская Колумбия
|
География |
0,97 |
|
Starbucks
|
Организация |
0,91 |
|
Boeing
|
Организация |
0,99 |
Анализ тональности текста
API анализа тональности текста возвращает общий эмоциональный тон текста (положительный, отрицательный, нейтральный или смешанный). Подробнее см. на странице документации.
Пример. В этом примере клиент оставляет отзыв о паре ботинок. API определяет эмоции, выражаемые клиентом, и предоставляет уровень уверенности.
Пример текста. Я заказал размер S и ожидал, что обувь идеально подойдет к ноге. Но размер оказался скорее между M и L. Качество превосходное. Оттенок коричневого чуть светлее, чем на картинке, но довольно похожий. Модель была бы гораздо лучше, если бы внутри сделали хлопчатобумажную или шерстяную отделку.
Пример
|
Тон
|
Оценка
|
|---|---|
|
Смешанный
|
0,89 |
|
Положительные
|
0,09 |
|
Отрицательные
|
0,01 |
|
Нейтральные
|
0,00 |
Targeted Sentiment
Конфигурация Targeted Sentiment позволяет получить более подробную информацию об эмоциональном состоянии, определяя настроение (положительное, отрицательное, нейтральное или смешанное) по отношению к объектам в тексте. Подробнее см. на странице документации.
Пример. В этом примере сотрудники ресторана изучают отзыв клиента, чтобы понять, как можно улучшить свой бизнес.
Образец текста. Мне понравился бургер, но обслуживание было медленным.
Пример
|
Текст
|
Тип объекта
|
Оценка уверенности объекта
|
Тон
|
Оценка
|
|---|---|---|---|---|
|
I
|
Человек |
0,99 |
Нейтральные |
0,99 |
|
Бургер
|
Прочее |
0,99 |
Положительное |
0,99 |
|
Обслуживание
|
Атрибут |
0,99 |
Отрицательные |
0,99 |
Идентификация и редактирование персональных данных
С помощью возможностей машинного обучения Amazon Comprehend находите и редактируйте информацию, позволяющую установить личность (PII), в электронных письмах клиентов, обращениях в службу поддержки, отзывах на продукты, социальных сетях и других источниках. Опыт машинного обучения не требуется. Например, можно проанализировать обращения в службу поддержки и информационные статьи, обнаружить сущности персональной информации и отредактировать текст перед индексацией документов в поисковом решении. После этого документы, с которыми работают поисковые решения, свободны от персональной информации. Благодаря редактированию сущностей персональной информации можно обеспечить конфиденциальность и соблюдать требования местных законов и нормативных актов. Подробнее см. на странице документации.
Пример. В этом примере клиент хочет отредактировать личные и финансовые данные из банковской выписки. API редактирования PII находит и редактирует персональную информацию, обеспечивая соответствующий уровень уверенности.
Образец текста. Добрый день, Джон Смит! Минимальный платеж в размере 24,53 доллара США по кредитной карте AnyCompany Financial Services, LLC (номер карты 1111-0000-1111-0008) должен быть выплачен не позднее 31 июля. В соответствии с вашими настройками автоматической оплаты платеж спишется с банковского счета номер XXXXXX1111 с кодом банка XXXXX0000 в установленный срок.
Пример
|
Сущность
|
Тип
|
Оценка
|
|---|---|---|
|
Джон Смит
|
Имя |
Более 0,99 |
|
1111-0000-111-0008
|
Номер кредитной или дебетовой карты |
Более 0,99 |
|
31 июля
|
Дата и время |
Более 0,99 |
|
XXXXXX111
|
Номер банковского счета |
Более 0,99 |
|
XXXXX0000
|
Код банка |
Более 0,99 |
Обнаружение токсичности
Обнаружение токсичности в Comprehend представляет собой простое решение на основе обработки естественного языка (NLP) для обнаружения злобного содержимого в текстовых документах. Это встроенная возможность для модерации однорангового общения на онлайн-платформах, а также для генерирования входных и выходных данных искусственного интеллекта. Подробнее см. на странице документации.
Классификация текстовых запросов по уровню безопасности
Сервис Amazon Comprehend предоставляет предварительно обученный двоичный классификатор, который может классифицировать входной текстовый запрос как вредный или нет. Его интеграция позволит LLM реагировать только на безвредный контент. Подробнее см. на странице документации.
Извлечение ключевых фраз
API для извлечения ключевых фраз возвращает ключевые фразы или основные тезисы, а также уровень уверенности для каждой ключевой фразы. Подробнее см. на странице документации.
Пример. В этом примере клиент сравнивает цифровой зеркальный фотоаппарат с фотоаппаратом моментальной печати. API извлекает ключевые фразы и возвращает уровень уверенности в результатах.
Пример текста. Я заядлый фотограф и обычно фотографирую зеркальным цифровым фотоаппаратом или фотоаппаратом моментальной печати, который ношу с собой и регулярно использую. Хотя качество и удобство цифрового фотоаппарата не вызывают сомнений, в фотоаппарате моментальной печати есть что-то волшебное. Возможно, дело в том, что вы снимаете на настоящую пленку. Или в том, что каждый снимок – это уникальный осязаемый предмет (особенное ощущение в современном мире Instagram и Facebook, где цифровые фотографии плодятся как грибы после дождя). Точно могу сказать: эта камера всегда вызывает неподдельную радость. Стоит достать ее на вечеринке – и у людей глаза загораются.
Пример
|
Ключевая фраза
|
Уверенность
|
|---|---|
|
заядлый фотограф
|
0,99 |
|
цифровой фотоаппарат
|
0,97 |
|
фотоаппарат моментальной печати
|
0,99 |
|
регулярно использую
|
0,99 |
|
качество и удобство
|
0,94 |
|
настоящая пленка
|
0,99 |
|
каждый снимок
|
0,92 |
|
уникальный осязаемый предмет
|
0,99 |
|
современный
|
0,91 |
|
мир
|
0,99 |
|
Instagram и Facebook
|
0,99 |
Обнаружение событий
Конфигурация Comprehend Events позволяет извлекать структуру событий из документа. Страницы текста делятся на легко обрабатываемые данные, которые могут использовать ваши приложения искусственного интеллекта или инструменты графовой визуализации. Этот API помогает ответить на вопросы «кто,что, когда, где» для больших наборов документов в любом масштабе и без предварительного опыта работы с NLP. Используйте Comprehend Events, чтобы извлекать подробные сведения о реальных событиях и связанных с ними сущностях, изложенных в неструктурированном тексте. Подробнее см. на странице документации.
Определение языка
API определения языка автоматически обнаруживает текст, написанный более чем на 100 языках, и возвращает основной язык и уровень уверенности в том, что этот язык является основным. Подробнее см. на странице документации.
Пример. В этом примере API анализирует текст и определяет, что основной язык текста – итальянский, а также возвращает уровень уверенности.
Пример текста. Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
Пример
|
Код языка по ISO-639-1
|
Язык
|
Уверенность
|
|---|---|---|
|
it
|
Итальянский |
1,0 |
Синтаксический анализ
Syntax API в Amazon Comprehend позволяет клиентам анализировать текст с использованием токенизации и частей речи (PoS), чтобы определять границы слов и метки, например имена существительные и прилагательные в тексте. Подробнее см. на странице документации.
Пример. В этом примере мы будем анализировать короткий документ, используя Syntax API сервиса Comprehend. Syntax API токенизирует текст (определяет границы слов) и помечает каждое слово в соответствии с частью речи, к которой оно относится, например как существительное или глагол. Кроме пометки начала и конца смещения (для понимания местоположения слова в тексте) мы также предоставляем оценку уверенности.
Пример текста. I love my fast, new Kindle Fire!
Пример
|
Текст
|
Тег
|
|---|---|
|
I
|
Местоимение |
|
Love
|
Глагол |
|
My
|
Местоимение |
|
Fast
|
Прилагательное |
|
,
|
Пунктуация |
|
New
|
Прилагательное |
|
Kindle
|
Имя собственное |
|
Fire
|
Имя собственное |
|
!
|
Пунктуация |
Тематическое моделирование
API моделирования тем обнаруживает актуальные термины или темы в массиве документов, хранящихся в Amazon S3. Этот API определяет наиболее распространенные темы в массиве и организовывает их по группам, после чего связывает каждый документ с соответствующей темой. Подробнее см. на странице документации.
Пример. Если документы (Doc1.txt, Doc2.txt, Doc3.txt и Doc4.txt) хранятся в Amazon S3 и вы передаете их местоположение в Amazon Comprehend, сервис Comprehend проанализирует документы и вернет два результата.
1. Группы ключевых слов, которые являются темами
Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.
Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.
Пример 1
|
Группа тем
|
Ключевые слова
|
Вес
|
|---|---|---|
|
1
|
Amazon |
0,87 |
|
1
|
Сиэтл |
0,65 |
|
2
|
Праздники |
0,78 |
|
2
|
Покупки |
0,67 |
2. Распределение документов по темам
Каждый документ связывается с группой тем на основании пропорции взвешенных ключевых слов из группы тем, присутствующих в документе.
Пример
|
Название документа
|
Группа тем
|
Пропорция
|
|---|---|---|
|
Doc1.txt
|
1 |
0,87 |
|
Doc2.txt
|
0,65 |
|
|
Doc3.txt
|
0,78 |
|
|
Doc4.txt
|
2 |
0,67 |
Поддержка различных языков
Amazon Comprehend может анализировать текст на немецком, английском, испанском, итальянском, португальском, французском, японском, корейском, арабском, китайском (упрощенном) и китайском (традиционном) языках, а также на языке хинди. Чтобы создавать приложения на других языках, пользователи могут воспользоваться сервисом Amazon Translate для перевода текста на язык, поддерживаемый Amazon Comprehend, а затем применить Amazon Comprehend для анализа этого текста. Подробнее о поддерживаемых языках см. на странице документации.