Passer au contenu principal

Fonctionnalités d’Amazon Comprehend

Avis de fin de prise en charge

Les fonctionnalités de modélisation de rubriques, de détection d’événements et de classification de la sécurité des invites d’Amazon Comprehend ne seront plus disponibles pour les nouveaux clients à compter du 30 avril 2026. Si vous souhaitez utiliser ces fonctionnalités avec de nouveaux comptes, veuillez le faire avant cette date. Aucune action n’est requise pour les comptes ayant utilisé ces fonctionnalités au cours des 12 derniers mois : ces comptes continueront d’y avoir accès. Découvrez les alternatives de désactivation et les étapes de migration ici. Remarque : cela n’a aucune incidence sur la disponibilité des autres fonctionnalités d’Amazon Comprehend.

Pourquoi choisir Amazon Comprehend ?

Amazon Comprehend est un service de traitement du langage naturel (NLP) qui utilise le machine learning (ML) pour identifier les informations d’un texte. Amazon Comprehend fournit des API de reconnaissance d’entités personnalisées, de classification personnalisée, d’extraction de phrases clés, d’analyse des sentiments, de reconnaissance d’entités et plus encore pour vous permettre d’intégrer facilement le NLP à vos applications. Vous devez simplement appeler les API d’Amazon Comprehend dans votre application, et leur fournir l’emplacement du document ou du texte source. Les API génèreront des entités, des expressions clés, des sentiments et des langues au format JSON, que vous pouvez utiliser dans votre application.

Reconnaissance d’entités personnalisées

La reconnaissance des entités personnalisée vous permet de personnaliser Amazon Comprehend afin d'identifier les termes spécifiques à votre domaine. Avec AutoML, Amazon Comprehend apprend à partir d’un petit ensemble d’exemples (par exemple, une liste de numéros de police, de numéros de réclamation ou SSN), puis formera un modèle personnalisé privé pour reconnaître ces termes, tels que les numéros de réclamation, dans tout autre bloc de texte au sein de PDF, de texte brut ou de documents Microsoft Word. Aucun ML n’est requis. Pour plus d’informations, consultez cette page de documentation

Exemple : dans cet exemple, une compagnie d’assurance souhaite analyser des documents texte pour rechercher des entités spécifiques à son activité : les numéros de polices

 

Exemple de texte : Bonjour, mon nom est Sam Ford et je voudrais faire une déclaration de sinistre suite à un accident de roulage. Mon numéro de police est 456-YQT.

Exemple

Entité
Catégorie
Nombre
Fiabilité
456-YQT

ID de police

1

0.95

Amazon Comprehend

Classification personnalisée

L'API de classification personnalisée vous permet de créer facilement des modèles de classification de texte personnalisés l'aide des étiquettes de votre entreprise, sans devoir apprendre de ML. Par exemple, votre service client peut utiliser une classification personnalisée pour classer automatiquement les demandes entrantes par type de problème en fonction de la façon dont le client a décrit le problème.  Avec votre modèle personnalisé, il est facile de modérer les commentaires de sites web, de trier les avis des clients et d’organiser les documents des groupes de travail. Pour plus d’informations, consultez cette page de documentation.

Exemple : Supposons que vous souhaitiez organiser les commentaires du support de votre une compagnie aérienne. Vous souhaitez organiser chaque commentaire dans les catégories Questions sur le compte, Remboursements de billets et de Réclamations relatives aux vols. Pour entraîner le service, vous devez créer un fichier CSV contenant un exemple de texte de chaque numéro, puis étiqueter chaque échantillon avec l'une des trois étiquettes qui s'applique. Le service entrainera automatiquement un modèle personnalisé pour vous. Pour utiliser votre modèle afin d’analyser tous les appels le lendemain, vous envoyez chaque fichier texte au service et recevez les résultats étiquetés avec une étiquette correspondante.

Exemple

Texte
Étiquette
Score de fiabilité
Ligne 0

Question sur le compte

0,92

Ligne 1

Remboursement de billets

1

Ligne 2

Plainte de vol d’avion

1

Ligne 3

Plainte de vol d’avion

0,91

Doc5.csv

Remboursement de billets

1

Reconnaissance des entités

L’API de reconnaissance des entités renvoie les entités nommées (« Personnes », « Lieux », « Endroits », etc.) qui sont automatiquement classées en fonction du texte fourni. Pour plus d’informations, consultez cette page de documentation.

Exemple : dans cet exemple, nous analysons la description d’une entreprise. L'API identifie des entités telles que l'organisation, la date, le lieu, et fournit un indice de fiabilité.

Modèle de texte : Amazon.com, Inc. se trouve à Seattle (État de Washington), et a été créée le 5 juillet 1994 par Jeff Bezos. Elle permet aux clients d'acheter tout ce qu'ils souhaitent, des livres aux mixeurs. Seattle se situe au nord de Portland et au sud de Vancouver (Colombie-Britannique). D’autres entreprises notables, Starbucks et Boeing, sont également basées à Seattle.

Exemple

Entité
Catégorie
Fiabilité
Amazon.com, Inc.

Organisation

0,96

Seattle, WA

Lieu

0,96

5 juillet 1994

0,99

Jeff Bezos

Personne

0,99

Seattle

Lieu

0,98

Portland

Lieu

0,99

Vancouver, Colombie-Britannique

Lieu

0,97

Starbucks

Organisation

0,91

Boeing

Organisation

0,99

Analyse des sentiments

L’API d’analyse des sentiments renvoie le sentiment général d’un texte (positif, négatif, neutre ou mixte). Pour plus d’informations, consultez cette page de documentation

Exemple : dans cet exemple, un client poste son commentaire sur une paire de chaussures. L'API identifie le sentiment exprimé par le client, et fournit également un indice de fiabilité.

Modèle de texte : j'avais commandé une paire taille Small, qui aurait dû m'aller parfaitement, mais la taille que j'ai reçue était plutôt du Medium/Large. Les chaussures sont d'excellente qualité. Leur brun est un peu plus clair que celui de la photo, mais la couleur reste très ressemblante. Elles seraient dix fois mieux si l’intérieur était doublé de coton ou de laine.

Exemple

Sentiment
Indice
Mitigé

0,89

Positif

0,09

Négatif

0,01

Sans opinion

0,00

Sentiment ciblé

Le sentiment ciblé fournit des informations plus granulaires sur les sentiments en identifiant le sentiment (positif, négatif, neutre ou mixte) à l’égard des entités dans le texte. Pour plus d’informations, consultez cette page de documentation.

Exemple : dans cet exemple, un restaurant examine une critique d’un client pour comprendre où il peut améliorer son activité.

Exemple de texte : J’ai adoré le burger, mais le service était lent.

Exemple

Texte
Type d’entité
Score de fiabilité de l’entité
Sentiment
Indice
J’

Personne

0,99

Sans opinion

0,99

Burger

Autre

0,99

Positif

0,99

Service

Attribut

0,99

Négatif

0,99

Rédaction et identification des PII

Utilisez les fonctionnalités de ML d'Amazon Comprehend pour détecter et rédiger des données d'identification personnelle (PII) dans les e-mails des clients, les tickets de support, les avis sur les produits, les réseaux sociaux et bien plus encore. Aucune expérience en ML n'est requise. Par exemple, vous pouvez analyser les tickets de support et les articles de bases de connaissances pour détecter les entités PII et rédiger le texte avant d'indexer les documents dans la solution de recherche. Ensuite, les solutions de recherche ne contiennent plus de PII dans les documents. La rédaction d’entités PII vous aide à protéger la confidentialité et à être conforme aux lois et réglementations locales. Pour plus d’informations, consultez cette page de documentation.

Exemple : dans cet exemple, un client souhaite rédiger des données financières personnelles provenant d’un relevé bancaire. L’API de rédaction de PII identifie et rédige des PII, et fournit un indice de fiabilité.

Exemple de texte : Bonjour, John Smith. La carte de crédit du compte 1111-0000-1111-0008 de votre entreprise AnyCompany Financial Services, LLC dispose d’un paiement minimum de 24,53 USD dû d’ici le 31 juillet. En fonction de vos paramètres de prélèvement automatique, nous déduirons votre paiement à la date d’échéance de votre compte bancaire numéro XXXXXX1111 ayant pour numéro de routage XXXXX0000.

Exemple

Entité
Type
Indice
John Smith

Nom

0,99+

1111-0000-111-0008

Numéro de carte de paiement

0,99+

31 juillet

Date et heure

0,99+

XXXXXX111

Numéro de compte bancaire

0,99+

XXXXX0000

Numéro de routage bancaire

0,99+

Détection de toxicité

La détection de toxicité Comprehend fournit une solution simple, basée sur la PNL, pour la détection du contenu toxique dans les documents textuels. La capacité est prête à l’emploi pour modérer les conversations entre pairs sur les plateformes en ligne et les entrées et sorties d’IA génératives. Pour plus d’informations, consultez cette page de documentation.

Classification de sécurité des invites

Comprehend fournit un classificateur binaire préformé qui peut classer l'invite de saisie comme nuisible ou non. Cela peut être intégré pour permettre aux LLM de ne répondre qu’à un contenu inoffensif. Pour plus d’informations, consultez cette page de documentation

Extraction de phrases clés

L’API d’extraction de phrases clés renvoie les phrases clés ou les points de discussion et un score de confiance pour confirmer qu’il s’agit d’une phrase clé. Pour plus d’informations, consultez cette page de documentation.

Exemple : dans cet exemple, un client compare son appareil photo reflex numérique à un appareil photo instantané. L’API extrait les expressions clés et renvoie un score de fiabilité sur les résultats.

Modèle de texte : Je suis passionné de photographie, et je me sers très souvent de mon appareil photo reflex numérique ou de mon appareil photo instantané, que j’emporte avec moi car j’en fais un usage occasionnel. Bien que la performance et la commodité de mon appareil photo reflex numérique soient inégalables, l’appareil photo instantané est pour moi synonyme de magie. Peut-être que c'est le fait de prendre des photos sur une véritable pellicule, ou de savoir que chaque cliché donne un objet physique unique (et c'est un phénomène spécial dans le monde d'aujourd'hui, où l'on trouve des photos à la pelle sur Instagram et Facebook). Ce dont je suis sûr, c’est que ces photos sont très amusantes à prendre, et que les yeux des gens s’illuminent quand vous sortez un appareil photo instantané lors d’une fête.

Exemple

Expressions clés
Fiabilité
passionné de photographie

0,99

mon appareil photo reflex numérique

0,97

mon appareil photo instantané

0,99

usage occasionnel

0,99

performance et commodité

0,94

véritable pellicule

0,99

chaque cliché

0,92

un artefact physique unique

0,99

aujourd'hui

0,91

monde

0,99

Instagram et Facebook

0,99

Détection des événements

Comprehend Events vous permet d'extraire la structure des événements d'un document, en distillant des pages de texte pour en faire des données faciles à traiter, destinées à être utilisées par vos applications d'IA ou vos outils de visualisation graphique. Cette API vous permet de répondre aux questions qui-quoi-quand-où sur de grands ensembles de documents, à grande échelle et sans expérience préalable en NLP. Utilisez Comprehend Events pour extraire des détails granulaires sur les événements du monde réel et les entités associées, exprimés sous forme de texte non structuré. Pour plus d’informations, consultez cette page de documentation

Détection de la langue

L’API de détection de langue identifie automatiquement le texte écrit dans plus de 100 langues et renvoie la langue dominante avec un score de confiance pour confirmer qu’une langue est dominante. Pour plus d’informations, consultez cette page de documentation.

Exemple : dans cet exemple, l’API analyse le texte et est en mesure d’identifier l’italien en tant que langue dominante. Elle fournit également un indice de fiabilité pour ce texte.

Modèle de texte : Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.

Exemple

Code ISO-639-1 pour la représentation des noms de langue
Langue
Fiabilité
it

Italien

1.0

Analyse syntaxique

L’API de syntaxe Amazon Comprehend permet aux clients d’analyser le texte à l’aide de la création de jeton et des parties du discours (PoS), et d’identifier les limites des mots et les libellés tels que les noms et les adjectifs dans le texte. Pour plus d’informations, consultez cette page de documentation.


Exemple : dans cet exemple, nous allons analyser un court document à l’aide de l’API Comprehend Syntax. Cette API syntaxique permet de définir les limites des mots (jetons) et d’étiqueter chaque mot avec la partie du discours qui lui est associée, par exemple, le nom et le verbe. En plus de noter le décalage du début et de fin (afin que vous sachiez où se trouve le mot dans le texte), nous fournissons également un score de confiance.

Exemple de texte : J’adore mon nouveau Kindle Fire, il est si rapide !

Exemple

Texte
Balise
J’

Pronom

adore

Verbe

mon

Pronom

Rapide

Adjectif

,

Ponctuation

Nouveau

Adjectif

Kindle

Nom propre

Fire

Nom propre

!

Ponctuation

Modélisation thématique

La modélisation de rubriques identifie des termes ou des sujets pertinents dans une collection de documents stockés sur Amazon S3. Elle identifie les rubriques les plus courantes de la collection et les classe par groupes avant de cartographier les documents appartenant à chaque sujet. Pour plus d’informations, consultez cette page de documentation.

Exemple : si vos documents (Doc1.txt, Doc2.txt, Doc3.txt et Doc4.txt) sont stockés sur Amazon S3, et si vous indiquez leur emplacement à Amazon Comprehend, le service va analyser les documents et en extraire deux vues :

1. Regroupement de mots clés qui constituent des rubriques

Chaque groupe de mots clés est associé à un groupe de rubriques. La pondération fait référence à la prévalence d'un mot clé au sein du groupe. Les mots clés qui possèdent le poids le plus proche de 1 sont ceux qui en révèlent le plus sur le contexte du groupe de rubriques.

Chaque groupe de mots clés est associé à un groupe de rubriques. La pondération fait référence à la prévalence d'un mot clé au sein du groupe. Les mots clés qui possèdent le poids le plus proche de 1 sont ceux qui en révèlent le plus sur le contexte du groupe de rubriques.

Exemple 1

Groupe de rubriques
Mots clés
Poids
1

Amazon

0,87

1

Seattle

0,65

2

Vacances

0,78

2

Shopping

0,67

2. Regroupement des documents par rubriques

Chaque document est associé à un groupe de rubriques en fonction de la proportion des mots clés pondérés du groupe de rubriques présents dans le document.

Exemple

Nom du document
Groupe de rubriques
Proportion
Doc1.txt

1

0,87

Doc2.txt

0,65

Doc3.txt

0,78

Doc4.txt

2

0,67

Support multilingue

Amazon Comprehend peut effectuer des analyses de texte en allemand, anglais, espagnol, italien, portugais, français, japonais, coréen, hindi, arabe, chinois (simplifié) et chinois (traditionnel). Pour créer des applications dans d’autres langues, les clients peuvent utiliser Amazon Translate pour traduire le texte dans une langue prise en charge par Amazon Comprehend, puis utiliser Amazon Comprehend pour analyser le texte. Pour plus de détails sur le support multilingue, veuillez consulter la page de documentation.