Une introduction douce à la synthèse de texte
Le résumé de texte consiste à créer un résumé court, précis et fluide d'un document texte plus long.
Les méthodes de résumé automatique de texte sont indispensables pour répondre à la quantité toujours croissante de données textuelles disponibles en ligne, à la fois pour mieux aider à découvrir les informations pertinentes et pour les consommer plus rapidement.
Dans cet article, vous découvrirez le problème de la synthèse de texte dans le traitement du langage naturel.
Après avoir lu cet article, vous saurez :
- Pourquoi le résumé de texte est important, surtout compte tenu de la richesse du texte disponible sur Internet.
- Exemples de résumés de texte que vous pouvez rencontrer chaque jour.
- L'application et la promesse des méthodes d'apprentissage en profondeur pour la synthèse automatique de textes.
Démarrez votre projet avec mon nouveau livre Deep Learning for Natural Language Processing, comprenant des tutoriels pas à pas et les fichiers code source Python. pour tous les exemples.
Commençons.
Aperçu
Cet article est divisé en 5 parties ; ils sont:
- Résumé du texte
- Qu'est-ce que la synthèse automatique de texte ?
- Exemples de résumés de texte
- Comment résumer du texte
- Deep Learning pour la synthèse de texte
Résumé du texte
Il existe une quantité énorme de matériel textuel, et elle ne fait que croître chaque jour.
Pensez à Internet, composé de pages Web, d'articles de presse, de mises à jour de statut, de blogs et bien plus encore. Les données ne sont pas structurées et le mieux que nous puissions faire pour y naviguer est d'utiliser la recherche et de parcourir les résultats.
Il existe un grand besoin de réduire une grande partie de ces données textuelles à des résumés plus courts et ciblés qui capturent les détails saillants, à la fois afin que nous puissions y naviguer plus efficacement et vérifier si les documents plus volumineux contiennent les informations que nous recherchons.
Les informations textuelles sous forme de documents numériques s’accumulent rapidement pour former d’énormes quantités de données. La plupart de ce grand volume de documents n'est pas structuré : il n'est pas restreint et n'a pas été organisé en bases de données traditionnelles. Le traitement des documents est donc une tâche superficielle, principalement en raison du manque de normes.
— Page xix, Résumé automatique du texte, 2014.
Nous ne pouvons pas créer manuellement des résumés de tout le texte ; il existe un grand besoin de méthodes automatiques.
Dans leur livre de 2014 sur le sujet intitulé « Résumé automatique de texte », les auteurs fournissent 6 raisons pour lesquelles nous avons besoin d'outils de résumé automatique de texte.
- Les résumés réduisent le temps de lecture.
- Lors de la recherche de documents, les résumés facilitent le processus de sélection.
- Le résumé automatique améliore l'efficacité de l'indexation.
- Les algorithmes de résumé automatique sont moins biaisés que les résumés humains.
- Les résumés personnalisés sont utiles dans les systèmes de questions-réponses car ils fournissent des informations personnalisées.
- L'utilisation de systèmes de résumé automatiques ou semi-automatiques permet des services abstraits pour augmenter le nombre de textes qu'ils sont capables de traiter.
— Pages 4-5, Résumé automatique du texte, 2014.
Maintenant que nous savons que nous avons besoin de résumés automatiques de texte, définissons mieux ce que nous entendons par résumé de texte.
Qu'est-ce que la synthèse automatique de texte ?
Le résumé automatique de texte, ou simplement le résumé de texte, est le processus de création d'une version courte et cohérente d'un document plus long.
Le résumé de texte est le processus de distillation des informations les plus importantes à partir d'une ou plusieurs sources pour produire une version abrégée pour un ou plusieurs utilisateurs et une ou plusieurs tâches particuliers.
— Page 1, Avancées dans la synthèse automatique de texte, 1999.
Nous (les humains) sommes généralement bons dans ce type de tâche car cela implique d'abord de comprendre la signification du document source, puis d'en distiller la signification et de capturer les détails saillants dans la nouvelle description.
En tant que tel, l’objectif de la création automatique de résumés de texte est d’obtenir des résumés aussi bons que ceux rédigés par des humains.
L'idéal du travail de synthèse automatique est de développer des techniques grâce auxquelles une machine peut générer des résumés qui imitent avec succès les résumés générés par des êtres humains.
— Page 2, Techniques innovantes de synthèse de documents : révolutionner la compréhension des connaissances, 2014.
Il ne suffit pas de simplement générer des mots et des expressions qui capturent l’essentiel du document source. Le résumé doit être précis et doit être lu couramment en tant que nouveau document autonome.
La synthèse automatique du texte consiste à produire un résumé concis et fluide tout en préservant le contenu des informations clés et la signification globale.
— Techniques de résumé de texte : une brève enquête, 2017.
Rendons ensuite cette compréhension concrète avec quelques exemples.
Exemples de résumés de texte
Il existe de nombreuses raisons et utilisations pour un résumé d’un document plus volumineux.
Un exemple qui pourrait nous venir à l’esprit est celui de créer un résumé concis d’un long article d’actualité, mais il existe de nombreux autres cas de résumés textuels que nous pouvons rencontrer chaque jour.
Dans leur livre de 1999 sur le sujet intitulé « Advances in Automatic Text Summarization », les auteurs fournissent une liste utile d'exemples quotidiens de résumé de texte.
- gros titres (du monde entier)
- plans (notes pour les étudiants)
- procès-verbal (d'une réunion)
- avant-premières (de films)
- synopsis (listes de feuilletons)
- critiques (d'un livre, d'un CD, d'un film, etc.)
- résumés (guide TV)
- biographie (CV, nécrologies)
- abrégés (Shakespeare pour les enfants)
- bulletins (prévisions météo/rapports boursiers)
- extraits sonores (des politiciens sur une question d'actualité)
- histoires (chronologies des événements marquants)
— Page 1, Avancées dans la synthèse automatique de texte, 1999.
Il est clair que nous lisons et utilisons des résumés plus que nous ne le croyions au premier abord.
Comment résumer du texte
Il existe deux approches principales pour résumer des documents texte ; ils sont:
1. Méthodes extractives.
2. Méthodes abstractives.
Les différentes dimensions du résumé de texte peuvent généralement être classées en fonction de son type d'entrée (document unique ou multiple), de son objectif (générique, spécifique à un domaine ou basé sur une requête) et de son type de sortie (extractive ou abstractive).
— Une revue sur les approches de synthèse automatique de texte, 2016.
Le résumé de texte extractif implique la sélection d'expressions et de phrases du document source pour constituer le nouveau résumé. Les techniques consistent à classer la pertinence des phrases afin de choisir uniquement celles qui sont les plus pertinentes par rapport au sens de la source.
Le résumé abstrait de texte implique la génération d’expressions et de phrases entièrement nouvelles pour capturer le sens du document source. Il s’agit d’une approche plus difficile, mais c’est aussi l’approche finalement utilisée par les humains. Les méthodes classiques fonctionnent en sélectionnant et en compressant le contenu du document source.
… il existe deux approches différentes pour la synthèse automatique : l’extraction et l’abstraction. Les méthodes de synthèse extractive fonctionnent en identifiant les sections importantes du texte et en les générant textuellement ; […] Les méthodes de synthèse abstraite visent à produire du matériel important d'une nouvelle manière. En d’autres termes, ils interprètent et examinent le texte à l’aide de techniques avancées de langage naturel afin de générer un nouveau texte plus court qui transmet les informations les plus critiques du texte original.
— Techniques de résumé de texte : une brève enquête, 2017.
Classiquement, les méthodes de résumé de texte les plus efficaces sont extractives car il s’agit d’une approche plus simple, mais les approches abstraites laissent espérer des solutions plus générales au problème.
Apprentissage profond pour la synthèse de texte
Récemment, les méthodes d’apprentissage profond ont montré des résultats prometteurs pour la synthèse de textes.
Des approches ont été proposées, inspirées de l'application de méthodes d'apprentissage profond pour la traduction automatique automatique, en particulier en présentant le problème de la synthèse de texte comme un problème d'apprentissage séquence à séquence.
Le résumé abstrait de texte consiste à générer un titre ou un court résumé composé de quelques phrases qui capturent les idées saillantes d'un article ou d'un passage. […] Cette tâche peut également naturellement consister à mapper une séquence de mots d'entrée dans un document source à une séquence cible de mots appelée résumé.
— Résumation abstraite de texte à l'aide de RNN séquence à séquence et au-delà, 2016.
Ces approches d'apprentissage profond de la synthèse automatique de textes peuvent être considérées comme des méthodes abstraites et génèrent une toute nouvelle description en apprenant un modèle de génération de langage spécifique aux documents sources.
… le succès récent des modèles séquence à séquence, dans lesquels les réseaux neuronaux récurrents (RNN) lisent et génèrent librement du texte, a rendu la synthèse abstractive viable
— Allez droit au but : résumé avec les réseaux de générateurs de pointeurs, 2017.
Les résultats des méthodes d'apprentissage profond ne sont pas encore à la pointe de la technologie par rapport aux méthodes extractives, mais des résultats impressionnants ont été obtenus sur des problèmes limités tels que la génération de titres d'articles de presse qui rivalisent ou surpassent d'autres méthodes abstractives.
La promesse de cette approche est que les modèles peuvent être formés de bout en bout sans préparation de données spécialisée ni sous-modèles et que les modèles sont entièrement basés sur les données, sans préparation de vocabulaire spécialisé ni de documents sources prétraités par des experts.
… nous proposons une approche entièrement basée sur les données pour la synthèse de phrases abstraites. […] le modèle est structurellement simple, il peut facilement être entraîné de bout en bout et s'adapte à une grande quantité de données d'entraînement.
— Un modèle d'attention neuronale pour la synthèse de phrases abstraites, 2015
Lectures complémentaires
Cette section fournit plus de ressources sur le sujet si vous cherchez à approfondir.
Documents de synthèse de texte
- Une revue des approches de synthèse automatique de texte, 2016.
- Un document de synthèse sur la synthèse de texte, 2016.
- Techniques de résumé de texte : une brève enquête, 2017.
Documents de synthèse de texte d'apprentissage profond
- Un modèle d'attention neuronale pour la synthèse de phrases abstraites, 2015
- Résumé de texte abstrait à l'aide de RNN séquence à séquence et au-delà, 2016.
- Allez droit au but : résumé avec les réseaux de générateurs de pointeurs, 2017.
Livres
- Avancées dans la synthèse automatique de texte, 1999.
- Résumé automatique du texte, 2014.
- Techniques innovantes de synthèse de documents : révolutionner la compréhension des connaissances, 2014.
Articles
- Résumé automatique
- Résumé de texte avec TensorFlow, 2016
- Le Deep Learning a-t-il été appliqué à la synthèse automatique de texte (avec succès) ?
- Apprivoiser les réseaux de neurones récurrents pour une meilleure synthèse, 2017.
- Deep Learning pour la synthèse de texte
Résumé
Dans cet article, vous avez découvert le problème de la synthèse de texte dans le traitement du langage naturel.
Concrètement, vous avez appris :
- Pourquoi le résumé de texte est important, surtout compte tenu de la richesse du texte disponible sur Internet.
- Exemples de résumés de texte que vous pouvez rencontrer chaque jour.
- L'application et la promesse des méthodes d'apprentissage en profondeur pour la synthèse automatique de textes.
Avez-vous des questions ?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.