Modèles d'apprentissage profond d'encodeur-décodeur pour la synthèse de texte
Le résumé de texte consiste à créer des résumés courts, précis et fluides à partir de documents texte plus volumineux.
Récemment, les méthodes d'apprentissage profond se sont révélées efficaces dans l'approche abstraite de la synthèse de texte.
Dans cet article, vous découvrirez trois modèles différents qui s'appuient sur l'architecture efficace Encoder-Decoder développée pour la prédiction séquence à séquence dans la traduction automatique.
Après avoir lu cet article, vous saurez :
- Le modèle Facebook AI Research qui utilise le modèle Encoder-Decoder avec un encodeur de réseau neuronal convolutif.
- Le modèle IBM Watson qui utilise le modèle Encoder-Decoder avec une attention de pointage et hiérarchique.
- Le modèle Stanford/Google qui utilise le modèle Encoder-Decoder avec pointage et couverture.
Démarrez votre projet avec mon nouveau livre Deep Learning for Natural Language Processing, comprenant des tutoriels pas à pas et les fichiers code source Python. pour tous les exemples.
Commençons.
Présentation des modèles
Nous examinerons trois modèles différents de résumé de texte, nommés d'après les organisations auxquelles les auteurs des modèles étaient affiliés au moment de la rédaction :
- Modèle Facebook
- Modèle IBM
- Modèle Google
Modèle Facebook
Cette approche a été décrite par Alexander Rush et al. de Facebook AI Research (FAIR) dans leur article de 2015 « A Neural Attention Model for Abstractive Sentence Summarization ».
Le modèle a été développé pour le résumé de phrases, spécifiquement :
Étant donné une phrase d’entrée, le but est de produire un résumé condensé. […] Un résumé prend x en entrée et génère une phrase raccourcie y de longueur N < M. Nous supposerons que les mots du résumé proviennent également du même vocabulaire
Il s’agit d’un problème plus simple que, disons, le résumé complet d’un document.
L'approche suit l'approche générale utilisée pour la traduction automatique neuronale avec un encodeur et un décodeur. Trois encodages différents sont explorés :
- Encodeur de sac de mots. La phrase d'entrée est codée à l'aide d'un modèle de sac de mots, ignorant les informations sur l'ordre des mots.
- Encodeur convolutif. Une représentation d'incorporation de mots est utilisée, suivie de couches convolutionnelles à retardement entre les mots et de couches de regroupement.
- Encodeur basé sur l'attention. Une représentation d'incorporation de mots est utilisée avec un mécanisme d'attention simple sur un vecteur de contexte, fournissant un type d'alignement doux entre la phrase d'entrée et le résumé de sortie.
Une recherche par faisceau est ensuite utilisée dans la génération de résumés de texte, un peu comme l'approche utilisée dans la traduction automatique.
Le modèle a été évalué sur l'ensemble de données standard DUC-2014 qui consiste à générer des résumés d'environ 14 mots pour 500 articles de presse.
Les données pour cette tâche se composent de 500 articles de presse du New York Times et des services Associated Press Wire, chacun associé à 4 résumés de référence différents générés par l'homme (pas réellement des titres), limités à 75 octets.
Le modèle a également été évalué sur l'ensemble de données Gigaword d'environ 9,5 millions d'articles de presse, où un titre a été généré à partir de la première phrase de l'article de presse.
Des résultats ont été rapportés sur les deux problèmes en utilisant les mesures ROUGE-1, ROUGE-2 et ROUGE-L et il a été démontré que le système optimisé permettait d'obtenir des résultats de pointe sur l'ensemble de données DUC-2004.
Le modèle montre des gains de performances significatifs sur la tâche partagée DUC-2004 par rapport à plusieurs références solides.
Modèle IBM
Cette approche a été décrite par Ramesh Nallapati et al. d'IBM Watson dans leur article de 2016 « Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond ».
L’approche est basée sur le réseau neuronal récurrent codeur-décodeur avec attention, développé pour la traduction automatique.
Notre modèle de base correspond au modèle de traduction automatique neuronale utilisé dans Bahdanau et al. (2014). L'encodeur consiste en un GRU-RNN bidirectionnel (Chung et al., 2014), tandis que le décodeur est constitué d'un GRU-RNN unidirectionnel avec la même taille d'état caché que celle de l'encodeur et un mécanisme d'attention sur la source. -États cachés et couche soft-max sur le vocabulaire cible pour générer des mots.
Une intégration de mots pour les mots d'entrée est utilisée, en plus d'une intégration pour les parties étiquetées du discours et les fonctionnalités TF et IDF discrétisées. Cette représentation d'entrée plus riche a été conçue pour donner au modèle de meilleures performances dans l'identification des concepts et entités clés dans le texte source.
Le modèle utilise également un mécanisme de commutation appris pour décider de générer ou non un mot de sortie ou de pointer vers un mot dans la séquence d'entrée, conçu pour gérer des mots rares et basse fréquence.
… le décodeur est équipé d’un « commutateur » qui décide entre l’utilisation du générateur ou d’un pointeur à chaque pas de temps. Si l'interrupteur est activé, le décodeur produit normalement un mot à partir de son vocabulaire cible. Cependant, si le commutateur est éteint, le décodeur génère à la place un pointeur vers l'une des positions de mot dans la source.
Enfin, le modèle est hiérarchique dans le sens où le mécanisme d'attention opère à la fois au niveau du mot et au niveau de la phrase sur les données d'entrée codées.
Au total, 6 variantes de l'approche ont été évaluées sur le jeu de données DUC-2003/2004 et le jeu de données Gigaword, tous deux utilisés pour évaluer le modèle Facebook.
Le modèle a également été évalué sur un nouveau corpus d’articles de presse provenant des sites Internet de CNN et du Daily Mail.
L'approche IBM a obtenu des résultats impressionnants sur les ensembles de données standards par rapport à l'approche Facebook et à d'autres.
… nous appliquons le codeur-décodeur attentionnel à la tâche de résumé abstrait avec des résultats très prometteurs, surpassant considérablement les résultats de l’état de l’art sur deux ensembles de données différents.
Modèle Google
Cette approche a été décrite par Abigail See et al. de Stanford dans leur article de 2017 « Get To The Point : Summarization with Pointer-Generator Networks ».
Un meilleur nom pourrait être le « modèle de Stanford », mais j'essaie de lier ce travail à l'article de 2016 du co-auteur Peter Liu (de Google Brain) intitulé « Résumation de texte avec TensorFlow » sur le blog de recherche de Google.
Dans leur article de blog, Peter Liu et al. chez Google Brain, introduisez un modèle TensorFlow qui applique directement le modèle Encoder-Decoder utilisé pour la traduction automatique pour générer des résumés de phrases courtes pour l'ensemble de données Gigaword. Ils revendiquent des résultats meilleurs que ceux de l'état de l'art pour le modèle, bien qu'aucune rédaction formelle des résultats ne soit présentée au-delà d'un document texte fourni avec le code.
Dans leur article, Abigail See et al. décrivent deux principales lacunes des approches d'apprentissage profond pour la synthèse abstraite de textes : elles produisent des erreurs factuelles et elles se répètent.
Bien que ces systèmes soient prometteurs, ils présentent des comportements indésirables tels qu'une reproduction inexacte de détails factuels, une incapacité à gérer des mots hors vocabulaire (OOV) et des répétitions.
Leur approche est conçue pour résumer plusieurs phrases plutôt que pour résumer une seule phrase et est appliquée à l'ensemble de données CNN/Daily Mail utilisé pour démontrer le modèle IBM. Les articles de cet ensemble de données comprennent en moyenne environ 39 phrases.
Un modèle d'encodeur-décodeur de base est utilisé avec une intégration de mots, des LSTM bidirectionnels pour la saisie et l'attention. Une extension est explorée qui utilise le pointage sur des mots dans les données d'entrée pour traiter les mots hors vocabulaire, similaire à l'approche utilisée dans le modèle IBM. Enfin, un mécanisme de couverture est utilisé pour contribuer à réduire les répétitions dans la sortie.
Les résultats sont rapportés à l'aide des scores ROUGE et METEOR, montrant des performances de pointe par rapport à d'autres méthodes abstractives et des scores qui remettent en question les modèles extractifs.
Notre modèle générateur de pointeurs avec couverture améliore encore les scores ROUGE et METEOR, dépassant de manière convaincante le meilleur modèle abstractif [comparé]…
Les résultats montrent que le modèle de base seq-to-seq (Encoder-Decoder avec attention) peut être utilisé mais ne produit pas de résultats compétitifs, montrant l'avantage de leurs extensions à l'approche.
Nous constatons que nos deux modèles de base fonctionnent mal par rapport à ROUGE et METEOR, et en fait, la taille plus grande du vocabulaire (150 000) ne semble pas aider. … Les détails factuels sont souvent reproduits de manière incorrecte, remplaçant souvent un mot peu courant (mais faisant partie du vocabulaire) par une alternative plus courante.
Lectures complémentaires
Cette section fournit plus de ressources sur le sujet si vous cherchez à approfondir.
- Un modèle d'attention neuronale pour la synthèse de phrases abstractives (voir code), 2015.
- Résumé de texte abstrait à l'aide de RNN séquence à séquence et au-delà, 2016.
- Allez droit au but : résumé avec les réseaux de générateurs de pointeurs (voir le code), 2017.
- Résumé de texte avec TensorFlow (voir code), 2016
- Apprivoiser les réseaux de neurones récurrents pour une meilleure synthèse, 2017.
Résumé
Dans cet article, vous avez découvert des modèles d'apprentissage profond pour la synthèse de texte.
Concrètement, vous avez appris :
- Le modèle Facebook AI Research qui utilise le modèle Encoder-Decoder avec un encodeur de réseau neuronal convolutif.
- Le modèle IBM Watson qui utilise le modèle Encoder-Decoder avec une attention de pointage et hiérarchique.
- Le modèle Stanford/Google qui utilise le modèle Encoder-Decoder avec pointage et couverture.
Avez-vous des questions ?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.