La plupart des données que nous utilisons aujourd’hui se présentent sous format textuel, en effet les données textuelles représentent plus de 70% des données qui transitent sur Internet. Il nous faut donc trouver des moyens pour pouvoir les traiter et surtout en tirer des informations utiles, l’ensemble des techniques utilisées pour arriver à cet objectif est regroupé sous le nom de NLP (Natural Language Processing) qui combine des techniques d’apprentissage automatique et de pré-traitement des données textuelles.
Nous manipulons quotidiennement des données textuelles, et pour ne citer que certaines, nous avons les mails, les réseaux sociaux, les pages web, les sms et les discussions instantanées. Et cette masse énorme de données ne demande qu’à être exploitée.
En effet, ces données textuelles peuvent être exploitées pour réaliser plusieurs types d’application :
- Classification de phrase ou de document (i.e analyse de sentiment dans un texte)
- Traduction automatique
- Synthèse vocale
- Agent conversationnel (i.e service client)
- Tout ce que vous voulez ou du moins tout ce que vous pouvez faire.
Comme vous pouvez le constater, la liste des applications qu’on peut réaliser avec les données textuelles est aussi longue que la taille de ces dernières, bon là peut-être que j’extrapole.
Mais qu’est-ce que c’est que ce fameux NLP. Et si on demandait au plus grand des savants :
Le traitement automatique du langage naturel (abr. TALN), ou traitement automatique de la langue naturelle, ou encore traitement automatique des langues (abr. TAL), est un domaine multidisciplinaire impliquant la linguistique, l’informatique et l’intelligence artificielle. Il vise à créer des outils de traitement de la langue naturelle pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d’outils informatiques.(Wikipedia)
En des termes plus amicales, le traitement des langages naturels (NLP) est là afin de proposer des techniques et des stratégies pour réaliser ces différentes application en permettant à une machine de pouvoir être aussi performant qu’un être humain dans la compréhension des langues que nous utilisons au quotidien.
Mission impossible me diriez vous !!!
Sauf que voilà, nous avons pas mal de Tom Cruise dans le royaume du NLP . Cependant, même Tom Cruise pourrait échouer dans une mission aussi périlleuse, et cela pour plusieurs raisons telles que la complexité et la diversité des langues (grammaire, conjugaison, composition des mots, …etc) et pour ne rien arranger, à cela vient s’ajouter la difficulté de pouvoir automatiser de manière efficace l’évaluation de tels systèmes, c’est à dire qu’on besoin d’un humain pour pouvoir évaluer au mieux la performance de ces applications tel qu’un agent conversationnel qui interagit avec un humain.
Toutes ces difficultés liées au traitement des données textuelles nous ont inspirées à vous proposer une série nommée The NLP Kingdom avec trois saisons pour expliquer en détails les techniques utilisées pour réaliser des applications qui exploitent les données textuelles, afin que tout un chacun puisse se salir les mains dans un royaume aussi vaste et plein de défis à résoudre.
La première saison est composée de trois épisodes, dans cette saison, on va parler plus des techniques de pré-traitement utilisées dans le domaine du NLP, j’ai nommée Flirting with NLP.
Saison 1 :
- Épisode 1 : From text to word
- Épisode 2 : From words to numbers
- Épisode 3 : From numbers to insights
La deuxième saison, aussi composée de 3 épisodes, nous permettra de nous plonger dans les arcanes de la représentation des mots en des vecteurs continus contenant la représentation sémantique et syntaxique des mots, j’ai nommé Word Embedding.
Saison 2 :
- Épisode 1 : Word2Vec
- Part 1 : Skip-Gram
- Part 2 : Continuous Bag Of Words (CBOW)
- Épisode 2 : Global Vectors (GloVe)
- Épisode 3 : Other Technics
La troisième et dernière saison utilisera le récits des deux précédentes pour nous plonger au coeur d’un profond réseau d’esprits brillants qui oeuvrent dans l’ombre pour donner aux gens ordinaires que nous somme de quoi briller dans le royaume du NLP, j’ai nommé Deep NLP.
Saison 3 :
- Épisode 1 : RNNs
- Épisode 2 : LSTMs
- Épisode 3 : GRUs
- Épisode 4 : Attention
- Épisode 5 : Seq2Seq models
- Épisode 6 : Beam Search VS Greedy Search
Le show peut maintenant commencer, Let’s have fun!
You actually make it appear so easy along with your presentation however I in finding this matter to be actually
something which I believe I would never understand. It kind of feels too
complex and very vast for me. I’m having a look forward to
your next publish, I will attempt to get the dangle of it!