Données massives : une mine d’or encore sous-exploitée

Depuis quelques années, tous les secteurs d’activité sans exception, sont touchés par une problématique d’exploitation de leurs données textuelles, en quête de nouveaux services pour les consommateurs. Un souci de temps ? De méthodes ? Ou encore de qualification ? Comment faire, alors que dans cet univers du Big Data, la quasi-totalité des données est textuelle ?

October 22, 2018

Que ce soient dans les Institutions Européennes, les banques, le retail, ou encore les services enligne… les consommateurs sont désormais en attente de personnalisation, voire même d’individualisation des contenus qui lui sont proposés. Merci Netflix pour ses recommandations en fonction de nos préférences et habitudes. De nombreuses sociétés sont capables de proposer cette valeur ajoutée à leurs clients, et ces derniers veulent la retrouver aujourd’hui dans chacun de leurs services !

Derrière cela, au-delà des technologies de pointe utilisées, on retrouve également une valeur très précieuse : la donnée. Tout le monde s’accorde à le dire : la donnée devient un asset des sociétés qui, bien exploitée, peut être échangée et potentiellement revendue. Connaître et comprendre ladonnée que l’on possède devient une nécessité, voire même une obligation pour faire face auxexigences réglementaires actuelles (GDPR, PSD2…).

Parallèlement, environ 80% des données possédées par les sociétés sont non-structurées et sont, entre autre, constituées de textes libres. C’est, par exemple, le cas des corpus documentaires quirestent aujourd’hui une mine d’informations riche et indispensable des entreprises ; les mails reçus de leurs clients ou leurs tiers ; mais aussi toutes les zones de textes libres dans les formulaires. Bien que les textes soient riches en informations, ils sont cependant les plus complexes à exploiter par les machines.

Cette mine d’informations dans les sociétés reste sous exploitée, et les recherches dans ces bases de données restent peu intelligentes. Prenons l’exemple des banques : elles sont en possession d’ungrand nombre de données pertinentes sur leurs clients qui sont dans la majorité des cas sous- exploitées. Pourtant, ces données, si elles sont bien utilisées, peuvent créer de réels produits personnalisés à forte valeur ajoutée pour leurs clients. En effet, certaines technologies etméthodologies spécifiques permettraient aujourd’hui aux banques d’avoir une vue 360° sur leurs clients et de créer des segmentations et visualisations data ciblées et intelligentes.

Pour couronner le tout, le multilinguisme vient s’ajouter à cette problématique, une situation couranteau Grand-Duché du Luxembourg, où trois langues sont officiellement reconnues.

Depuis longtemps, on pensait que la meilleure solution pour faciliter le traitement de ces données,était de limiter les zones textuelles libres dans les formulaires. Mais la richesse de l’information estsouvent diminuée en utilisant des zones statistiques : quoi de mieux pour mesurer la satisfaction d’unservice qu’un commentaire, sous forme d’un tweet par exemple, plutôt qu’une note allant de 1 à 5. Les chiffres statistiques sont aussi souvent subjectifs et liés à la bonne compréhension de l’utilisateur.

Exploiter toute la richesse des textes libres rend nécessaire l’utilisation de techniques d’IntelligenceArtificielle qui permettent de traiter toute la richesse du langage naturel. On parle de langage naturel en opposition au langage informatique qui est structuré et bien formalisé. Ces techniques sont baséessur l’apprentissage automatique – le Machine Learning ou plus innovant encore, le Deep Learning qui sont également utilisées par les Bots afin de capturer automatiquement un comportement humain sous la forme d’un « modèle ». Dans la réalité, ces modèles sont souvent intégrés à un processus et

des outils issus du Big Data, nécessitant des compétences technologiques particulières, bien que des solutions répondant à ces enjeux soient disponibles aujourd’hui sur le marché.

L’objectif est donc de créer des modèles à partir de données d’apprentissage. Pour certainesapplications, des modèles prédéfinis existent déjà sur le marché comme par exemple l’analyse detweets pour l’étude de sentiments positifs ou négatifs sur un produit.

Toutefois, les modèles existants sur le marché ne peuvent pas être utilisés pour des applications qui nécessitent des connaissances métiers spécifiques à l’entreprise. Et dans ces cas de figure, des modèles distincts doivent être créés. Le savoir-faire des Data Scientists est alors indispensable pour intégrer des connaissances métiers et des techniques de machine learning, et pour analyser des données.

Les enjeux sont aujourd’hui énormes : Réussir à combiner l’exploitation des textes libres auxnouvelles technologies, pour permettre aux entreprises de s’aligner sur leurs services, d’innover, etsurtout de générer de nouveaux services personnalisés aux consommateurs.

par Ludmila MANGELINCK, Directrice chez CGI au Luxembourg, experte en traitement du langage

Watch video

Données massives : une mine d’or encore sous-exploitée

In the same category

Contact us

Données massives : une mine d’or encore sous-exploitée

In the same category

Newsletter

Contact us