TECH NEWS
Orange, un outil d’exploration de données gratuit s’intégrant avec la distribution Anaconda
Orange est parmi les outils de d’exploration des données le plus jeune, mais a déjà 20 ans d’existence.
October 5, 2017
Cet article fait suite à l’article sur la distribution Anaconda paru au mois d’août dernier.
Tout scientifique dispose d’instruments de mesure pour lui permettre de comprendre et d’analyser son domaine d’expérimentation: un biologiste aura besoin d’un microscope pour comprendre l’infiniment petit, un chimiste d’un chromatographe et il en est de même pour tous les autres domaines scientifiques. Dans celui des données, le data scientist dispose d’outils lui permettant d’explorer les données de façon intuitive, de les visualiser et d’interagir avec elles. On les appelle généralement des outils de data mining et ils mettent en œuvre des algorithmes de machine learning pour chercher les propriétés des données à analyser. Orange entre dans cette même catégorie de produits que sont Weka, Knime , RapidMiner ou SPSS Modeler …
Les auteurs d’Orange ont sûrement voulu faire un clin d’œil à Clémentine, qui a été rachetée par SPSS en 2009, et qui s’appelle maintenant SPSS Modeler.
Nous allons vous présenter dans la suite de cet article cet outil gratuit qu’est Orange, que tout data scientist peut mettre en œuvre rapidement dès qu’il dispose de la distribution Anaconda sur son ordinateur.
Analyse par Angelo Pacifico – Directeur chez Agile Partner
Carte d’identité
Nom : Orange
Genre : Logiciel d’exploration des données multi-plateforme basé sur la distribution Anaconda
Date clef : Les développements du logiciel ont commencé en 1997
Dernière version en date : 3.6, le 29 Septembre 2017
Orange est développé et maintenu par le laboratoire de bio-informatique de l’université de Ljubljana sous la direction du docteur Blaz Zupan et du professeur Janez Demsar.
En bref
Orange est développé en langage python et les sources sont disponibles sur GitHub. Orange se compose d’un designer permettant de construire un workflow en connectant des objets graphiques (widget). Cette partie du produit s’appelle le canevas et c’est la partie qui est la plus utilisée. Orange offre ainsi une programmation visuelle permettant à des utilisateurs, non-familiers avec les outils de développement, de le prendre en main rapidement. Orange expose une API en python permettant d’appeler ses services par code. Le model de composant est ouvert pour être étendu et un gestionnaire d’extension intégré au produit permet de rechercher des extensions et de les ajouter facilement.
Le logiciel est disponible sous Windows, Mac OSX et Linux grâce au choix de la plateforme graphique QT qui dispose d’une API python.
Depuis la version 3.6 il est possible avec miniconda d’installer encore plus rapidement Orange sur un ordinateur.
Expérimentation d’Orange avec un projet de data science
Dans le contexte du projet avec la société Myfood, qui a été présenté au mois d’août, celui-ci a été modélisé avec Orange. En quelques heures de paramétrage il a été possible de produire les mêmes résultats sans écrire de code. Une centaine de composants graphiques viennent avec le produit permettant de démarrer rapidement un projet et de rester focalisé sur le sujet à analyser. Grâce à la librairie « Time Series » configurée pour ce projet, le traitement de filtrage de données bruitées comme le courant mesuré a été réalisé sans écrire de code.
Orange pour l’exploration et la visualisation des données
Orange offre une palette riche d’outils de visualisation graphique des données et permet aux différents composants graphiques d’interagir entre eux. Il est possible de sélectionner un ensemble de données dans un graphique de type scatter et d’avoir la population correspondante sélectionnée dans le tableau de données. Il est possible d’explorer un arbre de décision en utilisant le contrôle « arbre de Pythagore » et de visualiser sur un diagramme scatter la population sélectionnée.
Orange pour la modélisation des données
Orange met à disposition du data scientist de nombreux algorithmes de machine learning supervisés ou non supervisés et cela grâce à l’intégration des librairies exposées par la distribution Anaconda. Il est ainsi possible de tester rapidement plusieurs algorithmes de machine learning, de comparer leurs scores et de visualiser leurs performances. Plusieurs techniques d’échantillonnage des données sont disponibles pour évaluer et tester les modèles.
On vous le dit !
Orange est parmi les outils de d’exploration des données le plus jeune, mais a déjà 20 ans d’existence. L’outil est agréable à prendre en main, il est robuste et il bénéficie de la force de la distribution d’Anaconda offrant une capacité d’extension hors du commun. L’outil est utilisé dans le monde et est apprécié en enseignement car il a été pensé pour être didactique.
Il est aussi utilisé dans des centres de recherche prestigieux comme par exemple Synchrotron Soleil, situé en France, où nous avons interviewé Ferenc Borondics, premier chercheur qui nous a expliqué comment Orange est mis en œuvre dans leurs projets. Synchrotron Soleil a développé des composants pour intégrer dans Orange les mesures issues des appareils de spectroscopie. Les fichiers traités peuvent aller jusqu’à plusieurs centaines de méga octets. Orange prend une part de plus en plus importante dans les travaux des scientifiques et sera étendu pour analyser les mesures délivrées par les appareils de tomographie. Orange a été choisi pour son modèle open source, pour sa facilité de mise en œuvre et pour son intégration avec python que connaissent bien les scientifiques.
Vous disposez de données, vous souhaitez mieux les comprendre, les visualiser ou interagir avec celles-ci, Orange est disponible gratuitement et tout comme python, qui vient avec ses batteries, Orange vient avec un ensemble de données pour vous aider à faire vos premiers pas dans ce monde qu’est l’exploration et l’analyse des données.