Sirius, un assistant personnel libre

Sirius

Il aura fallu que je blog que Linux prenait du retard dans le domaine de l’intelligence artificielle et des assistants personnels, pour que j’apprenne aussitôt une bonne nouvelle :)

Clarity Lab et l’Université du Michigan ont récemment publié sur GitHub un projet sous licence libre (BSD) d’assistant personnel, intégrant la reconnaissance vocale, avec traitement automatique du langage naturel, la reconnaissance de formes / recalage d’images (ce qui permet de soumettre une image ou de prendre une photo avec son smartphone, et de pouvoir interroger l’assistant sur ce que l’on voit), ainsi qu’un système de questions-réponses.


Dans la vidéo de présentation, Jason Mars, le co-directeur du projet, compare Windows et Linux, tout en mettant en avant le fait que contrairement au premier, le second est modifiable à l’envi, et permet d’obtenir ce que l’on souhaite réellement. Avec Sirius, ils souhaitent offrir les même possibilités en créant une plate-forme ouverte, tout en espérant que de nombreuses universités et startup de part le monde, participeront à son développement.

Et tout comme je l’indiquais dans mon précédent billet, la co-directrice Lingjia Tang semble partager le même avis quant à nos interactions futures avec les machines qui nous entourent, actuellement contrôlées par des claviers, qu’ils soient physiques ou virtuels, comme sur les smartphones, pour quelque chose de plus naturel, comme le langage.

Il est intéressant de noter que le projet a été en parti financé par la DARPA, déjà à l’origine d’ARPANET, qui fini par devenir Internet, ainsi que par ARM, la National Science Foundation, mais également par Google, pourtant à l’origine du concurrent Google Now ;)

Plus intéressant encore, le projet n’a pas été développé de zéro, mais s’appuie en réalité sur plusieurs briques libres, telles que CMU Sphinx (développé par l’université Carnegie-Mellon) ou Kaldi pour la reconnaissance vocale, OpenCV pour la reconnaissance d’image et OpenEphyra pour le système de questions-réponses.

Par contre, je m’interroge sur la base de connaissances utilisée. Dans la vidéo, ils semblent indiquer utiliser une méthode pour extraire les réponses depuis Wikipédia, alors que Wikidata a justement été conçu pour pouvoir être facilement utilisé par les machines, tout en offrant des possibilités beaucoup plus puissantes.

Plus qu’à espérer que ce soit rapidement repris par la communauté, et qu’on le retrouve un jour sur nos distributions Linux ou sur nos smartphones Firefox OS.