Assistants vocaux : ce que changera la retranscription automatique de nos paroles

Assistants vocaux : ce que changera la retranscription automatique de nos paroles

Les assistants vocaux que sont Siri, Cortana et Google Now nous écoutent, de plus en plus. Finiront-ils par enregistrer nos moindres paroles ? Que changerait cette “speakularité” dans nos vies ?

Les “assistants personnels” investissent peu à peu nos écrans (smartphones, tablettes, PC). Qu’il s’agisse de Cortana (Microsoft), de Google Now, de Siri (Apple), et bientôt de Viv (conçu par les créateurs de Siri), ces nouvelles formes d’intelligence artificielle permettent de répondre à nos besoins après que nous leur ayons adressé une requête.

Pour fonctionner, Cortana, Google Now et Siri écoutent vos paroles, puis les retranscrivent, avant de les interpréter. Ils fouillent dans votre historique de navigation web, s’appuient sur vos infos personnelles (localisation, préférences, calendrier, e-mails, etc.), recherchent des données sur Internet, puis formulent la réponse adéquate – tout cela en un temps très bref.

Pour l’instant, une “écoute continue, mais passive”

Pour l’instant, comme l’explique James Somers (développeur chez Genius) dans Nautilus, les compagnons créés par Google, Apple et Microsoft utilisent un système de reconnaissance vocale, considérant “la voix comme une interface”. Mais à terme, ces technologies pourraient finir par enregistrer et retranscrire automatiquement tout ce que nous disons. A l’instar des modes “Hey Cortana”, “OK Google” et “Dis Siri”, qui placent les assistants personnels en “écoute continue”.

Afin de leur permettre de se déclencher lorsque vous dites “Hey Cortana” ou “Dis Siri”, votre iPhone ou votre Windows Phone écoutent les conversations aux alentours. Ce qui n’est pas sans inquiéter les défenseurs de la vie privée, comme Bruce Schneier, expert en sécurité informatique, membre du Berkman Center for Internet and Society, qui explique au Business Insider que “même si l’écoute est passive, et même si vous pouvez en théorie effacer vos requêtes à tout moment, la manière dont les données vocales sont utilisées et partagées reste très floue.”

Vers la “speakularité”

A terme, pour James Somers, les compagnons intelligents devraient enregistrer et retranscrire automatiquement (presque) tout ce que nous disons, mais d’une façon proactive, et non plus passivement comme aujourd’hui. “Au lieu de s’évaporer dans les replis de notre mémoire, les paroles que nous prononçons à voix haute vont se calcifier sous forme de texte, dans des dossiers qui seront référençables, recherchables et exploitables. Cela va se produire plus tôt que nous le pensons”, écrit James Somers.

Nous basculerons alors dans l’ère de la “speakularity” – la “singularité de la parole” -, cet instant où, explique le journaliste Matt Thompson sur le site du Nieman Lab, ““la nature par défaut de la parole enregistrée sera cherchable et lisible en temps réel”. Nous laissant juste le choix d’enregistrer ou non nos propos.

Les actions que rendraient possibles un tel système seraient “incroyables”, note James Somers, après avoir consulté quelques spécialistes en I.A. et en reconnaissance vocale : “tout comme il est aujourd’hui possible de retrouver des tas de choses dans vos emails, demain il sera possible de retrouver vos propres discours.”

Ainsi, l’utilisateur pourrait demander à son intelligence artificielle de lui montrer “toutes les conversations” tenues avec un ami, pendant une période donnée, ou encore lui demander “le nom du restaurant que Maman m’a recommandé le week-end dernier”. Pour trouver la réponse, il lui suffira de fouiller dans le “transcript” de vos paroles.

“Nous parsèmerons nos discours de mots-clés”

Pour Robin Hanson, chercheur en Intelligence Artificielle et prof d’économie à l’université George Mason, à Fairfax, ce système pourrait changer notre façon de nous comporter, et même de parler, jusqu’à nous donner l’habitude de “parsemer notre discours de mots-clés, afin de nous aider à les rechercher plus tard”. L’intelligence artificielle pourrait même “rechercher, dans vos anciennes conversations, des détails pertinents à utiliser, pendant que vous parlez avec quelqu’un”.

Finirons-nous, comme le redoute Nicholas Carr dans ‘The Shallows” (“Internet rend-il bête ?”), par nous reposer entièrement sur un tel type de technologie, tout comme nous commençons à “utiliser le Web comme un substitut à notre mémoire personnelle”, jusqu’à prendre le risque de la perdre ?

Pour James Somers, « l’enregistrement permanent ne réduire pas notre mémoire en bouillie”. La retranscription de nos paroles nous “soulagera de la nécessité de faire attention à tous les détails d’une conversation”. Mais elle “ne nous ne fera pas perdre cette capacité d’attention, tout comme nous n’avons pas perdu notre capacité à planifier en inventant le calendrier”. Ainsi, “nous enrichirons nos souvenirs à long terme d’une autre façon”, soutient le développeur.

La fin d’une conversation normale ?

Sachant nos conversations continuellement enregistrées (pas seulement par nous, mais aussi par les autres), changerons-nous consciemment notre façon de parler, jusqu’à ne plus avoir de “conversations normales” ?

Directrice de l’Observe Lab de l’université de Californie, Megan Robbins, professeure de psychologie, a développé un enregistreur sonore, baptisé “EAR” (“Enregistreur activé électroniquement”). Il enregistre de courtes séquences sonores durant le quotidien de son porteur, afin de permettre à son psy de mieux l’analyser à posteriori. “Nous finirons par oublier assez vite que nous sommes enregistrés, jusqu’à nous comporter de façon naturelle”, estime Megan Robbins dans Nautilus.

Par Fabien Soyez

Pour aller plus loin

Posté le 30 novembre 2015 par La rédaction

Les derniers commentaires

Rita SILEU
18 décembre 2015 at 19 h 49 min
Speakularite en hausse et popularité en baisse…on doit faire un choix judicieux!
tetris
1 décembre 2015 at 10 h 17 min
Toujours beaucoup de fantasmes sur les capacités réelles de ces « enregistreurs de son »
Pour l’instant ces outils sont incapables de ponctuer d’eux mêmes un texte, font difficilement la différence entre deux ou plusieurs voix, ne retranscrivent correctement que des paroles bien prononcées et dans un langage clair, sans hésitation ou onomatopées donc des phrases courtes type sujet verbe complément et sans oublier qu’il ne faut pas d’interférences extérieures car la qualité mécanique de l’enregistrement par un smartphone est médiocre surtout en extérieur, sans même parler du format d’enregistrement, et ce sans compter la nécessité de stockage en cloud si l’on veut garder des paroles… Bref il faudra encore du temps avant d’avoir un système vraiment compétitif et qui soit autre chose qu’un gadget pour accro aux nouvelles technologies, ce que sont les systèmes utilisés actuellement (des gadgets)