Les prestataires d'Apple cessent (temporairement) d'écouter les enregistrements de Siri

Selon The Guardian, les analystes de Siri entendent les bagarres, les conversations médicales ou encore les ébats des usagers.

Vous utilisez Siri, l’assistant vocal d’Apple, dans vos tâches quotidiennes, mais savez-vous exactement quand l’application enregistre ou non et ce qu’il advient de ces enregistrements ? Aucune chance, puisque Apple est relativement discret sur sa politique d’utilisation des données audio. Pourtant, ces fichiers voyagent, des serveurs de l’entreprise jusqu’aux postes de travail d’employés d’entreprises prestataires, à qui Apple sous-traite l’analyse de données et le "contrôle qualité" de l’assistant vocal.

Disséminés autour du monde, ces analystes sont chargés d’écouter les requêtes des utilisateurs et de noter l’efficacité de Siri selon plusieurs critères : la précision de la réponse transmise, le type de questions posées par l’utilisateur ou la précision de la reconnaissance de la phrase d’activation – le fameux "hey Siri…"

Publicité

Sur le sujet, la politique de confidentialité d’Apple indique que les données, anonymisées, "sont utilisées pour améliorer Siri et la diction… afin de mieux vous reconnaître". Sans préciser explicitement que ce travail d’évaluation des données est effectué par des employés humains. Des humains qui, à en croire un article de The Guardian du 26 juillet, entendent beaucoup plus de choses qu’ils ne le devraient.

L’Apple Watch déclenche (trop) souvent Siri

Selon un lanceur d’alerte de l’entreprise, dont l’identité n’a pas été révélée, Apple se garde bien d’informer les propriétaires d’iPhone que Siri s’active bien plus souvent qu’il ne le devrait et qu’en conséquence, les sous-traitants d’Apple ont accès à des conversations parfois extrêmement privées.

"Le son d’une fermeture éclair déclenche souvent Siri", explique cette source, qui affirme également que lorsqu’une Apple Watch enregistre un bras levé suivi de voix, elle active automatiquement l’assistant vocal, notamment lorsqu’elle est reliée à l’enceinte HomePod. L’Apple Watch, capable d’enregistrer jusqu’à 30 secondes de conversation, serait la source principale de ces écoutes intempestives.

Publicité

À l’autre extrémité de la chaîne de traitement des données, des tiers ont donc accès à des enregistrements audio de "discussions privées entre patient et médecin, d’accords commerciaux, de preuves de délits et de crimes [comme l’achat ou la vente de drogue], de rencontres de nature sexuelle, et ainsi de suite", détaille la source, qui précise que "ces enregistrements s’accompagnent de données utilisateur qui précisent la localisation, les coordonnées du contact, et des données relatives à l’application."

En réponse à ce témoignage, Apple assure au Guardian que des procédures sont en place pour garantir l’anonymat des enregistrements audio : "les requêtes des utilisateurs ne sont pas associées à leur Apple id., les réponses de Siri sont analysées dans des infrastructures sûres et tous les évaluateurs sont sous obligation de confidentialité." Toujours selon l’entreprise, moins de 1 % des activations sont utilisées pour le "grading" (le nom du processus de transcription et d’évaluation de l’algorithme), et les écoutes ne dépassent que rarement les quelques secondes.

La confidentialité, casse-tête des assistants vocaux

Il n’empêche : indépendamment de leurs politiques respectives de traitement des données personnelles, les trois grandes entreprises derrière les assistants vocaux les plus utilisés (Apple avec Siri, Google et Google Home et Amazon avec Alexa) utilisent les mêmes structures de sous-traitance… et font face aux mêmes brèches de confidentialité.

Publicité

Le 10 juillet, la chaîne publique belge VRT mettait la main sur un millier d’enregistrements de Google Assistant et concluait que 153 d’entre eux étaient accidentels. Dans la foulée, l’entreprise rappelait que les utilisateurs pouvaient refuser que leurs données soient analysées mais reconnaissait faire appel à des sous-traitants pour transcrire 0,2 % des enregistrements, une fois ceux-ci anonymisés.

Du côté d’Amazon, pas mieux. En avril dernier, l’entreprise de Jeff Bezos était épinglée pour le même genre de brèche de confidentialité. On apprenait, via Bloomberg, que le groupe employait des milliers de personnes aux États-Unis, mais aussi en Roumanie, en Inde ou encore au Costa Rica, pour écouter, annoter et transcrire les segments audio captés par les 100 millions d’Amazon Echo vendus dans le monde en vue d’améliorer la précision de l’algorithme. Les séquences sont stockées dans les serveurs d’Amazon sans limite de temps.

Comme chez Google, Amazon permet aux utilisateurs de signifier leur refus de coopérer à ces programmes (Apple, en revanche, n’offre pas cette option). Là encore, les enregistrements sont anonymisés, mais comme dans le cas d’Apple et de Google, certains des enregistrements accidentels contiennent des informations sensibles, comme des noms ou des coordonnées, suffisantes pour identifier les usagers enregistrés.

Publicité

En soi, le fait que des employés humains fassent le sale boulot de transcription pour entraîner les algorithmes est plus surprenant que terrifiant, pour qui connaît peu les circuits de fabrication de l’IA. Ces enregistrements sont néanmoins indispensables, rappelait Numerama, pour lutter contre les biais algorithmiques et affiner la précision des réponses fournies par ces "IA" qui n’en sont pas réellement. D’autre part, ces écoutes sont encadrées par des protocoles d’anonymisation et d’authentification, ce qui garantit partiellement la protection de la vie privée des utilisateurs.

Vers la fin de l’écoute généralisée ?

Après les révélations du Guardian, la réponse des mastodontes de l’assistant vocal ne s’est pas fait attendre. Le 2 juillet, rapporte Ars Technica, Apple a annoncé la suspension temporaire de l’analyse des enregistrements Siri par ses sous-traitants, et ce dans le monde entier. Ces analyses reprendront, poursuit la firme, mais seulement pour les utilisateurs de Siri qui auront spécifiquement donné leur accord à ces écoutes en cochant une option particulière – une construction appelée "opt-in", rendue obligatoire par le Règlement général sur la protection des données (RGPD) européen. Comme le relevait The Verge, Apple n’a cependant pas clarifié la situation au sujet des données audio déjà stockées sur ses serveurs.

Google, pour sa part, a également suspendu la vérification des requêtes de son Assistant dans le monde entier après la publication de l’enquête de VRT NWS. La firme expliquait en outre à Ars Technica que ses utilisateurs "devaient s’inscrire à l’option [opt-in] pour que les enregistrements audio soient stockés dans [leur] compte. Il est possible de complètement désactiver le stockage de données audio, ou de choisir que les données s’effacent automatiquement tous les 3 ou 18 mois." Les réglages en question se trouvent ici. En parallèle, suite à l’ouverture d’une procédure administrative par les autorités allemandes, Google a suspendu pour trois mois "au moins", depuis le 1er août, toutes les transcriptions des enregistrements audio de l’Assistant en Europe. Impossible, pour le moment, de savoir si et quand ces évaluations de données vont reprendre.

Et puis, face à la controverse, il y a la stratégie Amazon. Dans l’ombre des communiqués de presse des deux autres entreprises, celle de Jeff Bezos l’a joué discrète. Déjà mise à mal par de précédentes révélations sur les indiscrétions de son assistant vocal Alexa, la firme s’était dotée d’un portail clair et complet (mais bien caché dans les sous-menus) pour informer les utilisateurs sur l’utilisation de leurs données audio ; le 2 juillet, ce portail a été discrètement mis à jour, rapporte Bloomberg.

Désormais, activer l’option de transcription audio implique clairement que vos données seront "analysées manuellement" par des êtres humains, ce qui n’était pas le cas jusqu’ici. Enfin, Amazon fait désormais comprendre sans ambiguïté à ses clients que peu importe leur décision concernant l’écoute de leurs conversations, celles-ci seront toujours stockées par défaut sur les serveurs de l’entreprise, à moins que vous ne les effaciez vous-mêmes périodiquement.

Ces zones d’ombre clarifiées, reste maintenant le problème de l’enregistrement intempestif. Pourquoi ne pas notifier les utilisateurs quand l’enregistrement débute, ou lorsque leurs enregistrements sont écoutés pour des tiers ? Que doivent faire les sous-traitants lorsqu’ils écoutent des preuves criminelles, et qui est responsable ? Et surtout, comment faire pour réduire ces bugs à une fréquence négligeable ? En 2019, l’industrie a encore du boulot pour dompter la curiosité de ces nouvelles entités numériques.

Article mis à jour le 5 juillet.

Par Thibault Prévost, publié le 04/08/2019

Copié

Pour vous :