banner
Centre d'Information
Nos produits sont faciles à utiliser, pratiques et sûrs à utiliser.

Quanta Magazine

Apr 28, 2023

18 mai 2023

Carlos Arrojo pour le magazine Quanta

Auteur collaborateur

18 mai 2023

Le 27 juin 2010, le FBI a arrêté 10 espions russes qui vivaient et travaillaient comme professionnels américains près de New York. L'affaire, qui a dévoilé un système complexe de fausses identités et de réunions clandestines, a révélé l'un des plus grands réseaux d'espionnage aux États-Unis depuis la fin de la guerre froide et a inspiré l'émission The Americans.

Il a également attiré l'attention sur la stéganographie, une façon de déguiser un message secret dans un autre message. Les espions de New York ont ​​caché leurs secrets à la vue de tous, encodant les communications dans les pixels d'images apparemment anodines publiées sur des sites Web accessibles au public. Pour les lire, le destinataire devait télécharger une image, la traduire dans les 1 et les 0 du code binaire et savoir quels chiffres modifiés, pris dans l'ordre, épeleraient le secret.

La stéganographie, qui est à la fois un art et une science, diffère de la méthode plus connue de communication secrète connue sous le nom de cryptographie. Là où la cryptographie dissimule intentionnellement le contenu d'un message, le transformant en un enchevêtrement de textes ou de chiffres, la stéganographie dissimule le fait qu'un secret existe. "La stéganographie cache la présence du message", explique Christian Cachin, informaticien et cryptographe à l'Université de Berne. "Si un adversaire peut détecter un message caché, alors l'expéditeur a perdu la partie."

Comme pour toute méthode de communication secrète, le défi est de savoir comment la rendre parfaitement sécurisée, ce qui signifie que ni un humain ni un détecteur de machine ne soupçonneraient un message de cacher un secret. Pour la stéganographie, cela a longtemps été une possibilité théorique, mais cela a été jugé impossible à réaliser avec des communications humaines réelles.

L'avènement de grands modèles de langage tels que ChatGPT suggère une voie différente. Bien qu'il soit impossible de garantir la sécurité du texte créé par des humains, une nouvelle preuve explique pour la première fois comment obtenir une sécurité parfaite pour la stéganographie dans les messages générés par une machine - qu'il s'agisse de texte, d'images, de vidéo ou de tout autre média. Les auteurs incluent également un ensemble d'algorithmes pour produire des messages sécurisés, et ils travaillent sur des moyens de les combiner avec des applications populaires.

"Alors que nous devenons de plus en plus une société où il est très courant d'interagir avec des modèles d'IA, il existe de plus en plus de possibilités d'encoder des informations secrètes dans les médias que les gens utilisent tout le temps", a déclaré Samuel Sokota, informaticien à l'Université Carnegie Mellon qui a aidé à développer les nouveaux algorithmes.

Recevez Quanta Magazine dans votre boîte de réception

Christian Cachin a établi les règles d'une stéganographie parfaitement sécurisée - la pratique consistant à cacher des messages secrets dans des messages autrement inoffensifs - et a constaté que ce n'est pas faisable pour le texte généré par l'homme.

Adrian Moser/Université de Berne

Le résultat vient du monde de la théorie de l'information, qui fournit un cadre mathématique pour comprendre la communication de toutes sortes. C'est un domaine abstrait et ordonné, contrairement au désordre compliqué de la stéganographie pratique. Les mondes ne se chevauchent pas souvent, a déclaré Jessica Fridrich, chercheuse à l'Université de Binghamton qui étudie les moyens de masquer (et de détecter) les données dans les médias numériques. Mais les nouveaux algorithmes les rassemblent en satisfaisant à des critères théoriques de longue date en matière de sécurité et en suggérant des applications pratiques pour cacher des messages dans du contenu généré par des machines. Les nouveaux algorithmes pourraient être exploités par des espions comme les Russes de New York, mais ils pourraient également aider les personnes essayant d'obtenir des informations dans ou hors de pays qui interdisent les chaînes cryptées.

Les schémas de stéganographie, grec pour « écriture couverte », sont antérieurs aux médias numériques de plusieurs millénaires.

Les premiers exemples connus apparaissent dans Les Histoires d'Hérodote, écrites au 5ème siècle avant notre ère. Dans une histoire, un message est écrit sur des tablettes en bois et caché par une couche de cire pour éviter d'être intercepté pendant son voyage. Dans une autre, attribuée à Enée le Tacticien, un message cache des points d'encre invisible sur certaines lettres, qui épelent le vrai message. Dans un exemple plus extrême, le chef tyrannique Histiaeus veut communiquer une stratégie à son neveu sans être détecté, alors il rase la tête d'un esclave, tatoue son message sur la tête de l'homme et attend que les cheveux repoussent avant d'envoyer le messager. À son arrivée, le neveu rase la tête du messager, révélant les plans.

Ces stratégies ont persisté et la technologie en a permis de nouvelles. Les espions allemands pendant la Première Guerre mondiale ont trouvé des moyens de transmettre des informations via des micropoints : ils ont copié et réduit un document jusqu'à ce qu'il soit aussi petit que le point d'un "i", qui semblait innocent mais pouvait être révélé par un grossissement.

Les politiciens aussi se sont tournés vers l'art trompeur. Dans les années 1980, après une série de fuites dans la presse, la première ministre britannique Margaret Thatcher aurait fait reprogrammer les traitements de texte de ses ministres afin que chacun ait son propre modèle d'espacement des mots, presque indétectable mais unique. Cette légère modification a permis de remonter à la source des documents divulgués.

L'approche continue de prospérer au 21ème siècle, pour le bien et pour le mal. Les stratégies stéganographiques modernes incluent l'écriture de messages à l'encre invisible (une autre tactique utilisée par les espions russes à New York), la dissimulation des signatures d'artistes dans les détails de la peinture et la conception de fichiers audio avec une piste cachée ou inversée. Fridrich dit que les approches stéganographiques dans les médias numériques peuvent également aider à cacher des images dans les fichiers de messagerie vocale ou, comme dans le cas des espions russes, à placer du texte écrit dans des photographies trafiquées.

Ce n'est que dans les années 1980 que les mathématiciens et les informaticiens ont commencé à rechercher des règles mathématiques formelles pour la stéganographie, a déclaré Cachin. Ils se sont tournés vers la théorie de l'information, un domaine qui avait commencé avec l'article fondateur de Claude Shannon en 1948 "Une théorie mathématique de la communication", qui a établi une approche analytique de la réflexion sur l'envoi et la réception d'informations via un canal. (Shannon a modélisé les lignes télégraphiques, mais il a jeté les bases des technologies numériques d'aujourd'hui.) Il a utilisé le terme "entropie" pour quantifier la quantité d'informations dans une variable - le nombre de bits nécessaires pour coder une lettre ou un message, par exemple - et en 1949, il a défini des règles pour une cryptographie parfaitement sécurisée. Mais Shannon n'a pas abordé la sécurité dans la stéganographie.

Près de 50 ans plus tard, Cachin l'a fait. Son approche, dans l'esprit de Shannon, consistait à penser le langage de manière probabiliste. Considérez deux agents, Alice et Bob, qui veulent communiquer un message par stéganographie et le garder secret d'Eve, leur adversaire. Quand Alice envoie un message anodin à Bob, elle sélectionne des mots dans tout le lexique anglais. Ces mots sont associés à des probabilités ; par exemple, le mot "le" est plus susceptible d'être choisi que, disons, "lexique". Au total, les mots peuvent être représentés sous la forme d'une distribution de probabilité. Si Alice utilise la stéganographie pour envoyer un message codé à Bob, ce message aura sa propre distribution de probabilité.

Les théoriciens de l'information utilisent une mesure appelée entropie relative pour comparer les distributions de probabilité. C'est comme mesurer une sorte de distance abstraite : si l'entropie relative entre deux distributions est nulle, "vous ne pouvez pas vous fier à l'analyse statistique" pour découvrir le secret, a déclaré Christian Schroeder de Witt, informaticien à l'Université d'Oxford qui a travaillé sur le nouveau document. En d'autres termes, si de futurs espions développent un algorithme parfaitement sécurisé pour passer clandestinement des secrets, aucune surveillance basée sur des statistiques ne pourra le détecter. Leurs transmissions seront parfaitement cachées.

Mais la preuve de Cachin dépendait d'une hypothèse critique concernant le message cachant le secret, connu sous le nom de texte de couverture. Afin de proposer un nouveau message indiscernable de l'original, inoffensif, vous devez créer une simulation parfaite de la distribution du texte de couverture, a déclaré Cachin. Dans un message écrit, par exemple, cela signifie utiliser un outil capable de simuler parfaitement le langage d'une personne. Mais le texte généré par l'homme est tout simplement trop désordonné. Il est possible de se rapprocher - ChatGPT et d'autres grands modèles de langage peuvent produire des simulations convaincantes - mais ils ne sont pas exacts. "Pour le texte généré par l'homme, ce n'est pas faisable", a déclaré Cachin. Pour cette raison, la stéganographie parfaitement sécurisée a longtemps semblé hors de portée.

Fridrich, dont les recherches se concentrent sur les complexités complexes du monde réel de la dissimulation de messages dans des médias numériques créés par l'homme comme des photographies et des messages texte, a déclaré que la simulation parfaite est une condition qui ne sera jamais remplie. "Le problème avec les médias numériques, c'est que vous n'aurez jamais ce vrai modèle", a-t-elle déclaré. "C'est trop complexe. La stéganographie ne peut jamais être parfaite."

Mais le texte généré par la machine, bien sûr, n'est pas créé par les humains. L'essor récent des modèles génératifs axés sur le langage, ou d'autres qui produisent des images ou des sons, suggère qu'une stéganographie parfaitement sécurisée pourrait être possible dans le monde réel. Ces modèles, après tout, utilisent des mécanismes d'échantillonnage bien définis dans le cadre de la génération de texte qui, dans de nombreux cas, semble humainement convaincante.

Sokota et Schroeder de Witt travaillaient auparavant non pas sur la stéganographie, mais sur l'apprentissage automatique. Ils cherchaient de nouvelles façons de transmettre l'information par divers canaux et, à un moment donné, ils ont découvert un concept relativement nouveau en théorie de l'information appelé couplage d'entropie minimale.

Samuel Sokota (à gauche) et Christian Schroeder de Witt ont aidé à concevoir un moyen de produire une stéganographie parfaitement sécurisée à l'aide de contenu généré par la machine.

Avec l'aimable autorisation de Samuel Sokota ; Jean Cairns

"C'est ce genre d'outil apparemment fondamental qui n'est pas très bien exploré", a déclaré Sokota. Dans un couplage d'entropie minimale, les chercheurs peuvent combiner deux distributions de probabilité en une seule distribution conjointe qui représente les deux systèmes. Dans le cas de la stéganographie, l'une de ces distributions représente le texte de couverture et l'autre représente le texte chiffré, qui contient le message caché. La distribution conjointe peut garantir que les deux textes sont statistiquement indiscernables, générant un message parfaitement sécurisé.

Sokota, Schroeder de Witt et leur équipe avaient essayé de trouver des moyens d'exploiter l'outil pour de nouvelles approches d'apprentissage en profondeur. Mais un jour, se souvient Sokota, leur collaborateur Martin Strohmeier a mentionné que leurs travaux sur le couplage d'entropie minimale lui rappelaient les problèmes de sécurité autour de la stéganographie.

Strohmeier faisait un commentaire désinvolte, mais Sokota et Schroeder de Witt l'ont pris au sérieux. Le groupe a rapidement compris comment utiliser un couplage d'entropie minimale pour concevoir une procédure stéganographique qui répondait aux exigences de Cachin pour une sécurité parfaite dans le contexte de systèmes d'apprentissage automatique du monde réel.

"J'ai été surpris de voir qu'il a une si belle application en stéganographie", a déclaré Murat Kocaoglu, ingénieur électricien et informatique à l'Université Purdue. Il ne travaille pas avec la stéganographie, mais il a aidé à concevoir l'un des algorithmes que l'équipe a utilisés dans l'article. "Ce travail est vraiment bien lié au couplage d'entropie minimale."

Ensuite, l'équipe est allée plus loin, montrant que pour qu'un schéma de stéganographie soit aussi efficace que possible sur le plan informatique, il doit être basé sur un couplage d'entropie minimum. La nouvelle stratégie définit des orientations claires sur la manière d'atteindre à la fois la sécurité et l'efficacité - et suggère que les deux vont de pair.

"Nos résultats semblent suggérer que cela est encore plus efficace que les approches qui ne sont pas parfaitement sécurisées", a déclaré Sokota.

Il y a des limites. Cachin a souligné que trouver le véritable couplage d'entropie minimale est un problème NP-difficile, ce qui signifie essentiellement que la solution parfaite est trop coûteuse en calcul pour être pratique, revenant à cette question d'efficacité.

Sokota et Schroeder de Witt reconnaissent ce problème : le couplage optimal serait, en effet, trop compliqué à calculer. Mais pour contourner ce goulot d'étranglement, les auteurs ont utilisé une procédure d'approximation développée par Sokota et Schroeder de Witt (et basée sur une méthode introduite par Kocaoglu) qui garantit toujours une sécurité et une efficacité raisonnable.

Voici comment ils voient cela fonctionner dans la pratique : Supposons qu'un dissident ou un militant des droits de l'homme veuille envoyer un SMS depuis un pays verrouillé. Un plug-in pour une application comme WhatsApp ou Signal ferait le gros du travail algorithmique, a déclaré Schroeder de Witt. La première étape serait de choisir une distribution de texte de couverture - c'est-à-dire une collection géante de mots possibles à utiliser dans le message, comme cela proviendrait de ChatGPT ou d'un grand modèle de langage similaire - qui cacherait le texte chiffré. Ensuite, le programme utiliserait ce modèle de langage pour se rapprocher d'un couplage d'entropie minimum entre le texte de couverture et le texte chiffré, et ce couplage générerait la chaîne de caractères qui serait envoyée par texte. Pour un adversaire extérieur, le nouveau texte serait impossible à distinguer d'un message innocent généré par une machine. Il ne devrait pas non plus s'agir de texte : l'algorithme pourrait fonctionner en échantillonnant l'art généré par la machine (au lieu de ChatGPT) ou l'audio généré par l'IA pour les messages vocaux, par exemple.

Les nouveaux algorithmes sont limités en termes de taille du message secret : Schroeder de Witt estime qu'avec la technologie d'aujourd'hui, leur système pourrait dissimuler une image (ou un autre message) d'environ 225 kilo-octets dans environ 30 secondes de messagerie vocale générée par la machine. Mais il n'a pas besoin d'être énorme pour réussir. C'est suffisant pour qu'un message substantiel passe les censeurs ou les autorités.

Fridrich a déclaré qu'elle était plus habituée à travailler contre les limites du monde réel plutôt que de considérer la théorie. "C'est intéressant de voir l'autre côté", a-t-elle déclaré. Pour elle, le nouveau travail commence à combler le fossé entre les preuves théoriques et le désordre du monde réel. Si les gens n'utilisent pas de contenu généré par la machine, le nouveau schéma ne garantira pas la sécurité. Mais à mesure qu'elle se répandra, a-t-elle dit, le potentiel d'une sécurité parfaite sera plus fort.

"Tout dépend de ce qui sera typique", a-t-elle déclaré. Si une machine génère une réserve d'images anodines qui semblent naturelles, et que les gens s'y habituent, alors il sera facile de créer une source d'images enrichies de messages secrets. "Avec les modèles génératifs, cette approche donne une voie possible pour que les deux approches se rencontrent", a-t-elle déclaré.

De toute évidence, c'est aussi une épée à double tranchant. "Les criminels l'utiliseront", a déclaré Fridrich, "mais cela peut aussi être utilisé pour de bon."

Auteur collaborateur

18 mai 2023

Recevez Quanta Magazine dans votre boîte de réception

Recevez les faits saillants des nouvelles les plus importantes dans votre boîte de réception

Quanta Magazine modère les commentaires pour faciliter une conversation informée, substantielle et civile. Les commentaires abusifs, grossiers, autopromotionnels, trompeurs, incohérents ou hors sujet seront rejetés. Les modérateurs travaillent pendant les heures normales de bureau (heure de New York) et ne peuvent accepter que les commentaires rédigés en anglais.