Le directeur artistique d'un grand magazine parisien reçoit un portfolio par email. Les images sont saisissantes : lumière de fin d'après-midi sur un visage, grain subtil, mise au point légèrement déficiente sur les bords, tout ce qui fait la signature d'un vrai photographe. Il propose un contrat. C'est en demandant les fichiers RAW pour le traitement en haute définition que quelque chose cloche : il n'y en a pas. Les images n'ont pas de négatif numérique parce qu'elles ne sont pas des photographies. Elles ont été générées par Midjourney v7. En 2026, distinguer une image synthétique d'une photographie authentique est devenu une question de méthode, pas de perception visuelle.
Ce que Midjourney v7 change radicalement
Chaque version majeure de Midjourney a franchi un palier de réalisme, mais la version 7, déployée au début de l'année 2026, constitue une rupture qualitative que ses prédécesseurs n'avaient pas atteinte. Le modèle intègre une simulation physique de la lumière nettement supérieure : les ombres portées respectent maintenant la position et la température de la source lumineuse, les reflets sur les surfaces métalliques ou humides tiennent compte de la géométrie de la scène, le bokeh (le flou d'arrière-plan propre aux objectifs à grande ouverture) est reproduit avec une précision qui imitait auparavant les défauts caractéristiques d'un vrai capteur photographique.
La cohérence spatiale a également progressé de façon spectaculaire. Les versions antérieures souffraient de distorsions de perspective détectables au premier coup d'oeil, de membres qui se prolongeaient dans des directions anatomiquement impossibles, d'objets dont la taille relative trahissait une incompréhension du positionnement dans l'espace. Midjourney v7 modélise la profondeur de scène de manière bien plus rigoureuse. Le résultat est une image où les rapports de taille, les convergences de lignes et la hiérarchie des plans sont cohérents de façon quasi systématique.
L'oeil humain, dont la détection repose sur des heuristiques apprises depuis l'enfance, a été formé à identifier les erreurs que les générations précédentes de modèles produisaient régulièrement. Ces heuristiques sont désormais en partie obsolètes. Un journaliste expérimenté, un photographe professionnel ou un directeur artistique ne peut plus se fier à sa seule intuition visuelle pour distinguer une image réelle d'une image générée. Ce n'est pas une question de compétence : c'est une question de limite structurelle de la perception humaine face à des systèmes entraînés sur des milliards de données.
Les indices visuels qui subsistent malgré tout
Midjourney v7 n'est pas parfait, et les chercheurs en forensique visuelle ont documenté plusieurs catégories d'artefacts persistants. Les mains restent le point faible le plus fréquemment cité. Sur les poses simples (main ouverte de face, poing fermé), le rendu est devenu convaincant. Sur les poses complexes (doigts entrelacés, geste en cours, main tenant un objet mince), les proportions des phalanges, le positionnement des articulations et les plis cutanés accumulent de légères incohérences qui ne correspondent à aucune morphologie humaine réelle.
Le texte intégré dans les images constitue un autre marqueur fiable. Midjourney v7 produit des lettres qui ressemblent visuellement à de l'écriture sans correspondre à aucun système alphabétique cohérent : les mêmes glyphes varient d'une occurrence à l'autre, les mots ne se décomposent pas en séquences de caractères reconnaissables. Un panneau de rue, une étiquette, une inscription sur une devanture générés par Midjourney sont quasi systématiquement illisibles à l'examen rapproché.
Les reflets dans les yeux et dans les lunettes méritent une attention particulière. Un portraitiste expérimenté sait que les catchlights (les petits reflets lumineux dans les yeux du sujet) reflètent précisément la source lumineuse utilisée : un softbox rectangulaire, une fenêtre, un anneau de lumière. Dans les images Midjourney v7, ces reflets sont souvent génériques, mal positionnés par rapport à la direction de la lumière principale, ou légèrement incohérents entre l'oeil gauche et l'oeil droit. Les verres de lunettes présentent des reflets qui ne correspondent pas à la scène visible dans le reste de l'image.
Enfin, les arrière-plans restent trop propres. Une photographie réelle prise en environnement naturel ou urbain accumule des informations parasites : poussière sur l'objectif, aberrations chromatiques aux bords, légères déformations dues à la distorsion de l'objectif, micro-détails de texture qui révèlent un matériau réel. Les fonds générés par Midjourney ont une netteté uniforme et une absence d'imperfections qui trahit l'origine synthétique : les briques sont trop régulières, le feuillage trop symétrique, les surfaces trop exemptes de marques d'usage.
L'absence de métadonnées EXIF : le premier filtre technique
Avant tout examen visuel, la première vérification technique est celle des métadonnées EXIF (Exchangeable Image File Format). Ce standard, défini par la Japan Electronics and Information Technology Industries Association, spécifie l'ensemble des informations que les appareils photo et smartphones encodent automatiquement dans chaque fichier image au moment de la capture. Une photographie produite par un appareil réel contient typiquement plusieurs dizaines de champs : fabricant et modèle de l'appareil, version du firmware, objectif utilisé, focale, ouverture, vitesse d'obturation, sensibilité ISO, balance des blancs, mode de mesure de l'exposition, coordonnées GPS si la géolocalisation est activée, orientation du capteur, profil colorimétrique, et horodatage précis à la seconde.
Une image générée par Midjourney ne dispose pas de ces informations, pour une raison simple : il n'y a ni capteur, ni objectif, ni position géographique lors de la génération. Le fichier JPEG ou PNG produit par la plateforme contient au mieux des métadonnées minimales (dimensions, résolution, espace colorimétrique) ajoutées en post-traitement. L'absence de champs EXIF caractéristiques d'un appareil photo est un signal fort, bien que non définitif : une photographie réelle peut avoir ses métadonnées effacées intentionnellement ou lors d'un transfert via certaines plateformes de messagerie ou de publication qui dépouillent les fichiers de leurs métadonnées pour des raisons de confidentialité.
L'examen EXIF reste donc le premier filtre, pas le dernier mot. Une image avec des métadonnées EXIF complètes et cohérentes n'est pas automatiquement authentique : il est techniquement possible d'injecter des métadonnées EXIF falsifiées dans n'importe quel fichier image à l'aide d'outils courants comme ExifTool. C'est précisément pourquoi l'analyse forensique sérieuse combine l'examen des métadonnées avec l'analyse des signaux intrinsèques de l'image.
Les artefacts de diffusion latente
Midjourney v7, comme la quasi-totalité des générateurs d'images actuels, repose sur un processus dit de diffusion latente (latent diffusion). Le modèle part d'un signal bruité dans un espace latent compressé et le débruite progressivement, conditionné par une description textuelle, pour converger vers une image cohérente. Ce processus laisse des traces spécifiques que les techniques de forensique numérique peuvent détecter.
La micro-texture est le principal marqueur. Une peau humaine photographiée en haute résolution révèle des pores, des légères variations de teinte, des petits vaisseaux sanguins, des poils fins, des zones de sébum, bref une hétérogénéité de surface qui reflète la biologie réelle. Une peau générée par diffusion latente présente une texture trop uniforme : les variations existent, mais elles suivent des patterns statistiques appris à partir de millions d'images d'entraînement, pas une morphologie individuelle réelle. À fort grossissement, cette uniformité statistique devient visible.
Les motifs sur les tissus constituent un autre vecteur d'analyse. Un tissu à carreaux, à rayures ou à motifs répétitifs photographié en conditions réelles présente des déformations dues aux plis, à l'élasticité du matériau et à la perspective. Midjourney v7 gère bien ces déformations sur les zones en focus, mais les motifs ont tendance à ne pas se raccorder correctement aux coutures, aux plis profonds ou aux zones de transition entre deux plans de tissu. Ce défaut, peu visible sur des vignettes web, devient apparent sur une impression grand format ou un examen numérique à 100%.
Les zones de transition entre matières différentes (cheveux sur fond clair, objets aux bords complexes, végétation devant un ciel) révèlent également des signatures de diffusion : un léger lissage des contours, une absence de l'aliasing naturel que produit un capteur photographique réel, une homogénéisation des fréquences spatiales qui n'existe pas dans la nature.
Pourquoi les outils de détection IA sont indispensables
La raison pour laquelle un outil comme Certi-fy apporte une valeur réelle n'est pas que les humains sont incompétents : c'est que la détection systématique requiert l'examen simultané de plusieurs dizaines de signaux, à des fréquences spatiales et dans des espaces colorimétriques que la perception humaine n'est pas équipée pour traiter directement. Un analyste humain fatigué, pressé ou simplement non formé aux spécificités de Midjourney v7 va manquer les signaux subtils. Un algorithme de détection, lui, applique les mêmes critères, à la même sensibilité, sur chaque image, sans jamais se lasser.
Les modèles de détection actuels analysent notamment les distributions statistiques des fréquences dans l'espace de Fourier (les images de diffusion latente ont des signatures fréquentielles différentes des photographies réelles), les patterns de bruit dans les zones uniformes, les corrélations entre pixels adjacents (la manière dont l'information se propage diffère entre un capteur CCD/CMOS et un processus de débruitige itératif), et les incohérences de la réponse colorimétrique par rapport aux profils de capteurs connus.
L'AI Act européen, entré pleinement en application en 2025, impose désormais aux plateformes diffusant du contenu généré par IA de le marquer de façon transparente. Mais cette obligation s'applique aux plateformes, pas aux usages individuels, et elle repose sur la bonne foi des générateurs d'images. Un utilisateur qui exporte une image Midjourney vers son disque dur puis la présente comme une photographie ne déclenche aucun mécanisme de marquage automatique. La vérification reste donc nécessaire du côté du destinataire.
Ce que signifie réellement un score de 94% IA
Quand un outil de détection produit un score de 94% de probabilité qu'une image soit générée par IA, ce chiffre mérite une lecture précise. Il ne s'agit pas d'une certitude absolue, ni d'un verdict définitif. Il s'agit d'une probabilité calculée sur l'agrégation de plusieurs dizaines de signaux indépendants, chacun ayant un poids dans le modèle final. Un score de 94% signifie que l'ensemble des signaux examinés est fortement consistant avec le profil statistique d'une image synthétique, et fortement inconsistant avec le profil d'une photographie réelle.
Cette distinction est importante pour plusieurs raisons. D'abord, 6% d'images réelles peuvent produire des signaux similaires à des images synthétiques : une photographie fortement retouchée, une image compressée de nombreuses fois, une prise de vue avec un rendu très lissé peuvent lever des signaux qui ressemblent à ceux de la diffusion latente. Le score ne dispense pas d'une contextualisation : qui a produit l'image, dans quel contexte, avec quelles preuves d'antériorité.
Ensuite, un score élevé a une valeur probatoire distincte selon l'usage. Pour un rédacteur en chef qui vérifie un portfolio, 94% justifie une demande d'explication et la fourniture de fichiers sources. Pour un juge saisi d'un litige sur la nature d'une image utilisée dans une campagne commerciale, le score constitue un élément de preuve parmi d'autres, qui doit être accompagné de la documentation méthodologique du test. Les standards de l'AI Act imposent une traçabilité des méthodes de détection, ce qui est précisément ce que fournissent les certificats d'analyse générés par Certi-fy : non seulement le score, mais l'ensemble des signaux ayant contribué à son calcul.
Enfin, un score de 60 à 75% doit être interprété avec prudence dans les deux sens. Ni l'image n'est clairement authentique, ni clairement synthétique. Dans cette zone d'incertitude, les indices visuels et contextuels reprennent de l'importance. C'est là que l'expertise humaine et l'outil algorithmique doivent travailler ensemble, non l'un à la place de l'autre.
Construire une pratique de vérification
Pour un professionnel des médias, du droit ou de la communication, la vérification des images en 2026 doit devenir un réflexe systématique, au même titre que la vérification des sources dans le journalisme ou la vérification des signatures dans le droit. Cela suppose une procédure en trois temps : examen des métadonnées EXIF comme premier filtre, analyse algorithmique via un outil de détection pour quantifier les signaux synthétiques, et examen visuel ciblé sur les zones à risque (mains, reflets, texte, arrière-plans, micro-textures).
Cette procédure n'est pas destinée à créer de la paranoïa mais à rétablir un niveau de confiance raisonné dans un environnement visuel profondément transformé. Les images authentiques passent ces vérifications avec des scores bas et des métadonnées cohérentes. Les images synthétiques les font apparaitre comme telles dans la quasi-totalité des cas. Et pour les cas litigieux, la documentation du processus de vérification constitue elle-même une protection : elle démontre la diligence raisonnable du vérificateur, ce qui a une valeur juridique et éditoriale propre.
Verifiez l'authenticite d'une image en quelques secondes
Certi-fy analyse les signaux EXIF, les artefacts de diffusion latente et les patterns statistiques pour calculer une probabilite IA documentee. Resultat en moins de 30 secondes, rapport complet exportable, conforme aux exigences de l'AI Act europeen.
Analyser une image maintenant