Meilleurs LLM pour la Rédaction en 2025

Sommaire

L’IA peut remplir votre page blanche, mais mieux vaut choisir le bon modèle de langage (LLM).

Ici, on vous donne le classement des LLMs basé sur leur capacité réelle de rédaction.

On vous fournit également une analyse d’exemples à travers sept tâches d’écriture, pour un aperçu concret de leur style rédactionnel.

Comment Nous Avons Classé les Modèles LLM

Pour trouver les meilleurs modèles pour l’écriture, nous avons utilisé deux filtres : des données objectives et des tâches d’écriture réelles.

D’abord, nous avons examiné le classement du Chatbot Arena

Chatbot Arena est un classement participatif géré par LMSYS. Il compare les grands modèles de langue (LLM) en fonction des préférences des utilisateurs sur de nombreuses tâches, y compris l’écriture créative.

Nous nous sommes fié particulièrement au classement des modèles sur des tâches d'”Écriture Créative”. Cela nous a donné un point de départ équitable : quels LLM sont performants lorsque les utilisateurs votent réellement sur la qualité de l’écriture.

Ensuite, nous avons comparé ce classement à leur performance générale sur toutes les tâches.

Si un modèle se classe beaucoup plus haut en écriture qu’en général, c’est un bon signe qu’il a un talent rédactionnel certain (surtout s’il s’agit d’un modèle plus petit).

Ensuite, nous les avons testés nous-mêmes

Nous avons créé six tâches d’écriture qui reflètent ce que les professionnels comme vous font réellement :

  • Une scène de fiction (avec des contraintes créatives strictes)
  • Une chanson pop (avec des règles de structure, de ton et de rimes)
  • Un poème (avec un mètre, des images et une chute)
  • Un article de blog SEO (avec placement de mots-clés et structure)
  • Un texte de page de destination (avec hiérarchie et persuasion)
  • Un court essai (avec une thèse claire et des références)
  • Une note de recherche scientifique (avec citations et exactitude)

Chaque tâche a été notée selon des critères spécifiques.

Classement Général des LLM pour l’Écriture

Ci-dessous, vous trouverez le “leaderboard” des meilleurs LLMs selon leurs compètences rédactionnelles.

Pour chaque modèle, nous indiquons :

  • Rang en écriture créative sur Chatbot Arena.
  • Delta = rang créatif moins rang général sur Chatbot Arena (un grand nombre positif = plus fort en écriture que pour tout le reste).
  • Détails clés de notre analyse d’échantillons.

1 — Gemini 2.5 Pro

Rang créatif #1 | Delta 0

Gemini est classé comme le meilleur en écriture créative et conserve sa place lorsque l’on regarde le classement général. Il semble être bon pour n’importe quelle tâche d’écriture.

Analyse d’échantillons :

  • Article SEO très bon en placement de mots-clés et lisibilité.
  • L’échantillon de fiction a mélangé des données climatiques avec des jeunes pousses luminescentes en un clin d’œil.
  • La note de recherche est restée entièrement à jour, citant des essais de 2025.
  • Les paroles de la chanson semblaient convenues et répétitives.

Tarification :

  • Jetons d’entrée : 1,25 $ / 1 M de jetons (contexte ≤ 200 K) | 2,50 $ / 1 M de jetons (> 200 K)
  • Jetons de sortie : 10 $ / 1 M de jetons (≤ 200 K) | 15 $ / 1 M de jetons (> 200 K)
  • Fenêtre de contexte : Jusqu’à 1 M de jetons (1 048 576)

2 — ChatGPT-4o

Rang créatif #2 | Delta 0

Le modèle phare d’OpenAI est actuellement le deuxième meilleur modèle pour l’écriture. Il correspond également à son rang général. Il semble aussi être bon pour n’importe quelle tâche d’écriture. Il se distingue définitivement pour l’écriture structurée et SEO.

Analyse d’échantillons :

  • Le texte de fiction a dominé notre liste (37 / 40). Paragraphes concis, contraintes respectées à la perfection.
  • L’article SEO a obtenu 9/9 pour le placement des mots-clés tout en se lisant comme s’il avait été écrit par un humain.
  • La thèse de l’essai était limpide dès la première ligne ; preuves actuelles jusqu’en 2024.
  • La poésie a manqué le mètre parfait dans quelques vers.
  • Le copywriting manquait des chiffres concrets que GPT-4 a fournis.

Tarification :

  • Jetons d’entrée : 5 $ / 1 M
  • Jetons d’entrée en cache : 2,50 $ / 1 M
  • Jetons de sortie : 20 $ / 1 M
  • Fenêtre de contexte : 128 K de jetons

3 — Grok 3

Rang créatif #2 (groupe) | Delta +1

Le dernier modèle de Grok se classe également très haut en écriture. Il fonctionne assez bien pour l’écriture fictive et marketing, avec son style audacieux et non censuré.

Analyse d’échantillons :

  • Voix de fiction brute et urgente ; forte touche dystopique.
  • Ton du copywriting percutant — idéal pour les marques ciblant les jeunes.
  • Essai conversationnel mais bien structuré.
  • Mètre de la poésie inégal ; rimes convenues.
  • Le brouillon SEO a caché les mots-clés jusqu’au milieu de l’article.

Tarification :

  • Jetons d’entrée : 3 $ / 1 M
  • Jetons de sortie : 15 $ / 1 M
  • Fenêtre de contexte (API) : ≈ 131 K de jetons (l’entreprise annonce jusqu’à 1 M)

4 — o3

Rang créatif #2 (ex aequo) | Delta 0

Le modèle de raisonnement o3 d’OpenAI est le premier de son genre à se classer aussi haut en écriture créative. Il semble particulièrement doué pour l’écriture non fictive et de recherche. Il fonctionne bien avec la cohérence factuelle et possède la meilleure fonction de recherche. Attention à son adhérence très stricte aux prompts !

Analyse d’échantillons :

  • La chanson a remporté l’or (17 / 20). Chaque ligne justifie sa place.
  • Le texte de fiction est arrivé deuxième (36 / 40) avec une imagerie poétique mais sobre.
  • La note de recherche s’est classée première pour l’actualité et l’exactitude des sources.
  • Le texte SEO a légèrement surutilisé le mot-clé principal une fois.
  • Le poème a réutilisé une rime identique labyrinthe/labyrinthe, perdant un point.

Tarification :

  • Jetons d’entrée : 10 $ / 1 M
  • Jetons d’entrée en cache : 2,50 $ / 1 M
  • Jetons de sortie : 40 $ / 1 M

5 — GPT-4.5

Rang créatif #3 | Delta 1

Le nouveau modèle de pré-entraînement GPT-4.5 (beaucoup plus grand que GPT-4o) obtient la troisième place même après le lancement de modèles plus récents. Il semble particulièrement doué pour la fiction et l’écriture créative.

Analyse d’échantillons :

  • La présentation de copywriting a remporté notre test de copywriting (18 / 20). La hiérarchie visuelle est exemplaire.
  • L’essai a montré des citations APA impeccables et des preuves évaluées par des pairs.
  • La voix de fiction était envoûtante et élégante tout du long.
  • La chanson a enfreint une contrainte en laissant le refrain s’infiltrer dans le pré-refrain.
  • La note de recherche a mélangé des articles de 2021 avec de nouvelles données.

Tarification :

  • Jetons d’entrée : 75 $ / 1 M
  • Jetons d’entrée en cache : 37,50 $ / 1 M
  • Jetons de sortie : 150 $ / 1 M
  • Fenêtre de contexte : 128 K de jetons

6 — DeepSeek V3

Rang créatif #4 | Delta 3

Le modèle chinois Open Source DeepSeek V3 se classe quatrième mais se situe septième dans la liste générale. Ce delta de +3 signale un spécialiste créatif et épuré. Il se sent définitivement à l’aise en écriture créative. Et c’est aussi l’un des moins chers de cette liste.

Analyse d’échantillons

  • Le poème a remporté notre tâche de poésie (34 / 40). Rimes riches et une chute soignée.
  • La scène de fiction s’est classée quatrième tout en montrant une voix stoïque et tendre.
  • Les paroles de la chanson ont décroché le bronze avec des phrases concises à deux temps.
  • L’article SEO a omis les températures exactes de torréfaction et a perdu en profondeur.
  • Le copywriting ressemblait plus à un extrait publicitaire qu’à une carte complète.

Tarification :

Heures standard (00:30 – 16:30 UTC)

  • Entrée (cache manquant) : 0,27 $ / 1 M | Cache trouvé : 0,07 $ / 1 M
  • Sortie : 1,10 $ / 1 M

Réduction heures creuses (16:30 – 00:30 UTC) — 50 % de réduction sur ce qui précède

Fenêtre de contexte : 64 K de jetons

7 — Gemma 3-27B

Rang créatif #8 | Delta +6

Le modèle Open Source de Google est une bonne alternative à V3 et encore moins cher. C’est en fait le plus petit modèle de ce classement ! Il semble particulièrement doué pour l’écriture créative, grimpant de six places. Il semble manquer de certaines connaissances du monde et de style que les modèles plus grands incluent.

Analyse d’échantillons :

  • La fiction présente une voix de scientifique douce et des souvenirs bioluminescents.
  • Le pont de la chanson “graine sous la pierre” semble frais.
  • Lisibilité SEO propre avec des mises en évidence en gras.
  • Mètre du poème lâche et imagerie attendue.
  • Les avantages listés dans le copywriting sont verbeux.

Tarification :

  • Jetons d’entrée : 0,05 $ / 1 M
  • Jetons de sortie : 0,10 $ / 1 M
  • Fenêtre de contexte : 128 K de jetons

8 — Claude 3.7 Sonnet

Rang créatif #10 | Delta +10

Claude 3.7 Sonnet gagne dix places lorsque l’on mesure l’écriture pure. C’est le plus grand bond de notre liste. Claude 3.5 était déjà un favori des écrivains en termes de style. Mais il semble que les concurrents aient rattrapé leur retard cette fois-ci. Il est cependant bon en fiction et en écriture créative.

Analyse d’échantillons :

  • Le copywriting offre des textes longs, empathiques et structurés.
  • La poésie conserve des rimes riches et de fortes couches morales.
  • La voix de fiction peut parfois tomber dans des moments ampoulés.
  • Les articles SEO manquent de listes à puces pour un démarrage rapide, nuisant à la valeur de lecture rapide.

Tarification :

  • Jetons d’entrée : 3 $ / 1 M
  • Jetons de sortie : 15 $ / 1 M
  • Cache de prompt : Écriture 3,75 $ / 1 M | Lecture 0,30 $ / 1 M
  • API par lots : 50 % de réduction sur les prix d’entrée/sortie

9 — Command A (Cohere)

Rang créatif #18 | Delta +2

L’ancien modèle Command R était populaire parmi les écrivains. Command A reste une option équilibrée et compétitive sur le marché intermédiaire. Et il semble que…

Analyse d’échantillons :

  • La fiction est à égalité pour la cinquième place avec une machine inventive de “mémoire de l’océan”.
  • Clarté du copywriting forte ; slogan mémorable.
  • La poésie réussit une chute nette malgré un couplet en rime approximative.
  • Le refrain de la chanson est surchargé et dépasse la limite de longueur.
  • L’article SEO présente des murs de texte qui nuisent à la lisibilité.

Tarification :

  • Jetons d’entrée : 2,50 $ / 1 M
  • Jetons de sortie : 10 $ / 1 M
  • Fenêtre de contexte : 256 K de jetons

10 — Llama 3.3 70b

Rang créatif #19 | Delta +4

Le Llama 4 Maverick de Meta est surpassé par son propre ancien modèle Llama 3.3. Ce n’est pas le plus compétitif mais sur le marché open source, il reste l’un des meilleurs. Mention spéciale pour le style d’écriture de fiction (que vous pouvez décensurer et affiner).

Analyse d’échantillons :

  • La fiction offre une voix scientifique douce et mélancolique.
  • La chanson montre de solides motifs de résilience.
  • La poésie peine avec le mètre et la rime.
  • Les paragraphes du copywriting sont denses ; peu d’indices pour la lecture rapide.

Tarification :

  • Jetons d’entrée : 0,72 $ / 1 M
  • Jetons de sortie : 0,72 $ / 1 M

11 — Mistral Large

Rang créatif #49 | Delta +13

Le plus grand modèle open-source de Mistral n’est pas assez compétitif face aux modèles de pointe actuels. Mais il tire en fait son épingle du jeu dans d’autres langues européennes, notamment le français (+32), l’allemand (+24) et l’espagnol (+25).

Analyse d’échantillons

  • La fiction utilise un magnolia hors saison comme métaphore vivide.
  • Les titres du copywriting sont percutants avec des emojis pour les foules des réseaux sociaux.
  • La licence open-weights permet aux équipes à budget serré de déployer sur site.
  • Les vers du poème dépassent le nombre de syllabes.
  • Les références de recherche s’égarent dans la fiction.

Tarification :

  • Jetons d’entrée : 2 $ / 1 M
  • Jetons de sortie : 6 $ / 1 M
  • Fenêtre de contexte : 128 K de jetons

Analyse Détaillée des Échantillons

Ci-dessous, vous trouverez chaque classement par tâche d’écriture spécifique.
Nous avons noté des échantillons de sept tâches d’écriture : fiction, chanson, poème, SEO, copywriting, essai et recherche.

Écriture de Fiction

Écrivez une nouvelle de 500 mots à la première personne au présent qui mélange réalisme scientifique climatique du futur proche avec des éléments de réalisme magique. Exigences* • Ouvrez avec une image sensorielle vive unique (2 phrases max). • Introduisez un personnage principal confronté à un dilemme moral au paragraphe 2. • Incluez une donnée climatique concrète (par exemple, “l’océan a monté de 23 cm en cinq ans”). • Terminez sur une note émotionnellement ambiguë (pas de résolution nette). • Maintenez une prose adaptée à un public de magazine littéraire ; évitez les clichés. • Nombre de mots 480-520. Ne fournissez que le texte de l’histoire — sans commentaire.

Notes modèle par modèle

GPT-4o — 1er (37/40)

  • Voix et ton (9) – Une voix à la première personne stable, discrètement lyrique ; sobre mais évocatrice tout du long.
  • Économie de la scène (9) – Paragraphes concis ; chaque ligne intensifie le dilemme ou texture le décor.
  • Faits + imagination (9) – Les indicateurs climatiques s’intègrent harmonieusement à côté de la jeune pousse lumineuse et des “signatures énergétiques”.
  • Contraintes (10) – Parfait : narration à la première personne au présent, accroche sensorielle en 2 phrases, donnée de 23 cm, enveloppe de 500 mots, fin ouverte.
  • Léger bémol – L’odeur de “cuivre et pierre mouillée” rappelle l’imagerie dystopique courante ; frais mais pas étonnamment nouveau.

o3 — 2e (36/40)

  • Voix et ton (9) – Poétique sans être ampoulé ; la culpabilité discrète du narrateur-ingénieur reste d’une cohérence parfaite.
  • Économie de la scène (9) – Pas de temps morts ; marais, sirènes, bioluminescence, tout sert le pivot moral.
  • Faits + imagination (9) – L’affichage tête haute des données rencontre les esprits chuchotants des marées ; le mélange semble organique.
  • Contraintes (9) – Respecte le point de vue/temps/longueur ; léger risque de dépasser l’ouverture en deux phrases (virgule flottante, mais toujours deux).
  • Léger bémol – Une seule statistique climatique supplémentaire aurait approfondi l’ancrage du “réalisme dur”.

GPT-4 — 3e (34/40)

  • Voix et ton (9) – Voix envoûtante, élégiaque, ne faiblit jamais.
  • Économie de la scène (8) – Quelques ruminations internes occasionnelles ralentissent le rythme.
  • Faits + imagination (8) – Fiole de pluie magique vive équilibrée par une mesure de perte de précipitations ; bon, pas éblouissant.
  • Contraintes (9) – Coche toutes les cases, bien que la donnée climatique utilise les précipitations, pas le niveau de la mer ; toujours légitime.
  • Léger bémol – L’image finale du changement de vent frôle le motif familier.

DeepSeek V3 — 4e (33/40)

  • Voix et ton (8) – Narratrice-mère stoïque mais tendre ; cohérente.
  • Économie de la scène (8) – Rythmes vifs ; fumée, cottages, radio de la fille, tout a sa place.
  • Faits + imagination (8) – Sable bleu vibrant et statistique précise de 23 cm se marient harmonieusement.
  • Contraintes (9) – Ouverture nette, ambiguïté, longueur.
  • Léger bémol – L’intrigue secondaire de la détresse radio est évoquée mais non intégrée, effilochant légèrement l’économie.

Mistral Large — 5e (ex aequo, 32/40)

  • Voix et ton (8) – Hauteur urbaine mélancolique adaptée au décor ; reste stable.
  • Économie de la scène (7) – Plusieurs phrases réflexives réexpliquent les enjeux.
  • Faits + imagination (8) – Le magnolia hors saison comme métaphore magique fonctionne avec la donnée de 23 cm.
  • Contraintes (9) – Toutes les règles formelles sont respectées.
  • Léger bémol – L’image de fin est belle mais répétitive après les séquences de rêve précédentes.

Command-A — 5e (ex aequo, 32/40)

  • Voix et ton (8) – Salin, intime ; culpabilité à la première personne claire.
  • Économie de la scène (7) – Le conseil + la tradition de la machine ajoutent du poids mais frôlent la charge d’exposition.
  • Faits + imagination (8) – La machine de “mémoire de l’océan” littéralise intelligemment les données sur le niveau de la mer.
  • Contraintes (9) – Référence précise de 23 cm, début sensoriel en 2 phrases, fin ambiguë.
  • Léger bémol – Le concept du registre contre la terre sacrée risque le cliché de genre.

Claude Sonnet — 7e (ex aequo, 31/40)

  • Voix et ton (8) – Lyrique, endeuillé ; le concept de la sœur fantôme est cohérent.
  • Économie de la scène (7) – Les flashbacks et les statistiques encombrent parfois le dilemme central.
  • Faits + imagination (8) – La biotechnologie Terrabalance contre la sœur spectrale bien fusionnée.
  • Contraintes (8) – Les données climatiques utilisent la température plutôt que le niveau de la mer ; toujours valide. Le nombre de mots avoisine les 520 mais est probablement acceptable.
  • Léger bémol – Une légère touche ampoulée (“fantômes aquarellés”) bascule dans le cliché.

Gemini 2.5 — 7e (ex aequo, 31/40)

  • Voix et ton (8) – Narrateur sec, las ; registre stable.
  • Économie de la scène (7) – Le tiers médian s’attarde sur le coût de la capacité ; la tension baisse.
  • Faits + imagination (7) – Pouvoir d’hydromancie juxtaposé aux chiffres des rations ; bon mais moins entremêlé.
  • Contraintes (9) – Toutes les règles strictes sont respectées.
  • Léger bémol – L’image d’ouverture de la poussière de miroir est forte mais répète le trope de la “terre craquelée”.

Gemma 3 27B — 9e (30/40)

  • Voix et ton (8) – Voix de scientifique douce, mélancolique ; cohérente.
  • Économie de la scène (7) – La politique des algorithmes contre les fils de mémoire bioluminescente se disputent l’attention.
  • Faits + imagination (7) – Les algues “se souvenant” des récifs intriguent ; nécessite un lien plus étroit avec les données numériques.
  • Contraintes (8) – Respecte toutes les règles ; l’ouverture est composée de deux phrases longues mais acceptables.
  • Léger bémol – Terminer avec un code inchangé semble peu puissant comme pivot émotionnel.

Grok 3 — 10e (29/40)

  • Voix et ton (7) – Urgence brute mais glissement occasionnel vers la polémique.
  • Économie de la scène (7) – Mise en place solide ; la vision des figures de poussière interrompt l’action en milieu de scène.
  • Faits + imagination (7) – Ancêtres chuchotants + statistique de 28 cm se marient bien, bien que les données soient légèrement différentes de l’exemple de la consigne.
  • Contraintes (8) – Toutes les spécifications structurelles sont bonnes.
  • Léger bémol – La fin flotte plutôt que de conclure, diffusant la tension antérieure.

Llama 3.3 — 11e (28/40)

  • Voix et ton (7) – Enjeux personnels clairs, mais le motif du jasmin se répète lourdement.
  • Économie de la scène (6) – La réflexion l’emporte sur le mouvement externe ; les premiers paragraphes se font écho.
  • Faits + imagination (7) – Croissance surnaturelle de la vigne juxtaposée à la statistique de 17 cm ; le lien semble lâche.
  • Contraintes (8) – Exigences techniquement respectées ; ouverture correcte.
  • Léger bémol – “Modèles météorologiques capricieux” et “parfum capiteux” frôlent les phrases toutes faites.

Écriture de Chanson

Écrivez des paroles en anglais pour une chanson pop mid-tempo (≈ 100 BPM) avec une structure ABAB CB (deux couplets, pré-refrain, refrain, pont, refrain final).

Thème : résilience personnelle après un rejet social.

Exigences

• Le refrain doit contenir la phrase accrocheuse “I bend, I never break.”

• Le pont doit introduire une nouvelle métaphore et changer le schéma de rimes.

• Évitez les grossièretés explicites ; restez adapté à la radio.

• Livrer sous la forme : V1 / V2 / Pré-Ch / Ch / Pont / Ch. Uniquement les paroles, pas d’accords.

Notes modèle par modèle

  • 1. o3 — 17 / 20
    • Voix et ton : 4.0 – résilience inébranlable à la première personne, pas de baisse de moral
    • Économie de la scène : 4.0 – concis, chaque ligne porte une image ou un mouvement
    • Détail ↔ imagination : 4.5 – “oiseaux en papier qui ne pouvaient pas voler,” “chaque bleu était de l’or battu,” frappant et spécifique
    • Gestion des contraintes : 4.5 – ordre des sections parfait, accroche uniquement dans le refrain, pont frais avec une comète
  • 2. GPT-4o — 17 / 20
    • Voix et ton : 4.5 – chaleureux, confiant, point de vue cohérent
    • Économie de la scène : 4.0 – couplets concis, quasiment aucun remplissage
    • Détail ↔ imagination : 4.0 – images viscérales de pierre / braise équilibrent l’émotion
    • Gestion des contraintes : 4.5 – structure impeccable, pont avec rivière sculptant la pierre et nouveau schéma de rimes
  • 3. DeepSeek V3 — 16 / 20
    • Voix et ton : 4.0 – détermination constante et calme tout du long
    • Économie de la scène : 4.0 – lignes courtes et percutantes maintiennent le rythme
    • Détail ↔ imagination : 3.5 – les métaphores météorologiques + fluviales semblent fraîches mais moins de touches sensorielles
    • Gestion des contraintes : 4.5 – toutes les règles respectées avec précision, le pont change de rime
  • 4. Gemini 2.5 Pro — 15.5 / 20
    • Voix et ton : 4.0 – le motif du saule tisse la lyrique ; légère répétition mineure
    • Économie de la scène : 4.0 – couplets efficaces, remplissage occasionnel dans le refrain
    • Détail ↔ imagination : 3.5 – le pont du phare rehausse l’imagerie ; le reste est familier
    • Gestion des contraintes : 4.0 – disposition correcte, métaphore de pont fraîche
  • 5. Gemma 3 27B — 15.5 / 20
    • Voix et ton : 4.0 – introspectif, ambiance discrète et cohérente
    • Économie de la scène : 4.0 – couplets concis, pas de temps morts
    • Détail ↔ imagination : 3.5 – “graine sous la pierre” se distingue, sinon léger en détails concrets
    • Gestion des contraintes : 4.0 – structure et utilisation de l’accroche impeccables
  • 6. GPT-4 — 14.5 / 20
    • Voix et ton : 4.0 – stable mais l’accroche apparaît dans le pré-refrain (manquement à la règle)
    • Économie de la scène : 4.0 – bon déroulement, quelques remplissages abstraits
    • Détail ↔ imagination : 3.5 – visuels de pluie et de rivière adéquats, pas éblouissants
    • Gestion des contraintes : 3.0 – manquement mineur (accroche hors du refrain) fait baisser la note
  • 7. Grok 3 — 14.5 / 20
    • Voix et ton : 4.0 – résolution déterminée, point de vue cohérent
    • Économie de la scène : 3.5 – légèrement verbeux, quelques formulations génériques
    • Détail ↔ imagination : 3.0 – imagerie passable, pont fluvial recyclé
    • Gestion des contraintes : 4.0 – respecte l’ordre des sections ; pré-refrain proche de l’accroche acceptable
  • 8. Claude Sonnet 3.7 — 14 / 20
    • Voix et ton : 4.0 – empathique mais dérive vers un discours d’encouragement explicatif
    • Économie de la scène : 3.0 – lignes longues, plusieurs phrases redondantes
    • Détail ↔ imagination : 4.0 – pont du phénix vivide, quelques indices sociaux concrets
    • Gestion des contraintes : 3.0 – le refrain répète l’accroche deux fois sans changement de rime ; les couplets ne sont pas en ABAB
  • 9. Llama 3.3 — 13.5 / 20
    • Voix et ton : 3.5 – motivant, légère dérive de temps
    • Économie de la scène : 3.5 – lignes de remplissage modérées
    • Détail ↔ imagination : 3.0 – imagerie familière, rien de frappant
    • Gestion des contraintes : 3.5 – légère imprécision du mètre mais format intact
  • 10. Command A — 13 / 20
    • Voix et ton : 3.5 – cohérent mais refrain surchargé
    • Économie de la scène : 3.0 – nombreuses lignes explicatives ralentissent le rythme
    • Détail ↔ imagination : 3.0 – pont navire/ancre frais, le reste générique
    • Gestion des contraintes : 3.5 – matériel de refrain supplémentaire étire la longueur
  • 11. Mistral Large — 12.5 / 20
    • Voix et ton : 3.5 – stimulant, accroche diluée par l’ajout de la phrase “I rise, I never shake”
    • Économie de la scène : 3.0 – images répétées, clichés réduisent l’impact
    • Détail ↔ imagination : 3.0 – pont de l’arbre en hiver correct, le reste des métaphores standards
    • Gestion des contraintes : 3.0 – variation supplémentaire du refrain et manquements mineurs aux règles baissent la note

Écriture de Poème

Composez un sonnet shakespearien (14 vers, pentamètre iambique, abab cdcd efef gg) sur la tension entre la mémoire numérique et l’oubli humain. Utilisez au moins une volta à la ligne 9 et terminez par un couplet rimé qui offre un paradoxe.

Notes modèle par modèle

DeepSeek V3 — 34 pts

  • Mètre 9/10 : Une terminaison féminine, sinon propre.
  • Rime 9/10 : Rime riche abab cdcd efef gg ; seule true/through est une rime pauvre.
  • Profondeur 8/10 : Volta claire (“L’oubli n’a jamais été qu’un défaut !”) et paradoxe ; argument nuancé mais familier.
  • Imagerie 8/10 : “Le scribe numérique si avide” & “le fantôme de la vie devenue terne” semblent frais.

GPT-4 /-5 — 33 pts

  • Mètre 9/10 : Léger trochée initial, sinon pentamètre solide.
  • Rime 8/10 : Bon schéma ; rest/blest est une demi-rime, sinon rime riche.
  • Profondeur 9/10 : Volta exemplaire à la ligne 9, paradoxe fort (“Nous sauvegardons trop, et donc, nous oublions”).
  • Imagerie 7/10 : “L’assombrissement des lumières” est évocateur, mais beaucoup relève du lexique cybernétique standard.

Command-A — 33 pts

  • Mètre 9/10 : Fluide, juste une syllabe non accentuée supplémentaire.
  • Rime 7/10 : Schéma intact ; le couplet repose sur une rime approximative forgets/begets.
  • Profondeur 9/10 : Volta élégante et paradoxe bien formulé sur le choc entre machine et âme.
  • Imagerie 8/10 : “Nous mettons le feu au passé” et “les veines de la mémoire” ajoutent une touche tactile.

o3 — 32 pts

  • Mètre 9/10 : Forte discipline des vers.
  • Rime 7/10 : Mots identiques maze/maze et go/go baissent la note.
  • Profondeur 8/10 : Chute (“Mais tournez-vous — les archives enflent…”) intelligente, paradoxe présent.
  • Imagerie 8/10 : “Les échos fantomatiques encombrent la vue éveillée” se distingue.

GPT-4o — 31 pts

  • Mètre 8/10 : Plusieurs vers de onze syllabes.
  • Rime 6/10 : rebels/dwell brise l’ensemble cdcd ; les autres paires sont nettes.
  • Profondeur 9/10 : Forte volta rhétorique et paradoxe (“oublier de se souvenir”).
  • Imagerie 8/10 : “Écrans de cristal,” “la sentinelle monte la garde” — vivide bien que légèrement familier.

Claude 3 — 31 pts

  • Mètre 8/10 : Deux vers de 9 syllabes.
  • Rime 8/10 : Principalement parfait ; knew/true rime pauvre.
  • Profondeur 8/10 : Éthique réfléchie de l’oubli, volta solide.
  • Imagerie 7/10 : La métaphore de la pluie d’été est agréable mais pas surprenante.

Gemini Pro — 30 pts

  • Mètre 8/10 : Substitutions mineures.
  • Rime 7/10 : stray/yesterday faible ; le reste est correct.
  • Profondeur 8/10 : Volta (“Mais le silicium retient…”) claire ; paradoxe légèrement faible.
  • Imagerie 7/10 : “Rosée du matin” & “espace intemporel” passables.

Grok 3 — 30 pts

  • Mètre 8/10 : Quelques syllabes supplémentaires.
  • Rime 8/10 : Schéma correct, rimes sûres.
  • Profondeur 7/10 : Volta présente, mais paradoxe sous-estimé.
  • Imagerie 7/10 : “Vaste coffre-fort de bytes” solide, mais beaucoup relève de phrases toutes faites.

Mistral Large — 30 pts

  • Mètre 8/10 : Ouverture catalectique occasionnelle.
  • Rime 8/10 : Bonne fidélité ; le couplet employ/deploy est créatif.
  • Profondeur 7/10 : La volta repose sur une panne de système ; paradoxe légèrement énoncé.
  • Imagerie 7/10 : “Chemins de silicium” et “servante antique” bien mélangés.

Gemma 3-27B — 27 pts

  • Mètre 7/10 : Plusieurs vers de 11 syllabes.
  • Rime 7/10 : Principalement correct ; loss/across faible.
  • Profondeur 7/10 : Volta implicite ; paradoxe clair mais familier.
  • Imagerie 6/10 : “Fantôme des jours” & “coquille vide” lisibles mais attendus.

Llama 3.3 — 23 pts

  • Imagerie 6/10 : Un certain attrait (“cet écran là-bas”) mais généralement prosaïque.
  • Mètre 6/10 : Fréquents vers trop longs et inversions d’accent.
  • Rime 4/10 : Le quatrain cdcd s’effondre en mono-rime ; le couplet ne rime pas.
  • Profondeur 7/10 : Volta et paradoxe adéquats, mais la logique est diffuse.

Écriture SEO

Rédigez un article de blog de 1000 mots optimisé pour le SEO destiné aux torréfacteurs de café à domicile débutants.

Exigences

  1. Mot-clé principal : “torréfaction de café à domicile”. Utilisez-le dans le H1, les 100 premiers mots, et une fois par section principale.
  2. Incluez 3 mots-clés secondaires : “profil de torréfaction claire”, “équipement de torréfaction de café”, “refroidissement des grains”.
  3. Hiérarchie des balises H : H1 + 5 H2 + listes à puces si utile.
  4. Ajoutez une méta-description de 50 caractères.
  5. Utilisez un ton amical et compétent ; niveau de lecture 8e-9e année (équivalent 4e-3e en France).
  6. Terminez par une courte FAQ (3 Q&R).
    Ne retournez que l’article (pas d’explications).

Notes modèle par modèle

1️⃣ GPT-4o – 26 / 30

  • Placement des mots-clés (9) – Les expressions principales se trouvent dans le H1, la méta, les sous-titres et le corps du texte avec une densité naturelle.
  • Lisibilité (9) – Introduction courte, structure H claire, étapes numérotées, FAQ ; idéal pour une lecture rapide.
  • Adéquation à l’intention utilisateur (8) – Guide un vrai débutant de “pourquoi torréfier” au refroidissement et au stockage ; manque seulement une section de dépannage.

2️⃣ o3 – 25 / 30

  • Placement des mots-clés (8) – Utilisation stratégique, légère sur-répétition mineure dans un paragraphe.
  • Lisibilité (9) – Voix amicale, déroulement logique, la liste de contrôle facilite la numérisation.
  • Adéquation à l’intention utilisateur (8) – Processus de bout en bout avec des puces de référence rapide ; méta-description manquante.

3️⃣ Claude 3.7 Sonnet – 24 / 30

  • Placement des mots-clés (8) – Solide présence dans les titres et le corps du texte.
  • Lisibilité (8) – Markdown propre, bien que quelques phrases longues.
  • Adéquation à l’intention utilisateur (8) – Couvre les niveaux d’équipement, les phases de torréfaction, le refroidissement, le stockage ; manque une fiche de démarrage rapide.

4️⃣ GPT-4.5 – 23 / 30

  • Placement des mots-clés (8) – Tous les termes sont présents mais légère surabondance de “profil de torréfaction claire”.
  • Lisibilité (7) – Bloc d’introduction plus grand et listes longues ralentissent la numérisation.
  • Adéquation à l’intention utilisateur (8) – Bonne ampleur mais omet les températures exactes dans le pas à pas.

5️⃣ DeepSeek V3 – 22 / 30

  • Placement des mots-clés (7) – Adéquat ; quelques titres utilisent des synonymes au lieu des cibles.
  • Lisibilité (8) – Paragraphes concis, étapes ordonnées claires.
  • Adéquation à l’intention utilisateur (7) – Adapté aux débutants mais léger sur les chiffres concrets.

6️⃣ Gemini 2.5 Pro – 21 / 30

  • Placement des mots-clés (7) – Bonne utilisation précoce ; dilution en milieu d’article.
  • Lisibilité (8) – Ton engageant, mises en évidence en gras.
  • Adéquation à l’intention utilisateur (6) – Fort sur les avantages et l’équipement ; mince sur les temps de torréfaction et les mécanismes de refroidissement.

7️⃣ Grok 3 – 20 / 30

  • Placement des mots-clés (6) – Les termes clés apparaissent tardivement ; pas de méta-description.
  • Lisibilité (7) – Conversationnel mais paragraphes longs.
  • Adéquation à l’intention utilisateur (7) – Couvre l’essentiel ; manque de détails sur la température/temps de développement.

8️⃣ Mistral Large – 19 / 30

  • Placement des mots-clés (6) – Utilise des variantes, diminuant la densité de correspondance exacte.
  • Lisibilité (8) – Structure propre ; méta-description manquante.
  • Adéquation à l’intention utilisateur (5) – Aperçu rapide ; omet les plages de température et les spécificités de refroidissement.

9️⃣ Llama-3.3 – 18 / 30

  • Placement des mots-clés (6) – Présent mais répétitif sans variété sémantique.
  • Lisibilité (6) – Paragraphes denses, peu de puces.
  • Adéquation à l’intention utilisateur (6) – Équipement/profils couverts, mais les étapes sont vagues (pas d’indications de °F ou de minutes).

🔟 Command A – 17 / 30

  • Placement des mots-clés (7) – Couverture passable mais quelques surabondances dans l’intro.
  • Lisibilité (5) – Murs de texte, formatage minimal nuisent à la lisibilité rapide.
  • Adéquation à l’intention utilisateur (5) – Processus de base ; peu de détails sur la phase de développement et le dépannage.

1️⃣1️⃣ Gemma 3-27-B – 16 / 30

  • Placement des mots-clés (5) – Expressions cibles enfouies ; titres créatifs au détriment des termes SEO.
  • Lisibilité (6) – Amical mais sections très longues, italiques abondants.
  • Adéquation à l’intention utilisateur (5) – Explique les étapes mais manque de températures/temps concrets et de profondeur sur le refroidissement.

Copywriting

Rédigez un texte de page de destination à haute conversion (≈ 300 mots) pour une nouvelle ligne de chaussures de course légères et entièrement recyclables nommée Zephyr-Lite™.

Public cible → coureurs urbains, 20-40 ans, éco-conscients mais soucieux de leur style.

Doit inclure
• Un titre percutant (≤ 8 mots)
• Un sous-titre explicitant le principal avantage (≤ 18 mots)
• 3 puces de bénéfices faciles à lire (2-3 lignes chacune)
• Un court témoignage client (prénom, ville)

• Un unique libellé de bouton d’appel à l’action (≤ 4 mots)
Ton : énergique, conversationnel, moderne.

GPT-4 — 18 / 20

  • Clarté 4.5 – Titre concis de cinq mots et sous-titre de deux phrases ; phrases courtes et actives maintiennent une clarté cristalline.
  • Persuasion 4.5 – Équilibre l’attrait émotionnel (“liberté de courir”) avec la preuve rationnelle (“entièrement recyclable”) et une urgence discrète dans l’appel à l’action.
  • Adéquation du ton 4.5 – Énergique, à la deuxième personne, moderne — correspond exactement au brief sans argot qui pourrait diviser la tranche d’âge 20-40 ans.
  • Hiérarchie visuelle 4.5 – Structure parfaite : titre → sous-titre → trois puces équilibrées → témoignage → appel à l’action isolé — facile à parcourir sur mobile.

o3 — 17.5 / 20

  • Clarté 4.5 – Métrique spécifique (180 g) et verbes vifs (“flotter sur l’asphalte”) ancrent la promesse.
  • Persuasion 4.5 – Ajoute un programme de recyclage avec crédit — levier de conversion supplémentaire par rapport aux concurrents.
  • Adéquation du ton 4.5 – Légèrement audacieux (“Vivez Fort”) tout en restant dans le créneau moderne-énergique.
  • Hiérarchie visuelle 4.0 – Les puces font deux à trois lignes mais restent lisibles ; placement de l’appel à l’action solide.

GPT-4o — 17 / 20

  • Clarté 4.0 – Titre vivide ; l’étiquette de section “Pourquoi les coureurs urbains adorent…” guide l’œil.
  • Persuasion 4.0 – Encadrement solide des avantages, bien que moins de faits concrets que GPT-4.
  • Adéquation du ton 4.5 – Flourishes conversationnels (“Flottez sur le bitume”) atteignent le ton cible.
  • Hiérarchie visuelle 4.5 – Imbrication claire, espace blanc généreux, mots-clés des puces en début de ligne pour une lecture par balayage.

Claude 3 Sonnet — 16 / 20

  • Clarté 4.0 – Déroulement logique mais plus dense (≈340 mots), risquant la fatigue de la lecture rapide.
  • Persuasion 4.0 – Technologie écologique concrète (mousse d’algues) renforce la crédibilité ; la longueur émousse légèrement l’impact.
  • Adéquation du ton 4.0 – Inspirant mais un peu formel par rapport au brief.
  • Hiérarchie visuelle 4.0 – Les séparateurs Markdown aident, mais les puces de style paragraphe ralentissent la numérisation.

Command A — 15.5 / 20

  • Clarté 4.0 – Trio de titres percutants ; texte propre avec peu de distractions.
  • Persuasion 4.0 – Slogan mémorable “Look good, run clean” plus caractéristiques équilibrées.
  • Adéquation du ton 4.0 – Direct et moderne, bien que pas particulièrement distinctif.
  • Hiérarchie visuelle 3.5 – Ordre correct des éléments, mais les bizarreries de saut de ligne réduisent le rythme.

Mistral Large — 15 / 20

  • Clarté 3.5 – Titre avec emoji légèrement clivant ; sinon concis.
  • Persuasion 4.0 – Bonne scène de course en ville et bénéfice écologique clair ; manque de chiffres concrets.
  • Adéquation du ton 4.0 – Conversationnel, légèrement décontracté ; l’emoji amplifie l’énergie.
  • Hiérarchie visuelle 3.5 – Les puces avec icônes aident à la lecture rapide mais ajoutent du bruit visuel.

Llama 3.3 — 14 / 20

  • Clarté 3.5 – Respecte le format ; quelques formulations génériques (“révolution de la course durable”).
  • Persuasion 3.5 – Avantages solides, mais langage sensoriel léger.
  • Adéquation du ton 3.5 – Amical mais moins percutant que les meilleurs concurrents.
  • Hiérarchie visuelle 3.5 – Structure de base OK ; témoignage enfoui au milieu du texte.

Gemini 2.5 Pro — 13.5 / 20

  • Clarté 3.5 – Question d’introduction plus “littéralement ?” nuisent à la lisibilité.
  • Persuasion 3.0 – Écologie + performance abordées, mais la verbosité diffuse l’impact.
  • Adéquation du ton 3.5 – Conversationnel avec quelques sur-explications.
  • Hiérarchie visuelle 3.5 – Les phrases longues à l’intérieur des puces ralentissent la lecture rapide.

DeepSeek V3 — 12.5 / 20

  • Clarté 3.5 – Extrêmement concis ; formulation directe aide à la compréhension.
  • Persuasion 3.0 – Manque d’accroches sensorielles ou émotionnelles vives.
  • Adéquation du ton 3.0 – Direct mais générique.
  • Hiérarchie visuelle 3.0 – La longueur compacte crée un rythme minimal ; ressemble plus à un extrait publicitaire qu’à un texte de page de destination.

Grok 3 — 12 / 20

  • Clarté 3.0 – Ouverture amicale, mais la section médiane s’égare au-delà de la limite de 300 mots.
  • Persuasion 3.0 – Enthousiaste mais dilué par des phrases de remplissage.
  • Adéquation du ton 3.0 – Très décontracté (“dope”) — pourrait aliéner la tranche d’âge supérieure.
  • Hiérarchie visuelle 3.0 – Trois puces bien, mais d’énormes blocs de texte ailleurs nuisent à la lisibilité.

Gemma 3 27B — 11 / 20

  • Clarté 3.0 – Remplit la liste de contrôle, mais les puces des avantages sont verbeuses.
  • Persuasion 2.5 – Centré sur les caractéristiques, léger sur les preuves émotionnelles ou spécifiques.
  • Adéquation du ton 3.0 – Amical mais prévisible ; manque d’étincelle.
  • Hiérarchie visuelle 2.5 – Paragraphes denses et niveaux de titres supplémentaires créent du désordre.

Rédaction d’Essai

Rédigez un essai argumentatif de 800 mots évaluant si le revenu de base universel (RBU) stimulerait l’entrepreneuriat dans les économies développées.

Exigences
• Présentez une thèse claire dans l’introduction.
• Utilisez au moins deux études économiques réputées publiées après 2021 (citez en style APA dans le texte).
• Abordez un contre-argument majeur.
• Concluez par une recommandation politique.
• Ton académique formel, mais lisible. Ne retournez que le texte de l’essai.

GPT-4 (“GPT-4,5”)

  • Clarté de la thèse (5/5)
    • Thèse en une phrase dans le premier paragraphe, prend position et préfigure le mécanisme (réduire les barrières, favoriser la prise de risque).
  • Qualité des preuves (4/5)
    • Deux études évaluées par des pairs de 2023-2024 plus l’essai randomisé contrôlé (ERC) de GiveDirectly ; style APA dans le texte ; problème mineur : l’article du Guardian n’est pas académique.
  • Traitement du contre-argument (4/5)
    • Aborde l’affirmation de la “désincitation au travail” avec deux expériences récentes ; ton équilibré, boucle la boucle.
  • Style et mécanique (4/5)
    • ≈ 820 mots, structure serrée, peu de phrases exagérées ; liste de références formatée ; une petite incohérence citation/date.

GPT-4o

  • Clarté de la thèse (5/5)
    • Titre question-réponse direct suivi d’une phrase de thèse claire et de conditions (“dépend d’une mise en œuvre soignée”).
  • Qualité des preuves (4/5)
    • Banerjee et al. 2022 (JEP) et Jones & Molina 2023 (NBER) sont solides ; APA dans le texte correct ; mais utilise le pilote finlandais (≤2021) pour l’argument du travail.
  • Contre-argument (4/5)
    • Critique de l’incitation au travail traitée longuement, cite des données, distingue les facteurs de motivation.
  • Style et mécanique (3/5)
    • Légèrement moins de 800 mots, transitions parfois abruptes ; virgules flottantes mineures.

o3

  • Clarté de la thèse (4/5)
    • Affirmation nuancée (“peut… stimulus net… si soigneusement conçu”) explicite mais enfouie au milieu de l’introduction.
  • Qualité des preuves (4/5)
    • Utilise l’ERC 2023-2024 (Rhodes et al.) et le modèle macro 2024 ; sources académiques solides ; APA dans le texte correct.
  • Contre-argument (4/5)
    • Double volet : incitations au travail et financement ; offre des réfutations basées sur des données.
  • Style et mécanique (3/5)
    • Ton académique dense, phrases longues occasionnelles ; 820 mots ; titres absents — le déroulement en souffre un peu.

Claude 3.7 Sonnet

  • Clarté de la thèse (4/5) – Position claire, aperçu des arguments.
  • Qualité des preuves (4/5) – Cite Rothstein & Navarro 2022 et l’ERC Martinez & Wong 2023 ; tous deux postérieurs à 2021 ; formatage OK.
  • Contre-argument (3/5) – Traite l’affirmation de la “complaisance”, mais s’appuie principalement sur des assertions et une statistique (enquête à 78 %).
  • Style et mécanique (3/5) – Lisible, ~800 mots ; titres ; quelques lourdeurs dues à la voix passive.

DeepSeek V3

  • Clarté de la thèse (4/5) – Position argumentée dans l’intro, bien.
  • Qualité des preuves (3/5) – Bauer 2023 (évalué par des pairs) & analyse de l’Alaska 2022 crédibles ; APA ok ; pilote finlandais de 2021 à la limite de la date.
  • Contre-argument (3/5) – Désincitation au travail soulevée avec des données, mais réfutation courte.
  • Style et mécanique (3/5) – Concis mais perd un peu de poli académique ; nombre de mots ~730.

Gemini 2.5 Pro

  • Clarté de la thèse (3/5) – Position claire, mais l’intro passe beaucoup de temps sur le contexte avant d’énoncer l’affirmation.
  • Qualité des preuves (3/5) – Méta-analyse Smith & Williams 2022, Jones & Patel 2023 ; sources correctes, mais citations de type MLA.
  • Contre-argument (3/5) – Aborde la préoccupation de l’offre de travail de manière réfléchie, mais léger sur les données.
  • Style et mécanique (3/5) – Bonne lisibilité ; se termine par une politique prudente ; légèrement verbeux.

Grok 3

  • Clarté de la thèse (3/5) – Explicite mais nuancée (“potentiel”) ; manque de feuille de route.
  • Qualité des preuves (3/5) – Miller et al. 2022 et rapport LSE 2023 crédibles ; références dans le texte mais pas APA.
  • Contre-argument (3/5) – Couvre le coût budgétaire et l’offre de travail ; profondeur modérée.
  • Style et mécanique (3/5) – Ton conversationnel presque trop décontracté pour l’académique ; mécanique correcte.

Mistral Large

  • Clarté de la thèse (3/5) – Affirmation claire ; faute de frappe mineure dans “Inome”.
  • Qualité des preuves (3/5) – Anderson 2022 & FMI 2023 ; FMI est institutionnel et non évalué par des pairs ; une référence de 2021.
  • Contre-argument (3/5) – Discute de la question de la dépendance, citation Standing 2021 (date limite).
  • Style et mécanique (3/5) – Bons titres ; quelques remplissages génériques ; se situe près de 780 mots.

Command A

  • Clarté de la thèse (4/5) – Thèse déclarative, forte signalisation.
  • Qualité des preuves (2/5) – Une étude NBER du Kenya 2022 (contexte d’économie du développement) + Kim & Lee 2023 ; mais les preuves du Kenya ne concernent pas directement les “économies développées”, citations présentes mais un pilote antérieur à 2021.
  • Contre-argument (3/5) – Désincitation au travail abordée avec une revue de l’OIT, passable mais brève.
  • Style et mécanique (2/5) – Plus de 950 mots ; problèmes de formatage mineurs ; italiques manquants.

Llama 3.3

  • Clarté de la thèse (3/5) – Position énoncée, mais l’intro répète la prémisse.
  • Qualité des preuves (2/5) – Banerjee 2022, Bianchi 2023 corrects ; Kuang 2022 pour le capital humain ; certaines références antérieures à 2021 (Hoynes & Rothstein 2019).
  • Contre-argument (2/5) – Traite brièvement de l’offre de travail ; cite la revue systématique Cunsolo 2022 mais pas de données granulaires.
  • Style et mécanique (3/5) – Se lit fluidement ; légère redondance ; style APA principalement correct.

Gemma 3-27B

  • Clarté de la thèse (2/5) – Affirmation dispersée ; le lecteur doit inférer la position.
  • Qualité des preuves (2/5) – Banerjee 2021 (focus sur les pays en développement) et étude de relance Lyons & Ryu 2023 ; citations approximatives.
  • Contre-argument (2/5) – Mentionne la participation au travail mais réfutation largement spéculative.
  • Style et mécanique (3/5) – Prose solide mais phrases trop longues ; ~900 mots.

Rédaction de Recherche

Générez une mini-revue de littérature structurée (≈ 1000 mots) sur les dernières thérapies basées sur CRISPR (2022-2025) pour la drépanocytose.

Livrer sous la forme :

  1. Résumé Exécutif (≤ 120 mots)
  2. Tableau de 3 à 5 études clés avec : auteur-année • stratégie d’édition • nombre de patients • résultats clés (utilisez un tableau Markdown)
  3. Section Tendances et Lacunes (puces)
  4. Orientations Futures (paragraphe)

Citez les sources en style IEEE ; incluez le DOI si disponible. Ne retournez que la revue.

Notes modèle par modèle

1. o3 – 35 / 40

  • Actualité des sources (9/10) – Cite des données de 2024-2025 (exa-cel, reni-cel, BEAM-101) et des jalons réglementaires ; aucune étude plus ancienne hors champ.
  • Exactitude (9/10) – Résultats traçables à des articles évalués par des pairs ou à des communiqués officiels d’essais ; pas de chiffres gonflés ; inclut les événements de sécurité.
  • Clarté de la synthèse (9/10) – Résumé exécutif succinct ; traitement équilibré des avantages par rapport aux limites ; déroulement narratif fluide.
  • Fidélité du formatage (8/10) – Respecte chaque titre demandé, nombre de mots, références de style IEEE avec DOI ; seulement des bizarreries mineures de saut de ligne dans les citations.

2. GPT-4o – 34 / 40

  • Actualité des sources (9) – Dernières approbations et étude de “prime editing” de 2024 “sous presse”.
  • Exactitude (8) – Principalement correct ; une entrée préclinique présentée aux côtés des essais cliniques.
  • Clarté (9) – Très lisible ; sectionnement et transitions clairs.
  • Formatage (8) – Presque parfait ; quelques références manquent de DOI, mais le style IEEE est par ailleurs intact.

3. Claude-3 Sonnet – 32 / 40

  • Actualité des sources (8) – Capture les approbations de 2023-2024 et les données de coût, mais répète une étude de 2021.
  • Exactitude (8) – Pas d’erreurs flagrantes, mais certains chiffres proviennent de communiqués de presse plutôt que de rapports primaires.
  • Clarté (9) – Prose engageante, tendances/lacunes explicites.
  • Formatage (7) – Ajoute une Introduction supplémentaire ; citations en partie IEEE, en partie Harvard.

4. GPT-4 (classique) – 29 / 40

  • Actualité des sources (8) – Mentionne les essais de 2024 mais aussi un article de référence de 2021.
  • Exactitude (7) – Plusieurs lignes “en cours” sans nombre de patients ; s’appuie sur des médias secondaires.
  • Clarté (8) – Bon résumé exécutif et perspectives d’avenir.
  • Formatage (6) – Style IEEE mélangé avec des URL simples ; les colonnes du tableau sortent des spécifications.

5. DeepSeek V3 – 28 / 40

  • Actualité des sources (8), Exactitude (6) – Affirmation gonflée de réduction des CVO de 99 % ; étiquettes d’auteur génériques.
  • Clarté (7) – Cohérent mais mince sur les détails mécanistiques.
  • Formatage (7) – Respecte la structure de base ; citations correctes.

6. Gemini Pro – 27 / 40

  • Actualité des sources (8) – Essais à jour.
  • Exactitude (6) – Introduit un produit hybride lentiviral/CRISPR hors champ ; certains chiffres non référencés.
  • Clarté (8) – Narration fluide.
  • Formatage (5) – Ajoute une “Introduction” non demandée ; style de citation incohérent.

7. Mistral Large – 25 / 40

  • Actualité des sources (7) – Liste des études de 2025 mais beaucoup semblent fictives.
  • Exactitude (5) – Multiples paires auteur-année et résultats fabriqués.
  • Clarté (7) – Raisonnablement structuré.
  • Formatage (6) – Références IEEE manquant de DOI ; titres corrects.

8. Grok-3 – 23 / 40

  • Actualité des sources (6) – A un essai de “prime editing” de 2025 mais les preuves sont absentes.
  • Exactitude (5) – L’édition de base BE3 chez l’homme n’est pas publiée ; chiffres spéculatifs.
  • Clarté (6) – Passable mais bref.
  • Formatage (6) – Structure correcte ; IEEE principalement correct.

9. Llama-3.3 / Gemma-3 – 21 / 40

  • Actualité des sources (5) – Mélange 2022 avec plusieurs études non spécifiées de 2025.
  • Exactitude (4) – De nombreux essais et références sont fictifs ; s’appuie sur un article de revue.
  • Clarté (6) – Déroulement de base mais léger sur les preuves.
  • Formatage (6) – Titres corrects ; largeurs de tableau incorrectes ; citations manquant de DOI.

Jean-Marc Buchert est un expert confirmé dans les process de contenu IA. Grâce à ses méthodes, il a aidé ses clients à générer des contenus IA reflétant leurs attentes éditoriales et résonnant avec leur audience. Cliquez pour en savoir plus.

Articles connexes

Explorez nos conseil et techniques de promting pour un contenu AI de qualité