Une recherche sur des millions de documents retourne en quelques millisecondes une dizaine de candidats plausibles grâce à un premier modèle rapide (BM25 ou un bi-encodeur). Le problème : cet ordre initial est approximatif, et dans un pipeline RAG, un mauvais classement se traduit directement en hallucinations ou en réponses hors sujet [1]. Le reranking est la seconde passe qui réordonne ces candidats avec un modèle plus puissant (un cross-encodeur), capable de lire la question et chaque document ensemble pour juger leur pertinence réelle.
Pourquoi la première passe de recherche ne suffit jamais
Les systèmes de recherche modernes s’appuient sur deux paradigmes pour leur premier tri rapide. BM25 classe les documents par recoupement de mots-clés, en comptant les occurrences des termes de la requête dans chaque document et en les pondérant par leur rareté dans le corpus. Les bi-encodeurs, eux, transforment la question et chaque document en vecteurs numériques (des séries de chiffres résumant le sens d’un texte via embeddings), puis classent par similarité entre ces vecteurs [2]. Les deux sont conçus pour la vitesse : BM25 parcourt un index inversé en quelques millisecondes, et les bi-encodeurs exploitent une recherche par plus proches voisins sur des vecteurs pré-calculés [3].
Cette rapidité a un coût. BM25 ne voit pas que « batterie automobile » et « pile de voiture » désignent la même chose : il ne repère que les correspondances lexicales exactes [4]. Un bi-encodeur capture mieux la sémantique, mais parce qu’il encode la question et le document dans deux processus séparés, il ne peut pas détecter les interactions fines entre les termes de l’un et de l’autre [5]. Les représentations vectorielles de phrases font face à d’autres défis : les requêtes courtes manquent de contexte pour une représentation précise, et les requêtes longues deviennent coûteuses à traiter [4].
L’écart est mesurable. Sur le benchmark TREC Deep Learning 2019 (43 requêtes annotées avec des niveaux de pertinence graduels de 0 à 3), BM25 seul atteint un NDCG@10 de 0,506. En ajoutant un cross-encodeur en seconde passe, le score grimpe à 0,7225 [6]. Le NDCG@10 évalue si les documents les plus pertinents apparaissent en tête du classement : ici, une seule étape de reranking apporte une amélioration relative de 43 %.
Définition et architecture du reranking
Le reranking est une opération de réordonnancement. On prend les k meilleurs résultats sortis par un retriever rapide (par exemple les 100 documents les plus proches), et on les soumet un par un à un modèle plus puissant qui attribue un score de pertinence actualisé. Les documents sont ensuite reclassés selon ce nouveau score [7].
Obtenez votre devis gratuit
En moins de 5 minutes, configurez votre projet et recevez un devis détaillé.

Pourquoi ne pas simplement utiliser le cross-encodeur sur tout le corpus ? Parce qu’il traite chaque paire (question, document) comme une seule entrée à faire traverser un réseau de neurones profond. Sur un corpus de millions de documents, c’est prohibitif en temps de calcul. La stratégie consiste à utiliser un retriever rapide pour réduire le corpus à quelques dizaines ou centaines de candidats, puis à n’appliquer le modèle coûteux que sur ce sous-ensemble restreint [3][7]. C’est le principe des architectures multi-étapes : chaque étape filtre et affine le classement de la précédente.
Comment un cross-encodeur « voit » la pertinence
Un cross-encodeur fonctionne de manière fondamentalement différente d’un bi-encodeur. Le bi-encodeur encode la question et le document dans deux espaces vectoriels distincts, puis compare ces vecteurs (par exemple par similarité cosinus). Le cross-encodeur les concatène en une seule séquence textuelle et les traite ensemble [8][5].
Concrètement, le modèle reçoit une séquence unique composée de : un token de classification (un symbole de départ noté [CLS]), suivi de la question, d’un séparateur ([SEP]), du document, puis d’un second séparateur. Toute cette séquence traverse ensemble les couches du réseau neuronal, ce qui permet à chaque mot de la question d’interagir directement avec chaque mot du document grâce au mécanisme d’attention croisée [6][9].
Ce que le modèle apprend à détecter en profondeur est révélateur. En analysant les couches internes d’un cross-encodeur entraîné sur le corpus MS MARCO (un large benchmark de recherche documentaire issu de requêtes Bing réelles), les chercheurs ont observé que le modèle redécouvre de manière autonome des signaux proches de BM25 : une pondération par la rareté des termes dans le corpus (l’équivalent de l’IDF de BM25) et une pondération par la fréquence des termes dans le document (soft term frequency). À ces signaux statistiques s’ajoutent des correspondances sémantiques entre termes proches, absentes de BM25 [10].
La sortie du modèle est un score unique de pertinence pour chaque paire (question, document). Ce score sert ensuite à réordonner les candidats.
Les trois familles de rerankers
Les modèles de reranking se distinguent par la manière dont ils traitent les documents candidats : un par un, par paires, ou tous ensemble. Ce choix a des conséquences directes sur la précision, la vitesse et la robustesse du système [11][12].
Besoin d'un expert web ?
Site web, SEO, stratégie digitale - Parlons de votre projet.
Pointwise : le modèle évalue chaque document indépendamment et lui attribue un score de pertinence [12][13]. C’est l’approche la plus simple et la plus rapide, mais elle ignore les relations entre candidats. Deux documents très similaires en tête du classement ne sont pas pénalisés pour leur redondance.
Pairwise : le modèle compare les documents deux par deux pour déterminer lequel est le plus pertinent par rapport à la requête. L’approche PRP (Principle of Relative Proximity), par exemple, utilise des comparaisons par paires réalisées par un grand modèle de langage [14][15]. Le nombre de comparaisons croît rapidement avec le nombre de candidats, mais la qualité du classement s’améliore nettement.
Listwise : le modèle prend en compte les interactions entre tous les candidats simultanément. L’architecture Set-Encoder, par exemple, utilise un mécanisme d’attention inter-passages qui permet à chaque document de « voir » les autres candidats pendant le reranking [11]. C’est l’approche la plus précise, mais aussi la plus coûteuse en calcul.
| Famille | Fonctionnement | Précision | Latence | Sensibilité à l’ordre d’entrée |
|---|---|---|---|---|
| Pointwise | Score indépendant par document | Modérée | Faible | Aucune |
| Pairwise | Comparaison par paires | Bonne | Moyenne | Faible |
| Listwise | Inter-attention entre tous les candidats | Élevée | Élevée | Forte (sauf Set-Encoder) |
L’architecture Set-Encoder [11] a été conçue pour résoudre un défaut classique des modèles listwise : leur sensibilité à l’ordre dans lequel les documents leur sont présentés. Grâce à un mécanisme d’attention permutation-invariant (le résultat ne change pas si on modifie l’ordre d’entrée des documents), elle combine la précision du listwise avec une stabilité comparable au pointwise.
En pratique, les approches pairwise et listwise montrent une meilleure capacité à s’adapter à des tâches complexes [16]. Sur le benchmark BEIR (huit datasets couvrant des domaines variés comme la santé, les actualités et les publications scientifiques), les expériences montrent que le choix entre les trois familles dépend du domaine cible et de la complexité des requêtes [17].
Intégrer un reranker dans un pipeline RAG : ce qui marche, ce qui casse
Dans un système RAG, le reranking n’est pas un luxe : c’est souvent la différence entre un système fiable et un système qui hallucine. L’étude sur les RAG pilotés par métadonnées pour des questions-réponses financières a montré que la recherche hybride (combinant BM25 et embeddings) sans reranking peut introduire du bruit et dégrader la précision, le rapp
Sources
- [1] Metadata-Driven Retrieval-Augmented Generation for Financial Question Answering · Michail Dadopoulos et al. · 2025 · preprint · arXiv:2510.24402
- [2] MA-DPR: Manifold-aware Distance Metrics for Dense Passage Retrieval · Yifan Liu et al. · 2025 · preprint · arXiv:2509.13562
- [3] SGPT: GPT Sentence Embeddings for Semantic Search · Niklas Muennighoff · 2022 · preprint · arXiv:2202.08904
- [4] Hybrid Semantic Search: Unveiling User Intent Beyond Keywords · Aman Ahluwalia et al. · 2024 · preprint · arXiv:2408.09236
- [5] RAG Made Simple: The Complete Visual Guide to Retrieval-Augmented Generation · Nir Diamant · livre · Amazon
- [6] Comparative Analysis of Lion and AdamW Optimizers for Cross-Encoder Reranking with MiniLM, GTE, and ModernBERT · Shahil Kumar et al. · 2025 · preprint · arXiv:2506.18297
- [7] HYRR: Hybrid Infused Reranking for Passage Retrieval · Jing Lu et al. · 2022 · preprint · arXiv:2212.10528
- [8] Cross Encoding as Augmentation: Towards Effective Educational Text Classification · Hyun Seung Lee et al. · 2023 · preprint · arXiv:2305.18977
- [9] LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations at eBay · Soumik Dey et al. · 2025 · preprint · arXiv:2508.03628
- [10] Pathway to Relevance: How Cross-Encoders Implement a Semantic Variant of BM25 · Meng Lu et al. · 2025 · preprint · arXiv:2502.04645
- [11] Set-Encoder: Permutation-Invariant Inter-Passage Attention for Listwise Passage Re-Ranking with Cross-Encoders · Ferdinand Schlatt et al. · 2024 · preprint · arXiv:2404.06912
- [12] A Survey of Multimodal Retrieval-Augmented Generation · Lang Mei et al. · 2025 · preprint · arXiv:2504.08748
- [13] Rank-K: Test-Time Reasoning for Listwise Reranking · Eugene Yang et al. · 2025 · preprint · arXiv:2505.14432
- [14] Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers? · Minghan Li et al. · 2023 · preprint · arXiv:2311.09175
- [15] LLM Optimization Unlocks Real-Time Pairwise Reranking · Jingyu Wu et al. · 2025 · preprint · arXiv:2511.07555
- [16] Scaling Laws for Cross-Encoder Reranking · Rahul Seetharaman et al. · 2026 · preprint · arXiv:2603.04816
- [17] How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models · Abdelrahman Abdallah et al. · 2025 · preprint · arXiv:2508.16757



