Qu'est-ce que la RNVP ?

La RNVP (Restructuration, Normalisation, Validation Postale) est le processus standard de mise en conformité des adresses françaises défini par La Poste. Il comprend la restructuration en lignes normalisées, la normalisation orthographique selon la norme AFNOR NF Z10-011, et la validation contre le référentiel officiel des adresses.

Quelle est la différence entre code postal et code INSEE ?

Le code postal (5 chiffres, géré par La Poste) sert à l'acheminement du courrier et peut couvrir plusieurs communes. Le code INSEE (5 caractères, géré par l'INSEE) identifie administrativement chaque commune de façon unique et stable. Une même commune peut avoir plusieurs codes postaux, mais un seul code INSEE.

Qu'est-ce que la BAN ?

La BAN (Base Adresse Nationale) est le référentiel officiel des adresses françaises en open data, coproduit par l'IGN, La Poste, l'INSEE et les communes. Elle contient 26 millions d'adresses géocodées, librement accessibles et mises à jour mensuellement.

Quelle est la différence entre SIREN et SIRET ?

Le SIREN (9 chiffres) identifie l'entité juridique d'une entreprise française. Le SIRET (14 chiffres) identifie un établissement physique : il est composé du SIREN (9 chiffres) suivi du NIC (5 chiffres). Une entreprise a un seul SIREN, mais peut avoir plusieurs SIRET — un par établissement.

Qu'est-ce qu'un CEDEX ?

Le CEDEX (Courrier d'Entreprise à Distribution EXceptionnelle) est un service de La Poste réservé aux entreprises et organismes recevant un volume important de courrier. Une adresse CEDEX dispose d'un code postal spécifique (ex. 75008 PARIS CEDEX 08) et n'est pas une adresse de domicile habitable mais un point de retrait postal.

Qu'est-ce qu'une isochrone ?

Une isochrone est le polygone qui délimite la zone accessible depuis un point d'origine en un temps donné, par un mode de transport donné (voiture, vélo, à pied). Contrairement à un cercle géométrique, elle suit le vrai réseau routier et reflète la topologie réelle. Cas d'usage : zone de chalandise, accessibilité d'un service public, temps d'intervention des secours.

Qu'est-ce qu'une adresse hors-BAN ?

Une adresse hors-BAN est une adresse réelle (potentiellement habitée ou en activité) qui n'est pas présente dans la Base Adresse Nationale. Causes : lieux-dits non adressés, voies privées récentes, adresses militaires ou sécurisées. À distinguer d'une faute de saisie : c'est un cas légitime à gérer côté métier (acceptation manuelle ou file de revue).

Quelle différence entre PND et NPAI ?

PND (Pli Non Distribué) est le terme actuel de La Poste pour désigner un courrier retourné à l'expéditeur. Il remplace l'ancien NPAI (N'habite Pas à l'Adresse Indiquée), plus restrictif (ne couvrait que le cas du destinataire absent). Le PND est aujourd'hui le principal indicateur de qualité d'une base d'adresses.

Qu'est-ce que la sirétisation ?

La sirétisation consiste à associer le bon SIRET (identifiant d'établissement à 14 chiffres) à chaque client ou fournisseur d'une base de données, en le retrouvant à partir du nom, de l'adresse ou du SIREN. C'est un préalable à la facturation électronique française : sans identifiant fiable, une facture ne peut pas être routée vers le bon destinataire via l'annuaire central.

Quelle est la différence entre SIRENE et RNE ?

SIRENE est le répertoire statistique tenu par l'INSEE : il recense l'identité administrative des entreprises et de leurs établissements (SIREN, SIRET, activité, adresse, état). Le RNE (Registre national des entreprises), tenu par l'INPI depuis 2023, est le registre légal : il contient les informations juridiques comme les dirigeants, le capital ou l'objet social. Les deux sont complémentaires.

Ressources

Glossaire qualité de données : adresses & entreprises

Définitions des termes techniques de la normalisation, validation et enrichissement des adresses et des données d'entreprises françaises : RNVP, BAN, IRIS, FANTOIR, SIRENE, sirétisation, BODACC et plus.

42 termes définis Sources officielles 100% gratuit

Aucun terme ne correspond à . Essayez « BAN », « IRIS », « isochrone » ou « BODACC ».

Famille 1

Normalisation & standards postaux

Les normes et processus qui définissent comment une adresse française doit être structurée, orthographiée et validée.

RNVP

Norme postale

Restructuration, Normalisation, Validation Postale

La RNVP est le processus de référence pour mettre en conformité les adresses françaises avec les standards de La Poste. Il se décompose en trois étapes distinctes :

Restructuration : découpage de l'adresse en lignes normalisées (numéro, voie, code postal, commune).
Normalisation : mise en forme orthographique selon la norme AFNOR NF Z10-011 (majuscules, abréviations officielles).
Validation : vérification de l'existence de l'adresse dans le référentiel officiel (BAN, DATANOVA).

Une adresse passée par la RNVP est garantie acheminable et éligible aux tarifs courrier industriels de La Poste. Sans elle ? Pas d'envoi en volume rentable.

Le mot d'Hervé

En 25 ans, j'ai vu peu d'équipes faire de la RNVP par conviction. La plupart la subissent : leur prestataire de routage la réclame pour appliquer le tarif industriel. Un des sujets data quality les plus universellement déployés, et un des moins maîtrisés par ceux qui le déploient.

TrustyData

L'API de TrustyData restructure, et valide géographiquement les adresses mais ne fait pas de normalisation postale.

Voir la vérification d'adresses →

Normalisation postale

Processus

La normalisation postale désigne l'ensemble des traitements visant à mettre une adresse en conformité avec les règles d'écriture officielles françaises. Elle comprend :

La mise en majuscules sans accents (format AFNOR)
Le développement ou l'abréviation normalisée des types de voies (RUE, AV, BD…)
La suppression des caractères spéciaux non autorisés
La vérification et correction du code postal associé à la commune

À ne pas confondre avec la validation (qui vérifie l'existence de l'adresse) ou le géocodage (qui retourne des coordonnées GPS).

TrustyData

TrustyData ne fait pas de normalisation postale (pas d'homologation La Poste, ni de certification AFNOR NF Z 10-011). L'API restitue une adresse validée géographiquement : elle existe bien dans la BAN, à la position retournée. Pour des étiquettes courrier homologuées, un prestataire certifié AFNOR reste nécessaire.

Voir la validation géographique →

Norme AFNOR NF Z10-011

Norme

La norme AFNOR NF Z10-011 définit les règles d'écriture des adresses postales françaises. Elle spécifie notamment :

La structure en 6 lignes maximum (destinataire, complément, numéro et voie, lieu-dit, code postal + commune, pays)
L'écriture en majuscules sans accents pour les deux dernières lignes
Les abréviations officielles des types de voies
La longueur maximale de 38 caractères par ligne

Toute impression d'enveloppe industrielle ou échange de fichiers d'adresses entre systèmes la respecte.

TrustyData

Le champ nom_afnor retourné par l'API respecte cette norme. Il peut être utilisé directement pour l'impression d'étiquettes ou l'export postal.

Voir la vérification d'adresses →

Libellé d'acheminement

Référentiel La Poste

Le libellé d'acheminement est le nom de commune tel qu'il apparaît sur les enveloppes et dans les bases postales, selon les règles de La Poste. Il peut différer du nom officiel INSEE de la commune.

Exemple : pour un code postal 75002, le libellé d'acheminement est PARIS (et non Paris 2e Arrondissement).

Ce libellé est indispensable pour les traitements RNVP et la constitution de fichiers d'adresses destinés à l'affranchissement industriel.

TrustyData

Le champ libelle_acheminement est retourné dans chaque réponse de l'API, disponible dès le plan Discovery gratuit.

Voir la vérification d'adresses →

CEDEX

Distribution spéciale

Courrier d'Entreprise à Distribution EXceptionnelle

Le CEDEX est un service de La Poste réservé aux entreprises et organismes recevant un volume important de courrier. Il garantit une distribution directe en bureau distributeur, avec un code postal spécifique indépendant du code postal géographique de la commune.

Un code postal CEDEX a typiquement la forme 75XXX CEDEX YY (ex. 75008 PARIS CEDEX 08). Plusieurs CEDEX peuvent coexister pour une même commune, chacun pouvant correspondre à un quartier ou à une catégorie d'entreprise.

À noter : une adresse CEDEX n'est pas une adresse de domicile habitable — c'est un point de retrait postal. Confondre les deux est une erreur fréquente dans les bases B2B.

Le mot d'Hervé

Attention au piège : une adresse CEDEX, c'est un point de retrait postal, pas une adresse d'établissement. Une boîte « Paris CEDEX 08 » ou « La Défense » fait sérieux sur la papeterie, mais l'entreprise peut très bien avoir ses bureaux à Aubervilliers. Pour valider une présence réelle, croisez le CEDEX avec le SIRET de l'établissement — pas du siège social.

TrustyData

Les adresses CEDEX sont reconnues dans la BAN et restituées avec leur code postal CEDEX et leur libellé d'acheminement complet — utile pour assainir les fichiers B2B.

Voir la vérification d'adresses →

Hexaposte

Référentiel La Poste

Hexaposte est la base de données officielle de La Poste établissant la correspondance entre les codes postaux et les codes INSEE des communes françaises. Elle est la référence historique pour toute application nécessitant de relier un code postal à une commune ou réciproquement.

Hexaposte recense également les libellés d'acheminement, les types de distributions (cedex, bureau distributeur…) et les communes déléguées issues des fusions de communes.

Depuis l'émergence de la BAN et de DATANOVA, Hexaposte est progressivement absorbé dans des référentiels plus complets. Mais le terme circule encore dans le jargon des pros de la qualité des données.

TrustyData

TrustyData intègre les données DATANOVA (successeur d'Hexaposte) et les croise avec la BAN pour garantir la cohérence code postal / code INSEE / libellé d'acheminement.

Voir l'autocomplétion de communes →

DATANOVA

Référentiel La Poste

DATANOVA est le référentiel officiel de La Poste pour les codes postaux et les données d'acheminement en France. Il remplace et enrichit le fichier Hexaposte, en couvrant également les communes déléguées, les CEDEX et les boîtes postales.

DATANOVA est mis à jour quelques fois par an. Pour tout ce qui touche aux codes postaux français — validité, commune(s) associée(s), type d'acheminement — c'est là qu'il faut regarder.

TrustyData

L'API TrustyData utilise DATANOVA comme l'une de ses sources officielles, croisée avec la BAN et le COG INSEE pour garantir la cohérence complète des adresses.

Voir l'autocomplétion de communes →

Famille 2

Référentiels géographiques & INSEE

Les identifiants et découpages administratifs officiels utilisés pour enrichir et croiser des données d'adresses avec des statistiques territoriales.

Acteurs officiels

Producteurs de référentiels

Les référentiels d'adresses et de données d'entreprises français sont coproduits par plusieurs institutions publiques. Comprendre qui fait quoi aide à choisir la bonne source pour chaque besoin :

IGN — Institut national de l'information géographique et forestière. Co-producteur de la BAN, gestionnaire du Lambert 93, fournisseur historique des cartes topographiques françaises.
La Poste — Opérateur postal universel. Définit la RNVP, publie DATANOVA, attribue les CEDEX et les libellés d'acheminement.
INSEE — Institut national de la statistique et des études économiques. Gère le COG, le code INSEE, les découpages IRIS et AAV, les SIREN/SIRET, et publie Filosofi + le carroyage 200 m.
DGFiP — Direction Générale des Finances Publiques. Gère le FANTOIR (identifiants de voies) et alimente Filosofi pour le volet fiscal.
INPI — Institut national de la propriété industrielle. Tient le Registre national des entreprises depuis 2023 : dirigeants, capital, forme juridique des sociétés françaises.
DILA — Direction de l'information légale et administrative. Édite le BODACC : annonces légales et procédures collectives des entreprises.

BAN

Open data officiel

Base Adresse Nationale

La BAN est le référentiel officiel des adresses françaises, produit en open data par l'IGN, La Poste, l'INSEE et les communes. Elle contient plus de 26 millions d'adresses géocodées couvrant l'ensemble du territoire national.

Chaque adresse de la BAN dispose d'un identifiant unique (id_ban), d'une position GPS et d'un niveau de précision (parcelle, entrée, interpolation, commune). Les données sont mises à jour mensuellement et librement réutilisables.

Toute application sérieuse de vérification ou de géocodage d'adresses françaises s'appuie sur la BAN aujourd'hui.

Le mot d'Hervé

La BAN a changé la donne en 2015 : pour la première fois, un référentiel d'adresses français complet, à jour et gratuit. Avant, l'équivalent coûtait dix à cinquante mille euros par an selon le fournisseur. Quand j'ai démarré TrustyData en m'appuyant dessus, c'était un choix délibéré — pas une option par défaut.

TrustyData

TrustyData est basé sur la BAN. Chaque réponse inclut le champ id_ban ainsi que le niveau de précision du géocodage.

Voir le géocodage →

Code INSEE vs code postal

Confusion fréquente

Ces deux codes à 5 chiffres sont souvent confondus mais répondent à des logiques totalement différentes :

Code INSEE : identifiant administratif unique et stable, géré par l'INSEE. Format : 2 caractères département + 3 caractères commune (ex. 75102 pour Paris 2e). Ne change pas lors des fusions de communes.
Code postal : code d'acheminement géré par La Poste. Un même code postal peut couvrir plusieurs communes. Une commune peut avoir plusieurs codes postaux.

Le code INSEE est indispensable pour les jointures avec les données statistiques de l'INSEE (IRIS, carroyage, recensement). Le code postal suffit pour l'acheminement courrier mais est insuffisant pour les analyses territoriales.

TrustyData

L'API retourne systématiquement les deux : code_postal (La Poste) et code_insee (INSEE), dès le plan Discovery gratuit.

Voir l'autocomplétion de communes →

COG

Référentiel INSEE

Code Officiel Géographique

Le COG est le référentiel officiel de l'INSEE répertoriant l'ensemble des découpages administratifs français : communes, arrondissements, cantons, départements et régions, avec leurs codes et libellés officiels.

Il est mis à jour chaque année au 1er janvier pour intégrer les fusions, créations et suppressions de communes. Le COG est la source de référence pour toute base de données nécessitant une couverture administrative exhaustive et à jour du territoire français.

TrustyData

L'endpoint d'autocomplétion de communes est basé sur le COG et retourne le département, la région et la population pour chacune des 35 000 communes françaises.

Voir l'autocomplétion de communes →

EPCI & Aire d'attraction des villes

Découpages INSEE

Établissement Public de Coopération Intercommunale · AAV

L'EPCI regroupe des communes autour d'un projet commun (transport, urbanisme, déchets…). Principales formes : communauté de communes, communauté d'agglomération, communauté urbaine, métropole. C'est le niveau d'analyse pertinent pour étudier les bassins de vie réels, au-delà des frontières communales.

L'Aire d'attraction des villes (AAV) est le découpage INSEE introduit en 2020 (remplaçant les anciennes aires urbaines). Il classe les communes par zone d'influence économique d'un pôle urbain (commune-centre + couronnes), basé sur les déplacements domicile-travail.

Ces deux découpages sont précieux pour les études géomarketing, les collectivités et les analyses sectorielles où le périmètre communal est trop fin.

TrustyData

Le code_insee retourné par l'API permet une jointure directe avec les tables de correspondance EPCI et AAV publiées chaque année par l'INSEE.

Voir l'autocomplétion de communes →

IRIS INSEE

Découpage infra-communal

Îlot Regroupé pour l'Indication Statistique

L'IRIS est le maillage de base de l'INSEE pour la diffusion des statistiques infra-communales. Chaque zone IRIS regroupe entre 1 800 et 5 000 habitants et est identifiée par un code à 9 chiffres (code INSEE commune + 4 chiffres).

Il existe trois types d'IRIS :

H (Habitat) : zones résidentielles, c'est le type le plus courant.
A (Activité) : zones à dominante économique ou commerciale.
Z (Divers) : zones non habitées (forêts, plans d'eau, espaces agricoles).

Sans le code IRIS, impossible de croiser des données d'adresses avec les statistiques du recensement (revenus, population, emploi, logement) à une granularité plus fine que la commune.

Le mot d'Hervé

L'IRIS, c'est l'arme préférée des géomarketeurs en France. Sur mes premiers projets dans la distribution dans les années 2000, on découpait déjà la France métropolitaine en zones de chalandise avec des scripts SAS qui pesaient en gigaoctets. Aujourd'hui le même calcul tient dans un appel API.

TrustyData

L'API retourne le code_iris (9 chiffres) et le nom_iris pour chaque adresse. Disponible à partir du plan Growth.

Voir le géocodage IRIS →

Filosofi

Données socio-fiscales

FIchier LOcalisé SOcial et FIscal

Filosofi est le fichier statistique INSEE qui agrège les données fiscales (impôt sur le revenu) et sociales (CAF, MSA) au niveau infra-communal. Il fournit des indicateurs de revenu, de pauvreté et de niveau de vie par IRIS, commune et EPCI.

Indicateurs typiques : revenu médian disponible, taux de pauvreté (seuil à 60 % du revenu médian national), part des foyers fiscaux imposés, écart inter-déciles (D9/D1).

Quand on veut qualifier le pouvoir d'achat d'une zone, Filosofi est rarement contournable — en complément des indicateurs de recensement INSEE (population, structure des ménages, logement).

TrustyData

L'enrichissement statistique de l'API s'appuie notamment sur Filosofi, croisé avec le code IRIS retourné pour chaque adresse. Disponible à partir du plan Growth.

Voir le géocodage IRIS →

FANTOIR

Identifiant de voie

Fichier ANnuaire TOpographique Initialisé Réduit

FANTOIR est le fichier de la DGFiP (Direction Générale des Finances Publiques) qui attribue un identifiant unique à chaque voie et lieu-dit de France. Le code FANTOIR est composé de 10 caractères : le code INSEE de la commune suivi d'un identifiant de voie à 4 caractères.

On l'utilise comme clé de jointure entre cadastre, BAN, et bases métier qui ont besoin d'un identifiant de voie stable et universel.

Exemple : 75102_6998 pour la Rue de la Paix dans le 2e arrondissement de Paris.

TrustyData

Le champ id_fantoir est retourné dans chaque réponse de l'API. Utile pour les jointures avec le cadastre ou les référentiels fonciers.

Voir la vérification d'adresses →

Carroyage INSEE 200m

Statistiques fines

Le carroyage INSEE est un maillage régulier du territoire français en carreaux de 200m × 200m (et 1 km × 1 km pour les zones peu denses). Chaque carreau est identifié par un code INSPIRE et contient des indicateurs socio-démographiques issus du recensement :

Nombre d'individus et de ménages
Part de ménages pauvres, propriétaires, en maison/appartement
Répartition par tranche d'âge
Ancienneté du parc de logements

Contrairement aux IRIS (découpages administratifs), le carroyage est géométrique : il ne suit pas les frontières communales, ce qui permet des analyses de continuité spatiale.

TrustyData

L'objet statistical_grid retourné par l'API contient les données du carreau 200m associé à chaque adresse. Disponible sur le plan Business.

Voir le géocodage statistique →

Modèle de Huff

Analyse spatiale

Le modèle de Huff, formulé par l'économiste David Huff en 1964, estime la probabilité qu'un consommateur fréquente un point de vente parmi plusieurs en concurrence. Cette probabilité dépend de deux facteurs principaux :

L'attractivité du point de vente (surface de vente, assortiment, notoriété, parking…).
La distance ou le temps de trajet qui le sépare du consommateur, généralement pondérés par une fonction de découragement.

Plus un commerce est attractif et proche, plus la probabilité qu'il soit choisi est élevée. Le modèle est utilisé en études de marché pour quantifier le potentiel d'une zone de chalandise, simuler l'impact d'une ouverture concurrente, ou arbitrer entre plusieurs emplacements avant l'implantation d'un nouveau point de vente.

Sa mise en œuvre suppose un découpage spatial fin (IRIS, carroyage 200 m) et un géocodage précis des points de vente concurrents. Sans ces deux briques, le modèle théorique reste sur le papier.

Le mot d'Hervé

Le modèle de Huff a 60 ans et reste la base de toute analyse de zone de chalandise sérieuse. Ce qui change avec le temps, c'est la finesse des données qu'on lui injecte (IRIS, carroyage 200 m) et la précision du temps de trajet (isochrone routière vs distance à vol d'oiseau). Les fondations économétriques, elles, ne bougent pas.

TrustyData

L'API fournit le géocodage WGS84, le code IRIS et les indicateurs socio-démographiques associés à chaque adresse — les briques nécessaires pour alimenter un modèle de Huff dans QGIS, R ou Python.

Lire l'article zone de chalandise →

Famille 3

Géocodage & coordonnées

Les systèmes de coordonnées et concepts clés pour positionner géographiquement une adresse et interpréter la précision d'un résultat.

Géocodage

Processus

Le géocodage est l'opération qui consiste à convertir une adresse textuelle en coordonnées géographiques (latitude, longitude). Il s'oppose au géocodage inverse qui part de coordonnées pour retrouver une adresse.

La qualité d'un géocodage dépend de deux choses : la source utilisée, et le niveau de précision retourné. Certains systèmes vous placent au mètre près sur le numéro. D'autres vous lâchent au centroïde de la commune — précision kilométrique.

TrustyData

L'API retourne le champ type_position indiquant le niveau de précision atteint : parcelle, entree, interpolation ou commune.

Voir le géocodage →

Géocodage inverse

Processus

Reverse geocoding

Le géocodage inverse est l'opération opposée du géocodage : partir de coordonnées géographiques (latitude, longitude) pour retrouver l'adresse postale la plus proche. C'est un cas d'usage typique des applications mobiles (« où suis-je ? ») ou des flottes géolocalisées.

La qualité du résultat dépend de la densité du référentiel d'adresses : en zone urbaine dense, la précision est métrique ; en zone rurale, le numéro voire la voie peuvent être absents et le système retourne l'adresse la plus proche disponible.

À distinguer du géocodage avant (textuel → coordonnées) et de la recherche par rayon (récupérer toutes les adresses dans un rayon donné autour d'un point).

TrustyData

L'API expose les coordonnées GPS de chaque adresse BAN et permet la recherche d'adresses à proximité d'un point GPS — couvre la plupart des cas d'usage de géocodage inverse pratique.

Voir la recherche de proximité →

Précision de géocodage

Niveau de position

Type de position retournée (type_position)

Toute adresse géocodée n'a pas la même précision. Le niveau de position indique où le système a réussi à placer le point — du plus précis au plus large :

Parcelle : positionnement sur la parcelle cadastrale exacte. Précision métrique.
Entrée : positionnement sur l'entrée du bâtiment (numéro de voie connu). Précision de 5 à 10 mètres.
Interpolation : numéro estimé entre deux numéros connus sur la voie. Précision décamétrique.
Voie : centre approximatif de la voie (numéro inconnu ou inexistant). Précision plurihectométrique.
Commune : centroïde de la commune, voie inconnue. Précision kilométrique.

Le niveau de précision conditionne directement les usages possibles : un géocodage commune ne permet ni la livraison à domicile, ni l'enrichissement IRIS fiable, ni l'analyse isochrone.

TrustyData

Le champ type_position retourné par l'API contient explicitement ce niveau, à filtrer selon vos exigences métier.

Voir la précision en démo →

WGS84

Système de coordonnées

World Geodetic System 1984

Le WGS84 est le système de référence géodésique mondial utilisé par les GPS et la quasi-totalité des services cartographiques (Google Maps, OpenStreetMap, Leaflet, Mapbox…). Les coordonnées sont exprimées en degrés décimaux de latitude et longitude.

Exemples : latitude 48.868989, longitude 2.33115 pour le 10 rue de la Paix à Paris.

TrustyData

Les champs lat et lon sont en WGS84. Ils sont directement exploitables dans Google Maps, Leaflet ou toute librairie cartographique standard. Disponibles dès le plan Starter.

Voir le géocodage →

Lambert 93 (EPSG:2154)

Système de coordonnées

Le Lambert 93 est la projection cartographique officielle de la France métropolitaine, définie par l'IGN. Contrairement au WGS84 (coordonnées sphériques en degrés), le Lambert 93 utilise des coordonnées planes en mètres (X, Y), ce qui facilite le calcul de distances et de surfaces.

Il est le système de référence des données géographiques françaises (cadastre, IGN, CEREMA) et est requis par les SIG professionnels utilisant des données officielles françaises.

Son identifiant EPSG est 2154 — le code à utiliser dans QGIS, PostGIS ou tout système d'information géographique.

TrustyData

Les champs x et y retournés par l'API sont en Lambert 93 (EPSG:2154). Idéal pour les traitements SIG et les calculs de distance précis sur le territoire français.

Voir le géocodage →

Score de géocodage

Indicateur qualité

Le score de géocodage est un indicateur numérique (généralement entre 0 et 1) exprimant la confiance du système dans le résultat retourné pour une adresse donnée. Il prend en compte plusieurs facteurs :

La similarité entre l'adresse saisie et l'adresse de référence
La précision de la position retournée (numéro, voie, commune)
La présence ou l'absence de certains éléments (numéro, code postal…)

Un score proche de 1 indique une correspondance fiable ; un score bas (inférieur à 0,5) invite à une vérification manuelle.

TrustyData

Le champ score (de 0 à 1) est retourné pour chaque adresse. Vous pouvez le filtrer pour ne traiter automatiquement que les résultats au-delà d'un seuil de confiance.

Tester le score en démo →

Famille 4

Qualité des données adresses

Les problèmes concrets rencontrés dans les bases de données marketing, CRM et logistique, et les notions clés pour les traiter.

Match exact, probable, aucun

Verdict de validation

Le verdict de validation d'une adresse n'est pas binaire. Trois niveaux sont généralement distingués selon le score de confiance retourné :

Match exact (score ≥ 0,90) : correspondance fiable avec une adresse BAN, exploitable automatiquement sans validation humaine.
Match probable (0,75 ≤ score < 0,90) : correspondance plausible mais à vérifier — saisie dégradée, numéro manquant, orthographe approximative. À traiter en file de revue manuelle ou en proposition utilisateur (« vouliez-vous dire… »).
Aucun match (score < 0,75) : aucune adresse suffisamment proche dans le référentiel. À traiter comme un PND potentiel ou un hors-BAN.

Le principe est simple : on automatise les match exact, on envoie les probable en file de revue, on écarte ou requalifie les aucun match. Sans ce découpage, c'est l'humain qui traite chaque ligne — vite ingérable au-delà de quelques milliers d'adresses.

TrustyData

L'endpoint /address/verify retourne explicitement un verdict (match_exact, match_probable, aucun_match) en plus du score brut, pour automatiser le routage de vos fichiers.

Tester le verdict en démo →

Adresse hors-BAN

Limite de référentiel

Une adresse « hors-BAN » est une adresse réelle (potentiellement habitée ou en activité) qui n'est pas présente dans la Base Adresse Nationale. C'est un cas légitime, pas nécessairement une erreur de saisie. Causes principales :

Lieux-dits non adressés (numérotation absente)
Voies privées récentes (résidences, lotissements, zones d'activité)
Adresses en cours de création par la commune mais pas encore intégrées
Adresses militaires ou sécurisées non publiées

Une bonne validation doit distinguer un hors-BAN (adresse réelle non référencée) d'une faute de saisie ou d'une adresse fantôme. Le bon traitement dépend du métier : rejet, file de revue ou acceptation manuelle.

TrustyData

Lorsque la BAN ne contient pas l'adresse exacte, l'API peut retourner le point d'adresse le plus proche avec un score dégradé et un type_position « commune » ou « voie » — signal à interpréter côté métier.

Voir la vérification d'adresses →

PND (anciennement NPAI)

Marketing direct

Pli Non Distribué — historiquement « N'habite Pas à l'Adresse Indiquée »

Un PND est un courrier retourné à l'expéditeur parce qu'il n'a pas pu être remis au destinataire. La Poste a généralisé le terme PND (plus large) en remplacement de l'ancien NPAI, qui ne couvrait que le cas du destinataire absent à l'adresse. Pour une équipe marketing, c'est souvent le seul indicateur de qualité d'adresses qu'elle voit passer — d'où sa réputation de juge de paix.

Un taux de PND élevé entraîne des coûts d'impression et d'affranchissement perdus, une perte d'efficacité des campagnes marketing direct, et signale souvent une base ancienne ou mal collectée.

Causes principales : déménagement du destinataire, adresse mal saisie à la collecte, commune ou code postal erroné, numéro de voie inexistant.

Le mot d'Hervé

Le taux de PND, c'est le seul chiffre qu'une direction marketing comprend en data quality. Tout le reste — score, type_position, hors-BAN — passe au-dessus de la tête. Quand on veut démontrer la valeur d'une validation d'adresses à un comité de pilotage, on parle PND avant tout.

TrustyData

Vérifier que vos adresses existent dans la BAN avant envoi élimine une grande partie des PND : ceux causés par une saisie erronée (code postal incohérent, numéro inexistant, voie mal orthographiée). Les PND liés à un déménagement du destinataire relèvent en revanche d'un autre traitement (changement d'adresse, base de mobilité).

Voir la validation géographique →

Enrichissement d'adresses

Traitement données

L'enrichissement d'adresses consiste à compléter une adresse existante avec des informations supplémentaires issues de référentiels officiels. Cela va au-delà de la simple validation et peut inclure :

Ajout du code INSEE manquant à partir du code postal
Ajout des coordonnées GPS (Géocodage)
Ajout du code IRIS et des indicateurs socio-démographiques associés
Ajout du code FANTOIR pour la jointure avec le cadastre
Correction et normalisation AFNOR de la voie

TrustyData

Un seul appel à l'API peut enrichir une adresse avec jusqu'à 30 champs complémentaires selon le plan souscrit : de la simple normalisation jusqu'aux indicateurs socio-démographiques du carroyage INSEE.

Voir les plans →

Adresse structurée / non structurée

Format données

Une adresse structurée est décomposée en champs distincts : numéro, type de voie, nom de voie, code postal, commune. Elle est facile à traiter automatiquement et à stocker en base de données.

Une adresse non structurée (ou adresse libre) est une chaîne de caractères unique contenant l'adresse complète sans décomposition. C'est le format le plus courant en entrée d'API (formulaires web, imports CSV…).

Le parsing d'une adresse non structurée (extraction des composants) est une étape préalable à la normalisation RNVP.

TrustyData

L'API accepte les adresses non structurées en entrée (?q=10 rue de la paix paris) et retourne une adresse décomposée en champs structurés : numero, nom_voie, code_postal, nom_commune…

Voir la décomposition en démo →

Déduplication d'adresses

Qualité CRM

La déduplication d'adresses consiste à identifier et fusionner les enregistrements faisant référence à la même adresse réelle, malgré des saisies différentes.

Exemples de doublons typiques :

10 Rue de la Paix vs 10 r. de la Paix
75002 Paris vs 75002 Paris 2ème
Bd Haussmann vs Boulevard Haussmann

Sans normalisation préalable, ces adresses ne peuvent pas être comparées par correspondance exacte — il faut alors basculer sur du matching approché, beaucoup plus coûteux.

TrustyData

En normalisant toutes vos adresses via l'API avant déduplication, le champ id_ban (identifiant unique BAN) permet une correspondance exacte entre des saisies différentes pointant vers la même adresse réelle.

Voir la recherche de proximité →

Famille 5

Routage & accessibilité

Les concepts de calcul d'itinéraire, d'accessibilité spatiale et d'optimisation de tournée — indispensables pour l'analyse de zone de chalandise et la logistique du dernier kilomètre.

Routage routier

Calcul d'itinéraire

Le routage routier est le calcul du meilleur itinéraire entre deux points sur un graphe routier, généralement optimisé selon un critère : durée la plus courte, distance la plus courte, mode de transport (voiture, vélo, piéton).

Principaux moteurs open source : Valhalla (Mapbox/Mapzen), OSRM (Mapbox), GraphHopper. Tous reposent sur OpenStreetMap comme source de graphe routier.

Résultat type : géométrie de l'itinéraire (suite de coordonnées), durée totale, distance totale, instructions étape par étape (maneuvers).

TrustyData

L'endpoint POST /route/compute calcule un itinéraire voiture détaillé (géométrie + étapes) via Valhalla sur les données OSM France. Plan Business.

Tester le routage en démo →

OpenStreetMap (OSM)

Open data mondial

OpenStreetMap est la carte collaborative mondiale, équivalent libre de Google Maps. Plus de 10 millions de contributeurs y décrivent routes, bâtiments, points d'intérêt, transports. Données publiées en open data sous licence ODbL.

OSM est la source de référence du graphe routier pour les moteurs de routage open source (Valhalla, OSRM, GraphHopper). Elle alimente également la BAN française pour certaines voies non adressées par les communes.

Différence avec la BAN : OSM est mondial et multi-objets (routes, POI, contours) ; la BAN est française et exclusivement adresses. Les deux sont complémentaires.

TrustyData

Le moteur de routage de TrustyData utilise les données OSM France (mise à jour mensuelle) compilées dans Valhalla.

Tester le routage →

Isochrone

Zone d'accessibilité

Une isochrone est le polygone délimitant la zone accessible depuis un point d'origine en un temps donné, par un mode de transport donné (voiture, vélo, à pied, transports en commun).

Exemple : « toutes les adresses à moins de 15 minutes en voiture d'un magasin ». Contrairement à un simple cercle géométrique, une isochrone suit le vrai réseau routier et reflète la topologie réelle (autoroutes, sens uniques, dénivelés, congestion).

Cas d'usage : zone de chalandise réelle (« mes clients à 15 min »), accessibilité d'un service public, étude d'implantation, calcul de temps d'intervention pour les secours. Bref : dès qu'un cercle géométrique ment, l'isochrone prend le relais.

TrustyData

Le moteur Valhalla intégré permet le calcul d'isochrones voiture depuis n'importe quel point en France. Plan Business.

Lire l'article zone de chalandise →

Isodistance

Zone d'accessibilité

Une isodistance est le polygone des points accessibles depuis une origine dans un rayon kilométrique donné, en suivant le réseau routier (et non à vol d'oiseau).

La différence avec l'isochrone : l'isodistance optimise la distance parcourue, l'isochrone optimise le temps de trajet. Deux résultats potentiellement très différents : 5 km en ville ≠ 5 km en zone rurale en termes de temps.

Cas d'usage typiques : zones de livraison kilométriques tarifées, réglementation (ZFE, distance maximale d'un point de retrait), études de réseau.

TrustyData

Le moteur Valhalla permet aussi le calcul d'isodistances routières via le même endpoint, en passant un paramètre distance plutôt que time. Plan Business.

Tester en démo →

Matrice origine-destination (OD)

Calcul de masse

Une matrice origine-destination est un tableau qui contient les distances et durées de trajet entre N origines et M destinations. Chaque cellule [i,j] donne le coût (km ou minutes) pour aller de l'origine i à la destination j.

Exemple typique : 25 prospects × 5 agences = 125 calculs en un seul appel API, qui retourne la matrice complète. C'est la primitive de base pour qualifier un prospect par sa distance au point de vente le plus proche, ou pour optimiser une tournée.

La matrice est généralement plus efficace que N appels indépendants : le moteur de routage peut mutualiser les calculs intermédiaires sur le graphe routier.

TrustyData

L'endpoint POST /route/summary retourne une matrice OD jusqu'à 25×25 (distance + durée). Idéal pour scorer des prospects par accessibilité. Plan Business.

Voir la recherche de proximité →

Famille 6

Entreprises & données B2B

SIREN, SIRET, SIRENE, RNE, BODACC… le vocabulaire des données d'entreprises françaises — et ce qu'il implique pour la qualité de vos bases B2B.

SIREN & SIRET

Identifiants entreprise

Système d'Identification du Répertoire des Entreprises / Établissements

Le SIREN (9 chiffres) identifie l'entité juridique d'une entreprise française : unique et stable durant toute sa vie. Le SIRET (14 chiffres) identifie un établissement physique, composé du SIREN + NIC (5 chiffres). Une entreprise a un seul SIREN, mais peut avoir plusieurs SIRET (un par établissement).

Ces identifiants sont gérés par l'INSEE et diffusés en open data via le répertoire SIRENE. Tout workflow B2B sérieux — qualification de prospect, anti-fraude, KYC — passe par eux à un moment.

Chaque SIRET est associé à une adresse d'établissement officielle, que l'on peut croiser avec la BAN pour validation géographique et enrichissement statistique.

Le mot d'Hervé

La généralisation de la facturation électronique en France (déploiement à partir de 2026) va rendre obligatoire l'identification du destinataire par son SIRET exact — pas le SIREN, pas une approximation. Pour les éditeurs ERP et CRM, fiabiliser le SIRET dans la base clients devient un préalable, pas un sujet d'optimisation.

TrustyData

La recherche d'entreprises TrustyData interroge la base SIRENE complète : retrouvez un SIRET à partir d'un nom, d'un SIREN ou d'une adresse, et obtenez la fiche complète de l'établissement — identité, adresse géolocalisée, état administratif.

Découvrir la recherche d'entreprises →

SIRENE

Référentiel entreprises

Système Informatisé du Répertoire National des Entreprises et des Établissements

SIRENE est le répertoire officiel des entreprises françaises, tenu par l'INSEE depuis 1973. Il attribue les identifiants SIREN et SIRET et recense l'identité administrative de chaque unité légale et de chaque établissement : dénomination, adresse, activité (code NAF), état administratif (actif ou fermé), tranche d'effectifs.

Le répertoire couvre environ 30 millions d'unités légales et 43 millions d'établissements, tous secteurs confondus — y compris associations et administrations. Il est diffusé en open data et mis à jour en continu par les déclarations aux guichets des formalités.

SIRENE fait autorité pour l'identification ; il ne contient ni les dirigeants ni les comptes (voir le RNE) ni les procédures collectives (voir le BODACC).

Le mot d'Hervé

SIRENE est probablement la plus belle base open data française : exhaustive, quotidienne, gratuite. Mais brute, c'est plusieurs gigaoctets de CSV à ingérer, indexer et tenir à jour. La vraie question n'est pas d'y accéder — c'est d'industrialiser sa fraîcheur.

TrustyData

TrustyData héberge la base SIRENE complète, l'enrichit du RNE et du BODACC, et l'expose en un appel d'API — recherche par nom, identifiant, activité ou proximité géographique, mise à jour quotidienne.

Découvrir la recherche d'entreprises →

Sirétisation

Qualité des données B2B

La sirétisation consiste à associer le bon SIRET à chaque enregistrement d'une base clients ou fournisseurs, en partant des informations disponibles : raison sociale, adresse, SIREN. C'est l'équivalent B2B de la validation d'adresse — on rattache une ligne de fichier à une entité officielle.

L'exercice bute sur les mêmes obstacles que les adresses : raisons sociales approximatives (« SNCF » vs la bonne filiale), adresses de facturation qui ne sont pas celles de l'établissement, déménagements, fermetures. Un taux de sirétisation élevé exige un référentiel frais et une recherche tolérante aux variations.

L'enjeu devient réglementaire avec la facturation électronique : l'identifiant SIREN/SIRET sert au routage des factures via l'annuaire central. Une base non sirétisée = des factures rejetées. Voir notre article SIREN et facturation électronique.

Le mot d'Hervé

Dans les missions data quality, la sirétisation arrive toujours par la petite porte — un projet de dédoublonnage, une migration CRM — et finit priorité n°1 quand on découvre que 20 % de la base ne matche rien. Commencez par mesurer votre taux de match : c'est lui qui dit l'ampleur du chantier.

TrustyData

Le endpoint de recherche accepte un nom, un SIREN, un SIRET ou une adresse et retourne les établissements correspondants triés par pertinence — de quoi sirétiser un enregistrement en un appel depuis un script ou un pipeline ETL.

Tester la recherche d'entreprises →

RNE

Registre légal

Registre National des Entreprises

Le RNE est le registre légal unique des entreprises françaises, tenu par l'INPI depuis le 1er janvier 2023. Il se substitue comme registre unique au RNCS (registre national du commerce et des sociétés), au répertoire des métiers et au registre des actifs agricoles, et centralise les informations juridiques : dirigeants, capital social, objet social, forme juridique, date d'immatriculation.

Là où SIRENE décrit l'identité administrative, le RNE décrit la gouvernance : qui dirige, avec quels mandats. Les dirigeants peuvent être des personnes physiques (nom, prénom, qualité) ou morales (une société commissaire aux comptes, par exemple).

Attention : les dirigeants sont des données personnelles. Leur consultation ponctuelle est publique, mais leur utilisation pour constituer des listes de prospection commerciale est encadrée — le RGPD s'applique.

Le mot d'Hervé

Le RNE a mis fin à une aberration : avant 2023, reconstituer la gouvernance d'une entreprise imposait de jongler entre greffes, chambres de métiers et registres agricoles. Un registre unique tenu par l'INPI, c'est un progrès concret — que l'open data rend enfin exploitable.

TrustyData

Les fiches entreprises intègrent les dirigeants du RNE (plan Growth et au-delà) : type, nom ou dénomination, qualité du mandat. L'identité RNE (capital, forme juridique, objet social) complète la fiche en plan Business.

Voir la fiche entreprise →

BODACC & procédures collectives

Annonces officielles

Bulletin Officiel Des Annonces Civiles et Commerciales

Le BODACC publie les annonces légales des entreprises : immatriculations, modifications, radiations, ventes et cessions — et surtout les procédures collectives : sauvegarde, redressement judiciaire, liquidation judiciaire. Il est édité par la DILA (Direction de l'information légale et administrative).

Pour la gestion du risque client ou fournisseur, c'est la source qui fait foi : un jugement d'ouverture de redressement y est publié avec sa date et son tribunal. Croisé avec l'état administratif SIRENE, il permet de distinguer une entreprise fermée d'une entreprise en difficulté mais toujours active.

Le BODACC est diffusé en open data ; l'enjeu pratique est le rapprochement — retrouver le SIREN concerné par chaque annonce et rattacher l'historique des jugements à la bonne entité.

Le mot d'Hervé

Le réflexe BODACC devrait être aussi banal que la vérification d'adresse : avant d'ouvrir une ligne de crédit fournisseur ou d'embarquer un client grand compte, on regarde s'il y a un jugement récent. Ça prend une seconde avec une API — et ça évite des impayés qui se voyaient venir.

TrustyData

Le bloc procedures_collectives des fiches entreprises (plan Business) liste les jugements publiés au BODACC — nature, date — avec le drapeau procedure_en_cours.

Découvrir la recherche d'entreprises →

Code NAF / APE

Nomenclature d'activités

Nomenclature d'Activités Française / Activité Principale Exercée

La NAF est la nomenclature statistique des activités économiques, tenue par l'INSEE, organisée en niveaux hiérarchiques — de la section (ex. « Industrie manufacturière ») à la sous-classe (ex. 70.10Z, « Activités des sièges sociaux »).

Le code APE est le code NAF que l'INSEE attribue à chaque entreprise et à chaque établissement pour caractériser son activité principale. NAF = la nomenclature ; APE = le code attribué. Dans la pratique, les deux termes sont souvent employés l'un pour l'autre.

Le code APE est déclaratif et statistique : il peut être obsolète ou approximatif (une holding en 70.10Z peut piloter des activités industrielles). Pour la segmentation, il reste l'outil standard — filtrer un secteur, cibler une activité dans une zone.

Le mot d'Hervé

Le code APE est un excellent premier filtre et un mauvais juge de paix. Je l'utilise pour dégrossir — jamais pour décider seul. Le croiser avec l'effectif et la géographie donne des segments B2B fiables ; le prendre au pied de la lettre fait rater les conglomérats et les reconversions.

TrustyData

La recherche accepte le filtre par code NAF, combinable avec la localisation (ville, département, rayon autour d'un point) — et chaque fiche retourne l'activité en clair : {code, libellé}.

Cibler un secteur d'activité →

Unité légale vs établissement

Modèle SIRENE

SIRENE repose sur un modèle à deux niveaux. L'unité légale, identifiée par le SIREN, est l'entité juridique : la société, l'association, l'entrepreneur individuel. L'établissement, identifié par le SIRET, est une implantation géographique de cette unité : usine, agence, boutique, siège.

Le siège social est simplement l'établissement désigné comme tel — il porte l'adresse juridique, mais pas forcément l'activité. Une enseigne de distribution, c'est une unité légale et des centaines d'établissements ; chacun a son SIRET, son adresse, son état administratif propre.

Confondre les deux niveaux est LA source d'erreurs des fichiers B2B : facturer le siège au lieu de l'établissement livré, compter une entreprise dix fois parce qu'elle a dix agences, ou déclarer « fermée » une société dont seul un établissement a clos.

Le mot d'Hervé

Posez la question « votre client, c'est le SIREN ou le SIRET ? » dans une DSI : le silence qui suit finance des mois de consulting. Le choix du grain — entité juridique ou point physique — devrait être la première ligne de tout dictionnaire de données client.

TrustyData

La recherche restitue les deux grains : par défaut un résultat par entreprise (SIREN), ou un résultat par établissement (SIRET) pour les recherches géographiques. La fiche d'un établissement embarque toujours le bloc unite_legale complet.

Découvrir la recherche d'entreprises →

Statut de diffusion

Confidentialité SIRENE

Toute unité de SIRENE porte un statut de diffusion. Environ 10 % des unités — essentiellement des entrepreneurs individuels — ont exercé leur droit à la diffusion partielle : leur dénomination et leur adresse précise ne doivent pas être rediffusées publiquement.

Pour un réutilisateur de données, c'est une obligation légale, pas une option : les champs protégés doivent être masqués, même si des copies anciennes du fichier circulent avec les valeurs en clair. La commune reste diffusable, l'adresse exacte non.

Concrètement, un enregistrement non-diffusible n'est pas une donnée manquante ni un bug — c'est un droit exercé. Les traitements doivent le distinguer explicitement.

Le mot d'Hervé

Le piège classique : un stagiaire « complète » les non-diffusibles avec un vieux dump SIRENE de 2019 trouvé sur un data lake. Résultat : une base non conforme, difficile à assainir. Le statut de diffusion doit être porté par la donnée elle-même, pas géré de tête.

TrustyData

Les fiches portent un drapeau diffusible explicite ; pour les unités en diffusion partielle, le nom et l'adresse sont masqués à la source (la commune est conservée) — la conformité est dans l'API, pas à votre charge.

Découvrir la recherche d'entreprises →

Catégorie d'entreprise & tranches d'effectifs

Segmentation B2B

L'INSEE classe les entreprises en quatre catégories : microentreprises, PME, ETI (entreprises de taille intermédiaire) et grandes entreprises. La catégorie combine effectifs, chiffre d'affaires et bilan — ce n'est pas qu'une question de salariés.

SIRENE diffuse aussi la tranche d'effectifs salariés, un code par paliers (aucun salarié, 1 ou 2, … 10 000 et plus), disponible au niveau de l'unité légale comme de l'établissement, avec l'année de référence.

Ces deux attributs sont la colonne vertébrale de la segmentation B2B : dimensionner un portefeuille commercial, ajuster une tarification, filtrer les comptes hors cible avant enrichissement.

Le mot d'Hervé

La tranche d'effectifs de l'établissement vaut souvent plus que celle de l'entreprise : pour dimensionner une tournée commerciale ou un contrat de service, c'est le site qui compte, pas le groupe. SIRENE donne les deux — encore faut-il regarder le bon.

TrustyData

Chaque fiche retourne la catégorie d'entreprise, la tranche d'effectifs (code + libellé + année) aux deux niveaux — établissement et unité légale — directement décodés.

Voir la fiche entreprise →

Besoin d'appliquer ces concepts à vos données ?

TrustyData met la validation géographique d'adresses (BAN), le géocodage IRIS, la recherche d'entreprises (SIRENE) et l'enrichissement statistique INSEE à portée d'une simple API REST. Plan gratuit disponible, sans carte bancaire.

Essayer gratuitement Nous contacter

Pour aller plus loin

Glossaire qualité de données : adresses & entreprises

Normalisation & standards postaux

RNVP

Normalisation postale

Norme AFNOR NF Z10-011

Libellé d'acheminement

CEDEX

Hexaposte

DATANOVA

Référentiels géographiques & INSEE

Acteurs officiels

BAN

Code INSEE vs code postal

COG

EPCI & Aire d'attraction des villes

IRIS INSEE

Filosofi

FANTOIR

Carroyage INSEE 200m

Modèle de Huff

Géocodage & coordonnées

Géocodage

Géocodage inverse

Précision de géocodage

WGS84

Lambert 93 (EPSG:2154)

Score de géocodage

Qualité des données adresses

Match exact, probable, aucun

Adresse hors-BAN

PND (anciennement NPAI)

Enrichissement d'adresses

Adresse structurée / non structurée

Déduplication d'adresses

Routage & accessibilité

Routage routier

OpenStreetMap (OSM)

Isochrone

Isodistance

Matrice origine-destination (OD)

Entreprises & données B2B

SIREN & SIRET

SIRENE

Sirétisation

RNE

BODACC & procédures collectives

Code NAF / APE

Unité légale vs établissement

Statut de diffusion

Catégorie d'entreprise & tranches d'effectifs

Besoin d'appliquer ces concepts à vos données ?

Mettez ces concepts en pratique