MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis

Mots clés générés par l'IA : Reconnaissance Documents d'identité Analyse Données MIDV-2020

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • La reconnaissance de documents d'identité est un sous-domaine important de l'analyse de documents
  • Elle traite des tâches telles que la détection robuste de documents, l'identification du type et la reconnaissance des champs textuels
  • Elle vise à prévenir la fraude et à valider l'authenticité des documents d'identité donnés par des photos, des scans ou des images vidéo
  • Les ensembles de données disponibles manquent souvent de diversité en termes de types et conditions d'enregistrement ainsi que pour la variabilité des valeurs des champs documentaires
  • Les auteurs ont développé le jeu MIDV-2020 qui se compose 1000 clips vidéo, 2000 images scannées et 1000 photos provenant chacune d'un faux document unique avec une valeur unique dans chaque champ textuel et un visage artificiel généré spécifiquement pour chaque document
  • Le jeu contient également une annotation riche
  • Des baselines sont fournies pour les tâches telles que la localisation et l'identification du document, la reconnaissance des champs textuels et la détection faciale
  • Avec un total impressionnant 72409 images annotées à ce jour, le jeu proposé est le plus grand ensemble de données sur les documents d'identité disponible publiquement avec des données artificielles générée variablement.
  • Les auteurs estiment que cet ensemble de donnée sera inestimable pour l’avancement du domaine de l’analyse et de la reconnaissance des documents.
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng Ming, Jean-Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov

Computer Optics, volume 46, issue 2, p. 252-270, 2022

Résumé : Identity documents recognition is an important sub-field of document analysis, which deals with tasks of robust document detection, type identification, text fields recognition, as well as identity fraud prevention and document authenticity validation given photos, scans, or video frames of an identity document capture. Significant amount of research has been published on this topic in recent years, however a chief difficulty for such research is scarcity of datasets, due to the subject matter being protected by security requirements. A few datasets of identity documents which are available lack diversity of document types, capturing conditions, or variability of document field values. In addition, the published datasets were typically designed only for a subset of document recognition problems, not for a complex identity document analysis. In this paper, we present a dataset MIDV-2020 which consists of 1000 video clips, 2000 scanned images, and 1000 photos of 1000 unique mock identity documents, each with unique text field values and unique artificially generated faces, with rich annotation. For the presented benchmark dataset baselines are provided for such tasks as document location and identification, text fields recognition, and face detection. With 72409 annotated images in total, to the date of publication the proposed dataset is the largest publicly available identity documents dataset with variable artificially generated data, and we believe that it will prove invaluable for advancement of the field of document analysis and recognition. The dataset is available for download at ftp://smartengines.com/midv-2020 and http://l3i-share.univ-lr.fr .

Soumis à arXiv le 01 Jul. 2021

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2107.00396v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

La reconnaissance de documents d'identité est un sous-domaine important de l'analyse de documents qui traite des tâches telles que la détection robuste de documents, l'identification du type et la reconnaissance des champs textuels. De plus, elle vise à prévenir la fraude et à valider l'authenticité des documents d'identité donnés par des photos, des scans ou des images vidéo. Cependant, les ensembles de données disponibles sur les documents d'identité manquent souvent de diversité en termes de types et conditions d'enregistrement ainsi que pour la variabilité des valeurs des champs documentaires. Pour remédier à cela, les auteurs ont développé le jeu MIDV-2020 qui se compose 1000 clips vidéo, 2000 images scannées et 1000 photos provenant chacune d'un faux document unique avec une valeur unique dans chaque champ textuel et un visage artificiel généré spécifiquement pour chaque document. Le jeu contient également une annotation riche. Des baselines sont fournies pour les tâches telles que la localisation et l'identification du document, la reconnaissance des champs textuels et la détection faciale. Avec un total impressionnant 72409 images annotées à ce jour, le jeu proposé est le plus grand ensemble de données sur les documents d'identité disponible publiquement avec des données artificielles générée variablement. Les auteurs estiment que cet ensemble de donnée sera inestimable pour l’avancement du domaine de l’analyse et de la reconnaissance des documents.
Créé le 19 Mai. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.