banner
Centre d'Information
Vous serez étonné par nos prix abordables et notre qualité supérieure.

Apprentissage automatique

Jul 02, 2023

Données scientifiques volume 10, Numéro d'article : 558 (2023) Citer cet article

278 accès

1 Altmétrique

Détails des métriques

Dans notre étude, nous avons entrepris de collecter un ensemble de données annotées multimodales pour la télédétection de l'archéologie maya, adaptée à l'apprentissage en profondeur. L'ensemble de données couvre la zone autour de Chactún, l'un des plus grands centres urbains mayas de la péninsule centrale du Yucatán. L'ensemble de données comprend cinq types d'enregistrements de données : des visualisations raster et un modèle de hauteur de la canopée à partir de données de balayage laser aéroporté (ALS), de données satellitaires Sentinel-1 et Sentinel-2 et d'annotations de données manuelles. Les annotations manuelles (utilisées comme masques binaires) représentent trois types différents d'anciennes structures mayas (étiquettes de classe : bâtiments, plates-formes et aguadas – réservoirs artificiels) au sein de la zone d'étude, leurs emplacements exacts et leurs limites. L'ensemble de données est prêt à être utilisé avec l'apprentissage automatique, y compris les réseaux de neurones convolutifs (CNN) pour la reconnaissance d'objets, la localisation d'objets (détection) et la segmentation sémantique. Nous aimerions fournir cet ensemble de données pour aider davantage d'équipes de recherche à développer leurs propres modèles de vision par ordinateur pour les enquêtes sur l'archéologie maya ou à améliorer ceux existants.

Les relevés aéroportés par balayage laser (ALS) se sont révélés cruciaux pour l’avancement des connaissances sur la répartition des « sites » archéologiques, en particulier dans les régions forestières de l’ancienne Maya1,2,3, car ils ont considérablement accéléré et élargi les relevés de paysages archéologiques traditionnels. L'utilisation de l'ALS en recherche en archéologie du paysage implique généralement l'identification, la localisation, l'enregistrement et l'étude de caractéristiques naturelles et culturelles pour une variété de contextes, généralement interdépendants, y compris, mais sans s'y limiter, la cartographie et l'analyse de l'habitat, de l'urbanisme, de la production agricole et gestion de l'eau4,5,6,7,8,9,10,11.

Les archéologues inspectent généralement les données ALS sous la forme de visualisations raster, qui améliorent la perception des caractéristiques de la surface12,13,14. L'analyse visuelle humaine et la numérisation prennent du temps et l'examen de centaines de kilomètres carrés peut prendre des mois, en fonction du niveau de détail, du nombre de structures et de la méthode d'enregistrement. Malgré le manque d'ensembles de données ALS à grande échelle, à haute résolution et accessibles au public sur l'ancienne région maya, des financements privés et publics dispersés ont permis de mener non seulement des études paysagères spécifiques à un site sur quelques kilomètres carrés, par exemple7,15,16. ,17,18, mais aussi des études à grande échelle sur plusieurs centaines voire plusieurs milliers de kilomètres carrés eg3,5,11,19,20,21,22,23. Le volume des données rend difficile l’annotation d’ensembles de données entiers, surtout si l’on veut indiquer non seulement l’emplacement des objets, mais aussi leur forme. La subjectivité de l’inspection visuelle humaine et de la numérisation ainsi que la variabilité entre les interprètes humains constituent également un problème24. Il existe donc un besoin urgent d’utiliser des méthodes de vision par ordinateur capables de trouver des objets archéologiques et de délimiter automatiquement leurs limites25,26. Parmi les différentes approches d’apprentissage automatique, les réseaux neuronaux à convolution profonde (CNN) constituent actuellement l’état de l’art en matière de vision par ordinateur, mais ils nécessitent généralement un grand nombre d’échantillons déjà étiquetés27 pour la formation. Cela rend les ensembles de données étiquetés cruciaux pour développer et tester les méthodes.

Dans l’une de nos propres études précédentes, nous avons déjà démontré que les CNN pouvaient classer d’anciens objets archéologiques mayas à partir de visualisations DEM, atteignant une précision allant jusqu’à 95 %28. Toutefois, les modèles de classification n’ont pas le potentiel de remplacer l’inspection et l’étiquetage manuels, pour lesquels une segmentation sémantique est requise. La segmentation sémantique est facilement appliquée en télédétection (un examen est donné par27), mais encore plus en imagerie médicale, où les CNN surpassent souvent les experts29,30,31,32,33,34.

L'intention initiale de la collecte de données ALS dans la zone autour de Chactún, l'un des plus grands centres urbains mayas anciens connus jusqu'à présent dans les basses terres centrales de la péninsule du Yucatan, était de mieux comprendre la gestion de l'eau, l'agriculture, la dynamique de peuplement et les aspects socio-politiques. organisation des anciens Mayas vivant dans cette région11,35.

_.tif, where the data source can specify a mask, ALS visualisations (lidar), CHM, or Sentinel data (S1 or S2). The sequential number is a unique identifier of a data record; all files with the same sequential number represent the same geographical area, but differ in the number of pixels (480 × 480 pixels, 240 × 240 pixels or 24 × 24 pixels) and bit depth (8-bit integer or 32-bit float) (Table 7)./p>