Pratiques du VTT dans le PNR des Landes-de-Gascogne :
Comment utiliser le web pour déceler les tendances ?
Logan Lehmann
Ariane Sapina
Février 2017
Le PNR correspond à un territoire rural que l'on a souhaité préserver car il constitue un patrimoine naturel et culturel riche, dont l'équilibre est fragile et menacé. Le Parc nous a fait part d'un problème lié à des usages du VTT qu'on peut qualifier de sauvages ou encore d'illégaux. Ces communautés informelles et présentes sur les réseaux de VTTistes produisent des traces de leur parcours et les diffusent sur le net pour que d'autres puissent les utiliser. Il y a donc des structures informelles qui produisent des informations sur les parcours à emprunter. Il s'agit le plus souvent de parcours non-référencés et parfois ne suivant pas la réglementation. Ces traces, produites par les usagers eux-mêmes, constituent une source de données à laquelle nous nous sommes intéressés.
Durant le premier semestre, nous nous sommes demandés si les traces GPS partagées en ligne constituent une donnée pertinente pour analyser les usages du parc par le public. Nous avons commencé à collecter manuellement des traces GPS une par une, et les données rattachées. Nous avons vu que les données partagées sont des fichiers GPX enregistrés par des usagers. A la suite de cette analyse nous en avons conclu que les traces sont une ressource exploitable par le parc mais qu'elles ont aussi de nombreuses limites. Après ce travail assez fastidieux, nous avons utilisé une autre méthode qui consiste à récupérer des traces par scraping et qui permet de moissonner beaucoup plus de traces d'une seule manipulation sur le site VTTrack qui recense d'autres sites de partage. Ayant récolté suffisamment de données, on peut alors se demander :
La récupération et le traitement des données GPX permet-elle de produire des analyses pertinentes sur les usages des VTTistes?
La collecte de ces données permet de voir les sentiers empruntés et de produire les traitements que l'on souhaite. Utiliser la méthode du scraping permet de moissonner beaucoup de données en faisant une économie importante de temps. Mais cette méthode comporte également des limites concernant l'exactitude et la fiabilité des parcours partagés et des métadonnées associées.
Dans ce rapport nous présenterons les intérêts et les limites du scraping. Nous détaillerons la méthode à laquelle nous avons eu recours à l'aide d'un tutoriel. Enfin, nous effectuerons des exemples de traitements sur les données récupérées en les croisant avec d'autres données concernant les usages au sein du Parc. Nous nous demanderons quels sont passages les plus empruntés, les villes et points de départ les plus fréquentés, et si il y a une proximité avec les parcours proposés par le Parc.
Lorsque l'utilisateur inscrit sa pratique sur un support numérique, on peut dire que l'information subit une transduction. D'une pratique spatiale individuelle, on passe à une trace formelle. Alors que la représentation de la première est propre à chaque individu, la seconde est représentée d'une façon conforme, normée.
L'individu qui va télécharger cette trace et s'en inspirer pour sa sortie va lui faire suivre le chemin inverse : une transduction de sa représentation formelle en une représentation individuelle sur laquelle il va s'appuyer pour avoir sa propre pratique.
Ces allers-retours entre les pratiques spatiales et les traces géoréférencées contribuent à une interactivité du support virtuel, duquel on peut alors dire qu'il s'agit bien d'un espace, contrairement à la carte qui n'est qu'une représentation. Chaque étape implique des transformations, des interprétations.
L'exploitation des traces est technique, mathématique au fond, et le chercheur peut parfois être enfermé dans cette technicité. Pourtant, lorsque la question porte sur les pratiques, il est nécessaire de s'intéresser à la fois aux pratiques spatiales et aux représentations formelles qui leur correspondent, et auxquelles elles ne peuvent pas être réduites. Toute forme de réductionnisme serait fatale à la pertinence du propos.
Le sujet de ce rapport porte bien sur l'aspect technique, puisque la quantité de données disponible est insuffisante pour émettre des affirmations sur les pratiques réelles des VTTistes. Nous voulons seulement montrer quel intérêt les traces et leur traitement peuvent avoir pour les gestionnaires du Parc. Nous poserons des questions et apporterons des débuts de réponse en montrant vers quels types d'analyses le travail pourra être approfondi.
De l'anglais "to scrape", qui signifie gratter, le web scraping est une technique qui permet d'extraire automatiquement des données d'un site internet.
Le scraping a pour principal avantage de permettre la constitution rapide d'une base de données d'une grande taille. C'est une démarche particulièrement adaptée au travail avec des traces numériques. Dans l'optique de tirer des généralités de notre travail d'analyse, nous avons besoin d'un maximum de traces.
De nombreuses données sont accessibles. Elles ne sont presque jamais proposées au téléchargement. Le plus souvent, elles sont présentées via une application à des utilisateurs. Les usages permis par cette application sont limités par son ergonomie. Récupérer les données permet de les visualiser toutes en même temps et de leur appliquer des traitements.
Dans le cadre de l'étude de la pratique du VTT, les traces GPX sont souvent rattachées à des données telles que le nombre de kilomètres, la durée, le dénivelé... D'autres informations telles que la ville de départ, la ville d'arrivée, la difficulté du parcours peuvent être reconstituées et présentent également un intérêt.
Qualitativement parlant, les traces GPX proviennent des utilisateurs. Elles permettent donc d'emblée d'avoir une plus grande connaissance de leurs usages. Leur analyse permet aussi de tirer des conclusions sur les comportements des utilisateurs du Parc.
Leur avantage par rapport à une autre source de données est l'immédiateté et la fiabilité par rapport à la pratique du VTTiste. Le tracé exact est retranscrit même si l'utilisateur improvise. Par exemple, collecter les itinéraires les plus empruntés sur une carte papier auprès des associations de VTT débouche sur des discussions et un échange intéressants. Mais si le VTTiste décide lors de sa sortie de changer d'itinéraire, la carte qui a été dessinée a priori perd de sa valeur, du moins pour ce qui est de l'information de tracé.
Ces connaissances sont très utiles à la gestion du Parc, puisque l'un des problèmes est d'être (et de se maintenir) "à jour" sur les pratiques de ceux qui le fréquentent. De plus, celui-ci souhaitant proposer ses propres circuits, elles sont utiles pour évaluer leur pertinence. La donnée de départ peut également être replacée dans son contexte: le Parc est-il bien un pôle de ces usages?
Les traces GPX sont des enregistrements de trajectoires, souvent en trois dimensions, produites par les appareils GPS à partir d'une série de points correspondant chacun à un relevé. Un utilisateur peut télécharger les traces contenues dans son appareil sur son ordinateur ou sur le web, le plus souvent sur une plateforme spécialisée qui est également un point de rassemblement pour la communauté liée à une pratique en particulier. Par exemple, les sites Utagawa et VisuGPX sont plutôt spécifiques à la pratique du VTT.
Les producteurs et diffuseurs de traces GPX ne représentent qu'une partie des VTTistes. Ce sont des initiés qui possèdent des compétences et les moyens techniques pour enregistrer leur traces et ensuite les partager. Ce sont également souvent des sportifs qui prennent le temps de planifier leurs parcours, par opposition à ceux qui partent simplement "en balade".
On peut y voir le tracé sur carte et les données associées : point de départ et d'arrivée, les villes traversés, le temps, la longueur, le dénivelé. Certains sites comme Uttagawa signalent les points d'intérêt touristique aux abords du parcours, des photos, des commentaires ainsi qu'une note pour chaque parcours.
Les fiabilité des données que nous avons récupéré est à remettre en cause, tout simplement du fait du grand nombre d'étapes entre le moment où l'utilisateur effectue son parcours et le moment où nous affichons la trace.
L'appareil GPS effectue une série de relevés à intervalle régulier, tant que la connexion aux satellites le permet. La trace GPX est un fichier XML qui peut contenir cette série de points (waypoints), un itinéraire (route) passant par tous ces points dans l'ordre, et/ou des traces (tracks) qui représentent des segments de suivi continu.
L'utilisateur peut télécharger cette trace GPX sur la plateforme de son choix. Ces plateformes croisent la trace GPX avec un modèle numérique de terrain. Par exemple, le site VisuGPX utilise les données SRTM pour caler toutes les traces à la même altitude. Le dénivelé est également calculé à partir des altitudes de chaque point.
Lorsque l'on visite les sites, l'itinéraire (route) est affiché sur un fond de carte Google ou OpenStreetMap. Certaines données associées comme le dénivelé ou le type de parcours sont également présentées. Ce sont ces données qui présentent le plus d'incohérences. Parfois on peut voir qu'une trace s'arrête brusquement alors qu'elle est signalée comme "boucle". Pour le même parcours de "la vallée de la petite Leyre", le dénivelé est de +42 m et -42 m sur le site VTTrack, alors qu'il est de -122 m et de +122 m sur le site TraceGPS .
Dès lors que l'on récupère des données en vue de les traiter, des questions se posent en matière de légalité et d'éthique. Celui qui scrape profite du travail d'agrégation qui a été fait par d'autres. Le site Utagawa est clair en la matière. Ses utilisateurs sont responsables du contenu qu'il y mettent, et ce faisant permettent à Utagawa d'utiliser les données. Tout le site est sous licence Creative Commons BY NC. Une API est disponible permettant de télécharger et manipuler les données; contre paiement ou non selon le volume. D'autres sites comme VisuGPX et VTTrack n'affichent aucune information à ce sujet.
Si le Parc souhaite utiliser les données de ces plateformes, il serait intéressant d'opter pour une démarche de partenariat. Outre un accès aux données par une voie qui peut être perçue comme davantage "honnête", ce serait aussi l'occasion d'échanger et peut-être d'ouvrir la perspective d'une collaboration plus proche entre le site, le Parc et leurs utilisateurs.
Les mots comme crawling (ramper), mining (extraire), scraping (racler) et harvesting (moissonner) désignent des modes opératoires auxquels on peut avoir recours pour collecter les données sur le web. Ils sont utilisés conjointement par les entreprises travaillant dans ce domaine selon leurs objectifs.
Plusieurs méthodes sont couvertes par l'expression "scraping". On peut récupérer les données d'un site via une API, l'aspirer en entier, écrire un script pour analyser ses pages ou encore intercepter les requêtes du navigateur pour les isoler. Nous avons choisi cette dernière solution car c'est la plus simple et la plus ciblée.
Nous allons préparer l'extraction du site VTTrack.fr qui récolte les sites de nombreuses communautés dont Utagawa et VisuGPX entre autres. Cette méthode n'est pas l'unique moyen de récupérer les données du site. Elle a été testée avec Firefox.
http://www.vttrack.fr/cgi-bin/mapserv.fcgi?map=/srv/d_vttrack/vttrack/production/mapserver/WFS-utagawa-postgis.map&SERVICE=WFS&maxfeatures=300&vttour_id=254&simplification=0.0003
http://www.vttrack.fr/cgi-bin/mapserv.fcgi?map=/srv/d_vttrack/vttrack/production/mapserver/WFS-utagawa-postgis.map&SERVICE=WFS&vttour_id=254&version=1.1.0&REQUEST=GetFeature&outputformat=geojson&bbox=-1.9436132883842,43.817234489379,0.54973387923739,44.822914153551&typename=utagawa
Le fichier GeoJSON est un fichier de données structuré en listes imbriquées, contrairement à un fichier CSV qui est tabulaire. Il peut être directement importé dans QGIS en le faisant glisser sur sa fenêtre.
Lorsque l'on a de nombreuses couches à récupérer sur VTTrack, on peut utiliser d'autres outils pour aller plus vite. On peut copier les URL de requête de toutes les couches qui nous intéressent et les coller dans Notepad++, un éditeur de texte avancé. Notepad++ permet d'installer des plug-ins pour lui octroyer de nouvelles fonctionnalités. Il est possible de modifier toutes les lignes en même temps pour ajouter les paramètres du payload à toutes les URL. Ce fichier, qui contient donc une URL par ligne, peut-être sauvegardé. On peut alors télécharger toutes les données en même temps avec un utilitaire en ligne de commande comme wget sous Linux ou un équivalent sur d'autre plateformes. Il faut ensuite renommer les fichiers à la main.
Lorsque l'on souhaite mettre à jour nos données, il suffit de refaire ces deux étapes. On pourrait aussi imaginer un script qui télécharge les données d'après le fichier des URL et renomme automatiquement les fichiers.
Si l'on veut explorer un peu la structure du fichier GeoJSON, on peut utiliser le plugin JSTool qui reformatera le fichier pour qu'il soit plus lisible. Attention toutefois, certains fichiers sont très lourds, voire trop lourds pour être ouverts avec un éditeur de texte. D'ailleurs, les sauts de lignes et les tabulations ajoutées par JSTool provoquent une augmentation d'environ 10% de la taille des fichiers.
On peut également utiliser le logiciel R pour retirer les informations de géométrie et isoler les autres données. Après avoir importé les fichiers, on peut utiliser la bibliothèque "rgdal" pour interpréter le format GeoJSON:
library(rgdal)
# Assembler les fichiers sous forme de liste
json <- lapply(files, function(f) readOGR(dsn = f, "OGRGeoJSON" ))
json <- do.call(rbind, json)
# Extraire les informations non-géométriques
data <- json@data
# Exporter les données
write.csv(data, file="data.csv")
Les données sont sauvegardées dans un fichier CSV que l'on peut importer dans Excel pour faire un tableau croisé dynamique. Ceci nous permet de voir que ces données non-géométriques sont d'un intérêt limité.
Il s'agit principalement de données concernant la longueur et l'altitude. Les autres colonnes ne sont pas renseignées (notation), ou alors comportent des informations inutiles pour l'analyse (URL) ou trop peu fiables (dénivelé).
Nous avons pu récupérer 925 traces par scraping. Nous les avons chargées dans le logiciel QGIS pour pouvoir les visualiser. Ce faisant, il faut garder à l'esprit les réserves qui ont été émises plus haut. Si l'on admet que les traces GPX récupérées constituent un échantillon à peu près représentatif des itinéraires empruntés par les VTTistes, alors les traitements pourront effectivement indiquer des tendances. Mais, sans un jeu de données plus complet, impossible d'en tirer des conclusions certaines. Afin d'effectuer des comparaisons, nous avons pu récupérer 158 tracés officiels.
Sur la première carte, on voit que le territoire est assez riche de traces GPX. Biscarosse, Arcachon et Langon semblent concentrer un grand nombre traces. La longueur totale des traces récoltées mises bout à bout est de 35767.5 kilomètres.
Si l'on ne garde que les traces passant par le Parc, nous n'en avons plus que 138. C'est un nombre qui peut paraître faible mais qui est suffisant pour illustrer l'intérêt des traitements proposés. Ce nombre signifie aussi que le Parc n'est pas plus attractif pour les VTTistes que ses alentours, puisque seulement 15% des traces récupérées le traversent.
Comme toutes les traces ont la même apparence, il est difficile de distinguer les itinéraires les plus pratiqués. Mettre les traces en transparence permet de faire ressortir les endroits où elles s'accumulent. On observe une grande fréquentation de la vallée de l'Eyre ainsi que des trois plans d'eau d'Hostens où les pistes cyclables convergent. Ces dernières ne semblent pas forcément concentrer une grande proportions des traces.
Puisque nous avons également les itinéraires proposés par le Parc, nous pouvons comparer leurs points de départ (rouge) avec les points de départ des traces des utilisateurs (bleu). Ceci nous permet de caractériser la pertinence des aires de départ choisies par le Parc. Les points les plus rouges sont les plus isolés par rapport aux points bleus.
Les données concernant les traces ne sont pas d'une fiabilité absolue et il n'est pas rare qu'un itinéraire fasse des micro-arrêts, ce qui provoque la création de multiples points pour un seul itinéraire. Nous avons donc découpé le territoire observé en tuiles de 2 kilomètres de côté. Les tuiles contenant au moins un point rouge ou bleu sont coloriées de la couleur correspondante. Celles contenant les deux, qui contiennent donc au moins un départ officiel et un départ d'utilisateur à moins de 2 kilomètres l'un de l'autre, sont coloriées en violet. Cette méthode est principalement limitée par la taille des tuiles. Avec une tuile de 2 kilomètres de côté, la proximité d'un point rouge et d'un point bleu peut être ignorée si ils tombent chacun sur un tuile différente, de part et d'autre de la frontière. Plus le maillage est fin, plus les résultats seront précis, mais moins l'information sera synthétique.
Visuellement, on peut avoir le sentiment que la présence d'habitations encourage les usagers à emprunter certains itinéraires. Nous pouvons le vérifier en traçant une zone tampon autour du bâti et en retenant les portions des traces qui les traversent. La BD TOPO permet de différencier à quels usages sont destinés les bâtiments. Dans notre cas ce n'est pas absolument nécessaire. En revanche, on voit qu'une zone circulaire se crée autour des bâtiments isolés. Nous pouvons choisir de ne pas les prendre en compte, mais la question serait toute autre puisqu'il faudrait alors parler de densité.
La longueur cumulée des portions des traces strictement situées à l'intérieur du Parc est de 3076.8 kilomètres. La longueur cumulée des portions de ces traces qui passent à moins de 500 mètres d'un bâtiment est de 2106.7 kilomètres, soit 68.5%. Cette information prise seule n'est pas suffisante pour confirmer l'hypothèse, car d'autres éléments comme la présence d'une route influencent à la fois la fréquentation et la probabilité de présence de bâtiments.
Les traitements SIG, outils de recherche qui peuvent paraître a priori assez rigides et contraignants, sont en fait plutôt flexibles du fait de leur caractère paramétrique. Malgré une quantité de données relativement faible, ils permettent d'apporter des éléments de réponse à de nombreuses questions de gestion.
Les méthodes et traitements présentés ici illustrent les possibilités offertes par l'intégration des données numériques provenant des utilisateurs. Récolter ces traces est une opération au coût très faible: quelques secondes de téléchargement, quelques mégaoctets d'espace disque. Nous avons vu que leur analyse peut produire des regards pertinents pour les gestionnaires du Parc.
En revanche, un réel travail est nécessaire afin de concevoir un processus à la méthodologie solide, qui pourra s'interfacer avec les autres actions de gestion. Nous avons vu que la principale réserve concernant les traces est leur nombre, puisqu'il est délicat de tirer des conclusions trop générales d'un jeu de données restreint, portant sur quelques usagers seulement. Le Parc cherchant à la fois à se rapprocher de ses utilisateurs et à se munir d'une meilleure information sur leurs comportements, l'opportunité suivante se présente.
Les trois partis impliqués (PNR, utilisateurs et plateformes) ont tout intérêt à se rapprocher et à se "nourrir" les uns les autres. En encourageant les utilisateurs à enregistrer leur itinéraire et à le télécharger sur les plateformes telles que UtagawaVTT (à l'aide de leurs smartphones), le Parc pourrait potentiellement faire augmenter la quantité d'information disponible, faire grandir les communautés de ces plateformes et faciliter une entente avec ces dernières (peut-être une forme de partenariat), et enfin faire prendre conscience aux utilisateurs du rôle des gestionnaires, les incitant à s'en rapprocher.
Dans l'idéal, ce travail serait accompagné d'autres démarches non numériques afin que les utilisateurs, nouvellement conscients de l'existence du Parc en tant que structure, sachent comment s'y adresser directement. C'est une réponse au problème des interlocuteurs dont les commanditaires ont fait part. Les structures associatives ne représentent plus forcément le meilleur moyen d'entrer en contact avec les usagers. Or la seule solution pour contacter les individus directement est de les laisser, eux, se rapprocher du PNR.
IGN BD TOPO 2016 : IGN
BD ALTI 25m : IGN
Forêt publique et couverture végétale : ONF
Chemins officiels 2016 : SPN
Traces GPX: UtagawaVTT, VisuGPX, LaTrace, OpenRunners, PlaniCycles, Sentiers IGN, TraceGPS