Blog de Charles Nepote

  • Samedi 21 mai 2016, de 9h45 à 17h30 au Jardin de la Ménagerie, 70 Rue Houdan à Sceaux (Hauts-de-Seine).

    Dans le cadre de la Campagne Infolab, la Fing et ses partenaires explorent notamment comment les données numériques peuvent agir comme un levier de débat et de participation citoyenne. Depuis quelques mois nous menons un terrain d'expérimentation sur la ville de Sceaux sur le sujet du vélo. Dans le cadre de la journée "Vélo en ville" organisée par la mairie de Sceaux, nous vous proposons une journée d'ateliers, démonstrations, animations : c'est l'infolab éphémère, lieu de découverte, d'apprentissage et de mise en débat du vélo à travers les "data".

    Ouvert à tous publics, c'est tout d'abord une occasion d'expérimenter les dispositifs de médiation aux données, imaginés par la communauté des Infolabs : dataviz géante réalisée par la foule, cartographie sensible du vélo sur un plan de Sceaux géant à colorier/compléter, cartopartie thématique avec la communauté OpenStreetMap, atelier de mesure citoyenne de la qualité de l'air, etc.

    L'après-midi, deux ateliers parallèles explorent les données numériques où citoyens, professionnels, élus, chercheurs et amateurs éclairés débattent et bâtissent collectivement une brique actionnable sur le thème du vélo (sur inscription).

     

    Programme détaillé
    • 10h-12h30 : cartopartie "vélo" avec la communauté OpenStreetmap : objectif, produire la meilleure carte numérique pour un usage facilité du vélo (rendez-vous sur le stand)
    • À 13h00 pile : "Dataviz avec les pieds" :  une performance collective et individuelle unique : combiner le pouvoir de la foule et le pouvoir des nombres en faisant réaliser par la foule une dataviz géante (rendez-vous sur le stand)
    • 14h15 : dans l'ancienne mairie (même adresse), deux ateliers parallèles "infolab citoyen" sur les thématiques suivantes (inscription nécessaire ci-dessous) :
      • le vélo, un média de captation citoyenne de données environnementales ?
      • le confort d'usage du vélo : mesure individuelle et collective

    Toute la journée, sur le stand Infolab Vélo :

    • le vélo, le grand ami de la mesure de la qualité de l'air : démonstration de capteurs, ateliers de mesure, etc.
    • Moi, mon vélo et Sceaux. Et si on partageait notre expérience personnelle du vélo à Sceaux ? Venez cartographier vos trajets, vos coups de coeur, vos peurs, vos dangers, vos limites infranchissables, vos envies, vos challenges.  La carte alimente le débat citoyen autour de la place du vélo à Sceaux, une restitution complète en est faite aux habitants et aux élus.

     

    Les ateliers de l'après-midi sont ouverts sur inscription >> je m'inscris.

     

    Retrouvez également le flyer de l'événement, ainsi que toutes les ressources et actualités de la communauté Infolab sur infolabs.io et venez participer au blog de la communauté.

  •  

    L’Infolab prend ses quartiers à Futur en Seine (Paris)

    • Plus de 25 initiatives de médiation aux données sur 4 jours
    • Une journée dédiée à la campagne Infolab (outils, méthodes, scénarios) vendredi 13 Juin

     

     

    DU 12 AU 15 JUIN À LA GAÎTÉ LYRIQUE (4e étage)

     

    Après une année d'expérimentations menées à Bordeaux, Aix-en-Provence, Rennes, Poitiers, Paris, la campagne Infolab présente à Futur-en-Seine les résultats de ses expérimentations et invite tous ses partenaires à proposer des “expériences Data inédites à vivre”.

    Pendant quatre jours, plus de 25 partenaires* présentent leurs initiatives de médiation aux données :

    • sous toutes leurs formes : expositions, ateliers de  sensibilisation, démonstrations d’outils, formations, incubation de projets, création de connaissances, débats ;

    • sur tous les thèmes : données environnementales, données personnelles, données prédictives, données d’orientation, données travail et emploi, données citoyennes, données marines, …

    • pour tout public : néophytes, amateurs, spécialistes, artistes, entrepreneurs, chercheurs, générations X,  Y, Z, W…

    Ces initiatives seront expliquées, documentées, discutées. Elles constituent le matériau qui pourra servir aux futurs infolabs.

     

    A noter, le vendredi 13 Juin : une journée dédiée aux résultats de la campagne Infolab. Venez découvrir et débattre :

    • des outils, méthodologies, charte des infolabs

    • des scénarios de concrétisation

    • de la médiation aux données dans les organisations

     

     

     

    Retrouvez toute la programmation en ligne et inscrivez-vous > http://fens.infolabs.io/

    ATTENTION : le nombre de places des ateliers est limité, inscrivez-vous vite !

    Téléchargez l'invitation

     

     

    LA COMMUNAUTÉ INFOLAB

     

    Altercarto, Anact, Alcatel Lucent Bell-Labs, Centre Hubertine Auclert, la Cnil, le Conseil Général 33, la Cantine Numérique Brestoise, la Communauté Urbaine de Bordeaux, Data Publica, Fing Infolab, Fing Mes Infos, Five By Five, la Fonderie, l’association ICI, INSEE, Inria, Libertic, la Mairie De Paris, la ville de Montpellier, OKFN-France, Open Data France, le groupe La Poste, les Petits Débrouillards, la Région Paca, le Réseau Information-Jeunesse de Poitou-Charentes, la Région Rhône-Alpes, la ville et l’agglomération de Rennes, Sciences Manuelles Du Numérique, Simplon, Snips, Utilisacteur, We Love The Net...

     

  • Je découvre tardivement l'outil de gestion de contenus web Omeka, spécialisé dans la publication et le partage de collections culturelles : livres, images, objets, vidéos, etc. Le site officiel, les vidéos de présentation et les spécifications laissent l'impression d'un produit très abouti et surtout très simple de mise en oeuvre -- d'autant qu'il existe une offre hébergée qui permet de l'utiliser sans avoir à gérer la tringlerie technique.

    Plus encore, l'outil a l'air nativement très avancé sur la question du partage de données. J'en veux pour preuve cet article des auteurs du produit et ce retour d'expérience de l'Université de Rennes qui évoque notamment comment son catalogue d'ouvrages numérisé est repris sur Gallica, Isidore, Wikipedia, etc. (voir dia 55-62) -- cette dernière présentation, de Julien Sicot, est par ailleurs une excellente introduction au produit. En quelques mots, l'outil se base sur le protocole OAI-PMH lui permettant tout à la fois de moissoner des données d'autres fournisseurs compatibles et de publier à son tour des données à partir de ce même protocole.

    L'utilisation est-elle si simple qu'un petit musée, par exemple, puisse partager ses collections avec d'autres ? Et comment sont gérés les droits ? Les Creative Commons sont gérées mais qu'en est-il des licences plus spécifiques aux bases de données ? L'outil est-il adapté à l'ouverture de données culturelles (au sens "open data") ? En d'autres termes, est-ce une solution prêt à l'emploi pour ouvrir des données culturelles ? L'outil est-il envisageable pour un projet de crowdsourcing de données ?

    Je vais poursuivre mes investigations mais vos témoignages sont bienvenus.

     

  • L'APIE a publié voilà quelques mois des Condition générales d'utilisation, pour la réutilisation libre de données publiques. Ces CGU gagnent actuellement en popularité puisqu'elles ont été retenues récemment par la Communeauté urbaine de Bordeaux et la ville de Montpellier. Plusieurs autres organismes publics d'importance sont en train de l'étudier et vont probablement la retenir à terme.

    En termes "fonctionnels", ce cadre juridique est intéressant car très ouvert, permettant une réutilisation commerciale des données et sans clause "virale". Son succès est aussi probalement du au fait que l'estampille de l'APIE sécurise les acteurs publics et, de fait, ces CGU sont une reformulation pédagogique du cadre standard de la loi de 1978.

    Pour autant, ces CGU, en version 1 rappelons-le, restent perfectibles. Nous avons relevés deux axes de progrès particulièrement important -- notamment au cours de nos discussions avec les acteurs de terrain (acteurs publics et réutilisateurs).

    1. Confusions apportées par l'article 1
    L'article 1 introduit des notions inutiles et confusantes dans l'esprit du réutilisateur.
    "[...] sous réserve qu’elle ne soit pas soumise :
    - au paiement d’une redevance,
    - à des conditions particulières ou un régime particulier (notamment en vertu de l’article 11 de la Loi),
    - à la délivrance d’une licence spécifique.
    Lorsque seules les réutilisations commerciales sont soumises à des conditions particulières, au paiement d’une redevance ou à la délivrance d’une licence, les réutilisations non commerciales relèvent des Conditions Générales.
    "

    Comment sais-je si les présentes données que je suis en train de consulter ne sont pas soumise à redevance ? L'article 2 dit justement que les données sont gratuites, alors pourquoi mentionner cette réserve dans l'article 1. C'est pour moi aujourd'hui le plus gros problème de ce texte. Je ne l'avais pas identifié tout de suite car je commence à bien connaitre la loi de 1978. Mais pour un réutilisateur qui ne connait pas ce texte de loi, c'est un élément réellement confusant. J'ai eu plusieurs remarques de réutilisateurs sur ce point.

    Suggestion : supprimer tout simplement le passage mentionné.

    2. Facilité d'usage de ces CGU.
    Je pense par ailleurs que ces CGU pourraient progresser en matière de d'adoption et de diffusion. Un réutilisateur donné n'est pas en capacité d'analyser et mémoriser des dizaines de textes juridiques. Il maîtrise les formats techniques, les APIs, etc., c'est son domaine. Mais la compréhension du droit est un gros effort pour lui. La multiplication des licences ou des conditions générales d'utilisation est pour lui un vrai problème. Pour faire un parallèle, le monde des logiciels libres est assez simple pour lui au niveau juridique : il existe un demi-douzaine de licence qu'il a déjà croisé des dizaines de fois (licences GPL, BSD, Cecil, etc.). Dans 99% des cas, lorsqu'il utilise un nouveau logiciel libre, il en connait déjà la licence, qui a d'ailleurs été abondamment glosée sur internet.
    "Nom et logo du ministère" suggère déjà que ces CGU sont un texte-type à adapter. Les marques de familiarité et de "stabilité" de la licence, "Version 1 au 24/09/2010" suivie du logo de l'APIE, ne sont pas assez claire et évidentes. Voici nos suggestions :
    1. supprimer "Nom et logo du ministère" qui sont inutiles et confusant : ce sont les CGU standard de l'APIE ou du ministère tartempion ?
    2. supprimer la référence à la loi de 1978 dans le titre, élément technique qui n'apporte rien ici et déjà amplement utilisé et glosé dans la suite du texte
    3. exprimer dès le titre la référence non ambiguë au fait qu'il s'agit de CGU standard de l'APIE : "Réutilisation des informations publiques / Conditions générales au standard APIE. V2 au 13/04/2011" ; il ne serait pas idiot non plus d'exprimer dans le titre que ces CGU s'appliquent à des données ouvertes et gratuites (les différenciant ainsi clairement des Licences de l'APIE pour les données payantes)
    4. publier ce texte sur une page web classique et non seulement sur un document PDF ; le format PDF n'apporte rien pour un document court et découpé en articles et oblige l'utilisateur à avoir un lecteur PDF installé ; une version PDF est possible en complément de la page web mais pas en lieu et place
    5. utiliser une URL simple à communiquer et à retenir ; une URL simple augmente considérablement la qualité de communication et d'adoption d'un standard ou d'un document ; http://apie.fr/cguv1 serait par exemple idéal (il n'y a aucune raison technique pour ne pas le faire). Une URL courte et simple peut facilement insérer dans une présentation, dans un tableau, dans un "twitt", dans un mail. Elles sont faciles à communiquer par téléphone. Les URL longues sont souvent coupées en deux dans les mails. Il est en outre très compliqué de recopier à la main une URL aussi longue :
    https://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/des-conditions-generales-pour-la-reutilisation-des-informations-publiques/downloadFile/attachedFile/CG_reutilisation_des_IP_23_septembre_V1.pdf?nocache=1286545772.22

    Les licences de type Creative Commons ou Open Data Commons présentent un exemple de bonnes pratiques en matière de facilité d'usage : URL simples et stables, unicité de la licence, usage très pédagogique (avec des fiches synthétiques avec des logos simples, avec des indications simples "How to apply", etc.).

    Nos suggestions nous parraissent aller dans le sens d'une facilité d'identification et donc d'adoption par les acteurs publics, et de compréhension par les réutilisateurs. Un réutilisateur qui va voir le lien http://apie.fr/cguv1 aura toutes les chances de ne même pas avoir à suivre ce lien, sachant ce qu'il recouvre. "Ah, ce sont les CGU V1 de l'APIE que j'ai déjà vues à Montpellier".

  • Le Guide pratique que nous avons publié il y a quelques semaines s'enrichit petit à petit de nouveau contenus. Avant sa deuxième édition nous vous en soumettons ici certains, sous forme d'articles. Aujourd'hui il s'agit d'un article plutôt technique sur la manière de cataloguer des données (voir partie 2.3.2 du guide). C'est un sujet qui se structure progressivement avec la naissance progressive de bonnes pratiques voire de standards. Commentaire évidemment bienvenus (il faut s'identifier pour commenter).

     

    Quelles données pour décrire des jeux de données ?

    Du point de vue réglementaire, l’article 36 du décret n° 2005-1755 du 30 décembre 2005 stipule que les répertoires des informations publiques doivent préciser, « pour chacun des documents recensés, son titre exact, son objet, la date de sa création, les conditions de sa réutilisation et, le cas échéant, la date et l'objet de ses mises à jour ». Ces 6 métadonnées, certes essentielles, sont cependant loin d'être satisfaisantes pour produire un catalogue efficace. Nous proposons de lister ici quelques métadonnées qui complèterons utilement ces 6 initiales.

     

    Pour décrire efficacement un jeux de données, certaines métadonnées s'imposent d'eux-même (nous rappelons les métadonnées réglementaires en les faisant suivre d'une astérisque) :

    • le titre du jeux de données*

    • son objet ou description sous la forme d'un texte, car un titre ne parle pas toujours de lui-même*

    • l'auteur

    • l'éditeur

    • la date de création et la date de dernière mise à jour*

    • les conditions de sa réutilisation*

    • le cas échéant, la date et l'objet de ses mises à jour*

     

    A ces critères, on peut en ajouter quelques autres à forte valeur ajoutée, qui sont d'ailleurs utilisés par la quasi totalité des catalogues de données :

    • le sujet ou la catégorie, permettant ultérieurement d'effectuer des recherches plus efficaces

    • la fréquence d'actualisation des données

    • la liste des métadonnées du jeux de données ou le format de métadonnées du jeux de données

    • le format physique du jeux de données, permettant au réutilisateur potentiel d'appréhender sa capacité à le réutiliser

    • le lieu de diffusion : une URL ou bien le moyen d'accéder à ces données

    • les droits d'usage, surtout utiles lorsque les données sont en ligne

     

    Certains autres critères, s'ils ne sont pas indispensables, facilitent la compréhension et l'usage des jeux de données :

    • la couverture spatiale ou temporelle des données

    • la langue ; souvent la langue du jeu de données est implicite mais elle peut être utile pour des organisations internationales ou pour la constitution de catalogues internationaux

    • des mots-clés, permettant de mieux catégoriser les données

    • un échantillon, complétant utilement la description du jeu de données (rarement assez complète) en permettant par exemple de lever des ambiguïtés

     

    Il est possible d'ajouter encore des métadonnées le risque étant cependant d'y perdre beaucoup de temps et de submerger le réutilisateur de données inutiles. Un premier catalogue complet avec peu de métadonnées sera toujours plus utile qu'un catalogue très détaillé mais incomplet.

     

    Mais un catalogue peut aller au delà d'une collection de métadonnées et se faire interactif en permettant à ceux qui le consultent :

    • soit d'indiquer leur souhait de voir tel ou tel jeux de données disponible

    • soit, pour chaque jeu de données, de permettre une évaluation de leur intérêt ou bien encore de collecter le nombre de consultation de chaque descriptif pour juger de leur popularité

    • soit plus concrètement de passer commande d'un jeu de données

     

    Enfin, il est très utile de permettre au catalogue d'être lui-même téléchargeable sous forme de jeu de données, notamment lorsque les données sont nombreuses à l'exemple du catalogue des 438 jeux de données du Grand Londres. (Signalons que depuis hier, Montpellier rejoint Londres et New-York en proposant un tel jeu de données.) Il sera encore plus efficace si le format technique du catalogue est répandu : un simple fichier CSV peut suffire. Le fait d'être téléchargeable sous forme de jeu de données, rend possible d'autres usages : par exemple d'intégrer le catalogue à un moteur de recherche spécialisé comme open data search qui recense ainsi plus de 10 000 jeux de données... A condition toutefois que le format de métadonnées réponde à un standard connu.

     

    Standards de métadonnées

    A l'heure où nous écrivons ces lignes (avril 2011), il n'existe pas de norme spécifique consensuelle ou aboutie de catalogage des données publiques. Certaines normes, néanmoins, peuvent convenir voire sont candidates à cet usage. Le format OPML (Outline Processor Markup Language), couramment utilisé pour décrire des collections de flux RSS, peut servir à cataloguer des jeux de données publiées il est par exemple utilisé par le District de Columbia. Ce dernier n'est cependant pas particulièrement adapté au catalogage de jeux de données.

    Le format Dublin Core est ancien et éprouvé pour cataloguer des « ressources ». Sa généricité et sa richesse en font un bon candidat : il possède les notions de titre, description, sujet, créateur, éditeur, source, format, type, droits, etc., toutes très utiles à décrire chaque jeu de données d'un catalogue. Le Dublin Core est extrêmement répandu et, cerise sur le gâteau, il est un des formats pivot du web sémantique et du web des données liées (linked data web). C'est aussi le format de base du protocole d'agrégation de données OAI-PM, qui gagne en popularité dans le monde des bibliothèques.

    Le format Data Catalog Vocabulary, quant à lui encore en cours d'élaboration, est un travail très complet avec 9 classes et 32 propriétés associées. Il est actuellement en train d'émerger chez plusieurs acteurs de poids comme l'OKFN ou le portail national suédois -- il est également à l'étude chez Data-publica. Ce format est spécifiquement dédié à la description de catalogues de jeux de données. Il possède donc des métadonnées spécifiques aux catalogues de données comme la notion de jeux de données (Dataset), la granularité du jeux de donnée, la qualité des données, la taille, le mode de distribution de chaque jeu de données (téléchargement, flux ou API), etc. Ce format a le bon goût de réutiliser largement les métadonnées du Dublin core, permettant ainsi une transition facile avec ce dernier.

    Enfin, dans l'annexe 2 de son « Guide méthodologique d'aide à la mise en place d'un répertoire des informations publiques au sein d'un ministère », l'APIE propose ce qui pourrait être un véritable standard de métadonnées de catalogage nous l'appellerons les recommandations APIE. Tout d'abord le statut de ce « standard » n'est pas très clair puisqu'on ne sait pas vraiment s'il s'agit de recommandations ou d'une tentative de standardisation. On ne peut véritablement parler de standard en l'absence de version, de titre et d'ambition claire de ce travail. Pour autant, il décrit de manière très complète 26 métadonnées ainsi que leur statut (obligatoire, recommandé ou facultatif). Le statut de chaque métadonnées permet de faciliter la création d'un catalogue en priorisant celles-ci, en permettant par exemple d'envisager une livraison en plusieurs temps du catalogue, etc. Destiné initialement aux ministères, ce Guide peut aussi être utile pour des acteurs publics de toutes sortes. Les métadonnées proposées par l'APIE sont toutes issues du standard Dublin Core, ce qui facilitera son usage.

     

    Par parenthèse pour l'ingénieur, ces 4 formats de métadonnées ne préjugent pas forcément du format technique des données. En règle générale cependant, OPLM se trouve sous la forme de fichier XML à plat et les trois autres ont avantage à être sous la forme de fichiers RDF à plat ou directement accessible via l'API SPARQL, format de requettage standard du web sémantique. Pour des questions d'usage, il est cependant tout à fait possible de produire des fichiers CSV qui intègrent ces formats de métadonnées -- conservant ainsi une compatibilité sémantique avec d'autres catalogues et en laissant de côté l'interopérabilité technique permise par RDF.

     

    On le voit ce domaine commence à se structurer avec des initiatives riches portées par de gros acteurs. Il serait sans doute utile que les initiatives de Data Catalog Vovabulary et de l'APIE puisse dialoguer pour arriver, sinon à un standard commun, tout au moins à faciliter l'interopérabilité entre ces normes. Dans tous les cas de figure, on recommandera l'usage du Dublin Core qui améliore le potentiel d'interopérabilité du catalogue avec d'autres outils et services.

  • Les initiatives « open data » dans le monde de la culture semblent en effet encore peu fréquentes.

    La Suède montre l'exemple avec cette base de données nationale de 3,4 millions d'objets, issus de musées nationaux et régionaux :

    Swedish Open Cultural Heritage, disponible sur le portail Ckan. Second exemple important, le Museum d'Amsterdam a ouvert une base de 70 000 objets, également disponible sur le Ckan, sous la forme d'une base de données liées (Linked Open Data). De son côté, le Brooklyn Museum a choisi d'ouvrir ses données sur la base d'une API propriétaire et via le protocole standard OAI-PMH.

    On voit encore quelques initiatives plus modestes, mais non dénuées d'intérêt, comme celle de la commission du film de San Francisco qui a ouvert une base de données des lieux de la ville utilisés dans des scènes de cinéma -- un des jeux de données les plus populaires de la ville ! A Badalona (215 000 habitants, au nord de Barcelone), c'est l'agenda culturel de la ville -- collecté auprès des institutions et associations locales -- qui est ouvert. A propos de ce dernier exemple, je pense intuitivement qu'il doit exister d'autres initiatives qui intègrent les données de la programmation culturelle du territoire mais je n'en pas trouvé d'autres à ce jour -- n'hésitez pas à en signaler.

    En France il faut bien dire qu'on ne trouve pas grand chose. Data-publica relève 11 jeux de données relatifs à la culture : 9 sont issus du CNC et portent sur des statistiques du marché du cinéma et de la vidéo ; un jeu porte sur des statistiques INSEE des postes salariés dans la culture en 2008 et un dernier porte sur les statistiques des prêts dans les bibliothèques de la ville de Paris.

    A venir, on attend avec impatience l'initiative de Marseille-Provence 2013 qui a promis que la programmation de l'évènement serait toute entière en open data. Et on me souffle dans l'oreillette que plusieurs institutions culturelles rennaises d'importance s'apprêtent à ouvrir leurs données dans les prochains mois. (Rennes n'en finit pas d'innover sur ce sujet.)

    Cette situation de relative pauvreté est d'autant plus étonnante que le monde de la culture a une longue tradition d'indexation et de catalogage de ses données. Les musées, par exemple, ont constitué d'immenses catalogues de données dont la consultation est possible parfois en ligne, souvent sur place. En France les bases de données et les inventaires patrimoniaux pullulent : œuvres muséales, patrimoine bâti, etc., à toutes les échelles administratives (communes, départements, régions, État). Plus encore, les institutions culturelles ont produit depuis de longues années des outils et standards qui facilitent l'échange de données entre elles (formats de bibliothéconomie, outils de catalogage, de transmission et d'agrégation, etc.) – ces outils, pour beaucoup, permettent d'ailleurs nativement d'exposer des données structurées sur le web et de les ouvrir. Enfin, l'accès à la culture, la culture pour tous sont des problématiques anciennes et qui ont fait l'objet de nombreuses politiques et initiatives.

    Le monde de la culture est aussi un monde de lieux dont le financement est souvent justifié par la fréquentation : cela pourrait-il expliquer que les acteurs soient frileux à ouvrir leurs données ? L'équation théorique "données ouvertes = moins de visiteurs" nous est en effet souvent opposée par les professionnels de la culture. La fréquentation du Louvre a-t-elle baissée à la suite des milliards de publications de l'image de la Joconde et autres oeuvres ? Nous pensons que l'ouverture des données peut au contraire contribuer à valoriser les lieux et augmenter leur fréquentation.

    Il faut aussi dire que la législation n'encourage pas le changement puisque la loi de 1978 permet aux acteurs publics de la culture d'exclure de son champ les données culturelles -- bien qu'en réalité la situation ne parait pas si simple. Certains acteurs publics ou grands fonctionnaires ont tout de même pris conscience du sujet. Certains d'entre eux avancent une politique volontariste comme en témoigne les contenus (oui... oui... pas encore des données) du catalogue Gallica de la BNF qui, de leur propre aveu, s'inscrivent dans le cadre de la loi de 1978. Le rapport Ory-Lavollée, "Partager notre patrimoine culturel" remis en 2009 au ministère de la culture présente de son côté de très bonnes propositions pour une "charte de diffusion et de la réutilisation des données publiques culturelles numériques". Le ministère met sans doute un peu de temps pour digérer ces propositions mais la création d'une équipe dédiée au sujet est un encouragement. La doctrine du ministère se construit et se communique progressivement notamment sous l'égide du c/blog qui lui consacre une rubrique dédiée avec des articles encourageants sur la volonté de promotion des données publiques, sans toutefois dévoiler une politique encore bien claire : "Plusieurs hypothèses sont aujourd'hui mises à l’étude afin d’élaborer pour les données publiques culturelles des conditions de réutilisation qui concilient la spécificité liée à la nature même de ces données et conservent une approche en phase avec la typologie des usages et des pratiques de l’Internet". On s'interrogera notamment sur la vision notamment très économique que suggère le titre de ce dernier article "Valorisation des données publiques culturelles, moteur d’une économie numérique".

    De leur côté, certains collectifs, associations de la société civile commencent prendre le sujet en main. Ainsi de l'Open Knowledge Fondation qui a créé un groupe sur les données bibliographiques ouvertes et qui publie cet Open Bibliographic Data Flyer. Wikimedia France, de son côté, a organisé fin 2010 deux journées très complètes sur ses rapports avec le secteur culturel où le thème des données ouvertes a été largement abordé. Dans un long interview chez Owni, Bastien Guery revient en particulier sur trois projets emblématiques initiés avec le Museum de Toulouse, les Archives de Toulouse et la BNF -- portant plus sur des documents que sur des données, mais ce sont des initiatives encourageantes.

    Voici donc quelques liens au départ qui se sont transformés en un long article sans doute encore incomplet. Compléments bienvenus.

    (Merci Claire Gallon et David Larlet pour m'avoir signalé quelques exemples.)

     

  • L'ouverture des données publiques n'est pas une option pour les acteurs publics : elle est rendue obligatoire par des directives européennes et une législation française qui en a fait un droit opposable.

     

    Mais cette ouverture constitue également, et surtout, une chance. En s'y engageant, les acteurs publics ont l'occasion de gagner en efficacité, de contribuer au développement économique et à l'amélioration de nombreux services aux habitants comme aux entreprises, de faire émerger des connaissances inédites sur un territoire, et enfin de partager les éléments de la décision publique avec une société civile qui le demande.

     

    Il s'agit donc d'une véritable opportunité pour les territoires, qui plus est moins coûteuse et moins complexe qu'il n'y parait de prime abord. Chaque territoire la saisira à sa manière, en expérimentant et généralisant. Malgré tout, de nombreux éléments doivent être pris en compte : juridiques, techniques, économiques, organisationnels. Plusieurs territoires en Europe, et en France, montrent la voie : leur expérience a vocation à servir aux autres.

     

    Ce Guide pratique s’inscrit dans la démarche d’accompagnement des territoires initiée par la FING autour de la Réutilisation des données publiques. Ce guide se donne pour objectifs d’apporter des éclairages et d’inviter les acteurs publics à agir. Des moyens, des outils sont déjà à portée de main, des initiatives existantes, en France comme à l’étranger, constituent déjà des bonnes pratiques, ou à tout le moins des sources d’enseignement.

     

    Une version de travail à enrichir : au contact du terrain et de vos critiques et suggestions

    Ce document est une première version de travail publique. Il s’enrichira, toute l’année 2011, des retours d’expériences et d’initiatives des différents territoires engagés. Mais nous sommes aussi à votre écoute ici même. Alors n'hésitez pas à le commenter, à nous faire toute remarque utile, toute suggestion, question, ou critique de fond qui vous passerait par la tête !

    Le document à notamment vocation à s'enrichir à plusieurs niveaux. Au niveau qualitatif d'abord -- vous trouverez peut-être des formules maladroites ou erronnées. Il a aussi besoin d'un sérieux travail de mise en forme pour en faciliter plus encore la lecture. Ensuite, nous l'enrichiront progressivement d'autres exemples, de points d'éclairage sur tels ou tels aspects qui méritent qu'on s'y arrête. Enfin, nous trouverions utile de le faire évoluer dans son périmètre même : nous voudrions qu'il serve aussi à terme aux réutilisateurs, aux opérateurs, aux acteurs tiers, etc.

     

    A ce titre, nous serions heureux de pouvoir développer des partenariats pour l'enrichir, le signer et l'éditer à plusieurs mains. N'hésitez pas à nous contacter si vous souhaitez y participer. (Le document ne l'indique pas mais il est publié sous licence Creative Commons CC-BY.)

     

    Voir et télécharger le document.

     

    En attendant ce travail à plusieurs mains, nous devons remercier pour leur réalisations, leurs témoignages ou tout simplement leurs questionnements : la 27e Région, l'APIE, Aquitaine Europe Communication, Brest métropole océanne, la Caisse des dépôts et consignations, la Communauté urbaine de Bordeaux (CUB), le Conseil général de la Gironde, les Conseils Régionaux Aquitaine, Bretagne et PACA, Data Publica, Datalift, la Datar (également pour son soutien), la DGCIS, Future Everything, le Groupement français des industries de l'information (GFII), le Guardian, In-Cité, l'Institut Géographique National, l'Institut Ingémédia, LiberTIC, Marseille Provence 2013, Mégalis, les ministères de la Culture, de l'Intérieur, de la Justice, la Netscouade, l'Open Knowledge Fondation, la communauté OpenStreetMap, Orange Labs, Owni, Regards citoyens, Rennes Métropole, Silicon Sentier, Suez Environnement, Toulon Provence Méditerranée, Toulon Var Technologies, les Villes de Montpellier et de Paris.


  • Comment fabrique-t-on simplement des cartes thématiques à partir de données géolocalisées ? Jusqu'à présent il y avait deux solutions : manipuler les APIs de services comme Google Maps (simple vous avez dit ?) ou se tourner vers des services facilitateurs comme http://www.click2map.com/

    Ces services présentent pourtant plusieurs inconvénients, notamment celui d'exploiter des fonds de cartes fermés comme Google Maps, qui ne peuvent pas facilement être utilisés dans certaines circonstances : service public, usage étudiant ou personnel, usage pour des handicapés (Google maps cartographie les escaliers comme des rues piétonnes !), etc.

    Nouveau venu sur ce créneau, OpenHeatMap crée des cartographies thématiques en exploitant le fond de carte OpenStreetMap. Comme ces concurrents, il procède à partir d'un simple fichier Excel/CSV ou bien une feuille Google Spreadsheet. L'outil semble relativement avancé puisqu'il gère des dégradés de couleurs pour les fourchettes de valeurs (voir 2e video).

    Nous pensons que c'est un bon concurrent http://www.click2map.com/, plus ouvert, à ceci près qu'à l'inverse de ce dernier, il ne traduit pas automatiquement les adresses postales en points coordonnées GPS. Ça augmente un peu le ticket d'entrée pour l'utilisateur final qui a des bases avec des adresses, mais, cela dit, il existe déjà de nombreuses bases de données qui contiennent des adresses et des géolocalisations sous forme de coordonnées. (Dans les bases de données publiques notamment...)

     

    Pourquoi vous parle-je de ce service ?

    Et bien son usage du fond OpenStreetMap permet de pousser un peu plus loin la logique de capacitation d'utilisateurs non-spécialistes pour créer des usages innovants. Il devient possible non seulement de créer des cartographies thématiques mais encore de participer directement à la construction et à l'enrichissement du fond de carte. Prenons quelques exemples : il serait sans doute enrichissant de pouvoir observer sur une carte la densité de personnes handicapées sur un fond représentant les obstacles et les équipements urbains, comme le fait déjà OpenStreetMap ; il pourrait encore être intéressant de cartographier la mesure du sentiment religieux sur un fond de carte présentant notamment les édifices religieux, comme le permet déjà OpenStreetMap ; etc.

    Le potentiel de cet outil est d'autant plus intéressant dans le cadre des données publiques car il contribue à multiplier les interractions entre les acteurs publics et les différents acteurs, toujours plus nombreux, qui construisent la cartographie du territoire.

    Les usages de cette combinaison restent encore à imaginer mais nous ne doutons pas qu'ils deviennent rapidement florissant. Une idée pour réaliser ensemble un exemple utile et parlant ?

  • Pour la deuxième année, la Fing organise à Marseille du 5 au 7 juillet, Lift France, conférence internationale sur les transformations de la société par les technologies. Nous avons le plaisir de vous y inviter et de faire bénéficier d'une promotion aux inscrits de ce groupe, car la réutilisation des données publiques est un des grands thèmes de l'évènement. Au programme, on pourra notamment y voir en plénière 3 intervenants emblématiques : Michael Cross du Guardian, initiateur de freeourdata.org ; Jarmo Eskelinen, fondateur du Forum Virium Helsinki, association très active dans le domaine ; et Hugues Aubin, de la communauté urbaine de Rennes, qui nous livreront tous trois leurs retours d'expérience.

    Je signale qu'Hugues Aubin est membre de ce groupe. N'hésitez pas à l'interpeller ici-même si vous avez des questions avant son intervention.

    Le sujet est encore illustré à travers deux ateliers créatifs, orientés vers la production d'éléments de réflexion et de communication :

    Ces ateliers sont ouverts à l'inscription.

    Pour vous inscrire à Lift et bénéficier de la promotion (350€ au lieu de 600€), il faut employer le code "lift10fr-pdpu" (sans les guillemets).

    N'hésitez pas à me contacter si vous souhaitez plus amples informations et j'espère à très bientôt à Marseille !

  • Vous êtes nombreux à avoir découvert il y a quelques heures la licence IP (pour Information publique) qui fait déjà beaucoup parler d'elle. Mais qu'apporte-t-elle de vraiment nouveau puisqu'elle ne fait guère, finalement, que répeter ce qui est déjà dans la loi ? A quoi est-elle donc utile ? Je vous propose mes premières impressions à chaud. N'hésitez pas à donner votre avis !

    Vers une simplification opérationnelle de la réutilisation des données publiques

    La première chose qui frappe est une lecture enfin simplifiée de la loi pour qui s'intéresse à l'ouverture des données publiques. Finalement, le document est une manière plus lisible de redire la loi -- les textes de loi devrions-nous dire -- et c'est déjà en soit un premier intérêt non négligeable.

    Enfin, toujours globalement, cette licence crée une URL et un repère visuel et juridique qui va faciliter le "marquage" des données. Quoi de plus simple, sur le web, que d'utiliser un logo avec un lien vers la licence pour faire précisément référence au régime de réutilisation des données.

    La licence IP est donc un véritable progrès pour un usage très opérationnel du partage des données publiques.

    Vers une plus grande maîtrise pour les réutilisateurs et une véritable "prime à l'innovation"

    Dans son contenu particulier, c'est la section 7 qui a retenu toute notre attention. Si nous la comprenons bien, elle signifie concrètement que : si je réutilise des données publiques sous licence IP en les transformant alors je peux les licencier sous licence MabellelicenceTartempion du moment que je cite la source et la date de mise à jour des données.

    Si on la compare avec les licences CC (Creative Commons), la licence IP couvrirait 2 cas qui font références à 2 licences CC distinctes :

    • CC-BY-SA + date de mise à jour si les données sont rediffusées à l'identique. "La rediffusion intégrale, gratuite et sans valeur ajoutée des informations publiques réutilisées à des tiers n’est pas autorisée, sauf si elle est effectuée sous la présente licence ou expressément autorisée par le concédant."
    • CC-BY + date de mise à jour + possibilité de changement de licence si les informations "ont fait l’objet de nouveaux traitements et qu’elles sont comprises dans un produit ou service nouveau".

    La première conséquence de ceci est que cette licence concerne des données gratuitement réutilisables, ce qui pousse encore un peu plus loin la logique de la réutilisabilité, tout un chacun pouvant donc s'essayer à créer des services avec les seuls coûts de son "huile de coude".

    Enfin, l'avocat Guy Lambot a proposé une formule qui résume bien cette section 7 en parlant de ce qui lui semble bien être une véritable "prime à l'innovation". Sans innovation, la licence est virale (ou prophylactique diront certains). Dans le cadre de mashup et de valorisation des données, la licence autorise donc le réutilisateur à redéfinir une grande partie de son cadre juridique de réutilisation -- et d'envisager par exemple des licences commerciales, des licences virales et non commerciales comme la CC-BY-SA-NC, ou, à l'inverse, des licences très permissives comme la CC-BY.

    Vers une démarche ouverte, collaborative et itérative pour toujours plus d'efficacité d'usage

    "Last but not least", un élément important de cette licence est son versionnement qui suppose l'ouverture à la critique et l'évolution vers des améliorations. Contacté au téléphone, le ministère de la Justice nous confirme cette idée. La proximité avec les licences Creative Commons suggère aussi un mode de fabrication et d'évolution en phase avec la construction collective qui a fait le succès de l'Internet en général et du web en particulier.

     

    On le voit, la licence IP nous semble donc être une avancée réelle, pour les administrations, pour les réutilisateurs et finalement pour l'ensemble de la société en privilégiant l'innovation.

    Souhaitons-lui de rencontrer ses publics et de poursuivre sa maturation avec l'ensemble des acteurs concernés.

     

Conception & réalisation : Facyla ~ Items International

Plateforme construite avec le framework opensource Elgg 1.8