Connecteur recherche

Connecteur recherche

Favoriser les échanges entre chercheurs et praticiens.


En ce moment

Si vous avez des envies / des besoins, l'appel à connexion est ouvert.

Groupes connexes

Inria & Fing
- Ensci
- Atelier commun
- Culture, médias et numérique
- e inclusion et pratique d'empowerment
- Entreprise numérique
- Mobilité espace

Synthèse collaborative de la session "Le Web champs de données"

 

>> Télécharger la synthèse (.pdf) de l'atelier "Le web champ de données"

>> Voir la synthèse des autres ateliers du "Connecteur Recherche"

 

NB : cette page est en "mode wiki", c'est à dire qu'il est possible à toute personne disposant d'un compte sur ce site ("Se créer un compte" en haut à droite) sur ce site d'y apporter des modification, des commentaires ou d'y poster vos propres notes !


En introduction de la session "Le web, champs de données"

 

Le web comme "terrain de jeu" a fait largement ses preuves en tant que champ d'innovation, sans en avoir épuisé les promesses. 

Fouille de données, « big data » et « small data », data-visualisation, Open Data, Web sémantique, ontologies et ontologie du web, identités numériques... Le web est aussi un vivier de Recherche à la croisée des STIC et de multiples disciplines de Sciences Humaines - générant même de nouvelles disciplines ("Websciences"). 

Quels défis la Recherche aura t-elle à relever autour de ces champs ces prochaines années ? Quelles disciplines sous représentées ou sous-exploitées pourraient vouloir s'inviter ?

 

Intervenants 

 

  • Thomas Saint-Aubin
  • Alexandre Monnin (Paris 1/ IRI Centre Pompidou)
  • Dor Garbash (CRI)
  • Stephane Raux (Linkfluence)

 

 

 

Pistes pour la Recherche

 

La sémantisation 

Comment classifier le web?  Articulation entre coproduction/contribution et sémantisation ? 

Comment « sémantiser » des données par le plus grand nombre ? Pourquoi les wikis sémantiques n’ont jamais marchés ?

Le web sémantique c’est une seule API, c’est une simplification énorme par rapport aux autres comme le web 2.0

Comment passer du web 1.0 au web 3.0 = web sémantique

Articuler les contributions et la sémantisation, web social et web sémantique

Connecter les to-do list, les désics, les manques de savoir, etc. 

Cartographier les réutilisations d’Open Data

Savoir repérer les informations qui sont les plus partagées au sein de la communauté

Réutilisation des données,  suivi et contrôles 

Etablir des photographies entre recherches, questionnements, personnes, nuances. Quel est l’état de l’art ?

Comment évaluer correctement la réutilisation des données ?  Cartographie des usages ?

On a besoin de savoir quelles données faut il libérer en priorité

Les données et connaissances à l’époque créatrice de valeur et encore créatrice de valeur, sont en réalité accessibles (ex : les cours de Havard en ligne)

La représentation de la connaissance est un sujet mis de côté

L’open-data culturel ? Pourquoi ? (Industrie Française et bon terreau)

Comment représenter ce qui n’est pas connu et pas ce qui l’est déjà ?

Comment qualifier la donnée des administrations. Comment l’améliorer en interne ?

 

L’échantillonnage

La question de la délimitation d’un terrain d’étude. 

Quand on veut travailler sur le web il faut savoir échantillonner. Donc avoir quelque chose de comparable. Etre capable de produire des échantillons sur différents terrains pour pouvoir comparer

Comment échantillonner ? (comparer, mesurer, etc.)

Comment industrialiser le traitement des données du web ? Les développeurs, on a des techniques qui se sont démocratisées. Il s’agit de sauvegarder des données, de les rendre disponibles. Et il faut être capable de pouvoir industrialiser nos processus d’échantillonnage

 

Besoins et questionnements

Encourager les institutionnels à contribuer sur Wikipédia simplifier la contribution et l’affichage des infos

Cartographie de la réutilisation : quels sont les manques de l’administration, comment repenser l’action publique en matière de données ?

Trouver des patterns dans les jeux de données eux-mêmes (design patterns)

Besoin de bénéfice immédiat, de rétribution, lorsque les internautes contribuent

La fiabilité et la durabilité des données, ce sont des questions qui se posent. Que faire des données obsolètes ? à partir de quand ou de quoi le deviennent-elles ?

Doit-on « libérer » le processus de production de la donnée ?

Qu’est ce qui crée la notoriété d’une instance comme Wikipédia ? Qu’est ce qui fait que l’on s’accorde tous à en faire une référence ?

Qui va être capable d’agréger l’ensemble des données existantes ?

Qui va faire ce travail d’agrégation des communautés d’intérêts ?

Quels sont les API, les usages effectués avec les données disponibles ?

 

 

Autres pistes

De multiples facteurs sont à prendre en considération dans l’étude des données disponibles sur le web : provenance, suivi, confiance, foi en des données, fiabilité, durabilité, etc. 

Learning Analytics (quantified-self)

 

Des acteurs

Linkfluence : Il s’agit d’une communauté d’intérêt qui est devenu une entreprise. Leur problématique : Comment les gens se regroupent, comment les groupes se constituent ?

Wikipedia, DBpedia et tous les autres projets qui visent une une disposition totale à l’ensemble des internautes à travers un mode collaboratif

Contraintes

Problème d’appropriation de la participation, les gens ont peur de contribuer

Pour faire des articles il faut connaître un rayon de technicité élevé

Wikipedia a tué les wikis

Aujourd’hui ce qui est compliqué, c’est que dans l’etalab, on ne sait pas encore interroger les API et les flux de données, c’est problématique

Aujourd’hui on a beaucoup de mal à cartographier nos données

Il est difficile de cibler les données qui vont nous permettre d’entrer dans une nouvelle époque ne sont pas libérées

La provenance des informations n’est pas garantie par l’institution dans les wikis Il y a aussi une question de la confiance dans les technologies

Wiki sémantique ne marche pas encore

Problème de la gouvernance sur la qualité des données, sur la centralisation des données

Wikipédia pas assez étudié par les sociologues, historiens, théories des organisations, théories de la gouvernance, etc.

 

 

Terrains de recherche et d'expérimentation futurs

 

SemanticPedia : Sémantisation du Wikitionnaire, de wiki Commons, etc.

Enjeu de la langue française (travail avec la délégation à la langue française et aux langues de France – DGLFLF – du Ministère de la Culture)

Dataconnexions, a vocation à rassembler au sein d’une même communauté, d’une part les porteurs de projet, et d’autre part les acteurs de l’innovation Dataconnexions parmi lesquels se trouvent des grandes entreprises, des pôles de compétitivité, des établissements d’enseignement supérieur, des centres de recherche, des organismes de soutien à l'innovation et des institutions financières ; tous intéressés au développement des projets candidats au concours

DBpedia, est un projet communautaire d'exploration et d’extraction automatiques de données à partir de Wikipédia pour en proposer une version structurée, accessible aux internautes ou aux "robots du web", via internet, à partir de requêtes éventuellement complexes, et intégrée dans le « web sémantique »

Wikidata, vise à structurer les informations disponibles, les clarifier et les reproposer à l’ensemble des internautes. Il a pour objectif de créer une base libre de connaissances sur le monde qui puisse être lue et éditée aussi bien par des humains que par des machines

Cours universitaires en ligne / Canal U

S’intéresser à la confiance ou croyance dans les données

Linked Open Data crowdsourcée

Investir le champ culturel (Open Data culturel)

Collectivités locales => Paris Sémantique (sur la bonne solution)

Le web ! l’API, c’est le web !

la donnée : usant les services (Rennes)

Open data est un passage pour arriver au « linkdata »

 

 

Ressources

 

Répondre à l’intérêt du Ministère de la Culture pour ces questions (projets HDA-Bo, lab et SémanticPedia sont financés sur le MCC) 

Licences « design your privacy » (http://www.patrimoineimmateriel.net)

Se servir d’outils comme Google knowledge graph

Expertise dans le domaine du web de données en France en liens avec le W3C qui promeut la compatibilité de toutes les technologies du web

Travail sur les métadonnées juridiques

Web 1.0  ressource qui reste la plus universellement disponible. On peut toujours analyser les pages HTML écrites pour les humains

Sans la question et la motivation tout cet accès n’est pas utile

La création de valeur est dans le croisement des données

 

____________

 

 

>> Télécharger la synthèse (.pdf) de l'atelier "Le web champ de données"

>> Voir la synthèse des autres ateliers du "Connecteur Recherche"

 

 


Vous devez vous identifier pour ajouter un commentaire.
Veuillez vous identifier, ou créer un compte.

Conception & réalisation : Facyla ~ Items International

Plateforme construite avec le framework opensource Elgg 1.8