Organisé dans le cadre de la conférence IC 2016 le mardi 07 juin 2016 matin à Montpellier
- par Fatiha Saïs et Danai Symeonidou

Bild

Aujourd’hui, le Web des documents est en cours d’évolution vers un Web des données où des données structurées (e.g., RDF, RDFa, MicroFormat) sont accessibles via le Web. Une initiative telle que le “Linked Open Data cloud (LOD)”, consistant à publier des données RDF et à les lier les unes aux autres, est aujourd’hui un phénomène mondial qui fait émerger de nombreuses applications innovantes.

Depuis 2007, le nombre de sources de données structurées rendues disponibles sur le Web est en croissance fulgurante aboutissant à un espace global de données de l’ordre de milliards d’assertions (81 milliards en janvier 2016). Dans cet espace de données, des liens sémantiques peuvent être établis entre les documents mais aussi entre les données. Ces liens permettent aux robots d’exploration, aux navigateurs ou aux applications de naviguer parmi les sources de données et de combiner les informations provenant de sources différentes. Pourtant, dans un environnement ouvert comme le Web, des URIs différentes sont créées régulièrement pour identifier le même objet. Les liens entre URIs peuvent être configurés manuellement mais, les données étant nombreuses, certaines approches s’intéressent à la génération automatique de liens entre sources de données RDF.

De plus, même si des vocabulaires reconnus existent, permettant de représenter les données sur le Web (FOAF, DublinCore, ...), ces vocabulaires évoluent et sont souvent insuffisants pour certains domaines d’application qui développent leur propre schéma (ou ontologie). Se pose alors le problème de l’intégration de données liées malgré l’hétérogénéité des vocabulaires utilisés. Ces données liées (ou les liens) peuvent être imprécises, périmées, fausses ou soumises à des restrictions d’usage et certaines approches s’intéressent à la provenance des données ou à leur qualité.

Enfin, différentes applications peuvent être définies pour exploiter les sources ouvertes, telles que l’application BBC music guide qui utilise des données liées pour obtenir une réelle valeur ajoutée dans le domaine de la musique. La méthodologie de déploiement a consisté à récolter les données d’intérêt à partir du Web pour créer un référentiel de données liées privé pour chaque application spécifique. Dons cet atelier nous aborderons les problématiques liées à la publication de données, au liage de données et de vocabulaires mais aussi à leur capitalisation via diverses applications consommatrices de ces données et vocabulaires liés.

Pour cette édition, l’atelier SoWeDo souhaite s’intéresser également au traitement des grandes masses de données (« Big data »). L’explosion récente des données disponibles sur le Web a fait émerger de nouvelles problématiques visant à adapter et optimiser toute la chaîne de traitement de l’information face aux nouveaux volumes de données à traiter.

Thèmes développés (liste non limitative)