Titre : Architecture de Data Publica Auteur : Christian Frisch (Data Publica) Abstract : Data Publica répertorie et indexe les données françaises, qu'elles soient publiques ou privées, gratuites ou payantes, locales/nationales/internationales. Les jeux de données (en général des fichiers xls) sont repertoriés initialement manuellement, maintenant automatiquement au moyen de technologies de crawl/scraping. Ils sont ensuite indexés (metadonnées et full texte) dans un moteur de recherche (Solr) et des prévisualisation html sont générées (openoffice-server). Nous avons notamment importé en "bulk mode" les 5000 jeux de données d'Eurostats et les 2700 de data.gouv.fr. Plus récement, nous avons mis en place une base de données pour stocker une version structurée de ces données. Cette base (MongoDB) utilise un modèle conceptuel générique adapté à la donnée publique (Google's DSPL). Cette modelisation permet d'acceder aux données sous forme d'une API générique (type REST/Json) et d'un visualisateur générique (GWT/highcharts/maps). Pour alimenter cette base, nous créons des jeux de données au format DSPL: - manuellement - a partir d'un outil de reconnaissance de tableau développé par INRIA/Zenith - en transformant des jeux de données déjà formatté (type SDMX) Enjeux actuels: * Chargement en masse de jeux de données à partir des jeux Eurostat, Banque Mondiale, OCDE... et le enjeux de passage à l'echelle * "sémantiser les jeux de données" c'est à dire lier nos concept aux entités correspondantes du monde sémantique (DBPedia, FreeBase, GeoNames...). Construction d'un moteur de recherche qui prend en compte cette modélisation.