CKAN réconcilie OpenData et SIG

CKAN est un « data portal », un portail à données OpenSource, un de ces trucs qui fleurissent un peu partout depuis que l’OpenData est à la mode. Il permet de référencer des jeux de données, et grâce à un moteur de recherche intégré de les retrouver. Pour qui manipule des données géographiques et œuvre depuis plusieurs années à l’élaboration de métadonnées standardisées et de services inter-opérables, c’est un peu frustrant de voir un tel engouement pour des données balancées en téléchargement HTTP sans métadonnées et parfois même sans que le système de projection soit indiqué, ou dans des systèmes obsolètes (Lambert I sur http://opendata.paris.fr). Certains commentaires soulignent d’ailleurs le paradoxe entre une démarche d’ouverture et l’utilisation de formats de fichiers « experts ». Mais reconnaissons que l’ISO-19139 est trop technique pour de l’OpenData, et même un peu pour tout le monde en général… Il semble donc difficile de concilier l’exigence technique induite par la donnée géographique et la facilité d’accès proposée par l’OpenData.

C’est là qu’intervient CKAN. CKAN est d’abord un portail OpenData dans lequel on injecte de la donnée (dans des thématiques, des groupes, avec des mots-clés…) Mais CKAN dispose aussi d’un module spatial qui permet de faire maintes choses pour valoriser des données spatiales.

Dans ce module, vous trouverez pêle-mêle : un client CSW, un widget cartographique permettant de faire des recherches sur une étendue géographique (Leaflet inside), d’afficher l’étendue géographique d’une ressource, ou encore d’afficher des ressources WMS (avec OpenLayers).

 

Capture d’écran 2013-04-25 à 17.07.11

Capture d’écran 2013-04-25 à 17.10.58

Dès lors, le charme opère. Vous voulez montrer au plus grand nombre vos métadonnées INSPIRE sans toutefois vouloir les envoyer s’enliser dans GeoSource ? CKAN est fait pour vous. Vous allez d’un côté alimenter rigoureusement votre catalogue préféré et valider chacune des fiches au standard INSPIRE, et vous allez ensuite faire moissonner ce catalogue par une instance de CKAN qui va en extraire l’essentiel (titre, description) et stocker le reste dans des champs additionnels que seuls les plus téméraires iront découvrir. Les tags sont également parfaitement extraits à partir des mots-clés de la fiche de métadonnée, ce qui permet l’utilisation rapide des fonctionnalités de recherche à facette (restriction de la liste de résultats par filtrage complémentaire sur un attribut, une catégorie, un format…)

Liste de datasets

CKAN dispose en outre d’une interface très propre, donnant la part belle à la recherche rapide, qu’on peut facilement personnaliser via CSS et/ou templates ou même une intégration à Drupal ou WordPress. Data.gov.uk l’utilise pour sa section Data. Il y a une réelle dimension « réseau social » dans la mesure où on peut suivre, au sens de s’abonner, les différents groupes ou organisations référencés. Dans la configuration par défaut, n’importe qui peut d’ailleurs créer son compte, ses groupes et ajouter ses données.

Bâti autour du framework Pylons (en python donc) et de l’excellent ORM GeoAlchemy pour les données spatiales, CKAN s’installe sans trop de peine. Disons qu’il faut veiller à utiliser la branche git 2.0 et la documentation qui va avec, car quelques divergences potentiellement douloureuses existent entre les versions 1.8, 2.0 et 2.1dev.
Outre l’excellent framework sus-mentionné, CKAN utilise aussi Solr, un serveur d’indexation Java basé sur Lucène, comme GeoSource. C’est le seul aspect un peu étrange de l’architecture, puisqu’il faut donc envoyer un Jetty ou un Tomcat faire tourner le bidule. Mais d’un point de vue fonctionnel, cela permet de disposer de la puissance et de la qualité de l’indexation Lucène… La prise en main de CKAN, tant d’un point de vue administrateur système que d’un point de vue administrateur de données est vraiment simple et assez intuitive.  Enfin, CKAN est rapide dans son exécution comme dans l’affichage des résultats de recherche. L’ensemble de l’interface n’est cependant pas encore traduit en français, mais pour de l’OpenData, on peut s’en accommoder !

Enfin, preuve ultime que CKAN est bien le chaînon manquant entre OpenData et INSPIRE, le FOSS4G2013 a reçu plusieurs propositions de conférences sur ce thème. On ne peut donc qu’espérer que le comité de programme en retienne quelques-unes afin de populariser un peu plus cette solution tout-terrain.

 

13 commentaires :

  1. Publié le 25 avril 2013, 17:29 par Vincent

    Est ce que quelqu’un a entendu parler d’initiatives pour utiliser le moteur FTS de PostgreSQL en lieu et place de Lucene dans CKAN ? Une idée de la difficulté d’implémentation ? Ce serait une simplification non négligeable de l’architecture !

    Vincent

    • Publié le 26 avril 2013, 13:19 par Guillaume

      Oui, mais il faut noter que Lucene permet également l’indexation spatiale, qui n’est pas forcément couverte par le FTS seul. Et au delà de l’étrangeté architecturale, Tomcat et Solr s’installent malgré tout très facilement.

  2. Publié le 26 avril 2013, 12:42 par Guy

    bonjour quelques exemples de français utilisant cette techno??

    • Publié le 26 avril 2013, 13:17 par Guillaume

      Bonjour,

      A ma connaissance non. La plupart des utilisateurs sont encore dans le monde anglo-saxon.

    • Publié le 26 avril 2013, 14:47 par Guillaume

      Une petite liste des installations de CKAN dans le monde : http://datacatalogs.org/group/ckan

      • Publié le 26 avril 2013, 17:13 par CDugue

        Nous avons accosté drupal7 à Ckan pour le projet http://www.datalocale.fr. Nous avons mis à disposition le module sur un dépôt GIT. Ckan semble s’imposer dans les démarches d’ouverture de données publiques. Reste à savoir si sa communauté suivra le rythme. C’est pas encore gagné.

        • Publié le 28 avril 2013, 15:36 par Guillaume

          Belle réalisation en effet ! Merci !

  3. Publié le 26 avril 2013, 17:32 par B. Chartier

    Bonjour,

    A noter que Open Data Catalogue propose également le support de CSW (de quelle manière… je ne sais pas car je n’ai ni regardé le code, ni essayer la chose).
    https://github.com/azavea/Open-Data-Catalog/

    En passant, l’Afigeo (via son groupe OGC – Open Data) souhaite produire quelques recommandations concernant la cohabitation des mondes INSPIRE et OpenData. J’ai remonté l’existence de ces deux outils (CKAN et Open Data Catalogue). A suivre donc…

    B. Chartier

    • Publié le 26 avril 2013, 20:57 par B. Chartier

      J’oubliais un détail : Open Data Catalogue c’est du Python aussi mais avec Django ;)

      B. Chartier

  4. Publié le 28 avril 2013, 15:32 par neogeo | Compléments CKAN – GeoSource

    […] Publié le 28 avril 2013 par Guillaume Mots-clefs : CKAN, GeoNetwork, GeoSource Article précédent : CKAN réconcilie OpenData et SIG […]

  5. Publié le 18 octobre 2013, 15:16 par Marc Leobet

    Présentation hier à Copenhague, par le Point de contact (INSPIRE) allemand de leurs travaux pour lier INSPIRE et administration électronique. C’est presque fait pour la partie métadonnées, en revanche ils « ne savent pas faire » pour la partie modélisation/données.
    Donc prudence quand même pour son emploi dans le cadre INSPIRE. Ou alors, votre fortune est faite.

    Cordialement

  6. Publié le 18 octobre 2013, 15:24 par Guillaume

    L’idée de l’emploi de CKAN n’est pas de se substituer aux outils dédiés à INSPIRE ni à leur flux, mais de les consommer (moissonnage CSW et utilisation des flux OGC trouvés dans les fiches) pour alimenter un catalogue pouvant intégrer aussi d’autres types de données (OpenData notamment), et doté d’une interface plus simple d’emploi pour le grand public. On perd au passage la possibilité de faire des recherches sur des attributs spécifiques.

Publier un nouveau commentaire