Сервис Knoema: исследования со всеми необходимыми данными под рукой

Интервью. Владимир Бугай, технический директор крупнейшего мирового каталога открытых и публичных данных

The following two tabs change content below.
    Ирина Касаева

    Ирина Касаева

    17, сентября 2014

    Статистика может рассказать историю, если с ней уметь работать, но для этого, прежде всего, нужны сами сведения: факты, показатели, итоги и т.д. Владимир Бугай, технический директор Knoema рассказывает о том, как собираются, хранятся и используются большие базы данных.

    avatar

    - Что собой представляет сервис Knoema?

    Мы развиваем наш сервис в двух направлениях. Во-первых, как крупнейший репозиторий статистических данных в мире. Но у нас нет цели собрать все существующие данные — только наиболее востребованные. Сейчас в Knoema представлена информация из более, чем 8 тысяч наборов данных. Наша амбициозная цель — стать аналогом Google в области статистических данных.

    Во-вторых, на своей платформе для компаний и организаций мы делаем специализированные порталы данных, заточенные под их нужды. По сути, это мини-Knoema со своим уникальным контентом. Зачастую, в нем кроме стандартного набора данных, присутствуют данные компаний, что позволяет проводить анализ, соответствующий целям бизнеса. Кроме закрытых порталов, содержащих конфиденциальные данные и созданных для конкретного бизнеса, мы делаем много порталов с открытыми данными. Самый крупный из них — Open Data for Africa, созданный для Африканского банка развития, содержащий информацию о всех 54 стран африканского континента.

    - Как давно развивается проект? На кого он рассчитан?
    Проект развивается с 2011 года. Первая публичная версия вышла в конце 2011 года. Изначально в проекте делалась ставка на аналитику и визуализацию. Сейчас мы больше фокусируемся на сборе и хранении данных, а визуализация и аналитика идет как дополнительная услуга. На сайте в Галерее есть рубрика Визуализация дня, в рамках которой мы регулярно публикуем визуализации на различные темы.

    Сейчас в компании работает около 30 человек. Из них около 15 в России в Перми и 15 в Индии. В России — это разработчики и команда, занимающаяся контентом и специализированными порталами. Мы изначально стремились быть глобальной компанией. И поскольку Америка для нас — крупнейший рынок, компания американская. Также у нас есть команда в Индии, где находится часть разработчиков и QA. В Индии также находится выделенный data team — 7-8 человек, которые занимаются только и исключительно сбором данных.

    - Каким образом данные собираются?
    При разумной организации работ вполне реально осуществлять весь объем по сбору данных командой из 7-8 человек, что есть у нас в штате. Более того, я считаю ошибочным попытки все максимально автоматизировать и написать различного рода кроулеры, которые автоматически собирают данные. Наша практика показывает, что такой подход неоправдан. Это неэффективно, если соотнести трудозатраты по созданию и поддержанию таких кроулеров и обычную полуручную обработку. Естественно, мы прибегаем к автоматизации там, где это оправданно и целесообразно. Например, данные Евростата мы получаем через их API и здесь это окупается полностью. Но есть источники, где автоматизация слишком затратна.

    - Каким образом выбираются источники? Предоставляет ли Knoema доступ к платным данным или это только данные, которые публикуются в открытых источниках?
    Все самые известные и популярные источники данных присутствуют в наших базах. Также по запросам наших клиентов мы целенаправленно пополняем наш репозиторий. 2 месяца назад мы завершили работы над нашим Мировым Атласом Данных. Теперь по каждой стране мира у нас есть официальная и доступная статистика по всем основным показателям.

    22

    Платных данных в публичной части Knoema нет. Но мы сотрудничаем с компаниями, которые сами являются дата-паблишерами и они используют нашу платформу, чтобы хостить свои данные. Иными словами, пользуются нашим интерфейсом для платного доступа к своим данным. Также для некоторых наших клиентов мы покупаем и загружаем данные, если им это необходимо.

    — Как проходят проверку и как объединяются данные из разных источников?
    Одна из основных ценностей нашего сервиса для пользователей — то, что мы в одном месте собрали данные из разных источников, хотя при этом, возможно, они дублируются. Сервис экономит время, которое тратится на поиск и сведение данных в одну таблицу. У нас это можно сделать быстро и эффективно.

    Второй момент — и это наша принципиальная позиция — мы не занимаемся какой-либо интерпретацией данных. У нашей data team есть задача данные собирать и публиковать точно в том же виде, в котором они находятся и представлены в источниках. Если даже мы видим там ошибки, мы будем их публиковать с ошибками.

    Для нас важно, чтобы нас не воспринимали как некоего аналитика, который представляет данные в своем свете. Это вопрос доверия к нам. Пользователь всегда должен быть уверен в том, что те данные, которые он найдет у нас, будут точно такими же, как и в источнике.

    Наша задача — дать пользователю полную картину. Но при этом мы предоставляем функционал для сопоставления данных из разных источников по одному и тому же, например, региональному разрезу. Если страны в разных источниках могут называться по-разному, наша система соотнесет их корректно. Тем самым мы упрощаем процесс сопоставления данных там, где это возможно.

    - Как данные актуализируются?
    Подавляющее количество данных в нашей системе — низкочастотные, т.е. годовые, квартальные, месячные. Проблема обновления не является такой острой, как например, для данных дневных, биржевых. Мы отслеживаем, когда источники данных публикуют обновления и загружаем их в наш репозиторий максимально оперативно. У нас есть ресурс Data Bulletin – лента данных, которые публикуется в Knoema. И если кому-то необходимо быть в курсе того, какие наборы данных публикуются в мире, то можно подписаться на эту ленту. Все основные релизы можно отслеживать здесь.

    - Каков объем репозитория Knoema в настоящий момент? И каких показателей планируете достичь?
    Единственная метрика, которая действительно и объективно демонстрирует размер репозитория — количество доступных временных рядов. Их уже сейчас более 200 млн и это количество растет. У нас нет задачи бесконечно наращивать репозиторий. В качестве внутреннего критерия мы выбрали следующий – процент пользователей находящих у нас данные, которые они ищут. Мы в первую очередь следим за этой метрикой. Мы знаем, что люди у нас ищут, какие поисковые запросы они делают и какие данные им нужны. И мы фокусируемся на том, чтобы этот процент держать как можно более близким к 100%. Сейчас это 80% удовлетворенности, и мы стремимся превратить их в 90% и выше.

    - Для каких проектов используются данные Knoema?
    Для бизнеса наша ключевая задача — создание информационных порталов, где была бы собрана релевантная информация по соответствующим рынкам плюс корпоративные данные. Наш сервис востребован специалистами, которые занимаются анализом рынков в целом. Заметный сегмент приходится на образовательный сектор, где пользуется большой популярностью Мировой Атлас Данных. Также сервис популярен среди журналистов.

    - В каких странах сервис Knoema наиболее востребован?
    США, Великобритания, Индия, Россия, Германия, Япония, Китай и другие страны. США доминируют поскольку это самый крупный и платежеспособный рынок. Однако наш Мировой Атлас переведен на 10 языков и доступен большинству населения Земли. Например, на нашем сайте японскую статистику на японском и английском языках найти гораздо проще, чем на официальных ресурсах японских статистических организаций.

    - Каким Вы видите будущее своего сервиса?
    Как правило мы говорим о том, что сделали, а не о том, что будем делать. Скажу, что мы быстро развиваемся — каждую неделю появляется что-то новое. Перспективная задача для нас — краудсорсинговый сбор данных, как еще один способ получения данных, который мы хотим развивать.

    Также мы работаем над тем, чтобы совершенствовать поиск на сайте, сделать его интеллектуальным. Таким, который не просто данные выдает, а отвечает на вопросы.
    Кроме того, мы развиваем сопутствующие сервисы. Например, еще один наш проект World Data Finder – плагин для Chrome. После того, как пользователь установил себе такой плагин, на какую страницу он бы не зашел, нажав на единственную кнопку, он активизирует приложение, которое осуществляет поиск по странице и выдает релевантные данные из Knoema.

    Похожие новости: