Как проводить дата-журналистские расследования (на примере проекта "Сибирские дороги")?

18 мая 2017

 
Сергей Устинов рассказывает о том, как проводятся расследования и делаются журналистские материалы на основе анализа данных на примере его работы над проектом "Сибирские дороги".
 
Настало время написать про наш большой последний проект. Я надеюсь, что журналисты и НКО смогут вынести из него основные моменты того, как проводятся расследования и делаются журналистские материалы на основе анализа данных.
 
Мы занимались изучением рынка ремонта дорог в шести сибирских городах - Барнауле, Иркутске, Новосибирске, Омске, Томске и Чите. Цель – постараться всесторонне осветить сферу качества дорог и их ремонта: что там не так и к чему это приводит. Суть проекта (с нашей стороны) была в том, чтобы максимально эффективно использовать открытые данные для заданной цели. На мой взгляд, получилось неплохо и по всем канонам работы с ОД.
 
transparency.org.ru/special/dorogisibiri/

Первым делом мы взялись за поиск данных о качестве дорог

Были идеи парсить РосЯму (мы им написали просьбу поделиться данными, но нам так никто и не ответил), проводить какой-нибудь опрос прямо в городах на тему качества различных улиц, смотреть результаты ДТП, а также просто искать информацию по различным официальным документам, типа программ развития и т.д. В итоге мы остановились на последних двух.
 
ДТП мы парсили через сервис stat.gibdd.ru. Сервис глючил, но позволил вытащить интересующую нас информацию – инфраструктурные факторы происшествий по нашим городам.
 
Проект “Качественные и безопасные дороги” дал нам интересные данные по качеству дорог. Это проект Минтранспорта РФ, которые подразумевает развитие дорог в агломерациях по всей России, куда вошли пять из шести наших городов (не было Читы). Следует отдать должное, они выложили кучу документов и экспертиз по проекту, где мы и нашли оценку нормативного состояния дорог с детализацией до каждой улицы. Радовались недолго, сразу же появился вопрос соответствия этой информации реальному состоянию дорог. У меня создалось впечатление, что оценка проводилась самими местными властями, следовательно она подгонялась под будущие планы и проекты. Во-первых, могли быть очень сильно занижены нормативы, чтобы показать рост в рамках проекта, во-вторых, они могли завышаться по тем улицам, где никто ничего не планировал делать. В итоге данные решено было просто схематично визуализировать, взять общие цифры, сослаться на Минстранпорста и отказаться от детального анализа этой информации в пользу обобщенной картины по городам.
 

Второй задачей стали контракты и конфликты интересов

С данными по контрактам у нас в стране все более-менее хорошо. Основной загвоздкой было отфильтровать их правильно, сначала мы отобрали ИНН организаций заказчиков в каждом городе, а потом выделили около 50 кодов ОКДП/ОКПД/ОКПД2, связанных с дорожным ремонтом. Тут как раз и появились проблемы, ибо часто ремонт дорог группировался с их содержанием. А в Омске, например, в 2015 году вообще почти не было контрактов на ремонт, но было много – на заказ щебня, асфальта и т.д., что значительно усложняло процесс и не позволяло нормально оценить объемы рынка и вклад различных компаний-участников.
Всё это мы нанесли на карту, это было самым сложным и затратным из всего проекта. Это возможно было сделать только с помощью ручного анализа текстов контрактов (потому что они все в разных форматах и структурах – в архивах, в PDF, в doc, в xls и т.д.), чтобы вытащить списки участков ремонта, которые могут повторяться в разных контрактах, могут быть целой улицей, а могут участком и т.д.
К поиску конфликтов интересов мы решили подойти как раз через автоматизацию. Написали несколько скриптов, которые анализируют наших участников аукционов и органы власти, чтобы искать между ними подозрительные взаимосвязи. Под скрипт попали – победы в аукционах, участие в аукционах, одинаковые – учредители, руководители, телефоны, адреса, названия и т.д. Это позволило построить красивые графы, которые отражали все эти связи.
 
 
К сожалению, мы использовали открытую базу ЕГРЮЛ, в которой не было исторических данных, поэтому получилось не так много интересного. Большая часть информации по анализу конкретных подрядчиков была сделана вручную. Поэтому крайне рекомендую для такого машинного анализа использовать платные базы (типа Контур.Фокус), где есть исторические данные по учредителям.

Заключением стала попытка создать инструмент для активистов и СМИ

Я уже кратко упоминал карту, её целью мы закладывали помочь местным ребятам быстро находить кто, когда, за сколько и как должен был ремонтировать определенные улицы. Такой контроль мог бы служить основой как для решения локальных проблем, так и для журналистских материалов. Кроме того, по каждому городу мы выложили наши исходные данные, если найдутся те, кто сможет их сам проанализировать.
Правила хорошего тона и западный опыт говорят о том, что расследования и такие сервисы гораздо лучше конвертируются в результаты, если пытаться вовлекать местное сообщество. По идее, журналисты могли бы делать собственные расследования на этих сервисах и данных, но увы (при всем уважении) такого в регионах пока почти никто не умеет (да и на федеральном уровне тоже). Не уверен, что это причина не делать их, но пока с этим тяжело.
 
Почитать, что получилось, можно тут - transparency.org.ru/special/dorogisibiri/
 
Автор: Сергей Устинов, ссылка на источник.

Проект Госзатраты размещает информацию, полученную исключительно из официальных источников.

Редакция Госзатрат не несет ответственности за публикацию неточных, неполных или неверных данных о юридических лицах, а также за раскрытие персональных данных физических лиц в случаях, если такие данные опубликованы на официальных источниках.

Запросы на исправление таких данных на сайте Госзатрат принимаются исключительно через форму «Напишите нам!» и рассматриваются не менее 5 рабочих дней.