Дата-расследования в госсекторе: пошаговые кейсы

test

17 октября 2019

8 октября в библиотеке Шанинки прошла открытая лекция Ивана Бегтина. Основатель АНО “Инфокультура” и проекта “Госзатраты” представил слушателям три дата-журналистских расследовательских кейса. В этом тексте приведем наиболее яркие тезисы выступления. Бонусом - презентация и список книг по теме.

 

О латинице и прочих искажениях в текстах госзакупок

- В 2009 году я написал программу, которая прошерстила несколько сотен тысяч объявлений о госзакупках и нашла несколько тысяч записей, в которых присутствовала спамерская техника. Результат - два файла excel -  опубликовал в личном блоге. Итогами этих публикаций стали несколько сотен комментариев, упоминания в федеральных СМИ, “Коммерсант”, вышедший с этой темой на главной странице. В Федеральной антимонопольной службе неожиданно узнали, что у них под носом такое происходит, и занялись массовым штрафованием госорганов.

 - Чтобы продвигать своих поставщиков, госзаказчики используют спамерские трюки. Один из главных - это латиница. Кроме того, используют опечатки и ошибки. Например, в слове “молоко” заменяют кириллические буквы “о” на соответствующие латинские. Опечатки: “поставка мсяо” вместо “мяса”, слипание слов. Применяют замену букв на похожие цифры (“о” - 0,”б” - 6 ), используют тире в корне слова (как будто слово переносится) или разделяют слова пробелами. Еще один прием - отсутствие ключевых слов. Надо вам, например, поставить лабораторную мебель для школ - вы указываете “Поставка товара” или “Лот №15”. Все это затрудняет поиск среди уведомлений о проведении госзакупок. Все это реальные примеры.

- В 2012 году мы повторили такое же исследование. Было выявлено 13 тысяч закупок с искажениями. И сейчас такие примеры остаются. Если с 44-ФЗ более менее исправили, то когда появился 223-ФЗ, эти трюки с недопуском поставщиков стали повторяться. В третий раз делать такое исследование было бы неинтересно, но тем, кто хочет попробовать провести мониторинг по этой проблеме, поможет проект “Госзатраты” - большая база закупок и контрактов. 

 

 

О легальных утечках персональных данных

- Это самое долгое и самое большое по масштабам расследование.

- Хорошее расследование получается, когда ты уже знаешь, что ищешь.В течение многих лет мне попадались в разных государственных информсистемах персональные сведения. Например, паспортные данные в контрактах на портале закупок. И эти данные публикуются законно, в соответствии с 44-ФЗ.

- Сканы документов - это наиболее опасные, наиболее вероятные источники утечки персональных данных. Потому что те, кто их выкладывает, потом тоже ничего не могут найти. И в результате в этих документах оказывается выложено то, что ни в какой форме публиковаться не должно.

- Персональные данные зачастую находятся простыми запросами в поисковых системах. Но есть и специальные файлы, специальные форматы. Для рядового человека - это куча непонятных байтов. Для желающих разобраться, как это устроено - внутри оказываются персональные данные.

 

 

О принципах дата-журналиста

- У меня спрашивали: не боишься ли ты? Я должен сказать - и это касается всех дата-расследований - если вы что-то делаете и об этом не рассказываете, пытаетесь кого-то шантажировать, вам есть чего боятся. А если вы что-то опубликовали, обнародовали, то бояться уже нечего.

- Мой базовый тезис: не надо останавливаться на ком-то одном виновном. Явление должно быть массовыми. Если ты не можешь найти хотя бы 20-30 причастных к проблеме -  для дата-журналистики это неинтересно.

- Каждый шаг должен быть документирован: чтобы никто не мог уйти от ответственности, списать это на случайность.

- Я являюсь апологетом открытых данных. То есть, если что-то можно опубликовать в открытом доступе, это надо делать. Но всегда с оговоркой: за исключением случаев, касающихся приватности и данных конкретных физических лиц. Такие данные могут публиковаться только при наличии очень высокой общественной ценности.

 

Что почитать по теме? Список книг от Ивана Бегтина:

  • The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power, от Shoshana Zubof;
  • The Data Journalism Handbook: How Journalists Can Use Data to Improve the News, от Jonathan Grey;
  • Digital Investigative Journalism: Data, Visual Analytics and Innovative Methodologies in International Reporting, от Oliver Hahn;
  • Open Government Data: Second Edition (2014), от Joshua Tauberer.

Видеозапись лекции будет опубликована позже. Презентацию можно скачать по ссылке.

Проект Госзатраты размещает информацию, полученную исключительно из официальных источников.

Редакция Госзатрат не несет ответственности за публикацию неточных, неполных или неверных данных о юридических лицах, а также за раскрытие персональных данных физических лиц в случаях, если такие данные опубликованы на официальных источниках.

Запросы на исправление таких данных на сайте Госзатрат принимаются исключительно через форму «Напишите нам!» и рассматриваются не менее 5 рабочих дней.