Андрій Газін (Texty.org.ua): Велика кількість даних доступна для всіх, але медіа на них іще не відреагували
Андрій Газін (Texty.org.ua): Велика кількість даних доступна для всіх, але медіа на них іще не відреагували
3 серпня в Українському кризовому медіацентрі відбулась публічна дискусія «Як підвищити якість відкритих даних в Україні». Один із доповідачів – журналіст Texty.org.ua Андрій Газін поділився власною оцінкою даних, які вже доступні на Єдиному державному веб-порталі відкритих даних data.gov.ua.
Які є проблеми з якістю даних
Нагадаємо, портал було створено на вимогу Закону України «Про доступ до публічної інформації» та постанови Кабінету Міністрів України від 21 жовтня 2015 року № 835 «Про затвердження Положення про набори даних, які підлягають оприлюдненню у формі відкритих даних». Нині на ньому вже зберігається понад 5 тис. наборів даних від більш ніж 700 розпорядників інформації.
На думку пана Газіна, попри значну кількість даних, із ними вкрай важливо працювати, адже їхня якість переважно незадовільна й не проходить найпершу вимогу – машинно читаний формат. На порталі велика кількість документів у форматі DOC, PDF, JPG, PNG, що не дає змоги оперативно їх опрацювати. «Через це більше як половина опублікованих документів на data.gov.ua не є якісними», - каже журналіст. За його словами, розпорядники інформації не розрізняють текстові й структуровані дані та публікують структуровані дані у форматі для текстових.
Іще однією проблемою Андрій Газін назвав відсутність опису структури файлу, хоча вона має бути згідно з постановою Кабінету Міністрів України № 835. А також: нетипове кодування, різне значення й порядок змінних навіть у документах однієї установи, відмінне форматування і, банально, відсутність уніфікованого формату дати, адреси, форм господарювання, використання латинських символів замість українських, дефісу замість тире тощо. Уся ця неузгодженість відбувається через те, що працівники вводять дані вручну, а не користуючись електронним шаблоном. І, вочевидь, вони не отримують належних інструкцій від керівництва про те, як це потрібно робити.
Андрій Газін, фото - Український кризовий медіацентр
Журналіст Texty.org.ua запропонував кілька ідей, як поліпшити якість даних. Зокрема:
- заборонити приймати файли в певних електронних форматах
- ввести валідатор, який би перевіряв файл, зокрема його кодування та наявність порожніх комірок
- упровадити стандарт оформлення документів хоча б у межах однієї держустанови
- знайти спосіб автоматизувати процес введення даних, скажімо, дати змогу працівникові замість написання однієї з десяти варіацій певного значення вибирати необхідну з випадного списку
Заступник голови Державного агентства з питань електронного урядування України Олексій Вискуб зазначив, що ці проблеми буде ліквідовано в другій версії порталу, яка запрацює восени. Обидва спікери наголосили, що й досі чимало установ і не розуміють необхідності публікації їхніх даних, і намагаються її уникнути.
Пан Вискуб повідомив утішні новини: у міжнародному рейтингу ООН щодо розвитку електронного врядування Україна за останні два роки піднялася з 87-ї позиції на 62-гу, а до цього падала. За критеріями міжнародного рейтингу OpenData Barometer, цього року Україна досягла найбільшого прогресу у сфері бюджету й державних закупівель, найменшого – у сфері освіти та охорони здоров’я.
Після дискусії MediaSapiens поспілкувався з Андрієм Газіним про швидкість створення виданням Texty.org.ua їхніх ґрунтовних матеріалів, використання відкритих даних іншими ЗМІ, необхідний інструментарій та мотивувальні західні приклади.
Андрій розповів, що нині редакція Texty.org.ua налічує шість журналістів, з яких четверо – аналітики. Раніше Андрій працював у виданнях «Корреспондент» і «Новое время».Однак, за його словами, виробничий цикл тижневика не дозволяв опрацьовувати великі масиви даних: на це зазвичай просто не було часу.
Про найвідоміші проекти «Текстів» та найкращі іноземні зразки
– Андрію, відомий факт, що підготовка матеріалів у форматі журналістики даних дуже витратна за часом. Скільки в середньому часу в авторів Texty.org.ua займає підготовка матеріалу? Який матеріал був найкоротшим, який – найдовшим?
– Загалом, звісно, це проекти дуже часозатратні. Мінімальний термін – тиждень, максимальний три-чотири місяці, – стільки ми витратили на наш проект щодо залізниці. Він був із кількох частин, там було багато нюансів і з обробкою даних, і з їх розумінням, тривале тестування самих візуалізацій. Але є швидкий приклад – коли ми робили наступний матеріал, що ґрунтувався на цих же даних, – розслідування щодо потягів, які звозили в Київ людей на підтримку Януковича під час Майдану. Його ми зробили десь за півтора тижня.
Джерело: Texty.org.ua
Проекти на зразок «Вкраденого Дніпра» займають по три місяці. У цьому конкретному було не тільки багато роботи з даними, а й в полі, чимало нюансів за законодавством…Швидких проектів дуже мало, якщо ми ведемо мову не про окремі статичні візуалізації Texty.org.ua, а про великі інтерактивні матеріали.
– Але основний час іде на підготовку даних, тобто приведення їх до машиночитаного вигляду, про що ви вели мову на дискусії?
– Так, це десь 70% часу, який загалом витрачають на проект. Усе інше відбувається доволі швидко.
– На вашу думку, чи є вже в українських журналістів розуміння того, що таке дані та як із ними можна працювати? У кого саме? Тільки в розслідувачів чи не лише?
– Розслідувачі найпросунутіші у використанні даних. Адже це активно викладають на тренінгах для них: використання різних реєстрів, візуалізація даних. Решта журналістів, мені здається, не так у курсі справ.
Я спостерігаю, що робиться у сфері інфографіки в Україні й нечасто бачу якусь, яка б ґрунтувалася на відкритих даних. Доволі часто це візуалізація соціологічних опитувань, статистики з Держкомстату, що, зрозуміло, узагалі є іншою темою. Це також прості економічні показники, як-от зміна ВВП, середніх зарплат тощо. І це поки що все.
– Проте, може, помічали якісь хороші матеріали – хай небагато? У столичних чи, може, раптом регіональних ЗМІ?
– Не думаю… Я більше активності бачу не від журналістів загалом, а від активістів, громадських організацій, аналітичних центрів. Ті ж «Опора», «Чесно», окремі активісти з регіонів, які досліджують, на що йдуть державні кошти в їхньому місті чи області. Вони частіше звертаються до відкритих даних.
ЗМІ ще треба пояснювати, як цим користуватися та які історії із цих масивів інформації можна видобути. Звісно, це все треба популяризувати, показувати приклади того, як це робити швидко й ефективно, як дані можуть підсилити певну тему.
З проекту «Вкрадене Дніпро»
– А на матеріали в яких західних виданнях ваша редакція орієнтується?
– Класичний набір, який напевно треба читати, – це The New York Times та Washington Post Це передовики. І технологічно, і за рівнем аналізу. The Guardian – британський та американський,останній навіть часом цікавіший. І ProPublica та FiveThirtyEight. Німецький – Die Zeit та Berliner Morgenpost. Проекти цих видань ми завжди обговорюємо в редакції.
Які важливі дані досі не відкрито
– На вашу думку, які дані в Україні досі не є відкритими, проте вкрай необхідними й суспільно важливими?
– Дуже бракує структурованих виборчих даних. Немає навіть притомного реєстру виборців, меж виборчих дільниць: їх задають просто переліком вулиць. На це є великий запит у всіх.
Не вистачає й географічних даних. У нас тепер навіть реєстр адміністративного устрою України існує без прив’язки до географії. Пласт геоданих закрито, постановою № 835 не врегульовано: там поняття геоданих узагалі відсутнє як таке. Відповідно немає даних про межі заповідників. Де вони проходять, у нас ніхто не знає, – ця інформація є тільки в міжнародних організацій у реєстрах. Це дивна ситуація, погодьтеся.
Ще це, скажімо, дані про місця ДТП, – їх публікують у нецікавому форматі, занадто узагальнено. Це великий пласт даних.
Окрім того, погодні дані, які в усьому світі вважають одними з найпріоритетніших, у нас є закритими за сімома дверима, і Гідрометцентр бере за них гроші. Нещодавно Bird in Flight робили візуалізацію температури в Києві за 100 років, тож мусили їх купити. Транспортні дані теж закрито. Було б круто мати докладну статистику щодо пасажиропотоків і вантажних – залізницею та автотранспортом. На це теж є запит, але дані не оприлюднено. Окрема тема – екологічні дані. Є моніторингові станції температури, якості повітря, але цю інформацію важко дістати навіть за запитом.
Ну і, як уже прозвучало на дискусії, є величезна кількість даних, які публікуються далеко не в тому вигляді, як журналістам хотілось би.
З проекту «Нафтогазові королі»
Про слабкий розвиток журналістики даних в Україні
– На вашу думку, в Україні нині журналістика даних – це насамперед новий цікавий напрямок роботи з перспективою вирости в медіа тренд, а чи вимога часу, здатна вплинути на реформи в державі?
– Я б не став протиставляти ці твердження. Поки журналістика даних ще не стала трендом. Але вже багато видань робить інфографіку, візуалізацію даних, хоча за ними немає історії. Певною мірою це є вимогою часу, оскільки кажуть, що дані – це нова нафта, це найцінніше. І оскільки все датафікується, то й журналістика мала б датафікуватися…
– Ведучи мову про вимогу часу, я мала на увазі те, що в Україні ці дані довгі роки були закритими, а тепер відкрилися.
– Щодо цього згоден. Коли минулого року опублікували постанову, згідно з якою всі ці реєстри мали стати відкритими, ми в редакції казали, що наступний рік-два мають будуть цікавими. Ми сподівалися на появу чималої кількості історій і більшу конкуренцію в полі. Нам би її хотілося. Бо якщо раніше питання вирішувалося тим, хто краще напише запит на отримання даних або зможе дістати документи через домовленості й ексклюзив був просто в наявності документів, то нині велика кількість даних доступна для всіх, і тут питання лише в тому, хто їх цікавіше проаналізує й подасть.
– І хто взагалі візьметься аналізувати.
– Так. Умови трошки змінилися на ринку. Але медіа на них ще не відреагували. ЗМІ доволі часто бракує ресурсів. Програміст у ньюзрумі, який працює над інтерактивними візуалізаціями, – це щось поки що дуже нове для редакцій. Так само як й одночасна наявність у працівника навичок журналістської роботи й мінімальних – програмування. Даних дуже багато, так само як ідей, як їх використовувати. А ми, на жаль, не все встигаємо. Хочеться, щоб колеги також щось закривали.
Інструментарій для початківців у журналістиці даних
– Андрію, а який ви порадите інструментарій для журналіста, який хоче спробувати себе в журналістиці даних? Чим критично треба вміти користуватися?
– Можна починати з освоєння Excel, Google Spreadsheet, – для базового аналізу цього цілком достатньо. Вони надають багато можливостей, якщо ви знаєте формули. Для очищення ми доволі часто використовуємо програму Open Refine, вона допомагає привести дані до адекватного вигляду та є безкоштовною, з гарним юзер-інтерфейсом, не вимагає знань мов програмування. Ми на всіх тренінгах показуємо, як користуватися цими програмами.
Що стосується візуалізації даних, то тут існує також багато онлайн- або десктопних інструментів. Якщо людина просто хоче розібратися з конструюванням візуалізації й кодуванням інформації в різний спосіб, то можна почати із чогось, на зразок Tableau Public. Це безкоштовна програма, яка позиціонується як сервіс для бізнес-аналітики, але журналісти активно нею користуються. Вона дуже проста, і там можна швидко робити інтерактивні візуалізації. Google Charts підійде для невеличких історій, однак вони не зможуть зробити візуалізації під стиль вашого видання. А ще є онлайн-інструмент QuadriGram, завдяки якому можна поєднувати текст, графіки, карти, фото. Якщо людина розбереться із цим і виникне цікавість до більшого, то є сенс розбиратися з мовами програмування. Для статичних візуалізацій це R, для інтерактивних – Javascript.
Фото – УКМЦ