Журналістика баз даних: як це робиться

00:00,
11 Квітня 2011
1941

Журналістика баз даних: як це робиться

00:00,
11 Квітня 2011
1941
Журналістика баз даних: як це робиться
Творці texty.org.ua розповідають про інструменти, якими користуються для створення інтерактивної візуалізації баз даних.

Ми вже повідомляли про перший в Україні (принаймні, вони так стверджують) онлайн-проект журналістики баз даних (database journalism), започаткований сайтом «Тексти». До свого чергового проекту – візуалізації депутатських перевитрат на авіаперельоти – Анатолій Бондаренко додав опис інструментарію, використаного для створення матеріалу:

 

Дивіться публікацію на сайті «Тексти»

 

1. Від зображень до тексту

Як ви вже здогадалися, спочатку необхідно перевести подібні картинки в текст. Для цієї задачі можна використати один із багатьох онлайнових сервісів розпізнавання тексту на зображеннях. Я використовував онлайн-сервіс від ABBYY, який дозволяє розпізнавати 5 сторінок на день безкоштовно - вам лише треба завести там собі екаунт. Якість розпізнавання - досить висока, цей онлайн-сервіс коректно розпізнав більше ніж 95% тексту і чисел. Вибирайте формат Word, - зробити нормальний файл у Excel не вдалося. Витрати часу на цей етап становили півгодини

 

2. Від тексту до таблиць

Далі я скопіював колонки табличок, які вийшли по кожному відсканованому листу, в таблицю Google Docs. Останні є базовим інструментом практично для всіх наших проектів із візуалізації через простоту і можливість надати доступ для багатьох людей.

 

Перевірка коректності даних зайняла близько двох годин. Для кількості польотів кожного депутата довелося переглянути зображення та порівняти вголос за допомогою доброго помічника. Для більш складних даних варто використовувати дуже цікавий інструмент (також від Google) під назвою Google Refine

 

3. Покращення даних

Початковій таблиці, на мою думку, не вистачало як мінімум ще одного поля – «фракція». Я написав маленький скрипт на Ruby, який за списком, що наведений на сайті Верховної Ради, визначав належність кожного з депутатів нашої таблиці до тієї чи іншої фракції.

 

Цей етап зайняв також близько двох годин - програмую я досить повільно - однак наступного разу скрипт можна буде швидко переробити або використати без змін для подібної задачі (за наданими ПІБ депутата знайти належність його до фракції). До речі, з наступного тижня ми почнемо викладати у відкритий доступ усі інструменти, розроблені нами для роботи з даними.

 

4. Google Docs

Після цього, результат мого скрипта, тобто табличка у форматі CSV, був імпортований у цей Google Doc, відкритий на доступ всім бажаючим. Можете скачати його собі на комп’ютер або скопіювати в інше місце онлайн. Нарешті дані стали динамічними, з ними можна працювати в електронних таблицях і використовувати для того, щоб отримати відповіді на будь-які кількісні питання. Наприклад, тепер ми дізналися (якщо знайти суму по всіх депутатах), що всього за 2010 рік вони налітали понад 8 млн гривень більше за передбачену норму.

 

До речі, весь обмін даними між програмами на різних етапах варто здійснювати за допомогою простого текстового формату, я роблю це за допомогою формату CSV - це просто поля, розділені між собою комами.

 

5. Візуалізація на сайті

Нарешті, для тих, хто не бажає лізти на Google Doc, а хоче просто погратися з цифрами прямо на сторінці сайту, можна використати Google Visualisation API, який добре інтегрований з їх таблицями. Коли у вас готова табличка в документах Google, то інтерактивну таблицю (яку ви вже бачили вище на сторінці), можна створити за декілька хвилин, якщо ви маєте мінімальний досвід програмування у JavaScript.

 

Тим, хто хоче навчитися подібних способів роботи з даними, автор пропонує написати на texty.org.ua+datavis@gmail.com : у разі, якщо набереться достатня кількість охочих, «Тексти» проведуть навчальний семінар.

 

«Медіаграмотність»

ГО «Детектор медіа» понад 20 років бореться за кращу українську журналістику. Ми стежимо за дотриманням стандартів у медіа. Захищаємо права аудиторії на якісну інформацію. І допомагаємо читачам відрізняти правду від брехні.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.
У зв'язку зі зміною назви громадської організації «Телекритика» на «Детектор медіа» в 2016 році, в архівних матеріалах сайтів, видавцем яких є організація, назва також змінена
wjec.ou.edu
* Знайшовши помилку, виділіть її та натисніть Ctrl+Enter.
Коментарі
оновити
Код:
Ім'я:
Текст:
2019 — 2024 Dev.
Andrey U. Chulkov
Develop
Використовуючи наш сайт ви даєте нам згоду на використання файлів cookie на вашому пристрої.
Даю згоду