ms.detector.media
Ірина Семенюта
23.05.2023 10:45
Швидка транскрибація. Які застосунки допоможуть легко перетворити аудіо на текст
Швидка транскрибація. Які застосунки допоможуть легко перетворити аудіо на текст
Тепер можна забути про розшифровку аудіозаписів вручну.

Поява ChatGPT спровокувала чимало дискусій про його користь, шкоду, врегулювання тощо. Штучний інтелект далеко не досконалий і може галюцинувати, тобто видавати неправдиву інформацію. Однак треба визнати, що подібні програми — це прорив, який, хочемо ми цього чи ні, змінює наше життя. Поки одні журналісти бачать у ChatGPT конкурента, який у майбутньому позбавить їх роботи, інші починають опановувати його, створювати з його допомогою інші програми та отримувати максимальну користь. Наприклад, деякі редакції розробили на основі ChatGPT боти в телеграмі для транскрибування текстів, простіше кажучи — розшифровки аудіофайлів у текст. Тепер журналістам не потрібно витрачати день на розшифровування двогодинного інтерв’ю — чатботи дадуть відносно точний текст уже за декілька хвилин.

MediaSapiens розпитав кілька редакцій, якими програмами для розшифровки аудіо вони користуються, а також підібрав безплатні ресурси для транскрибування, які стануть у пригоді не лише медійникам, а й студентам, освітянам, фрилансерам, людям із порушеннями слуху та багатьом іншим.

У квітні 2023 року в Центрі журналістських розслідувань Nikcenter повідомили про створення чатботу для розшифровування аудіофайлів. Застосунок розробили через API телеграма (API — інтерфейс програмування додатків, програмний інтерфейс програми. — «ДМ») за допомогою мови програмування Python і командної оболонки Bash, та під’єднали до API ChatGPT через аудіомодель Whisper. Керівник Nikcenter і розробник чатботу Олег Оганов розповів MediaSapiens, що спочатку програма була створена суто для потреб редакції Центру, але на такий продукт виявився дуже великий запит, тож Центр вирішив відкрити доступ для інших журналістів.

«Коли трохи розібралися з механізмом, вирішили зробити в телеграмі, бо він дуже зручний для використання. Щоб отримати доступ, треба зайти у чатбот, вказати номер телефону й написати нам на сторінку у фейсбуці, бо ми модеруємо всіх юзерів. Ця послуга не є безплатною, бо API — це програмний продукт компанії OpenAI і він є платним. Ми збираємо донати від юзерів на оплату API ChatGPT і на наших захисників, які зараз служать у лавах ЗСУ», — каже Олег Оганов.

У чатбот можна надсилати аудіофайли розміром до 20 МБ, однак, за словами редактора, користувачам, які роблять великі донати, відкритий доступ і для більших файлів: «Якщо у вас є донат не на 20 рівень умовно, а більше, то ми відкриваємо доступ для роботи з великими файлами. Просто коли ми тільки запустили бот, то всі навалилися його тестувати. Він просто не витримує такого навантаження».

Від розміру файлу залежить швидкість конвертації. Олег Оганов зазначив, що транскрибування триває приблизно в п’ять — десять разів швидше, ніж саме аудіо.

Це не перша розробка Nikcenter. Редакція надає журналістам, зокрема регіональним центрам розслідувань, доступи до ботів, які конвертують скани та PDF-файли у звичайний текст. А також програми для роботи та швидшого отримання даних із порталу Spending.

«Ми це робимо, щоб журналістам було зручно користуватися складними програмами. Щоб ефективно працював якийсь продукт, журналісту треба знати мову програмування Python, але не завжди є час це вивчати. Тому розробляється скрипт і підключається до телеграма, тобто журналіст спілкується тільки з ботом, а цей скрипт, цей механізм виконує вже сам сервер», — розповів Оганов.

Власний чатбот для розшифровки текстів є й у редакції «Бабеля». Грантова менеджерка видання Марина Колесниченко цієї весни також розробила його за допомогою ChatGPT у Python. Хоча цей застосунок недоступний іншим редакціям, розробниця погодилася розповісти про нього.

«У компанії OpenAI, яка розробила ChatGPT, є аудіомодель Whisper-1, створена якраз для розшифровки аудіо. Треба просто покроково розпитати в ChatGPT, що саме ти хочеш зробити, потім за допомогою Python скласти код, який у результаті перетворюється на програму. Спочатку вона працювала лише в мене на комп’ютері, але потім я вирішила, що краще зробити телеграм-бот для редакції», — розповіла Марина Колесниченко.

Крім розшифровки, бот може перекладати з англійської, німецької та багатьох інших мов. Для цього розробниця використала перекладач Deepl. Коли користувач завантажив аудіофайл, бот питає: «Що зробити?», і дає два варіанти відповіді: «Розшифруй» і «Розшифруй та переклади». Після цього за декілька хвилин бот надсилає готовий текст.

«Зараз найкращий перекладач — це Deepl. Власне, в OpenAI також є моделі, які перекладають, але Deepl набагато краще. Він аналізує текст і потім перекладає, враховуючи контекст», — пояснює Марина.

За її словами, раніше в неї не було навичок роботи з Python. Марина просто стежила за інструкцією, яку надавав ChatGPT. Іноді траплялися помилки, бо його знання — на рівні 2021 року.

«Вже скрізь повідновлювалися бібліотеки, тож навіть сам розробник ChatGPT, що водночас є розробником моделі Whisper-1, сказав, що ChatGPT не знає про існування цієї моделі. Тому потрібно йому розповідати, що є така модель Whisper-1. Треба зайти в опис цієї моделі на сайті OpenAI, знайти шматочки її коду та показати ChatGPT», — каже Марина Колесниченко.

Розробниця говорить, що в ChatGPT потрібно написати, що ви хочете отримувати текст у Word із розбивкою на абзаци. Також у цієї аудіомоделі Whisper-1 є обмеження файлу у 20 МБ, тобто якщо він буде важчим, виникатимуть помилки. Можна додатково написати код, щоби програма розбивала великий файл на кілька частин, а потім складала розшифровку в один текстовий файл. Після цього користувач може написати, що хоче отримувати тексти із запису іншою мовою одразу українською. Для цього потрібні API Deepl. Тоді ваш чатбот даватиме один файл, де згори буде розшифрований оригінал, а знизу переклад.

«Ця модель Whisper — чи не єдина, яка дуже класно працює з українською мовою. Навіть дуже поганий запис вона розшифровує з точністю до 90%. Час розшифровки залежить від тривалості запису. Ми розшифровували годинну розмову десь за 3-4 хвилини», — пояснює Марина.

Щоби чатбот працював для всіх, його треба розмістити на хмарному сервері. Це робиться швидко, але не безплатно. За конвертацію файлів розміром понад 20 МБ теж потрібно буде платити гроші. Саме тому розробниця не поспішає поки що робити його загальнодоступним. Можливо, в майбутньому редакція вирішить монетизувати чатбот.

Чому ж редакції змушені створювати власні програми-транскрибатори? Як нам пояснили в опитаних редакціях, основна причина — в якості роботи наявних програм. Безплатні версії роблять заплутаний текст, редагувати який довше, ніж вручну транскрибувати. Аби отримати точну розшифровку, треба мати платну підписку на програму, тобто кошти будуть знімати, навіть коли програмою не користуються. Крім того, в більшості випадків потрібна реєстрація, що не всі журналісти вважають безпечним.

Однак і тут є виняток. Наприклад, Texty.org.ua знайшли безплатний і зручний для себе транскрибатор серед тих, що є у відкритому доступі. Редактор відділу розслідувань Олексій Набожняк розказав MediaSapiens, що їхня команда розшифровує аудіо за допомогою Pinpoint від Google.

«Ми шукали якийсь інструмент для пришвидшення розшифровки. Потім колеги з організації Mixer організували нам тренінг по роботі з Pinpoint. Ми подивилися на його функціонал і вирішили, що це комплексно корисний інструмент», — каже Олексій.

Зайти у Pinpoint можна за особистим гугл-акаунтом. Для початку роботи треба натиснути кнопку «Почати» й заповнити анкету. У верхньому лівому кутку з’явиться кнопка «Додати документи». Користувач може обрати для розшифровки не лише аудіозаписи, а й відео, написаний від руки текст і відскановані документи. Завантажувати файли можна будь-якого формату та розміру. Розшифровка триває трохи довше, ніж у попередніх застосунках — приблизно 1 МБ на хвилину, але готова розшифровка розбивається по фразах із указаним таймінгом, які паралельно можна прослуховувати. Також можна завантажити готовий текст у PDF-форматі.

«Програма індексує імена та прізвища, тобто передбачений зручний пошук за ключовими словами у великих документах. Також можна зробити одну папку й завантажувати туди різні типи документів. Умовно кажучи, можна мати в одному місці пакет розшифрованих даних із різних джерел у форматі PDF, а звідти вже копіювати у Word», — пояснює Олексій.

За його словами, Pinpoint іще є дуже зручним, бо розшифровка не зупиниться, навіть якщо закрити вкладку або вимкнути комп’ютер.

«Він підтримує українську мову, що важливо. А акуратність тексту я б оцінив на 85 %. Зрозуміло, що цей текст потрібно буде редагувати, але для технічних потреб дуже пристойно», — каже Олексій Набожняк.

Ця програма була створена перш за все для журналістів, зокрема розслідувачів, які працюють із великими об’ємами документів. Тому він може легко розпізнавати рукописний, сфотографований і відсканований текст.

«Моя колега працює над дослідженням і у неї на тисячі сторінок великий PDF-файл, можна сказати, що це не дуже якісно відсканована книжка. У цій програмі їй зручніше знаходити потрібні слова, шматки тексту, навіть через поєднання клавіш Ctrl+F. Я не знаю, що ще треба додати у програму, щоб забезпечити робочий процес. Тому не бачу зараз потреби створювати щось нове. Наразі цієї програми цілком достатньо», — розповідає Олексій.

Які ще програми допоможуть швидко та безплатно розшифрувати текст

Програм, які розшифровують аудіо, справді чимало. Але знайти зручний безплатний застосунок дуже важко — більшість має лише тимчасовий безплатний період, або не розпізнає українську мову.

Застосунок Transkriptor — один із небагатьох, що не потребує банківської картки при реєстрації. Ця програма — розширення Chrome на основі штучного інтелекту, що розпізнає понад 100 мов. Можна завантажувати відео- та аудіофайли з комп’ютера, з ютуба чи хмарних сховищ, а також записати звук чи відео в самому застосунку. На головній сторінці ви побачите безліч корисних функцій, але можете не зважати на них, якщо не плануєте за це платити. На жаль, безплатна версія Transkriptor дозволяє прослухати лише перші п’ять хвилин аудіофайлів. Якщо запис триває приблизно 5-6 хвилин, то схитрувати з програмою теж не вийде, вона поріже розшифровку навпіл — до двох хвилин. Програма залишить ваш запис цілим, якщо він триває 1-2 хвилини, тобто ви можете ним користуватись і отримати розшифровку, якщо самі «поріжете» свої аудіо чи відео на маленькі шматочки. Крім того, розробники передбачили, що з програмою будуть хитрувати, й додали лічильник безплатних хвилин. Із плюсів — застосунок дуже швидкий, текст розбитий на речення з таймінгом, можна налаштовувати розмір шрифту для зручного читання, створювати папки для зберігання файлів і «команди» для спільного доступу до файлів із колегами. Крім того, безплатні хвилини можна заробляти, якщо ділитися цим застосунком у соцмережах.

Ще одне розширення розпізнавання мови від Google, але цього разу повністю безплатне — SpeechTexter. Ця програма розпізнає 70 мов і працює за принципом диктування, тобто вам потрібен браузер, який підтримує роботу мікрофона. Оформлення застосунку трошки нагадує Word — це аркуш А4, на якому можна друкувати текст шрифтом Times New Roman із курсивом або підкресленням. Програма підраховує кількість слів, і якщо їх більше, ніж на одну сторінку, з’являється нова. Перегортати сторінки можна стрілочками вправо та вліво. Ще є кнопки для копіювання, відправлення, друку та завантаження тексту. Щоби почати транскрибування, треба натиснути на мікрофон внизу екрана. Розділові знаки ставляться голосом, тобто вам потрібно казати «кома», «крапка», «відкрити лапки», «закрити дужки» тощо. Додаток дуже простий у застосуванні, але головним мінусом є повільна розшифровка, текст з’являється в реальному часі стільки, скільки ви диктуєте. Якщо вам треба транскрибувати відео або аудіозапис, ви можете просто увімкнути його в сусідній вкладці або на іншому пристрої, розташувавши близько до мікрофона. Але тут треба стежити, щоб SpeechTexter встигав правильно почути слова.

Ті ж самі характеристики має розпізнавач мови Dictation.io. Крім розшифровки, його можна використовувати для написання електронних листів і документів у Google Chrome. Голосом можна не лише додавати знаки пунктуації, а й абзаци та смайлики, але ці команди, на жаль, не працюють українською. Отриманий текст можна відправити поштою, твітером, зберегти у форматі PDF або одразу роздрукувати.

За таким же принципом диктування працює і Google Перекладач і Google Docs, якщо зробити голосове введення тексту. Для того, щоби перекладач почав транскрибувати, потрібно обрати мову та натиснути на значок мікрофона. Але варто пам’ятати, що перекладач має обмеження в п’ять тисяч знаків. Щоб увімкнути цю функцію у Google Docs, треба відкрити вкладку «Інструменти», натиснути на «Голосовий ввід», тоді зліва від сторінки з’явиться значок мікрофона. Трохи вище від нього вказана мова, перевірте та замініть її за необхідності. Щоби почати транскрибувати, натисніть на мікрофон. Якщо подібні функції потрібні на смартфоні, то знадобляться застосунки для смартфонів Voice to Text або Speech to Text. З їхньою допомогою також можна надиктовувати текст, або ввімкнути аудіофайл на іншому пристрої поруч із мікрофоном. Користувачі можуть поділитися отриманою розшифровкою в соцмережах, відправити на пошту або зберегти на гугл-диск. Головна перевага цих двох застосунків — вони безплатні та не мають обмежень у довжині текстів.

Онлайн-сервіс Textfromtospeech може як перероблювати голос у текст, так і текст у голос — текст озвучують роботи. Але остання функція недоступна українською. Також цей сервіс може безплатно записувати голос на диктофон. Розшифровка завантажених аудіо та відео теж є, але вартість транскрибування хвилини файлу становить $0,083. Якщо ви хочете зекономити, то діємо за старою схемою: обираємо «Мовлення в текст», зліва на панелі з командами натискаємо на «Почати диктувати» і вмикаємо в сусідній вкладці потрібні аудіо чи відео. Програма зазвичай встигає за швидкою розмовою, якщо запис якісний, але розставляти знаки пунктуації доведеться потім. Якщо хочете, щоб пунктуація була одразу, то треба після кожного речення зупиняти запис і вводити крапки та коми вручну або голосом, що не дуже зручно. Програма дозволяє збільшувати та зменшувати розмір тексту, зберегти розшифровку у форматах doc та txt, роздрукувати або відправити текст поштою.

ms.detector.media