
Мінцифри збирає дані для тренування української LLM


Міністерство цифрової трансформації збирає дані для тренування національної великої мовної моделі LLM. Поділитися своїми текстами закликають представників медіа, наукової і освітньої сфери, бізнесу та інші. Про це повідомили на сайті Мінцифри.
«Національна LLM стане базою для створення ШІ-помічників у держсекторі та бізнесі. Це будуть українські аналоги Gemini та ChatGPT: такі ж зручні та технологічні, але навчені на наших реаліях і контексті.
Чекаємо на партнерів із різних сфер — бізнесу, освіти, науки та культури. Якщо у вас є якісні тексти українською — ви нам потрібні. Ваш контент стане фундаментом для національного ШІ, який даватиме відповіді мільйонам українців», — йдеться в повідомленні.
Для тренування моделі потрібні такі дані:
- Медіа: новини, інтерв’ю, блоги, публіцистика;
- Наука та освіта: контент курсів, підручники, наукові роботи, дисертації;
- Література: художні твори, критика, рецензії;
- Історія: оцифровані архівні матеріали;
- Бізнес-дані: технічна документація, описи товарів, відкриті відгуки, матеріали корпоративних блогів.
Для захисту інтелектуальної власності Мінцифри підготувало прозорі юридичні умови. Усіх партнерів, які зроблять внесок у розвиток технології, офіційно відзначать в підсумковому звіті про розробку національної моделі.
Охочі інтегрувати свої знання в українську LLM можуть залишити заявку у короткій формі за посиланням.
Нагадаємо, в липні 2025 року Мінцифри разом із «Київстаром» розпочали розробку національної великої мовної моделі — штучного інтелекту, що має стати українською відповіддю ChatGPT.
У серпні міністерство повідомило, що розробляє AI Factory — перший державний проєкт для запуску та масштабування продуктів зі штучним інтелектом в Україні. Михайло Федоров тоді казав, що ціль України — до 2030 року ввійти до трійки світових лідерів у сфері ШІ.
Мінцифри спільно з Nvidia працюватимуть над розбудовою в Україні суверенного штучного інтелекту. Першим проєктом стане розробка мовної моделі Diia AI LLM.
У грудні стало відомо, що національну велику мовну модель тренуватимуть на моделі Gemma 3 від Google. Вибрану модель адаптують до української мови.
Ілюстрація: Мінцифри














