Як штучний інтелект використовується у сфері відкритих даних

Як штучний інтелект використовується у сфері відкритих даних?

  1. Для створення та тренування моделей машинного навчання

Такі моделі надалі можуть перетворювати неструктуровану інформацію (зображення, відео, звук) у структуровані дані, які матимуть застосування для потреб бізнесу або уряду. 

Наприклад, на основі супутникових знімків програми ЄС Copernicus стартап OneSoil створив інтерактивну мапукарту, на якій визначені межі сільськогосподарських угідь та типи культур, що вирощуються на них. Подібний алгоритм використало українське видання Texty.org.ua для визначення ділянок незаконного видобутку бурштину в Україні. 

  1. Для більш точного та ефективного аналізу даних

Алгоритми машинного навчання дозволяють знаходити патерни в датасетах, робити прогнози, визначати оптимальні рішення та інформувати про їх вплив. 

Наприклад, програмне забезпечення PredPol дозволило виявити в Лос- Анджелесі осередки злочинності й суттєво знизити рівень крадіжок та насильства. Водночас проєкт здійняв суспільну дискусію щодо расових та етнічних упереджень алгоритмів. Застосунок CityMapper використовує штучний інтелект для прогнозування часу прибуття громадським транспортом, складання оптимальних маршрутів руху. Алгоритми дозволяють упроваджувати нові сервіси: автобусна мережа, що адаптується під потреби мобільностіінтерпретація сервісних сповіщень завдяки обробці природної мовиголосовий помічник.

  1. Для підвищення ефективності державного управління

Наявність відкритих державних даних - перша передумова до використання можливостей штучного інтелекту для покращення якості державних послуг.  

Наприклад, Government AI Readiness Index оцінює готовність до впровадження штучного інтелекту в публічних сервісах. Індекс включає три основні компоненти: урядову політику, спроможність технологічного сектору, потенціал даних та інфраструктури. 

Потрібно врахувати:

  1. Якість і повнота даних є критично важливою

Для тренування моделей машинного навчання необхідні великі масиви даних: від декількох сотень до мільйонів і більше записів. Якщо набір даних недостатньо великий і дані неякісні - модель на їх основі буде неточною і її використання приведе до прийняття/створення помилкових рішень. 

  1. Використання алгоритмів штучного інтелекту вимагає високої цифрової грамотності.

Зміни у вихідних даних, наприклад, поява нової категорії в датасеті, може зменшити точність прогнозу.

Ситуація в Україні

Україна - одна з лідерів Східної Європи за рівнем упровадження технологій штучного інтелекту в корпоративному секторі. Державна політика в ційданій сфері уже також започатковується. У грудні 2020 року Кабінет Міністрів України затвердив Концепцію розвитку штучного інтелекту (Розпорядження КМУ 02.12.2020 № 1556-р). 

У 2020 році Україна посідала 57 місце серед 172 країн за Індексом готовності уряду до впровадження штучного інтелекту (Government AI Readiness Index). Найвищу оцінку Україна отримала за доступність та репрезентативність даних, що є результатом успішного впровадження політики відкритих даних протягом останніх 5 років.

Алгоритми штучного інтелекту використовуються в Україні для роботи з відкритими даними судового реєстру, моніторингу стану довкілля та виявлення ризиків у публічних закупівлях.

Приклади в Україні

WINCOURT — модуль автоматичного аналізу на платформі Суд на долоні. Він оцінює подібність судових документів, які завантажує користувач, до тих, на основі яких були вже вирішені подібні справи, та надає прогноз стосовно успішності їх розгляду. Verdictum PRO - сервіс з аналогічним функціоналом та спеціалізацією на господарському судочинстві.

DeepGreen Ukraine — сервіс моніторингу лісових насаджень, що використовує відкриті супутникові знімки та дані Держлісагентства для виявлення незаконних вирубок. 

Платформа DOZORRO розробляє модель машинного навчання для виявлення ризикових закупівель. Зі штучним інтелектом DOZORRO громадські активісти зможуть значно швидше виявляти «зраду» в закупівлях та звертатися до контролерів та правоохоронних органів.

Світові приклади

patenttranslate — сервіс перекладу патентів 32 мовами, що використовує технологію нейронного машинного перекладу. Інструмент розвивається в рамках співпраці Європейського патентного офісу, національних патентних відомств країн-членів ЄС та корпорації Google. На сьогодні база включає понад 9 мільйонів автоматично перекладених документів.

Serenata.ai — це сервіс для громадського контролю публічних витрат бразильських парламентарів. Модель штучного інтелекту Rosie аналізує витрати депутатів та виявляєзнаходить серед них підозрілі серед них. Онлайн дашборд Jarbas дозволяє користувачам переглянути результати автоматичного аналізу та підтвердити або спростувати підозрілі випадки. За час існування ініціативи понад 600 волонтерів надіслали до парламенту офіційні скарги щодо майже 630 підозрілих відшкодувань витрат від 216 депутатів на загальну суму понад $65,5 тис.

 

Kaggle — це платформа, на якій проводяться відкриті змагання зі створення моделей штучного інтелекту. Корпорації та дослідницькі інституції оприлюднюють набори даних та практичні завдання, які необхідно розв’язати на їх основі. Платформа включає понад 50 тис. наборів відкритих даних (як корпоративних, так і державних) та 400 тис. записників з кодом для виконання різноманітних аналітичних завдань. З початком пандемії COVID-19 Kaggle об’єднав низку дослідницьких конкурсів, метою яких є вивчення вірусу та запобігання його поширенню вірусу: (1) застосування алгоритмів обробки природної мови для пошуку відповідей на питання в наукових публікаціях; (2) глобальне прогнозування поширення та смертності від COVID-19; (3) пошук відповідейі на питання, які допоможуть на передовій боротьби з вірусом.

Створення цього веб-ресурсу стало можливим завдяки підтримці американського народу, наданій через Агентство США з міжнародного розвитку ( USAID ) та за фінансової підтримки уряду Великобританії ( UK aid ). Окремі думки, висловлені в матеріалах, опублікованих на сайті не обов’язково відображають погляди Агентства USAID та Уряду США або Уряду Великобританії.

Портал працює в режимі дослідної експлуатації.

Адреса:

03150, м.Київ, вул. Ділова 24

Електронна пошта:

opendata@thedigital.gov.ua

© 2021 Міністерство цифрової трансформації України