Моите коментари
СТАНОВИЩЕ ОТ ИНСТИТУТ “ГОЛЕМИ ДАННИ В ПОЛЗА НА ИНТЕЛИГЕНТНОТО ОБЩЕСТВО” ОТНОСНО СТРАТЕГИЯ ЗА УПРАВЛЕНИЕ НА ДАННИТЕ В РЕПУБЛИКА БЪЛГАРИЯ 2026-2030 Г.
Уважаеми колеги,
От името на Институт „Големи данни в полза на интелигентното общество“ към Софийския университет (Институт GATE) искаме да изразим становище относно инициативата на Министерство на електронното управление за разработване на Стратегия за управление на данните в Република България за периода 2026-2030г.
Институт GATE е първият център за върхови постижения в България, който работи за интегриране и разширяване на научните постижения и иновации в приоритетни области като големите данни и изкуствения интелект на регионално и европейско ниво. Институт GATE е инвестиция в човешкия потенциал. Институтът се стреми да привлече, вдъхнови и изгради следващото поколение млади изследователи, които под ръководството на водещи учени ще работят с ентусиазъм и любопитство в областта на големите данни и изкуствения интелект.
В качеството ни на мениджър „Стратегии за управление на данни и изкуствен интелект“ и длъжностно лице по защита на личните данни (Йоана Колева) и ръководител на Лабораторията за експериментална регулация и цифрови политики (Иво Емануилов) към Институт GATE, представяме настоящето становище с коментари и предложения за усъвършенстване на предложената стратегия.
Подготвителна фаза: оценка и почистване на данните
Стратегията предвижда разширяване на достъпа до данни и насърчаване на тяхното споделяне, но не предвижда изрична подготвителна фаза, която да предхожда публикуването. Към момента голяма част от административните масиви от данни не са в състояние, подходящо за споделяне - липсват метаданни, налице са дублирания и непоследователни дефиниции, данните са разпръснати в несъвместими системи или съхранявани в неструктуриран формат.
GATE препоръчва стратегията да предвиди задължителна начална фаза за всяка администрация, включваща: инвентаризация на съществуващите масиви данни, оценка на тяхното качество спрямо минимални стандарти за публикуване, план за почистване и стандартизация, и едва след това - публикуване или споделяне. Отварянето на данни с ниско качество не само е безполезно, но може да доведе до погрешни решения от страна на ползвателите и да подрони доверието в публичните данни като цяло.
Ясен модел за управление на данните в администрацията
В настоящия си вид стратегията не дефинира кой конкретно носи отговорност за данните на институционално ниво. GATE препоръчва въвеждането на ясен модел за управление на данните, основан на три обособени институционални роли:
· Data Owner (институционален отговорник на ниво ведомство/дирекция, който взема решения и носи отговорност за достъп и класификация),
· Data Steward (оперативен управител, отговорен за качеството, дефинициите и актуалността на данните) и
· Data Custodian (технически пазител в IT звеното, отговорен за съхранение и сигурност).
Тези роли следва да бъдат формално въведени във всяка администрация, с ясно описание на функциите и механизъм за отчетност към централно координиращо звено. Липсата на ясно разпределени роли създава риск мерките да останат на хартия и при одит, инцидент или смяна на ръководство, никой конкретен служител да не носи отговорност.
Поддържане на качеството на данните
От гледна точка на изследователската практика на GATE, качеството на данните е непрекъснат процес, изискващ проверка, обновяване и мониторинг. Данните остаряват по естествен път: служители напускат и записите остават неподдържани, законодателството се променя и класификациите губят актуалност, системите се обновяват и форматите стават несъвместими. Масив от данни с високо качество днес може да е неизползваем след две години, без никой съзнателно да го е влошил.
Препоръчваме включването на конкретни механизми за поддържане на качеството във времето, включително стандарти за метаданни, процедури за периодичен одит и показатели за качество, обвързани с отчетността. Това включва: автоматизирано валидиране при въвеждане на данни, ясни стандарти за метаданни (кой е създал записа, кога и от какъв източник) и отчетност при влошаване на показателите. Без такива механизми инвестицията в почистване и стандартизация на данните е еднократна и постепенно се обезценява.
Принципът на еднократност (once-only) и икономика на данните в реално време
Стратегията споменава автоматизирания обмен на данни между администрациите, но не въвежда принципа на еднократност като задължителен и измерим оперативен ангажимент. Този принцип е залегнал в чл. 14 от Регламент (ЕС) 2018/1724 за единната цифрова платформа и e в основата на цялостна европейска тенденция към намаляване на административната тежест. Стратегията следва да фиксира тази мярка поне в интервал. Така напр. Проектът на естонския план за данните и изкуствения интелект за 2028–2034 г.[1] предвижда за съответния период над 400 доклада и приблизително 60 000 полета с данни да се прехвърлят машинночетимо и автоматизирано, със спестяване на 14 млн. работни часа годишно (≈ 200 млн. евро). В българския проект такава възможност е напълно отсъстваща, въпреки че административната тежест за бизнеса е сред най-често посочваните проблеми пред цифровизацията.
рПепоръчваме Стратегията да формулира принципа на еднократност като задължителен оперативен ангажимент с конкретни целеви стойности, вкл. брой отчетни задължения, преминали към автоматизиран обмен; брой административни процедури, в които субектите вече не подават повторно данни; финансово и трудоспестяващо въздействие. Целесъобразно е и създаването на национален регистър на повтарящите се отчетни задължения за бизнеса, с механизъм за обратна връзка от стопанските субекти.
Изкуствен интелект и управление на алгоритмичните решения
Въпреки споменаването на изкуствен интелект (ИИ), стратегията не разглежда в достатъчна дълбочина нито рисковете от автоматизирани решения в публичния сектор, нито конкретните изисквания към данните, които стоят в основата на тези системи.
С оглед на нарасналото използване на системи с ИИ от администрацията и влизането в сила на Регламента за ИИ на Европейския съюз (ЕС), препоръчваме добавяне на раздел за прозрачност, проследимост и възможност за одитиране на алгоритмичните решения, базирани на публични данни. Когато система с ИИ подпомага или взима решения с пряко въздействие върху граждани, трябва да съществува механизъм, който да позволява проверка на логиката на решението и оспорването му.
Преди изобщо да се стигне до внедряване на системи с ИИ, данните трябва да отговарят на специфични изисквания: да са представителни и да не отразяват исторически неравенства, които моделът би възпроизвел; да са документирани с ясен произход, дата на събиране и цел; да са проследими, така че да може да се установи кои данни са повлияли на дадено решение; и да са събрани при ясно правно основание за използване в ИИ контекст. Препоръчваме стратегията да въведе изрични критерии за готовност на данните за използване в процеси, използващи ИИ, като предпоставка за внедряване на автоматизирани системи в публичния сектор.
Синтетични данни и технологии за подобряване на поверителността (PETs)
Стратегията предвижда защитени среди и пространства заданни, но не въвежда два технологични инструмента, които са в основата на тяхното практическо функциониране: синтетични данни и технологии за подобряване на поверителността (PETs), като диференциална поверителност, хомоморфно криптиране, сигурни изчисления с участието на множество страни (secure multi-party computation) и федерирано обучение. Такъв вид технологии са изрично посочени като средства за гарантиране на сигурността на обработването в чл. 5, пар. 11 Акта за управление на данните (АУД) и са централни в Регламента за европейско пространство на здравни данни.[2]
GATE препоръчва Стратегията да предвиди мярка за внедряване на PETs от организациите от обществения сектор и от участниците в националните пространства за данни, както и национална програма за разработване и валидиране на синтетични масиви от данни в приоритетните сектори (напр. здравеопазване, образование, мобилност). Без тези инструменти „защитените среди“ остават формално понятие без работещ механизъм за валоризация на регулираните данни.
Сигурност и защита на данните
Стратегията е насочена към споделяне на данни без лични данни - агрегирани статистики, отворени административни масиви, данни от сензори. Това е правилният подход, но границата между лични и нелични данни на практика не е толкова ясна, колкото изглежда. Данни, които изглеждат анонимни, могат да бъдат де-анонимизирани при свързване с други масиви: пол, възраст, квартал и професия са достатъчни за идентифициране на конкретен субект дори без име. Административните данни много често съдържат лични данни в суров вид и изискват почистване преди споделяне. При свързване на няколко привидно безлични масива може да се получи детайлен профил на конкретно лице или малка група.
Разширяването на достъпа до данни неизбежно увеличава рисковата повърхност: колкото повече организации и системи имат достъп до даден масив от данни, толкова повече входни точки за атака или изтичане на информация съществуват. Стратегията обаче не посочва конкретни мерки за преодоляване или минимизиране на тези рискове.
Стратегията правилно припознава изграждането на пространства заданни и създаването на защитени среди за предоставяне на данни като мерки за постигане на сигурността и насърчаване на достъпността на данните. Това положение е в съответствие и с изискванията на Aкта за управление на данните, съгласно който защитените среди за обработване представляват физическа или виртуална среда и организационни средства, които гарантират спазването на правото на ЕС (вкл. Общия регламент относно защитата на данните, GDPR) и националното право, и същевременно дават възможност на оператора на средата да определя и контролира всички дейности по по обработването на данните, вкл. показване, съхранение, изтегляне, експортиране и изчисляване на производни данни. Създаването и поддържането на такива среди изисква значителен административен, финансов и технически капацитет, както и ясно разграничение от сходни фигури.[3]Стратегията не предлага конкретни мерки в тази посока, а те са наложителни с оглед на изискванията напр. на чл. 73, пар. 1 от Регламент (ЕС) 2025/327 на Европейския парламент и на Съвета от 11 февруари 2025 година относно европейското пространство на здравни данни и за изменение на Директива 2011/24/ЕС и Регламент (ЕС) 2024/2847, съгласно който органите за предоставяне на достъп до здравни данни предоставят достъп до електронни здравни данни съгласно разрешение за достъп до данни само посредством защитена среда за обработване, за която се прилагат технически и организационни мерки и изисквания за сигурност и оперативна съвместимост.
Учудващо е отсъствието на т.нар. езиково пространство от данни сред изброените 9 приоритетни пространства за данни. Развитието на големи езикови модели следва да бъде постоянно подкрепяно на стратегическо ниво, за да се гарантира съхранението на българския език и култура в ерата на изкуствения интелект. Стратегията следва да насърчи създаването на необходимата инфраструктура, като например пространство за езикови данни, за да се осигури вътрешният и трансграничният обмен и обработка на данни, необходими за езиковите данни и други приоритетни области. Тези мерки ще позволят на всички разработчици на езикови модели да използват данни на български език за обучението на моделите. GATE препоръчва стратегията да включи пет конкретни елемента.
· Първо, ясен протокол за управление на инциденти: кой разбира първи за пробив, в какъв срок уведомява засегнатите страни и кой взима решение за ограничаване на достъпа. Без такъв протокол всяка администрация действа по различен начин при криза, което забавя реакцията и увеличава щетите.
· Второ, ясно разпределение на отговорностите при нарушения на сигурността, особено когато данни, управлявани от една институция, са достъпни през платформа на друга. Понастоящем подобни сценарии създават правен вакуум, при който никой формално не отговаря.
· Трето, изрична обвързаност със Закона за киберсигурност. И двете засягат припокриващи се области, но не са свързани явно: администрация, която изпълнява единия, може несъзнателно да създава пропуски спрямо другия.
· Четвърто, разработването и поддържането на защитени среди за предоставяне на данни следва да бъде допълнено от конкретни секторни мерки (напр. по отношение на достъпа до здравни данни за вторнично използване).
· Накрая, езиковите данни следва да бъдат определени като ценни масиви от данни, за да се гарантира тяхната достъпност и използваемост за развитието на суверенен и надежден изкуствен интелект.
Институционална архитектура по Акта за управление на данните
Стратегията визира приемането на изменения в националното законодателство за прилагане на АУД като индикатор, но не описва каква институционална архитектура ще се изгради. Конкретно, не е изяснено кой компетентен орган ще приема уведомления на доставчиците на услуги за посредничество между данни (чл. 13 АУД); кой ще регистрира признатите за алтруистично споделяне на данни организации (чл. 17 и чл. 18 АУД); какъв ще е статутът на единната информационна точка по чл. 8 АУД и дали тя ще се изгражда в структурата на Министерството на електронното управление (МЕУ) или като отделна публичноправна структура. Макар и с Решение на МС № 670/29.09.2023 г. да се определят компетентните органи по чл. 7 АУД (за разрешения за повторно използване на защитени данни), този нормативен акт не покрива цялата институционална рамка.
GATE препоръчва Стратегията да насочи ясно към институционалната рамка за прилагането на АУД, вкл. ясно разграничение между ролите на оператор на пространство за данни (data space operator) и тази на доставчик на посреднически услуги за данни (data intermediation service provider) по смисъла на чл. 10 АУД. Тези роли са правно и икономически различни и тяхното смесване, наблюдавано в редица национални инициативи в ЕС, води до правна несигурност при изграждането на националните пространства за данни и до риск от несъответствие с изискването за неутралност по чл. 12 АУД.
Национален каталог на системи с ИИ в публичния сектор
В допълнение към общите бележки за прозрачност на алгоритмичните решения, конкретен пропуск е липсата на национален каталог/регистър на системите с изкуствен интелект, използвани от публичните органи. Такъв инструмент е допълнение, а не дублиране на базата данни по чл. 71 от Регламент (ЕС) 2024/1689 (Акт за ИИ), който обхваща само високорисковите системи. Създаването на централен каталог на всички приложения с ИИ в публичния сектор следва да е придружен от стандартизирана оценка на надеждност, защита на данните и идентификация на основните рискове и мерки.
GATE препоръчва Стратегията да предвиди национален каталог на всички системи с ИИ в публичния сектор, придружен от стандарт за алгоритмична прозрачност (вкл. документация за обучителните данни, оценка на въздействието и одитна проследимост). Каталогът следва да бъде технически и правно свързан с регулаторната лаборатория по чл. 57 от Акта за ИИ, чието създаване на национално ниво следва да бъде координирано с настоящата Стратегия и да се базира на достъпа до висококачествени данни от националните пространства.
Суверенен изчислителен капацитет за обработване на данни за ИИ
Стратегията е насочена към данните като ресурс, но не адресира взаимосвързания въпрос с изчислителния капацитет, необходим за тяхната обработка и за обучение и използване на ИИ модели на български език. Зависимостта от чуждестранни доставчици на облачни услуги при обработване на чувствителни данни (вкл. здравни, данъчни, отбранителни и съдебни) създава риск за стратегическата автономия и затруднява спазването на изискванията на АУД и АД за ефективен контрол върху данните.
GATE препоръчва Стратегията да формулира ясен ангажимент към развитие на национален суверен изчислителен капацитет посредством интеграция с EuroHPC (вкл. чрез капацитета на суперкомпютъра Discoverer в София) и инициативите за европейски AI Factories (вкл. BRAIN++) и AI Gigafactories по Програма „Цифрова Европа“, както и чрез изграждане на национален хъб за обработване на чувствителни данни в защитени среди. Без такъв капацитет програмите за пространства заданни и тестовите среди по Акта за ИИ ще зависят изцяло от външна инфраструктура.
Конкретни инструменти за предоставяне на контрол на гражданите върху техните данни
В допълнение към общата препоръка за прозрачност при ИИ, конкретен пропуск в стратегията е и липсата на работещ инструмент, чрез който гражданите да могат да проследят кои публични органи, кога и за какви цели са имали достъп до техните данни в държавните регистри (т.нар. „data tracker“). Без такъв инструмент принципите на суверенитета на данните, заложени в АУД и Акта за данните (АД)[4] остават абстрактни и неосъществими на практика.
GATE препоръчва Стратегията да задължи всички администрации, обработващи лични данни в централизирани регистри, да предоставят на субектите на данните проследим, машинночетим запис на всеки достъп до техните данни, придружен от информационно табло (dashboard) за управление на съгласията. Този инструмент следва да бъде интегриран с еЗаявление и Единния портал за достъп до електронни административни услуги.
Трансгранична оперативна съвместимост и интеграция с европейските общи пространства за данни
Стратегията споменава участието в европейски инициативи, но не предвижда конкретни ангажименти за интеграция на деветте национални пространства за данни (туризъм, образование, транспорт, околна среда, здравеопазване, енергетика и др.) с общите европейски пространства за данни по Европейската стратегия за данни (COM(2020) 66 final) и обновената Стратегия за съюз на данните (COM(2025) 835 final). Така например националното пространство за здравни данни следва да е оперативно съвместимо с европейското пространство за здравни данни (Регламент (ЕС) 2025/327).
GATE препоръчва Стратегията да предвиди за всяко национално пространство за данни ясен ангажимент за трансгранична оперативна съвместимост, базиран на референтните архитектури на Data Spaces Support Centre (DSSC), Европейските стандарти за оперативна съвместимост (EIF) и базовите Data Space Building Blocks на инициативата SIMPL. В противен случай съществува риск националните пространства да се изградят като технически изолирани решения, които не реализират добавена стойност в европейски мащаб.
Амбициозност и съпоставимост на количествените показатели
Редица от индикаторите за резултат са с консервативни целеви стойности, които могат да се постигнат и без активна намеса на Стратегията. Делът на предприятията, извършващи анализ на данни, се планира да нарасне от 27.1 % (2025) до едва 30 % (2030), т.е. под 3 п.п. за 5 години, при положение че средното за ЕС нараства с по-висок темп и при положение че България и без друго е сред догонващите държави. Аналогично, броят на наборите от данни в ПОД се планира да нарасне само с 19 % за 5 години (от 10 110 на 12 000), а делът на автоматизирано публикуващите системи - само до 20 %.
GATE препоръчва преразглеждане на целевите стойности с амбиция за догонване на средните стойности на ЕС и на сравними държави членки от региона (Естония, Чехия, Полша). Това включва
· целево ниво за анализ на данни в предприятията над средното за ЕС (≥ 35 % към 2030 г.);
· кратно (поне трикратно) увеличаване на броя на наборите от данни в ПОД;
· и измерима прогресия по Индекса на зрялост на отворените данни на ЕС спрямо настоящата позиция на България.
В противен случай Стратегията рискува да утвърди статуквото, вместо да задвижи така необходима реформа.
Оставаме на разположение при необходимост от уточняване на засегнатите в становището въпроси.
С уважение,
Йоана Колева Мениджър „Стратегии за управление на данни и изкуствен интелект“ и длъжностно лице по защита на личните данни Институт GATE | Иво Емануилов Ръководител на Лаборатория за експериментална регулация Институт GATE |
гр. София
26.05.2026 г.
[1] Riiklik partnerluskava 2028-2034, достъпен на следния адрес: https://fin.ee/riigi-rahandus-ja-maksud/valistoetused/riiklik-partnerluskava-2028-2034#kaasamistegevused
[2] Чл. 73 от Регламент (ЕС) 2025/327.
[3] Emanuilov, I., Larsson, B., Dubber, A., & Magas, M. (2025). White Paper on Advancing Trusted Research Environments for Healthcare AI. Industry Commons Foundation. https://doi.org/10.5281/zenodo.17693545.
[4] Вж. чл. 4, пар. 4 АД относно правото на ползвателя да осъществява контрол върху генерираните данни).