Oricine a încercat să realizeze un studiu, un articol sau o evaluare bazată pe informații sau seturi de date provenite de la instituții publice s-a lovit de multe obstacole în obținerea și prelucrarea acestor informații. Am încercat în cadrul cercetării din Civic Labs pe domeniul Transparenței / Date deschise să analizăm care ar fi cauzele și care ar putea fi soluțiile pentru această problemă, care la rândul ei scade gradul de participare și activism în rândul societății civile.
Pentru început, am remarcat calitatea redusă a datelor existente. Nu se respectă standarde minimale de formatare și de coerență a informației. Datele ar trebui prezentate într-un mod simplu de urmărit pentru utilizator, formatul informațiilor prezentate în tabele ar trebui să fie menținut consistent în întregul document și de-a lungul timpului, iar documentul ar trebui livrat ca fișier de tip .csv, .xml sau .json pentru a putea fi procesat de un calculator. De multe ori, nerespectarea formatului agreat al unui set de date ajunge să altereze informația din el.
Un exemplu simplu este cel al formatării datei, care uzual este de tipul zz/ll/aa. Orice intrare din baza de date în alt format (cum ar fi de tipul zz/ll/aaaa) va afecta procesul de analiză automată a informațiilor din setul de date.
Lipsa unor instrumente de colectare digitale performante contribuie la calitatea redusă a datelor. Dacă platformele ar fi configurate de așa natură încât să introducă limitări în câmpuri conform cu standardele, erorile ar putea fi prevenite cu ușurință. O altă problemă observată este lipsa de resurse umane specializate în colectare și analiză de date din administrația publică. Gradul redus de competitivitate al statului român pe piața muncii face ca acest tip de specialist să nu se îndrepte aproape niciodată către o funcție administrativă. Acest lucru are cel mai mare impact în calitatea datelor colectate, în coerența metodologiilor de colectare și analizare și în capacitatea instituțiilor de a publica date în format deschis.
Soluția pe termen lung este, desigur, atragerea de specialiști în administrația publică. Pe termen scurt și mediu însă, specialiștii existenți deja în societatea civilă ar putea avea un impact semnificativ în îmbunătățirea calității datelor. Totuși, în prezent nu există o comunitate de specialiști în lucrul cu date în România. Cu atât mai puțin grupuri care să se implice în curățarea de date de interes public. Pentru a veni în întâmpinarea specialiștilor, Code for Romania propune Data Scientists Hub, o platformă specializată, care facilitează dezvoltarea unei comunități de analiști de date în România. Data Scientists Hub este un loc în care aceștia vor putea lucra împreună pe analizarea, curățarea și publicarea de seturi de date, vor putea să colaboreze în redactarea de politici și lucrări de specialitate pe domeniu etc.
Platforma va permite înregistrarea de utilizatori, care vor avea diverse roluri, stabilite de administrator. Va exista o secțiune de administrare a seturilor de date și articole publicate sau încărcate în pagină, precum și o secțiune de forum. Desigur, secțiunea principală va fi cea de seturi de date, în care utilizatorii vor putea vizualiza toate seturile publice de date și vor putea să le preia și prelucreze. Va exista și o secțiune de task management pentru activitățile de curățare și analizare de date. Astfel, utilizatorii vor putea introduce seturi de date existente într-un format prestabilit, având în același timp instrumentele necesare pentru a colabora la curățarea acestora.
Prin construirea acestui spațiu virtual de lucru va crește nivelul de implicare al acestor specialiști în comunitate, deoarece li se oferă condiții optime pentru a ajuta societatea civilă. De asemenea, centralizarea analiștilor de date și construirea punții de legătură între cei care au nevoie de sprijin și aceștia va conduce la creșterea calității metodologiilor de colectare și de analizare precum și a calității datelor.
Status: Neadoptat
Reprezinți un ONG și vrei să adopți acestă soluție?
Reprezinți o companie și vrei să finanțezi acest proiect?
Citește Raportul > Mediu / An 1 de studiu, 2019-2020 / Vol 2: Pregătire și Răspuns în caz de Seism