Konsultacje importu danych do ankiety jednostki

Materiały związane z kolejną kategoryzacją są dostępne na stronie: https://polon.nauka.gov.pl/help/doku.php/ankieta_jednostki/start

Niniejsza strona ma charakter roboczy pomyślany w celu konsultacji pomysłów i projektów związanych z dostosowaniem systemu POL-on do potrzeb nowej kategoryzacji za lata 2013-2016. Prosimy o jej nierozpowszechnianie szerszemu gronu odbiorców.

Sposoby na wprowadzenie danych do ankiety w sposób masowy

Z uwagi na duży zakres danych potrzebnych do wprowadzenia do systemu z okresu czterech lat branych pod uwagę do kategoryzacji oraz stosunkowo krótki czas na ich wprowadzenie, biorąc pod uwagę brak uchwalenia na chwilę obecną obowiązującej wersji rozporządzenia, wychodzimy z założenia, iż w procesie uzupełniania danych na potrzeby kategoryzacji kluczową rolę będą odgrywały rozwiązania bazujące na masowym ich wprowadzaniu z plików zewnętrznych. Dodatkową zaletą takiego scenariusza uzupełniania danych jest możliwość zebrania wielu rozproszonych informacji od wielu osób, które nie posiadają kont w systemie, ich weryfikację i następne wgranie przy pomocy jednorazowej masowej operacji.

Planujemy stworzenie rozwiązania, które będzie skierowane do pracowników administracyjnych jednostek dysponujących odpowiednią wiedzą merytoryczną do analizy i weryfikacji danych, lecz nie korzystających z narzędzi typu pliki XML lub usługi sieciowe do ich masowej rejestracji w bazie POL-on. Zakładamy jednak odpowiednią wprawę w posługiwaniu się plikami arkuszy kalkulacyjnych (np. ms excel, open office itp.). Takie rozwiązanie polegało by w uproszczeniu na realizacji scenariusza składającego się z czterech kroków:

  1. Pobrania pliku szablonu z odpowiedniej części ankiety jednostki dostępnej w systemie POL-on;
  2. Uzupełnieniu odpowiednich danych w dostępnych kolumnach, bez możliwości zmiany struktury pliku (szablon będzie zablokowany w zakresie modyfikacji kolumn i w niektórych przypadkach wierszy, tylko w wyznaczonych obszarach istniała by możliwość edycji komórek);
  3. Wgrania pliku do systemu przy zapewnieniu odpowiedniej walidacji;
  4. Możliwość eksportu, weryfikacji i iteracyjnego wykonywania scenariusza do momentu uzyskania w pełni wiarygodnych wyników.

Szczegółowe przypadki użycia przedstawione zostaną w kolejnym akapicie.

Masowe zasilenie systemu przy pomocy plików arkuszy kalkulacyjnych

Scenariusz pobrania i uzupełnienia danych w sposób masowy przy pomocy plików arkuszy kalkulacyjnych stanowi uzupełnienie dostępnych interfejsów masowego wprowadzania danych (REST API, XML) dla osób nie dysponujących odpowiednimi narzędziami informatycznymi do ich przygotowania. Jego użycie nie jest planowane jako zastąpienie operacji dostępnych z poziomu masowego importu plików XML. Nie będzie możliwie chociażby dodawanie lub usuwanie danych o pracownikach naukowych, oświadczeniach o zaliczeniu do liczby N, edycji danych osobowych itp. Planujemy jego udostępnienie w pierwszej kolejności do rozdziałów ankiety, które nie znajdują się w obecnej wersji systemu POL-on i będą zbierane wyłącznie pod kątem kategoryzacji takich jak np. dzieła architektoniczne, aplikacje produktu itp. Dodatkowo jego użycie przewidywane jest w obszarach, gdzie konieczne jest uzupełnienie pewnego zestawu danych rozszerzających obecne rejestry systemu POL-on jak np. dodanie informacji o członkostwie oraz mobilności pracowników naukowych. Do realizacji tej operacji wystarczy pobrać z systemu odpowiedni arkusz z zestawem danych identyfikujących pracowników w ramach danej jednostki w okresie objętym parametryzacją, a następnie uzupełnić dane uzupełniające na potrzeby ankiety (takie jak np. mobilność, członkostwo itp.) i wgrać je ponownie do systemu.

Przykładowy plik arkusza do importu danych w ramach działu 5 ankiety: dzieła achitektoniczne

Prosimy o zwrócenie uwagi na puste komórki w kolejnych wierszach pliku. W kolejnym akapicie znajduje się wyjaśnienie.

Problem z obsługą danych relacyjnych

Problemem w przygotowaniu i odpowiedniej obsłudze plików arkuszy na potrzeby importu masowego jest konieczność odwzorowania pewnych relacji, które występują pomiędzy powiązanymi rekordami. Dla przykładu w obszarze danych o dziełach architektonicznych jednostki trzeba przekazać równocześnie do systemu informację o ich miejscu realizacji oraz powiązanych autorach. Te dane bardzo często powielają się dla jednego dzieła, czyli występują w relacji 1:N. Ten problem można by obsłużyć rozbijając plik na trzy oddzielne arkusze lub dopuścić powielanie się informacji w wierszach. Oba rozwiązania bardzo skomplikowałyby jednak pracę z danymi i zwiększyły ryzyko ich niespójności i powielania, które później było by trudne do skorygowania w systemie.

Dlatego chcieliśmy zaproponować poniższe rozwiązanie, polegające w skrócie na założeniu, że dla wielu powiązanych rekordów (np. miejsca albo autorów) do jednego dzieła wystarczy dodać odpowiednie wiersze bez konieczności powielania powtarzających się danych np.:

Wyjaśnienia dotyczące prezentowanego przykładu

  1. Plik zawiera w jednym arkuszu zgrupowane wszystkie powiązane obiekty opisujące dane dzieł architektonicznych (dzieła architektoniczne, miejsce realizacji, autorzy);
  2. Pusty wiersz należy interpretować jako powielenie informacji z wiersza powyżej. W przedstawionym przykładzie dla dzieła architektonicznego z wiersza pierwszego, dla którego jedynym miejscem realizacji jest Paryż, nastąpi powiązanie dla dwóch autorów;
  3. W przedstawionym przykładzie mamy do czynienia z relacją, gdy do jednego dzieła architektonicznego dodawane są trzy oddzielne miejsca realizacji oraz trzej jego autorzy;
  4. Po wgraniu do systemu identyfikator z pliku (wpisany dowolnie przez użytkownika przy zachowaniu jego unikalności na poziomie całego pliku) będzie zastępowany identyfikatorem systemowym POL-on tzw. UID. Plik można wielokrotnie eksportować, uzupełniać i ponownie wgrywać w celu wykonania edycji masowej danych w bazie
  5. Operacja usunięcia będzie polegała na wyeksportowaniu pliku z nadanym identyfikatorem UID i usunięciu pozostałych danych z wiersza

Edycja i usuwanie danych

W ramach importu plików z arkuszy kalkulacyjnych przewidujemy trzy typy operacji:

  • Zastąpienie stanu bazy zawartością pliku w sposób całkowity w obrębie określonego działu ankiety. Przed wgraniem pliku dotychczasowe dane byłyby usuwane, a następnie na ich miejsce wstawiane były by rekordy z pliku;
  • Aktualizacja danych uzupełniających - dla niektórych importów nie była by dostępna możliwość wykonywania operacji usuwania lub dodawania rekordów nadrzędnych. Dotyczy to przede wszystkim informacji powiązanych z pracownikiem (np. mobilność, członkostwa). W tym scenariuszu plik musiałby zawierać pełny zestaw danych pracowników branych pod uwagę do kategoryzacji a pozostałe sekcje dotyczące np. mobilności lub członkostw byłyby aktualizowane wybranymi pozycjami z komórek akrusza;
  • Edycja, dodawanie i usuwanie w sposób selektywny. Ten scenariusz jest najbardziej kłopotliwy do realizacji i najtrudniejszy do wyjaśnienia, dlatego został bardziej szczegółowo opisany w poniższym akapicie.

Deklarowanie wybranych operacji w pliku importu

Dla bardziej zaawansowanych, wykonywanych częściowo operacji poprzez plik niezbędne jest jednoznaczne identyfikowanie odpowiednich rekordów systemu. Do tego celu konieczne będzie pobranie odpowiedniego szablonu zawierającego obok zestawu danych kolumn z identyfikatorami POL-on (tzw.UID) oraz kolumną, gdzie zadeklarowany będzie bezpośrednio typ wykonywanej operacji (usuń lub edytuj).

Proszę się nie przejmować wyglądem UID. Te pola będą zablokowane przed jakąkolwiek edycją. Nie będziecie musieli się Państwo w żaden sposób nimi posługiwać w sposób bezpośredni :-)

Wyjaśnienia dotyczące prezentowanego przykładu

  1. Dla danego rekordu trzeba będzie określić typ wykonywanej operacji: edytuj lub usuń;
  2. Wyeksportowany plik zawiera identyfikatory systemu POL-on wszystkich obiektów występujących w pliku (tzw. UI). Pola te nie mogą być edytowane/usuwane. Tylko w ten sposób można jednoznacznie zidentyfikować określony rekord w bazie i wykonać na nim deklarowaną operację.
  3. Po zdeklarowaniu typu operacji dla wyeksportowanych danych i znalezieniu odpowiedniego rekordu w pliku można dokonać na nim modyfikacji wybranego pola. W prezentowanym przykładzie wprowadzono zmianę nazwiska dla jednego z autorów dzieła architektonicznego;

Masowe wgrywanie załączników

Poprzez zapisy rozporządzenia o kategoryzacji wprowadzano obowiązek dołączania do ankiety skanów dokumentów. Dla dużych jednostek naukowych dołączanie kopii tak szerokiego zakresu dokumentacji będzie bardzo dużym obciążeniem. W przypadku pozostawienia tego zapisu przewidujemy możliwość udostępnienia odpowiedniego mechanizmu do wgrywania plików w sposób masowy.

Mechanizm importu załączników jest obecnie projektowany. Szczegóły rozwiązania zostaną zaprezentowane na późniejszym etapie

Zakres skanów jest określony np. w załączniku 1 do ankiety część B4 w projekcie rozporządzenia: Do ankiety należy dołączyć skany następujących dokumentów:

  1. potwierdzających uzyskanie patentu lub prawa ochronnego
  2. umowy wdrożeniowej z użytkownikiem wynalazku
  3. umowy dotyczącej zastosowania praw ochronnych lub praw autorskich

Web services REST API

Dla części działów ankiety, których edycja będzie wymagała masowego uzupełnienia przewidywane jest udostępnienie odpowiednich usług sieciowych w ramach rozwijanego API w technologi REST dla systemu POL-on. Niektóre działy nie będą jednak obsługiwane przy pomocy tego interfejsu z uwagi na fakt, iż ich synchronizacja nie jest wymagana w sposób ciągły, a jedynie raz na cztery lata i wymagają one bardzo dokładnej ręcznej weryfikacji. Dla takich działów jak np. dzieła architektoniczne wystarczającym rozwiązaniem wydaje się dostarczenie odpowiednich operacji importu z pliku (w tym przypadku arkuszy kalkulacyjnych).

http://polon-test.opi.org.pl/api-rest/

Import masowy plików XML

Systemy POL-on, PBN wyposażone są w mechanizmy importu danych z plików XML w zakresie:

  • Danych o pracownikach (w tym oświadczeniach o zaliczeniu do liczby N, dziedzin/dyscyplin itd.);
  • Publikacji

Synchronizacja z innych systemów

Istnieją również operacje synchronizacji danych z zewnętrznych repozytoriów instytucji zajmujących się przyznawaniem środków na projekty naukowe takie NCN, NCBiR lub repozytoriów zawierających dane o publikacjach:

  • synchronizacja z OSF w zakresie danych pochodzących z baz NCN i NCBiR;
  • synchronizacja danych o projektach naukowych z bazy NCBiR;
  • dane o publikacjach na potrzeby ankiety jednostki pobierane będą z systemu PBN;
  • w systemie PBN prowadzone są prace w zakresie integracji z systemem Web of Science w zakresie danych publikacji;

Przykładowe zastosowanie wybranych mechanizmów w poszczególnych działach ankiety

Import XML Import XLS API REST Integracja z systemem zewnętrznym
A. DANE PODSTAWOWE
1. Dane jednostki naukowej
2. Informacja o Kierowniku jednostki naukowej
3. Informacja o przeprowadzeniu w jednostce naukowej obowiązkowego zewnętrznego audytu
4. Wniosek o przyznanie kategorii naukowej
B. DANE KOMPLEKSOWEJ OCENY DZIAŁALNOŚCI JEDNOSTKI NAUKOWEJ
1. Zatrudnienie przy realizacji badań naukowych lub prac rozwojowych
3. Publikacje i monografie naukowe 1)
4. Działalność innowacyjna
5. Dzieła artystyczne
6. Dzieła architektoniczne lub wzornicze (w grupie nauk ścisłych i inżynierskich)
7. Dzieła architektoniczne lub wzornicze (w grupie nauk o życiu)
8. Uprawnienia do nadawania stopni naukowych oraz stopni w zakresie sztuki
9. Rozwój kadry naukowej
10. Mobilność naukowców
11. Międzynarodowe i krajowe projekty obejmujące badania naukowe lub prace rozwojowe 2)
12. członkostwo we władzach oraz pełnione funkcje w zagranicznych lub międzynarodowych towarzystwach, organizacjach i instytucjach naukowych, pełnione funkcje redaktora naczelnego czasopisma naukowego znajdującego się na liście JCR oraz członkostwo w zespołach eksperckich
13. Laboratoria badawcze z poświadczeniem uprawnień i wdrożone międzynarodowe systemy jakości
14. Udział w tworzeniu strategicznej infrastruktury
15. Praktyczne efekty badań naukowych lub prac rozwojowych oraz twórczości artystycznej
16. Informacja o najważniejszych osiągnięciach jednostki w okresie, którego dotyczy ankieta w zakresie pozostałych efektów działalności naukowej lub działalności w zakresie sztuki
17. Wykaz wydawanych przez jednostkę naukową czasopism naukowych znajdujących się w części A lub C wykazu Ministra, o których mowa w § 14 ust. 2 pkt 1 i 3 rozporządzenia
18. Wdrożenia wyników badań naukowych lub prac rozwojowych
19. Aplikacje wyników badań naukowych lub prac rozwojowych dokonane przez inne podmioty
20. Informacja o osobie odpowiedzialnej za sporządzenie ankiety
1)
baza PBN
2)
System OSF

Komentarze i uwagi

, 2016/09/09 11:48
Bardzo dziękuję za uwagi.
Faktycznie określenie "szablon" w stosunku do arkusza, który będzie służył do częściowej edycji nie jest najbardziej adekwatne.
Potwierdzam Pańskie przypuszczenia - wypełniony częściowo plik z danymi pracowników (w tym UID) trzeba będzie pobrać i uzupełnić wyłącznie w komórkach, które będą stanowiły rozwinięcie jakichś dodatkowych informacji na ich temat (tak jak to zostało zaprezentowane na pierwszym schemacie widocznym na stronie). Spróbuję dopisać osobny akapit pełniej to egzemplifikujący, do którego załączę odpowiedni "wzór" pliku, jak tylko doprecyzujemy wewnętrznie jego zakres.
, 2016/09/08 11:06
Przedstawiona propozycja wydaje się bardzo sensowna i nieskomplikowana. Rozumiem, że jeśli chodzi o dane, których w ogóle nie ma w POLON, będą miały zastosowanie puste, prostsze szablony xls. To, jak i edycja i usuwanie danych jest dobrze i jasno opisane. Natomiast dla danych, które wymagają częściowego uzupełnienia (do tego co już jest w POLON), będą stosowane arkusze xls z funkcjami edycji. Wydaje się, że w opisie tych arkuszy nie powinno stosować się słowa "szablon", bo spodziewam się (czy słusznie?), że najpierw należy te arkusze POBRAĆ z systemu już wstępnie wypełnione naszymi danymi i UID. Czyli jakiś plik xls, ale nieszablonowy, bo wypełniony już częściowo naszymi danymi. Czy tak właśnie będzie? I jeśli tak, to czy dane poprane z POLON będą się znajdować w pliku (np. w celu identyfikacji rekordu)? Rozumiem też, że jeśli dane z POLON będą w tym pobranym pliku xls, to będą one zablokowane do edycji, bo korektom czy usuwaniu będą podlegały tylko dane wpisane ręcznie w pliku. Proszę o potwierdzenie.
Pozdrawiam,
Błażej Feret
Wpisz swój komentarz: