Transformace digitálních prostorových dat pro účely trvalého uložení v digitálním archivu
Tento projekt je financován se státní podporou Technologické agentury ČR v rámci Programu Éta . Výzkum užitečný pro společnost |
Certifikovaná metodika MV ČR, Metodický návod 3/2022 (mvcr.cz, 2020-2022)
Metodikou doporučené datové formáty jsou v souladu s Národním standardem formátů pro archivaci (platný od 6. 6. 2023 v rámci Národního architektonického plánu)
Prostorová data
Pojmem prostorová data (nebo též geografická data/informace, geoinformace, geoprostorová data/informace, geodata,; angl.. spatial data/information, geospatial data/information, georeferenced data/information; něm. Räumliche Daten, Geodaten, Geographischen Daten ) chápeme „Informace týkající se jevů implicitně nebo explicitně přidružených k místu vztaženému k Zemi. Zahrnuje údaje týkající se vzhledu těchto jevů, zejména jejich časoprostorové charakteristiky (popis polohy, geometrického tvaru a topologických vztahů), doplněné popisnými údaji s kvalitativními a kvantitativními charakteristikami. Nejčastějšími typy prostorově vztažených a reprezentovaných jevů jsou geometrické, příp. objemové objekty, geografické objekty a oblasti a astronomické objekty (nebeská tělesa). Jev může být modelován (zobrazen) bodem, křivkou, plochou nebo prostorovým tělesem. Prostorovou identifikaci objektů umožňují souřadnice, tj. soubor čísel určujících přímou lokalizaci bodu a topologie, tj. vztah k poloze jiných objektů.“1 Jan Kolář jako prostorová data označuje: „…údaje, jejichž výskyt či platnost je možné přiřadit určitému místu v prostoru. Pro prostorové informace následně získané z těchto dat obdobně platí, že jsou polohově vázána neboli lokalizována k určitému místu. Je-li pak toto místo speciálně na zemském povrchu nebo v jeho blízkosti, nazývají se příslušná prostorová data geografická data a informace z nich získané geografické informace.“2
Prostorová data jsou využívány k poznávání minulosti, současnosti a modelování budoucnosti. Zpravidla jsou určena geometrickým objektem a prostorovými vztahy s okolím (topologií), dále jsou založena na ortofotografiích, satelitních snímcích, snímcích z dronů, na databázích obsahujících informace o zeměpisné délce a šířce nebo také adresních bodech. Geografické informační systémy nám pak umožňují takováto data zpracovávat a získávat z nich geografické informace.
Nejčastěji se prostorová data dělí na vektorové a rastrové datové modely. Pro práci s prostorovými daty je využívána široká škála geografických informačních systémů, které umožňují jejich tvorbu, lokalizaci, úpravy, vyhodnocování a prezentaci.
Geografický informační systém/GIS
Geografický informační systém3 (dále jen „GIS“; angl. geographic information system, něm. Geographisch Informationssystem, Räumlich Informationssystem) je počítačový informační systém, který umožňuje ukládat, spravovat a analyzovat geografická data a informace.
První geografický informační systém vyvinul v roce 1963 geograf Roger Tomlinson pro kanadskou vládu za účelem dohledu a správy nad přírodními zdroji. K již dříve digitalizovaným mapám se mu podařilo připojit počítačový systém, díky kterému šlo získávat a analyzovat lokalizovaná data. Tak byl de facto vytvořen koncept GIS, který je založen na propojení geografických entit a jejich vlastností, tzv. atributů (popisných dat).4
Původně tyto systémy sloužily kartografům k vytváření map, ale s postupující digitalizací se rozšířily do mnoha sektorů a jsou využívány k analýzám a práci s daty. Dnes je nalézáme v centrální státní správě, v samosprávě, na univerzitách, ve vědecko-výzkumných ústavech a samozřejmě v soukromém sektoru.
Geodata a možnosti jejich trvalého uložení
Celosvětově byla již od počátku patrná snaha postihnout možnosti uchování prostorových dat pro příští generace5 a zároveň byla identifikována základní úskalí, která plynou z jejich charakteristik:
- jedná se o komplexní a specifický typ digitálních dat
- použití složitých a rozmanitých datových formátů, z nichž většina je proprietárních a tedy i nevhodných pro trvalé ukládání
- dynamičnost a pomíjivost dat
- standardy pro geoprostorová metadata byly definovány jak na národní, tak na mezinárodní úrovni, přesto se metadata často od dat oddělují, nebo jsou nesprávná nebo nestandardní povahy
- při uchovávání prostorových dat je třeba zahrnout souřadnicové referenční systémy, kartografické reprezentace, topologii, soubory projektu a strukturu dat
- pokrývají širokou škálu datových struktur (vektorové a rastrové datové modely; nestrukturované a topologické; domény diskrétní i spojité; formáty podporují různé podmnožiny a aspekty datové struktury). Nelze tedy hovořit o „prostorových datech“ jako o jednom druhu informací, které lze všechny zvládnout stejnými aplikacemi a formáty.
- prostorová data je možné zpracovávat na různých prostorových úrovních, data lze agregovat a členit, přitom každá z úrovní má své použití. Výběr úrovně prostorových dat může být jedním z kroků v procesu uchování dat
- jejich objem neustále roste
- masivně se využívají se od 90. let 20. st., cenné mohou být informace i z letitých GIS systémů
Aby mohla být taková data předávána k trvalému uložení s perspektivou jejich budoucí dostupnosti a využitelnosti, je vhodné, aby byl v maximální možné míře zachován jejich technický a sociální kontext, aby byla logicky strukturována, dostatečně popsána příslušnými metadaty a doplněna nezbytnou dokumentací. Uložení objektů ve standardizované adresářové struktuře umožňuje kromě jiného i datovou a strukturální validaci dat.
Data by dále měla být předávána v datových formátech vhodných pro trvalé uchování. Takovými formáty jsou formáty, které jsou dobře zdokumentovány, jejich zdrojové kódy jsou volně dostupné nebo formáty, které jsou lidsky čitelné, příp. jsou u nich známé a snadno dostupné migrační strategie s co nejmenším rizikem datové ztráty.
Z podstaty prostorových dat a GIS dále plyne, že často nelze jejich výběr provádět plošně automatizovaným způsobem a je třeba vyhodnocovat vhodnou strategii trvalého uchovávání případ od případu. Tam, kde je to možné, je žádoucí začlenit postupy výběru a předávání archiválií do životního cyklu dat.
1 Citováno z https://aleph.nkp.cz/F/?func=direct&doc_number=000000397&local_base=KTD, zdroj ČSN EN ISO 19101-1. Geografická informace – Referenční model. Část 1: základy. Praha: Úřad pro technickou normalizaci, metrologii a státní zkušebnictví, leden 2018, str. 48.
2 KOLÁŘ, Jan: Geografické informační systémy 10, Praha, ČVUT, 2003, str. 10-11; dále např. ŠTYCH, Přemysl a kol.: Vybrané funkce geoinformačních systémů, CITT Praha, Akademie kosmických technologií, Oblast Galileo, GMES, z podpory ESF, MPSV, Praha 2008, str. 10-12.
4 https://www.britannica.com/technology/GIS
5 https://www.dpconline.org/docs/technology-watch-reports/2265-twr-09-01-gis-mcgarva/file
Datový balíček a předání k trvalému uložení
Datový balíček GeoSIP
Datasety se ukládají v rámci jednoho balíčku SIP vždy do adresáře /nazev_datasetu do podadresáře /representations ve struktuře popsané detailně v rámci kapitoly 4 metodiky a vzorových příkladů. Adresářová struktura je strojově kontrolována vůči souboru mets.xml a zpravidla obsahuje následující datové objekty v různých formátech.
Rastrový model dat
Rastrová data zachycují hodnoty sledovaných jevů v konkrétních lokalitách. Na rozdíl od vektorových modelů, objekty jako takové neexistují, je pouze zaznamenán atribut v konkrétní poloze. Tyto informace jsou ukládány do polí mřížky (tzv. pixely), které jako celek tvoří obraz. Rastrové modely se využívají pro zobrazení veličin jako např. srážky, teplota, vegetace, typy půd atd. ve sledovaném prostoru.
Pro rastrové modely je důležitá volba vhodného formátu, který v dostatečné míře dochová kvalitu barevné škály. Z výstupních formátů dle Zákona lze využít, kterýkoliv z formátů zveřejněných v § 23 čl. odst. 3 vyhlášky č. 259/2012 v aktuálním znění a doplnit ho potřebnými informacemi o souřadnicích pokud nejsou přímo jeho součástí. Většina rastrových formátů je dobře dokumentovaná, softwarové nástroje jsou dostupné, proto většina problémů vzniká při ukládání proprietárních formátů a vlastností obrázků. 1
Pokud byl pro tvorbu rastrového modelu použit jakýkoliv mapový podklad, je naprosto zásadní, aby i tento podklad byl dalším objektem trvalého uložení a součástí předávaného datasetu.
Vektorový model dat
Vektorové objekty jsou sestavou geometrických elementů reprezentující objekty reálného světa jako prvky, které jsou reprezentovány body, liniemi a polygony. 2 Tyto objekty vyplňují prostor, zatímco okolní prostor není definován. Vlastnosti těchto geometrických prvků, tzv. atributy, jsou s prvky provázány v podobě popisných dat. Vektorový datový model se v systémech GIS dále dělí na 1. Špagetový model, 2. Hierarchický model a 3. Topologický model.3
Ačkoliv se jedná nejčastěji o tabulku nebo o sestavy tabulek s daty a datovými typy, které popisují prostorové objekty, není ve většině případů možný snadný export takové tabulky např. do souboru CSV. To je dáno přítomností informací o poloze objektů (polohových dat). Pro export ze systémů GIS je proto nutné využít vhodné formáty, zejména GML, OGC GeoPackage aj., aby nedošlo k datové ztrátě, a tak k nevratnému poškození prostorových dat. 3
Pokud byl pro tvorbu vektorového modelu použit jakýkoliv mapový podklad, je naprosto zásadní, aby i tento podklad byl dalším objektem trvalého uložení a součástí předávaného datasetu.
Prostorová metadata/geometadata 4
Prostorová data jsou v balíčku dokumentována ve formě prostorových metadat, která obsahují běžné popisy dat a také popisy specifické pro prostorová data (přesnost, počet řádků, měřítko, měrné jednotky, informace o souřadnicovém systému atd.). Jedná se o metadata, která vytváří původce k bližšímu popisu vytvořeného datasetu. V původních systémech lze geoprostorová metadata ukládat různými způsoby (databáze, standardizované soubory .xml, běžná dokumentace atd.).
Metadata jsou obsažena buď na úrovni celého balíčku, nebo pro konkrétní reprezentaci, podle potřeby původce dat. Do datového balíčku GeoSIP by měla být přidána ve strojově čitelném formátu (např. .xml) do adresáře /Metadata/Descriptive pro celý balíček nebo adresáři Representation/Rep…/Data/Metadata/Descriptive pokud jsou spefická pro jednotlivou reprezentaci.
Dataset předaný k trvalému uložení bude dále detailněji popsán vytěžením přiložených metadat jak je naznačeno na obrázku 3, a to dle vypracovaného mapování prostorových metadat do archivního standardu Encoded Archival Description 5 v příloze č. 6 metodiky, aby archivní popis byl v souladu s Metodickým pokynem č. 2/2020 pro evidenci a zpřístupňování map v archivech České republiky.6
Souřadnicových systémů existuje v geoinformatice velké množství, přičemž každý z nich se různou měrou hodí pro práci v různých měřítkách a na různých územích v závislosti na tom, jaké referenční těleso a případně kartografické zobrazení používá. Pro Českou republiku jsou závazné následující systémy: S-JTSK,7 dále systém ETRS8 pro území členských států Evropské Unie, dále se lze setkat se souřadnicovým systémem WGS9, který zahrnuje celý svět a také se systémem S-1942.10 Kromě těchto závazných systémů existuje i velké množství jiných systémů,11 které nástroje pro práci s prostorovými daty umí vzájemně migrovat.
Některé formáty geoprostorových dat (rastrové i vektorové) přímo obsahují informace o souřadnicovém referenčním systému, ze kterého datová sada vychází, buď vložený jako součást samotného souboru (např. GeoTIFF) nebo jako další, samostatný soubor (např. „.prj“ jako součást ESRI Shapefile). Rizikové jsou varianty, kdy formát souřadnicové informace neobsahuje (např.TIFF image file) a jsou obsaženy v samostatném souboru (např. TIFF World File – TFW). Proto je vhodné, aby tyto informace byly zahrnuty v metadatech datové sady. Dle specifikace jsou uložena v podadresáři /documentation/CRS.12
Nepovinný podadresář /Other je vyhrazen pro jakoukoli jinou, nestandardizovanou, strojově nebo lidsky čitelnou dokumentaci obsahující kontextové informace, jako jsou soubory projekt_zprava.pdf, projekt_rozhovor.mp3. Tento adresář je doporučený.
Souřadnicové referenční systémy
Jedná se o matematická pravidla, která umožňují ke každé hodnotě souřadnic přiřadit polohu objektu a naopak – souřadnicový systém (coordinate reference systém – CRS). Znalost souřadnicového referenčního systému je důležitá pro přesné použití geoprostorových dat. Řídí se normou ČSN 19111 (979830) Geografická informace – Vyjádření prostorových referencí souřadnicemi.
GIS (data Geografického informačního systému)
Podadresář GIS náleží do adresáře s datovými reprezentacemi a původce/archivář ho vytváří v případě archivace kompletního nebo i několika částí systému GIS. V takovém případě je zcela klíčová podrobná dokumentace, která se ukládá do vlastního podadresáře /documentation. Podadresář dokumentace obsahuje především seznam datasetů spravovaných v GIS, zjednodušenou vizualizaci případně více vizualizací dat, které datový balíček obsahuje, a vzorky výstupů, které bylo možné ze systému GIS získat.
Podadresář /metadata by měl obsahovat datový model, informace o relacích objektů, popisy vrstev, vlastnosti vrstev, souřadnicové transformace, popisky prostorových objektů, dotazy (queries), kterými jsou objekty propojeny s tabulkovými daty a popis tvorby výstupů, které bylo možné ze systému GIS získat. Dále do tohoto podadresáře náleží potřebná metadata pro obnovení funkčnosti systému GIS.
Podadresář /data je doporučeno hlouběji strukturovat, aby byla zachována logická struktura dat archivovaného systému. Vhodným příkladem je např. struktura v rámci adresáře s reprezentací prostorových dat, která je strukturována dle typů dat a podadresáře jsou nazvány dle mimetype objektů v nich uložených. Schéma pro data obsahuje obrázek 6.
Databáze a tabulková data
Jako databázi označujeme strukturovanou, ale i nestrukturovanou sestavu dat v počítačové podobě, která může být uložena v jediném nebo více počítačích, ale dostupná různými způsoby.13 V oblasti prostorových dat se prakticky výhradně využívají databáze pro strukturovaná data a jsou de facto analytickým jádrem systémů GIS.
Pro práci s prostorovými daty lze využít širokou škálu databázových prostředí, z nichž mnohá jsou dostupná jako open source software a pro specifickou práci s prostorovými daty je stačí doplnit vhodným rozšířením (plug-in). V České republice je hojně využíváno prostředí PostgreSQL+PostGIS, Oracle-Spatial, ale v podstatě všechny běžně využívané relační databáze lze vybavit rozšířením a využít je pro práci s prostorovými daty.
V případě malých jednoduchých datasetů lze předpokládat, že nebude třeba uložení rozsáhlého systému dat a bude zcela dostatečné exportovat datové sestavy v podobě souborů CSV, tedy postup, který se běžně využívá pro datové migrace. Tabulkové sestavy je však nutné řádně validovat a ověřit, zda bylo využito kódování v široce využívaném standardu UTF-8. Na datovém příjmu bude datová validita tabulkových dat vždy kontrolována. Vzhledem k očekávané datové obnově a interoperabilitě v dlouhodobém horizontu, je datová validita zcela kardinální požadavek.
1 Upozorňujeme je na možnou ztrátovost formátu JPEG, srv. Příloha č. 10 metodiky (Katalog formátů) JPEG (Joint Photographic Experts Group Interchange Format) a JPEG 2000 (Joint Photographic Experts Group 2000); https://knihovnarevue.nkp.cz/archiv/2020-2/recenzovane-prispevky/posuzovani-souborovych-formatu-z-hlediska-dlouhodobeho-uchovavani-a-navrh-metodiky-pro-narodni-knihovnu-ceske-republiky
2 Používány jsou také ekvivalentní termíny: tečka, úsečka a plocha
3 ŠTYCH, Přemysl a kol.: Vybrané funkce geoinformačních systémů, CITT Praha, Akademie kosmických technologií, Oblast Galileo, GMES, z podpory ESF, MPSV, Praha 2008, str. 10-12.
4 Specification for digital geospatial data records archiving, verze 3.0.0 z 31. 8. 2021, dostupné z https://github.com/DILCISBoard/CITS-Geospatial.git;
5 Legislativa EU – Národní geoportál INSPIRE (gov.cz) https://geoportal.gov.cz/web/guest/legislativa-eu
8 S-JTSK je závazným geodetickým referenčním systémem na území ČR dle nařízení vlády č. 430/2006 Sb. v platném znění.
9 ETRS je závazným geodetickým referenčním systémem na území ČR dle nařízení vlády č. 430/2006 Sb. v platném znění, a dále závazným souřadnicovým referenčním systémem na území EU dle směrnice INSPIRE.
10 WGS84 je závazným geodetickým referenčním systémem na území ČR dle nařízení vlády č. 430/2006 Sb. v platném znění.
11 S-42/83 je závazným geodetickým referenčním systémem na území ČR dle nařízení vlády č. 430/2006 Sb. v platném znění.
13 Srv. poznámka. 27 a Specification for digital geospatial data records archiving, verze 3.0.0 z 31. 8. 2021, dostupné z CITS-Geospatial/CITS_Geospatial_v3.pdf at master · DILCISBoard/CITS-Geospatial · GitHub, str. 26
14 SIARD, možnost archivace relačních databází, Rechtorik, M. in Archivní časopis 2/2020, str. 128-154
Předání prostorových dat digitánímu archivu
Původce (tvůrce, vlastník) dat nejprve osloví příslušný archiv, kterému nabídne data k výběru archiválií s jejich popisem. Popis nabízeného datasetu musí vždy obsahovat: Název, stručný popis obsahu, časový rozsah, druh systému, z kterého byl/bude export proveden, formát/y souborů v datasetu. Archiv na základě popisu a další komunikace s původcem určí data k uložení do archivu a dohodne s původcem podrobnosti exportu, způsob předání dat k výběru či přímo k uložení do digitálního archivu, tj. která data budou vybrána, v jaké struktuře je lze připravit, v jakých formátech mají být předána.
Nejvhodnějším způsobem je příprava dat v podobě GeoSIP balíčku
Pokud se jedná o data, která jsou průběžně aktualizovaná, je vhodné určit vhodnou periodicitu předávání datasetů. Např. nový legislativní předpis, nové technologické zpracování, zásadní změny ve sledované oblasti atd.
Po ukončení výběru archiválií archiv vyhotoví protokol o výběru archiválií.
- Původce provede export dat podle dohodnuté strategie. Buď vytvoří datové balíčky GeoSIP, strukturu EARK_Geospatial nebo připraví data pro předání ve formě volných souborů (srv. bod 4.3 metodiky). Zároveň podle domluvy provede převod formátů dle platných formátových pravidel NA.
Předává-li původce data ve formě GeoSIP balíčků, je doporučeno provést datovou validaci např. zpětným importem nebo jiným nástrojem.
- Digitální dokumenty a data se předávají k uložení v národním digitálním archivu prostřednictvím Národního archivního portálu. Archivář připraví prostor pro nahrání dat, příp. pro jejich opatření metadaty a původce data nahraje.
- Následně archivář provede zařazení do archivního souboru a data jsou uložena v LTP systému digitálního archivu.
- Po předání k trvalému uložení vyhotoví archiv úřední záznam o předání archiválií, kterým se stvrzuje, že dataset byl vybrán za archiválii a uložen do digitálního archivu. Součástí záznamu je jednoznačný identifikátor AIP. Datová autenticita, integrita a důvěryhodnost je zajištěna systémem digitálního archivu.
Dalším případem může být situace, že příslušný archiv osloví veřejnoprávního původce, a poté je ve vzájemné spolupráci proveden výběr a předání archiválií.
Tvorba datového balíčku GeoSIP
Původce dat využije speciálního nástroje ArchiGIS (nyní v přípravě), pokud dataset není zveřejněn ke stažení nebo je nabízen/zveřejněn službou, pak provede export z jím používaného systému GIS do doporučených formátů.
Pokud původce z vážných důvodů nemůže využít nástroje ArchiGIS, potom využije univerzální Výběr z volných souborů (dále jen VzVS). Do VzVS se dataset obsahující prostorová data vždy nahrává v povinné adresářové struktuře, která je naplněna exportovanými daty v doporučených formátech (podrobněj viz metodika, kapitola 4).