Informace o publikaci

Archiv českého webu v roce 3

Autoři	ŽABIČKA Petr
Rok publikování	2002
Druh	Článek v odborném periodiku
Časopis / Zdroj	Národní knihovna - knihovnická revue
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Dokumentace, knihovnictví, práce s informacemi
Klíčová slova	Web archiving; resource selection; long-term preservation
Popis	Projekt Webarchiv vznikl v roce 2000 jako projekt výzkumu a vývoje řešený Národní knihovnou. Jeho hlavním cílem bylo prozkoumání problematiky spojené s "registrací, ochranou a zpřístupnění domácích elektronických zdrojů v síti Internet". Do konce roku 2001 zprovoznil řešitelský tým zkušební infrastrukturu pro získávání elektronických zdrojů a pro podporu tvorby metadat. Použité softwarové nástroje (především Dublin Core Metadata Generator a NEDLIB Harvester) byly původně vyvinuty v rámci projektu NEDLIB a po vyzkoušení byly upraveny upraveny podle potřeb projektu Webarchiv. Ačkoli právní problematika týkající se sběru a archivace elektronických zdrojů Národní knihovnou není zatím vyjasněna, byla v letošním dubnu započata úplná sklizeň domény .cz. Kritéria omezující tuto sklizeň byla nastavena tak volně, aby byl pokryt co největší úsek českého webu. Po třech měsících tak Harvester stáhl a zaarchivoval přes 10 milionů (0,25 TB) dokumentů z přibližně 30.000 domén druhé úrovně. V blízké budoucnosti bude tato infrastruktura vyvinuta a vylepšena tak, aby bylo sklízení rychlejší a ještě spolehlivější než dnes. Zároveň budou nasazené programové nástroje upraveny tak, aby dokonaleji zapadaly do celkové infrastruktury Národní knihovny. Dalším úkolem řešitelského týmu pak bude hledání cest pro zpřístupnění vytvořeneého archivu veřejnosti. Je možné, že tato část projektu již bude řešena s podporou 6. rámcového programu Evropské unie pod hlavičkou projektu "European Web Archive".
Související projekty:	Digitální knihovny