Informace o publikaci

Archiv českého webu v roce 3

Autoři

ŽABIČKA Petr

Rok publikování 2002
Druh Článek v odborném periodiku
Časopis / Zdroj Národní knihovna - knihovnická revue
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Dokumentace, knihovnictví, práce s informacemi
Klíčová slova Web archiving; resource selection; long-term preservation
Popis Projekt Webarchiv vznikl v roce 2000 jako projekt výzkumu a vývoje řešený Národní knihovnou. Jeho hlavním cílem bylo prozkoumání problematiky spojené s "registrací, ochranou a zpřístupnění domácích elektronických zdrojů v síti Internet". Do konce roku 2001 zprovoznil řešitelský tým zkušební infrastrukturu pro získávání elektronických zdrojů a pro podporu tvorby metadat. Použité softwarové nástroje (především Dublin Core Metadata Generator a NEDLIB Harvester) byly původně vyvinuty v rámci projektu NEDLIB a po vyzkoušení byly upraveny upraveny podle potřeb projektu Webarchiv. Ačkoli právní problematika týkající se sběru a archivace elektronických zdrojů Národní knihovnou není zatím vyjasněna, byla v letošním dubnu započata úplná sklizeň domény .cz. Kritéria omezující tuto sklizeň byla nastavena tak volně, aby byl pokryt co největší úsek českého webu. Po třech měsících tak Harvester stáhl a zaarchivoval přes 10 milionů (0,25 TB) dokumentů z přibližně 30.000 domén druhé úrovně. V blízké budoucnosti bude tato infrastruktura vyvinuta a vylepšena tak, aby bylo sklízení rychlejší a ještě spolehlivější než dnes. Zároveň budou nasazené programové nástroje upraveny tak, aby dokonaleji zapadaly do celkové infrastruktury Národní knihovny. Dalším úkolem řešitelského týmu pak bude hledání cest pro zpřístupnění vytvořeneého archivu veřejnosti. Je možné, že tato část projektu již bude řešena s podporou 6. rámcového programu Evropské unie pod hlavičkou projektu "European Web Archive".
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info