Data Lake v praxi – po hlavě do jezera dat

Data Lake v praxi – po hlavě do jezera dat

Opravdu mají tradiční DWH s nástupem Data Lakes a Data Houses odzvoněno? Nebylo by to IT, aby odpověď nebyla rezolutní ano i ne.

V posledních letech se v oblasti datových skladů a analýz začaly prosazovat nové přístupy, které slibují větší flexibilitu a efektivitu při práci s daty. Mezi nejvýraznější z nich patří koncepty Data Lake a Lake House. Ty se staly populárními zejména v kontextu Big Data a IoT, kde tradiční přístupy k datovým skladům byly často nedostačující.

Data Lake schémaCo je Data Lake

Data Lake lze popsat jako rozsáhlé úložiště dat, které umožňuje spravovat prakticky veškerá data v původním formátu. Oproti tradičním DWH (Data Warehouse) tedy není nutné data před zpracováním transformovat (ETL/ELT). Tento přístup přináší mnoho výhod, zejména co se týká flexibility, s jakou je možné s daty pracovat. Díky tomu, že jsou data uložena v původním formátu, je možné je ve specifických byznysových případech snadno a rychle načítat, zpracovávat a analyzovat ještě před jejich transformací. Další výhodou Data Lake je obecná možnost uložit velké množství informací, včetně těch nestrukturovaných, což je pro tradiční DWH často problém.

Nicméně, Data Lake nemusí být pro každou organizaci ideálním řešením. Z hlediska správy dat se jedná o systém, který vyžaduje vysokou úroveň expertízy jak na straně zákazníka, tak dodavatele řešení. Pokud organizace nemá dostatečné zdroje na správu Data Lake, může to vést k neefektivitě a ztrátě hodnoty uložených dat.

Lake House

Lake House je přístup, který kombinuje výhody Data Lake a tradičního DWH. Jedná se o prostředek cesty mezi dvěma extrémy – Data Lake s velkou flexibilitou, ale i vysokými nároky na uživatelskou zkušenost, a tradičním DWH s omezenou flexibilitou, ale s jasným a strukturovaným modelem dat.

Lake House využívá přístupu Data Lake k ukládání dat v původním formátu, zároveň ale poskytuje strukturovaný model dat pro analýzy. Tento model dat je vytvořen nad úložištěm dat a umožňuje provádět analýzy nad jejich výběrem.

Výhody Lake House jsou zřejmé. Organizace mohou ukládat velké množství dat v původním formátu,  ale zároveň mají k dispozici strukturovaný model dat pro nejčastější analýzy. To znamená, že mohou přistupovat k datům různě podle potřebného způsobu použití. Lake House také umožňuje snadnou integraci s tradičními BI (Business Intelligence) nástroji, což zajišťuje větší flexibilitu a efektivitu zpracování.

Lake House podobně jako Data Lake není pro každou organizaci ideálním řešením. Vyžaduje vysokou úroveň odbornosti a organizace také musí být schopny efektivně vytvořit a spravovat strukturovaný model dat. To může být časově náročné a nákladné. 

Nasazení u zákazníka

Při projektu migrace analytických systémů Dr.Max z on-premise řešení do cloudu Azure jsme v CEOS Data zvolili doplnění DWH o koncept Data Lake. To umožňuje analytikům pružnost při přístupu k datům před jejich transformací a zároveň optimalizaci nákladů na provoz celého řešení.

Jako zásadní téma se ukázala připravenost managementu zákazníka na všechny příležitosti, jaké technologie nabízí. Pod pojmem Data Lake IT manažeři mohou rozumět jen další druh úložiště. Jako důležitou součást implementace řešení tak v CEOS Data chápeme i osvětu a vzdělávání zákazníka a jeho klíčových pracovníků. 

Dříve než přijdou zásadní investice

O vhodnosti nasazení těchto technologií je vždy potřeba vést diskuzi na úrovni IT managementu a v případě rozsáhlých digitalizačních a migračních projektů přizvat ke spolupráci odborníky s dostatečnou expertízou. Existuje celá řada od začátku chybně vedených projektů, které v dobře rozjetých firmách způsobily strach z investic do datové kultury a digitalizace obecně. Přitom stačilo málo - poradit se s těmi, kteří podobné projekty již vedli. 

Výhody Data Lake technologie v kostce

  • Efektivní práce s nestrukturovanými nebo semi-strukturovanými daty z jakýchkoli zdrojů
  • Schéma dat se definuje až po uložení dat, což přináší vysokou agilitu, zároveň je ale potřeba počítat se zpracováním na opačném konci procesu
  • Data mohou být nebo nemusejí být čištěna a tříděna (zůstávají v "syrovém" stavu)
  • Ideální pro hlubokou analýzu dat ze strany datových vědců, data inženýrů a datových analytiků
  • Cena skladování dat je ve srovnání s DWH relativně nízká
  • Data Lake má jen málo omezení a má vysokou dostupnost - data mohou být rychle upravována a aktualizována

Data Lake a Lake House jsou nové přístupy k datovým skladům a analýzám, které slibují větší flexibilitu a efektivitu v práci s daty. Oba koncepty mají své výhody a nevýhody a organizace by měly pečlivě zvážit, který z nich je pro ně nejvhodnější. Nabízí se také jejich kombinace s konvenčním DWH – možné úspory nákladů na licence a náklady na pracovní sílu a její zaškolení mohou ve finále důrazně promluvit do finančního plánování transformace.


Pavol Zemaník
Technologický konzultant, CEOS Data

Kam dál?

  • Datové sklady (1. díl) - Škálovatelné datové sklady na míru staví CEOS Data rychle díky zkušenostem a propracovaným metodikám
  • Datové sklady (2. díl) - Nezamykáme klienty v našem řešení. Učíme je s datovými sklady a reportingem pracovat samostatně
  • Data Vault 2.0 – Řešení pro agilní datové sklady s nároky na rychlost a kvalitu