Edition 2022- old
BigData Technology Warsaw Summit 2022Check the ONSITE conference location: LOCATION
In this year's edition of the conference, we will focus on the areas:
Artificial Intelligence and Data Science, Streaming and Real-Time Analytics,
Data Strategy and ROI, Data Engineering, Architecture Operarations &Cloud.
26.04.2022 - WORKSHOP DAY
9.00 - 16.00
PARALLEL WORKSHOPS (independent workshops, paid entry) | on-site, WARSAW
FIND OUT MORE ABOUT WORKSHOPS
Introduction to Machine Learning Operations (MLOps)
DESCRIPTION:
In this one day workshop you will learn how to operationalize Machine Learning models using popular open-source tools, like Kedro and Kubeflow, and deploy it using cloud computing.
During the course we simulate real-world end-to-end scenarios – building a Machine Learning pipeline to train a model, and deploy it on Kubeflow environment. We’ll walk through the practical use cases of MLOps for creating reproducible, scalable and modular data science code. Next, we’ll propose a solution for running pipelines on Google Cloud Platform, leveraging managed and serverless services. All exercises will be done using either a local docker environment, or GCP account.
SESSION LEADER:
GetInData
Real-Time Stream Processing
DESCRIPTION:
In this one day workshop you will learn how to process unbounded streams of data in real-time using popular open-source frameworks. We focus mostly on Apache Flink and Apache Kafka – the most promising open-source stream processing framework that is more and more frequently used in production.
During the course we simulate real-world end-to-end scenario – processing logs generated by users interacting with a mobile application in real-time. The technologies that we use include Kafka and Flink. All exercises will be done using either a local docker environment or within your IDE.
SESSION LEADERS:
GetInData
GetInData
Modern data pipelines with dbt
DESCRIPTION:
SESSION LEADER:
GetInData
19.00 - 22.00
EVENING SPEAKERS MEETING (Only for Speakers) on-site, WARSAW
27.04.2022 - 1ST CONFERENCE DAY | HYBRID: ONLINE + ONSITE
8.30 - 9.00
Morning cofee and networking time
9.00 - 9.10
Sesja plenarna
Evention
GetInData
9.10 - 11.25
PLENARY SESSION
9.10 - 9.30
Plenary Session

9.30 - 9.55
KEYNOTE PRESENTATION
Plenary Session

9.55 - 10.10
BREAK
10.10 - 10.35
Plenary Session

Google Cloud Poland
Google Cloud Poland
10.35 - 11.00
Plenary Session

Kambi
11.00 - 11.25
Plenary Session

11.25 - 11.50
BREAK
11.50 - 13.20
PARALLEL SESSIONS
Host:
GetInData
Host:
GetInData
Host:
GetInData
11.50 - 12.20
Data Engineering
Parallel Session

Artificial Intelligence and Data Science
Parallel Session

Architecture Operations &Cloud
Parallel Session

12.20 - 12.25
TECHNICAL BREAK
12.25 - 12.55
Data Engineering
Parallel Session

Artificial Intelligence and Data Science
Parallel Session

Data Strategy and ROI
Parallel Session

12.55 - 13.00
TECHNICAL BREAK
13.00 - 13.30
Data Engineering
Parallel Session

Demant
Real-Time Streaming
Parallel Session

Data Strategy and ROI
Parallel Session

Speaker:
University of Applied Sciences Utrecht
13.30 - 14.25
LUNCH BREAK
14.25 - 16.05
CASE STUDY
14.25 - 14.55
Data Engineering
Parallel Session

Architecture Operations &Cloud
Parallel Session

Artificial Intelligence and Data Science
Parallel Session

14.55 - 15.00
TECHNICAL BREAK
15.00 - 15.30
Data Strategy and ROI
Parallel Session

Real-Time Streaming
Parallel Session

Artificial Intelligence and Data Science
Parallel Session

15.30 - 15.35
TECHNICAL BREAK
15.35 - 16.05
Data Engineering
Parallel Session

Real-Time Streaming
Parallel Session

Architecture Operations &Cloud
Parallel Session

16.05 - 16.30
BREAK
PEER2PEER SHARING
16.30 - 17.30
ROUNDTABLES (ONLINE or ONSITE)
Parallel roundtables discussions are the part of the conference that engage all participants. It has few purposes. First of all, participants have the opportunity to exchange their opinions and experiences about specific issue that is important to that group. Secondly, participants can meet and talk with the leader/host of the roundtable discussion – they are selected professionals with a vast knowledge and experience.
There will be roundtable sessions, hence every conference participants can take part in 2 discussions, one each day of the conference.
Roundtable discussion

Roundtable discussion

Roundtable discussion

Roundtable discussion

Roundtable discussion

Roundtable discussion

Roundtable discussion

Roundtable discussion

Roundtable discussion

17.30 - 17.35
SUMMARY & PRIZE GIVEAWAY
Evention
GetInData
18.00 - 22.00
EVENING NETWORKING SESSION | on-site, WARSAW
Let's get together! To talk, to meet new people, to see old colleagues. We invite you for a face 2 face interaction onsite.
More information HERE
28.04.2022 - 2ND CONFERENCE DAY| ONLINE
9.30 - 12.00
PARALLEL WORKSHOPS (ONLINE)
Data Vault on BigQuery
DESCRIPTION:
In this workshop you will not only master BigQuery, but also learn that unlike traditional data modeling techniques, Data Vault model is highly scalable and can adapt easily to ever changing business requirements. During the course we simulate a real-world end-to-end scenario – processing metrics generated by devices that capture usage in real-time. The technology that we will use is BigQuery. All exercises will be done within BigQuery UI on Google Cloud Platform.
SESSION LEADER:
Google Cloud Poland
Google Cloud Poland
What is a Data Quality Fabric and what’s in it for you?
DESCRIPTION:
Gartner features data fabric as a top tech trend in the data community. The data fabric market is expected to more than triple in size between now and 2026.
SESSION LEADER:
Ataccama
Deep Dive into Data Science with Snowflake
DESCRIPTION:
This session will give you a in depth walkthrough on how you can use Snowflake across key stages of the data science workflow. The session will show you how to preparing your data within Snowflake using SQL, Java, Scala or Python, before exploring building models with your machine learning (ML) platform of choice, and concluding with deploying ML models using UDFs.
We'll explore how the Data Cloud helps data scientists address their most common challenges, so they can focus their time and effort on solving complex data problems.
SESSION LEADER:
Snowflake
12.00 - 13.00
BREAK
13.00 - 13.10
OPENING
13.10 - 13.35
KEYNOTE PRESENTATION
Artificial Intelligence and Data Science
Plenary Session

13.40 - 14.10
PARALLEL SESSIONS
DATA ENGINEERING
Parallel Session

Architecture Operations & Cloud
Parallel Session

Architecture Operations & Cloud
Parallel Session

14.15 - 14.45
CASE STUDY
DATA ENGINEERING
Parallel Session

Real-Time Streaming
Parallel Session

Architecture Operations & Cloud
Parallel Session

PEER2PEER SHARING
14.45 - 15.40
ROUNDTABLES (ONLINE)
Parallel roundtables discussions are the part of the conference that engage all participants. It has few purposes. First of all, participants have the opportunity to exchange their opinions and experiences about specific issue that is important to that group. Secondly, participants can meet and talk with the leader/host of the roundtable discussion – they are selected professionals with a vast knowledge and experience.
There will be roundtable sessions, hence every conference participants can take part in 2 discussions, one each day of the conference.
Roundtable discussion
Roundtable discussion
Roundtable discussion
Roundtable discussion
Roundtable discussion
15.40 - 16.45
CASE STUDY
15.40 - 16.10
Data Strategy and ROI
Parallel Session

Artificial Intelligence and Data Science
Parallel Session

Architecture Operations &Cloud
Parallel Session

16.15 - 16.45
DATA ENGINEERING
VOD

Artificial Intelligence and Data Science
Parallel Session
Architecture Operations &Cloud
Parallel Session

16.50 - 17.20
Parallel Session

17.20 - 17.30
SUMMARY & CLOSING
Evention
GetInData
ONLINE EXPO + KNOWLEDGE ZONE
Free participation
We have great set of presentation available in the CONTENT ZONE that would be available pre-recorded as Video on Demand for conference participants in advance
VOD

VOD

VOD

VOD

VOD

VOD

VOD

VOD

VOD

VOD

VOD

BDTWS 2022: o trendach, nowościach i wszystkim, co najbardziej aktualne w świecie wielkich danych
Sztuczna inteligencja, streaming danych i analityka w czasie rzeczywistym, architektura i inżynieria danych, a wszystko to oczywiście we wszechogarniającej chmurze - po dwóch latach przerwy eksperci od danych z całego świata ponownie spotkali się na organizowanej przez Evention oraz GetInData konferencji Big Data Tech Warsaw Summit. W odróżnieniu od poprzedniej imprezy zrealizowanej w formule stricte online, tegoroczna, ósma edycja miała charakter hybrydowy – tradycyjnej, odbywającej się w warszawskim hotelu Crowne Plaza konferencji towarzyszyły warsztaty i dodatkowy dzień konferencyjny online.


„Od poprzedniego spotkania na tradycyjnej konferencji minęły 2 lata. To dużo czasu. W tym okresie zmieniło się wiele rzeczy na świecie, zmienił się także krajobraz Big Data. Pojawiły się nowe hasła, dostrzegliśmy nowe trendy, zauważyliśmy nowe technologie i nowe firmy. Data mesh, cloud, data lakehouse, analytics engineering, Snowflake, dbt, Fivetran, Airbyte – o większości tych tematów, które zaczynają formować tzw. modern data platforms będziemy dyskutować na konferencji” - mówił Adam Kawa, CEO i współzałożyciel GetInData otwierając wspólnie z Przemysławem Gamdzykiem, CEO & Meeting Designer w Evention konferencję BDTWS 2022.
„Sztuczna inteligencja i uczenie maszynowe jest dzisiaj obecne wszędzie, w każdej branży, ale analizując wystąpienia na naszej konferencji dostrzegliśmy, że jest to najbardziej gorący temat w sektorze handlu detalicznego oraz e-commerce. Oczywiście chmura obliczeniowa jest miejsce, w którym pojawiają się innowacje i realizowane są pionierskie projekty. Właśnie dlatego istniejące firmy powszechnie migrują do chmury a nowe organizacje zaczynają budować swoje rozwiązania w chmurze od pierwszego dnia swojego istnienia. Coraz częściej widać także, że pozyskiwanie danych w czasie rzeczywistym odbywa się przy wykorzystaniu odpowiednich technik audytu i zapewniających wysoką jakość danych. Wreszcie dostrzegamy także, że im więcej mamy danych tym bardziej odczuwamy potrzebę wdrożenia rozwiązań do odkrywania danych oraz potrzebę nowego podejścia do dostępu do danych oraz kwestii odpowiedzialności i własności danych” - dodawał Adam Kawa.
Na konferencji Big Data Tech Warsaw Summit 2022 wystąpiło ponad 70 ekspertów zajmujących się big data w organizacjach wykorzystujących dane do kształtowania swojej działalności. W swoich wystąpieniach pogrupowanych w osiem tematycznych ścieżek, skupiali się na różnorodnych aspektach pracy z danymi, opowiadali o najnowszych technologiach z praktycznego punktu widzenia oraz przedstawiali studia przypadków a później dyskutowali przy kilkunastu stolikach w ramach sesji roundtables. Hybrydowa konferencja przyciągnęła ponad 600 uczestników.
Skala ma znaczenie
W związku z tym, że mamy coraz więcej danych, zmuszeni jesteśmy do poszukiwania nowych technologii, które są w stanie poradzić sobie z skalą na poziomie exabajtów. Właśnie o tym opowiadał podczas swojego wystąpienia Saveen Reddy, Group Product Manager – Azure Engineering w Microsoft. Wykorzystywana w Microsoft platforma Cosmos Data Lake (nie należy mylić z Azure Cosmos DB) to łącznie blisko 250 tys. serwerów i 11 exabajtów danych. W prace z danymi zaangażowanych jest średnio miesięcznie 15 tys. unikalnych deweloperów. Cztery typowe scenariusze, które są realizowane to analityka logów usług, telemetria urządzeń, dane o klientach 360 oraz projekty kognitywne. Podczas swojego wystąpienia Saveen Reddy opowiadał o wykorzystywanych technologiach i strategii Microsoft w obszarze Big data, a także o tym jak pogodzić realia organizacji pracujących na ogromną skalę przy jednoczesnym utrzymaniu szybkiego tempa innowacji. Przedstawiał także wnioski z dotychczasowych doświadczeń i plany na przyszłość. Zwracał w szczególności uwagę na stosunek kosztów do efektywności, przekonując, że zawsze istnieją możliwości zrobienie więcej za mniej i otwierania nowych możliwości bez powiększania infrastruktury sprzętowej. Mówił o powszechnym wykorzystywaniu rozwiązań open source m.in. Spark, Python, Parquet i ORC a także integracji z Azure, w szczególności z HDInsight, Synapse i Data Factory.

„Niezwykle istotne jest przy tym wszystkim planowanie. Trzeba zawczasu pomyśleć o wszystkich kwestiach związanych z prywatnością danych i zgodnością z regulacjami prawnymi, a także jak będziemy monitorować, zarządzać i prognozować wskaźniki dotyczące kosztów i wydajności. W odniesieniu do inżynierii trzeba myśleć zwinności i wykorzystywać rozwiązania open source. Wreszcie ważne są także kwestie związane z kulturą wykorzystania danych w organizacji. Warto promować wykorzystanie danych, zachęcać do eksperymentów a wszystko to wspierać odpowiednimi narzędziami” – mówił Saveen Reddy.
Dane w praktyce
Jak zawsze na konferencjach BDTWS o wielkich danych opowiadają praktycy. Dzielą się swoimi przemyśleniami, podpowiadają innym jak zacząć stosować nowe technologie czy podejścia i czego się wystrzegać. Max Schultze, Data Engineering Manager w Zalando, występujący także podczas poprzednich edycji konferencji, opowiadał o data mesh w praktyce.
Data Mesh to mocny kandydatem do zastąpienia scentralizowanego data lake i hurtowni danych jako dominujących wzorców architektonicznych w dziedzinie danych i analityki. Promuje on koncepcję produktów danych skoncentrowanych na konkretnej dziedzinie, które wykraczają poza udostępnianie plików. Ostatecznym celem jest bowiem gwarancja jakości i potwierdzenie własności i odpowiedzialności za dane.

„Data Mesh to hasło, które słyszał dzisiaj chyba każdy, kto zajmuje się danymi. W rzeczywistości mało kto jednak wie co to jest. Data Mesh składa się z czterech filarów: myślenia produktowego o danych, zastosowania domenowej konstrukcji w odniesieniu do rozproszonych danych, platformowego myślenia w kontekście infrastruktury danych oraz sfederowanego ładu i zarządzania” – mówił Max Schultze.
„Jeśli myślimy o przyjęciu data mesh we własnej organizacji, to na początek warto pamiętać o trzech rzeczach: trzeba wziąć pod uwagę rożne perspektywy występujące w organizacji w odniesieniu do danych, należy tworzyć system zachęt i pokazywać korzyści płynące z nowego podejścia oraz zacząć od małego projektu, który z czasem ma szansę rozpowszechnić się w całej organizacji” – dodawał Max Schultze.

Z kolei Andrew Hedengren, Data Platform Architect w Kambi opowiadał o znaczeniu analityki danych dla funkcjonowania firmy, która dostarcza rozwiązania i usługi dla operatorów gier i zakładów hazardowych na całym świecie. Kambi, w oparciu o technologię Vertica, monitoruje i raportuje dane z ponad 150 źródeł dla ponad 425 użytkowników na całym świecie, zachowując zgodność z przepisami i GDPR. Andrew Hedengren opowiadał, w jaki sposób Vertica dostarcza scentralizowaną wersję prawdy dla "prostego i skalowalnego" rozwiązania.
Chmura, chmura, wszędzie chmura
Otwierając konferencję Adam Kawa mówił, że miejscem wszystkich innowacji jest chmura obliczeniowa. Nic więc dziwnego, że do chmury migrują zarówno użytkownicy jak i dostawcy technologii. Nie jest to jednak takie proste, jak mogłoby się wydawać. O różnych sposobach i zagrożeniach wiązanych z migracją platformy big data opowiadali eksperci Google Cloud Poland: Radosław Stankiewicz, Data SCE at Professional Services Organization oraz Michał Żyliński, Cloud Customer Engineering Manager. Zbierając doświadczenia z wielu projektów migracyjnych klientów, które wspierali pokazywali często występujące ograniczenia, dostępne podejścia oraz krytyczne ryzyka dla sukcesu. Przede wszystkim zachęcali oni klientów, żeby nie czekali zbyt długo, zanim zwrócą się o pomoc, ponieważ historia pokazuje, że wielu klientów prowadzi migracje zupełnie samodzielnie a później potrzebuje wsparcia, kiedy „jest już za późno”, „wystartowali z niewłaściwym MVP” albo „są w trakcie Proof of Concept”.


O „podróży” do chmury hybrydowej opowiadali także przedstawiciele dostawców technologii - Michał Gutowski, Solutions Engineer oraz Kiryl Halozhyn, Solutions Engineer w Cloudera. Oferowana przez firmę platfroma CDP Hybrid Cloud zapewnia klientom pełną swobodę wyboru w zakresie prywatnych i publicznych środowisk cloud, ale także wydajności i kosztów zarządzania, bezpieczeństwa i samoobsługi a także elastyczności i kontroli.


„Wizja Cloudera dla hybrydowej chmury danych to zbuduj raz, uruchamiaj, gdzie chcesz, w dowolnej chmurze. Zapewniamy klientom wolny wybór do przenoszenia istniejących lub przyszłych aplikacji, w tym strumieni, sekwencji przetwarzania, baz danych, przestrzeni roboczych i innych produktów, samych danych oraz użytkowników, w obie strony, pomiędzy centrum danych a wieloma chmurami, bez konieczności przepisywania kodu” – podsumowywali Michał Gutowski i Kiryl Halozhyn.