Skip to content

Kaip pasiruošti Google Cloud Professional Data Engineer sertifikato egzaminui

Šiandien pasidalinsiu patarimais kaip pasiruošti Google Cloud Profesional Data Engineer egzaminui ir gauti sertifikatą.
Feb 22, 2023 10:58:57 AM Andrius Gunka, BI programuotojas

Trumpai apie mane: esu BI Programuotojas. Dirbu su twoday Finland klientu, „POP” projekte – finansinių ataskaitų aplikacija, dedikuota vienai didelei gamybos įmonei. Esu sertifikuotas MS Azure ir Google Cloud duomenų inžinierius.

Apie Data Engineer rolę

Informacinių technologijų pasaulyje pastaruosius 6–8 m. darbas su duomenimis užima ypač reikšmingą dalį. Dėl to formuojasi atskira IT sfera, susijusi tik su duomenimis, jų apdorojimu, pateikimu ir analize. Atitinkamai duomenų sfera įgauna tam tikrą struktūrą, hierarchiją ir galiausiai stebime kaip IT įmonės steigia naujas pozicijas, dedikuotas darbui su duomenimis visais įmanomais pjūviais. Duomenų inžinierius yra viena populiariausių pozicijų IT darbo rinkoje, turinti ganėtinai konkrečius bendrinius reikalavimus kandidatui kartu su ateities perspektyva.

Kartu su duomenų augimu, kita IT sfera - debesų technologijos, šiandien yra pilnai paruošta ir išvystyta vieta, suteikianti galimybę kurti naujus IT produktus ir naudotis pažangiausiomis technologijomis ir servisais.

Vadinamų Cloud technologijų tiekėjų yra ganėtinai daug, tačiau pagrindiniai yra 3: Microsoft Azure, Amazon Web Services ir Google Cloud Platform.

Full-stack ir .NET programuotojų, matyt, jau nenustebins tai, kad nėra lengva įvaldyti visas programavimo kalbas, o tuo labiau - visų cloud technologijų. Šiai dienai ta pati taisyklė galioja ir duomenų inžinieriams.

Šaunu yra tai, kad visi 3 mano paminėti debesų technologijų tiekėjai suteikia galimybę gilinti teorines žinias apie jų konkrečius produktus, susijusius su duomenų apdorojimu. Galiausiai visa tai galima vainikuoti egzamino laikymu ir tapimu sertifikuotu specialistu.

Apie sertifikatą Google Cloud Professional Data Engineer

Pereikime prie šios apžvalgos pagrindinės temos – egzamino, skirto duomenų inžinieriams Google Cloud platformoje. Norint tapti sertifikuotu duomenų inžinieriumi Google Cloud platformoje, reikia išlaikyti tik vieną egzaminą. Prieš užsiregistruojant, derėtų iš arčiau susipažinti su šiomis temomis:

  1. Compute ir Storage funkcionalumais Google Cloud aplinkoje: kaip skirstomi procesoriaus pajėgumai pagrindiniam “varikliui”, kurį naudos jūsų aplikaciją ar servisai, susiję su duomenim, duomenų talpinimas ir saugojimas;

  2. Didieji duomenis (Big Data) ir darbas su jais;

  3. Machine Learning pradmenys;

  4. Servisų ir aplikacijų automotizacija (DevOps);

  5. Duomenų apsaugojimo galimybės;

  6. Darbas su tinklais – pagrindai.
Tačiau ši platforma nėra kažkuo ypatinga, tad suvokiant virtualizacijos principus, technologijas, tinklų paprasčiausią struktūrą ar galiausiai turint patirties su kitu debesų technologijų tiekėju (kaip MS Azure) galima sėkmingai įveikti klausimus.
 
Egzaminas labai stipriai orientuotas į Big Data technologijas ir bendrą supratimą apie technologijas ir servisus, skirtus darbui su jais Google Cloud platformoje. Aš norėčiau akcentuoti šiuos servisus, kuriuos derėtų detaliau išnagrinėti ir išbandyti:

  • Cloud SQL;
  • Cloud Spanner;
  • Big Table;
  • Cloud Datastore.
Taip pat paminėsiu, kad egzamine tikimasi iš kandidato nemažai žinių apie bendrą IT infrastruktūrą Google Cloud platformoje. Ši platforma nėra kažkuo ypatinga, tad suvokiant virtualizacijos principus, technologijas, tinklų paprasčiausią struktūrą ar galiausiai turint patirties su kitu debesų technologijų tiekėju (kaip MS Azure) galima sėkmingai įveikti klausimus.
 

Apie pasiruošimą egzamino laikymui

Internete apstu informacijos kaip pasiruošti egzaminui. Savo ruožtu pateiksiu pasiruošimo planą, kurį naudojau. Pradėsiu nuo to, kodėl nusprendžiau laikyti šį egzaminą.

2020 m. pradžioje sėkmingai išlaikiau du egzaminus, po kurių gavau Microsoft Azure Data Engineer sertifikatą (Implementing an Azure Data Solution (DP-200),  Designing an Azure Data Solution (DP-201)). Tuo metu pagalvojau, kad būtų neblogai, kaip specialistui, praplėsti žinias horizontaliai ir apžvelgti kitas su Data susijusias platformas. Tiesą pasakius, pradėjus ruoštis egzaminui, tikėjausi, kad bus labai daug panašumų tarp Azure ir Google Platform. Teko pripažinti, kad klydau. Palyginus šias dvi platformas ir sertifikavimą, egzaminai skiriasi. Kadangi jau buvau investavęs laiko į pasiruošimą tad nusprendžiau eiti iki galo.

Konkretūs pasiruošimo žingsniai

  1. Pradėsiu nuo dviejų neblogų kursų Udemy mokymosi platformoje:

Antras kursas nėra būtinas, tačiau pirmąjį derėtų pereiti, o dar geriau - pereiti kartu atliekant praktines užduotis. 

Tam, kad atliktumėte kurse nurodytus pratimus, pirmiausia reikia prisijungti prie savo GCP Console aplinkos, iš kurios yra valdomi visi resursai, susiję su Google Cloud aplinka:

1


Tereikia turėti susikūrus Google paskyrą. Tuomet į naršyklę įvedame nuorodą https://console.cloud.google.com ir patenkame į savo nuosavą Google Cloud aplinką. Pirmiesiems bandymams Google suteikia 300 $ vertės metinį kreditą. Kitaip tariant, turite metus laiko panaudoti 300 $ įvairių servisų kurimui ir naudojimui. Šios sumos pilnai užtenka padengti abu Udemy minėtus kursus.

Tad mano atspirties taškas buvo teorinė medžiaga iš minėtų kursų ir praktiniai pratimai šalia jų. Be kita ko, kursų eigoje rinkau komandinės eilutės užklausas su gcloud pradžia ir sukūriau trumpą jų sąrašą. Dažniausiai naudojamos komandos fragmentas yra gcloud config set/get ir kombinacijos su ja. Tai yra Google Cloud darbinės aplinkos konfiguracijos reikšmių gavimas ir keitimas.

Atitinkamai naudinga susirašyti ir komandas, susijusias su Kubernetes Services kubectl. Taip pat norėčiau paminėti, kad pirmas kursas labai geras tuo, kad nuolat lygina Google servisus vienus su kitais. Taip pat lygina Big Data technologijas, kurios egzistuoja Google Cloud platformoje su tomis, kurios naudojamos „on premises” infrastruktūroje.

Kaip jau minėjau, skirtingai nei MS Azure Data Engineer sertifikavimo egzamine, Google žymiai labiau akcentuoja Big Data technologijas, susijusias su Hadoop ekosistema ir servisais. Minimalūs reikalavimai šiai daliai, tai žinoti Hadoop ir GCP atitikmenys:
 
Hadoop GCP
HBase BigTable
Document Database Datastore
Hive BigQuery
Apache Beam Dataflow
Managed Hadoop Dataproc
Jupyter Datalab

 

Žinoma, GCP servisai yra svarbiausi, tad rekomenduoju kiekvieną jų išbandyti konsolės aplinkoje. Taip pat perskaityti Google pateikiamą teorinę medžiagą, kartu su Udemy ar kitos mokymosi platformos medžiaga. 

Nuorodoje https://cloud.google.com rasite visą informaciją apie Google Cloud aplinkos servisus. Kompanija išties pasistengė pateikdama teorinę medžiagą vartotojams, kurioje galima rasti architektūrinių funkcinių schemų, tokių kaip ši:

 

2

Paraleliai su Udemy kursais, derėtų sekti Google egzamino detalizuotus reikalavimus. Iš šio sąrašo atpažįstame dar vieną servisų porą: Apache Spark/Apache Kafka ~ Pub/Sub. Su šio serviso analize yra padengiama dalis, skirta duomenų siuntimui ir apdorojimui realiuoju laiku. Būtinai bus bent du, trys klausimai egzamine, susiję su Pub/Sub ir jo konfiguracija.

Big Data technologijas norėjau paminėti pirmiau, nes jos yra atskira ir labai plati tema. Yra atskiros IT kompanijose, skirtos būtent Big Data specialistams, kurie dažniausiai būna ir geri Java programuotojai. 

Detaliai susipažinęs su minėtomis technologijomis, ėmiausi labiau pažįstamų temų, su kuriomis jau teko dirbti MS Azure aplinkoje: duomenų kaupimo ir laikymo technologijos (Storage technologies, Data Warehousing), duomenų procesinimo technologijos kartu su duomenų perdavimo galimybėmis (Data Processing, Building Data Pipelines).

 
 

2. Norint pilnai atlikti Udemy pirma kursą, tektų užtrukti apie 2 mėn. ramiu tempu (apie ~1h per dieną). Sekantis žingsnis būtų pasinaudoti Google pateiktais 30 klausimų pavyzdžių ir juos išspręsti.


3. Sprendžiant Google pateiktus klausimus ir ieškant informacijos atradau du duomenų specialistus, kurie internete pasidalino savo asmenine patirtimi kaip ruošėsi aptariamam egzaminui. Daniel Bourke patarimai ir nuorodos gali pilnai padengti pasiruošimą, tačiau rašant šią apžvalgą pastebėjau, kad pagrindinė jo nuoroda neveikia. Tai buvo nuoroda į labai sistemingą ir koncentruotą kursą Linux Academy mokymosi platformoje. Kursas buvo stipriai orientuotas į egzamino laikymą ir turėjo praktinę dalį su realiais egzamino klausimais. Atitinkamai tai buvo mokamas kursas. Kito specialisto, Mike Shakhomirov, pasiruošimas egzaminui truko 8 d. Jis pasidalino puikiu tekstu, kurį būtina perskaityti ir atidžiai pereiti visas temas, paminėtas kiekviename pasiruošimo etape. Iš esmės tai detali temų, reikalingų egzamine, apžvalga.

 
4. Paskutinis žingsnis – po beveik 6 mėn. trukusios teorinės dalies, lieka gerai išspręsti Google pateiktus klausimus su praktinėmis užduotimis, kurias taip pat pateikia Google. Be to, aš ne kartą grįždavau į Udemy platformą, praktines kurso dalis. Internete apstu egzamino klausimų su neva pateiktais atsakymais. Tokio pobūdžio informaciją reikia naudoti tikslingai, ir visus rastus bilietus išspręsti patiems.
 

Apibendrinimas

Pagrindinės temos/technologijos, kurias reikia būtinai suprasti ir išnagrinėti:

  • BigQuery: duomenų tipai, kurie labiausiai tinka, duomenų skaitymas/rašymas, duomenų saugojimas, duomenų užkrovimas/nukrovimas
  • Cloud SQL, Cloud spanner: reliacinės duomenų bazės aspektai;
  • Datastore;
  • BigTable;
  • PubSub;
  • Dataproc;
  • Duomenų formatai: AVRO, Parquet, CSV, JSON ir jų skirtumai, privalumai;
  • Cloud Dataflow: ETL principai;
  • Machine Learning technologijos, tiesinės regresijos formulė, TensorFlow biblioteka.

Turiu pripažinti, jog nesitikėjau, kad pasiruošimas truks daugiau nei pusę metų. Patirtis su kitu cloud technologijų tiekėju, kaip Microsoft, neapsprendžia kitų platformų detalesnio išmanymo. Kita vertus, net neabejoju, kad specialistai, susiduriantys su Google Data platforma kiekvieną dieną, neturėtų patirti didesnių sunkumų laikant Google Cloud Professional Data Engineer egzaminą.

Related posts