Hvad er forskellen mellem big data og Hadoop-udvikler og administrator?


Svar 1:

Du kan ikke sammenligne Big Data og Hadoop, fordi Big Data er et problem, og Hadoop leveret løsning på det. Hadoop-udvikler og Hadoop-administrator er arkiveret af Hadoop.

Big Data er en enorm samling af data, da navnet henviser til “STORE DATA”. Det kan ikke behandles ved traditionelle metoder, fordi det meste af datagenerering er ustruktureret form. Så Hadoop fremkom som en løsning på dette problem.

Så lad os studere i detaljer om Big Data og Hadoop, så du kan få en komplet idé om big data og Hadoop.

Ifølge Gartner: Big data er enorme volumen, hurtig hastighed og forskellige forskellige informationsaktiver, der kræver innovativ platform for forbedret indsigt og beslutningstagning.

Volumen refererer til som skala af data

Hastighed refererer til som analyse af streamingdata

Variation refererer til som dataformer

  • Det andet spørgsmål opstår, hvorfor vi bør lære Big Data

Big Data er en måde at løse alle de uløste problemer i forbindelse med datastyring og håndtering, en tidligere industri blev brugt til at leve med sådanne problemer. Med Big data analytics kan du låse skjulte mønstre op og kende 360-graders syn på kunderne og bedre forstå deres behov.

Se videoen nedenfor for en introduktion til Big Data.

Hvis du er interesseret i at kende historien med big data, henvises nedenfor til linket til historien om big data

Big Data's historie

Gå nu videre med Hadoop,

Hadoop er et open source værktøj fra ASF. HDFS gemmer det enorme datamængde pålideligt.

Lad os nu se, hvordan HDFS leverede løsningen

I Hadoop opdeler HDFS enorme filer i små bidder, der er kendt som blokke. Dette er den mindste enhed af data i et filsystem. Vi (klient og admin) har ikke kontrol på blokken som blokering af blokering. Namenode beslutter alle sådanne ting.

HDFS gemmer hver fil som blokke. Blokstørrelsen i HDFS er imidlertid meget stor. Standardstørrelsen på HDFS-blokken er 128 MB, som du kan konfigurere efter dit krav. Alle blokke i filen er af samme størrelse undtagen den sidste blok, der enten kan være den samme størrelse eller mindre. Filerne opdeles i 128 MB blokke og gemmes derefter i Hadoop-filsystemet. Hadoop-applikationen er ansvarlig for distribution af datablokken over flere noder.

Fra ovenstående eksempel, hvor filstørrelse er 518MB, antager vi, at vi bruger standardkonfigurationen af ​​blokstørrelse 128MB. Derefter oprettes 5 blokke, de første fire blokke vil være på 128 MB, men den sidste blok er kun i 6 MB størrelse. Fra det ovenstående eksempel er det klart, at det ikke er nødvendigt, at i HDFS skal hver gemt fil være i nøjagtigt multipel af den konfigurerede blokstørrelse 128mb, 256mb osv., Så den endelige blok til fil bruger kun så meget plads, som det er nødvendigt

For yderligere detaljer om HDFS henvises til nedenstående link:

HDFS - En komplet guide

Lad os nu gå hen imod Hadoop-udvikler og Hadoop-administrator.

Hadoop-udvikler

Hadoop-udviklerjobs ansvar er at skrive programmer som pr. Systemdesign og skal have ret viden om kodning og programmering. Toop of Hadoop-udvikler ligner softwareudvikler, men i Big Data-domæne. Job af Hadoop-udvikler inkluderer også forståelse og arbejde med at finde løsninger på problemer, designe og arkitektere sammen med stærke dokumentationsevner.

Hadoop-administrator

Hadoop Administrations jobansvar ligner systemadministratorjobbet. Hadoop-administratorroller og -opgaver inkluderer opsætning af Hadoop-klynger, sikkerhedskopiering, gendannelse og vedligeholdelse af det samme. Godt kendskab til hardwaresystemer og Hadoop-arkitektur kræves af Hadoop-administrator.

Så for at kende flere profiler af Hadoop henvises nedenfor til linket:

Forskellige felter i Hadoop og dens jobroller

Håber, jeg besvarede din forespørgsel.


Svar 2:

Se nedenstående beskrivelse for at forstå jobrollerne Hadoop-udvikler og administrator.

Big Data Hadoop-udvikler:

En Hadoop-udvikler er ansvarlig for den faktiske kodning / programmering af Hadoop-applikationer. Denne rolle er synonym med softwareudvikler eller applikationsudvikler; henviser til den samme rolle, men i Big Data-domænet. En komponent i Hadoop er MapReduce, hvor du har brug for at skrive Java-programmer. Så hvis du har grundlæggende kendskab til Java, skulle det være tilstrækkeligt. Men hvis du ikke har kendskab til Java, men har kendskab til noget andet programmeringssprog, kan du hurtigt indhente det.

Krav til færdigheder:

  •  Evne til at skrive MapReduce jobs Erfaring med at skrive svin Latin-scripts Hænder på erfaring i HiveQL Fortrolighed med dataindlæsningsværktøjer som Flume og Sqoop Kendskab til workflow / schedulers som OozieBig Data Hadoop Administrator:

En Hadoop-administrator er ansvarlig for implementering og løbende administration af Hadoop-infrastruktur. Rollen kræver koordinering med systemteknik-teamet for at foreslå og implementere nye hardware- og softwaremiljøer, der kræves til Hadoop, og for at udvide eksisterende miljøer.

Kræver at arbejde med dataleveringsteam for at opsætte nye Hadoop-brugere. Dette job inkluderer opsætning af Linux, opsætning af Kerberos-rektorer og test af HDFS, Hive, Pig og MapReduce adgang for de nye brugere. Cluster-vedligeholdelse samt oprettelse og fjernelse af noder ved hjælp af værktøjer som Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Manage og andre værktøjer.

Krav til færdigheder:

  •  Implementering og løbende administration af Hadoop infrastruktur. Clustervedligeholdelse, oprettelse og fjernelse af noder ved hjælp af værktøjer som Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Manage og andre værktøjer. Administrer og gennemgå Hadoop-logfiler. Styring og overvågning af filsystem. HDFS-support og vedligeholdelse Konfigurering af Hadoop-økosystemer som Pig, Hive, HBase, Oozie osv. Performance-tuning af Hadoop-klynger og Hadoop MapReduce-rutiner

Svar 3:

Hej Shekhar,

For Hadoop-udvikleren skal du skrive kode i mapreduce eller stille forespørgsler og latinskript i hive og svin.

For administrator har du kigget på forskellige noder i linux-server og vedligeholdelse af mapreduce-opgave. Du er også nødt til at opretholde råvarehardware for at køre hadoop-noder med succes.


Svar 4:

Det er vigtigt at forstå, at Big Data og Hadoop ikke er nøjagtig den samme ting.

Big Data er et koncept, mere som en mulighed for forretningstransformation med hensyn til den enorme mængde og forskellige tilgængelige datasæt.

Hadoop er en teknologiinfrastruktur til lagring, styring og analyse af denne enorme mængde data.

Forskellen mellem en Hadoop (eller enhver anden kommerciel variation af Hadoop) udvikler og administrator er den samme som siger en skyudvikler og en skyadministrator. Udvikleren skulle bygge de applikationer og forekomster, der kræves til Big Data-infrastrukturen og administrationsaspekterne i en organisation. Dette vil involvere kodning og arbejde med MapReduce, Hive, Sqoop, Oozie, Spark osv. En administrator på den anden side ville implementere, vedligeholde og overvåge den igangværende infrastruktur, oprette og implementere forskellige værktøjer og konti, vedligeholdelse, klynge styring, performance tuning og mere.

Kontakt os på [email protected] for mere information.