Cloudera Hadoop: darba sākšana ar CDH izplatīšanu



Šis Edureka emuārs vietnē Cloudera Hadoop Tutorial sniegs jums pilnīgu ieskatu par dažādiem Cloudera komponentiem, piemēram, Cloudera Manager, Pakas, Hue uc

Ar pieaugošo pieprasījumu pēc Big Data, un Apache Hadoop irplkstrevolūcijas būtība ir mainījusi datu organizēšanas un aprēķināšanas veidu. Nepieciešamība organizācijām pielāgot Hadoop savām biznesa vajadzībām ir veicinājusi komerciālo izplatījumu parādīšanos. Komerciālie Hadoop izplatījumi parasti tiek komplektēti ar funkcijām, kas paredzētas Hadoop izvietošanas pilnveidošanai. Cloudera Hadoop Distribution nodrošina mērogojamu, elastīgu, integrētu platformu, kas ļauj ērti pārvaldīt strauji augošos datu apjomus un šķirnes jūsu uzņēmumā.

Šajā emuārā vietnē Cloudera Hadoop Distribution mēs aplūkosim šādas tēmas:





Cloudera Hadoop: Ievads Hadoop

Hadoop ir Apache atvērtā koda sistēma, kas lielos datus uzglabā un apstrādā izplatītā vidēpārikopu, izmantojot vienkāršus programmēšanas modeļus. Hadoop nodrošina paralēlu aprēķinu sadalītās krātuves augšpusē.Lai sīkāk uzzinātu vairāk par Hadoop no jūs varat atsaukties uz šo

Pēc šī īsa Hadoop ievada ļaujiet man tagad izskaidrot dažādos Hadoop izplatīšanas veidus.



Cloudera Hadoop: Hadoop izplatījumi

Tā kā Apache Hadoop ir atvērta pirmkoda, daudzi uzņēmumi ir izstrādājuši izplatīšanu, kas pārsniedz sākotnējā atvērtā pirmkoda kodu. Tas ir ļoti līdzīgs Linux izplatījumiem, piemēram, RedHat, Fedora un Ubuntu. Katrs no Linux izplatījumiem atbalsta savas funkcijas un funkcijas, piemēram, lietotājam draudzīgu GUI Ubuntu. Līdzīgi sarkana cepure ir populārs uzņēmumos, jo tas piedāvā atbalstu un arī ideoloģiju, lai pēc savas izvēles veiktu izmaiņas jebkurā sistēmas daļā. Red Hat atbrīvo jūs no programmatūras saderības problēmām. Parasti tas lietotājiem ir liels jautājumskuri pāriet no Windows.

Tāpat ir 3 galvenie Hadoop izplatīšanas veidi, kuriem ir savs funkciju un funkciju kopums un kas ir iebūvēti zem HDFS bāzes.

Cloudera vs MapR vs Hortonworks

Attēls: MapR vs Hortonworks vs Cloudera

Attēls: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop izplatīšana

Cloudera ir tirgus tendence Hadoop kosmosā, un tā ir pirmā, kas izlaiž Hadoop komerciālo izplatīšanu. Tas piedāvā konsultāciju pakalpojumus, lai mazinātu plaisu starp “ko Apache Hadoop nodrošina” un “organizācijām nepieciešamo”.

Cloudera izplatīšana ir:

  • Ātri biznesam : Sākot no analītikas līdz datu zinātnei un visam citam, Cloudera nodrošina nepieciešamo veiktspēju, lai atvērtu neierobežotu datu potenciālu.
  • Padara Hadoopu viegli pārvaldāmu : Izmantojot Cloudera Manager, automatizētie vedņi ļauj ātri izvietot savu kopu neatkarīgi no mēroga vai izvietošanas vides.
  • Drošs bez kompromisiem: Atbilst stingrām datu drošības un atbilstības vajadzībām, nezaudējot biznesa veiklību. Cloudera nodrošina integrētu pieeju datu drošībai un pārvaldībai.

Hortons-Darbs Izplatīšana

Horton-Works datu platforma (HDP) ir pilnībā atvērta pirmkoda platforma, kas paredzēta, lai manevrētu datus no daudziem avotiem un formātiem. Platforma ietver dažādus Hadoop rīkus, piemēram, Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive un papildu komponentus.

Tas atbalsta arī tādas funkcijas kā:

  • HDP padara stropu ātrāk izmantojot savu jauno Stinger projektu.
  • HDP izvairās no pārdevēja bloķēšanas apņemoties Hadoop dakšu versiju.
  • HDP ir vērsta uz lietojamība no Hadoop platformas.

MapR izplatīšana

MapR ir uz platformu orientēts Hadoop risinājumu nodrošinātājs, tāpat kā HortonWorks un Cloudera. MapR integrē savu datu bāzes sistēmu, kas pazīstama kā MapR-DB, vienlaikus piedāvājot Hadoop izplatīšanas pakalpojumus. Tiek apgalvots, ka MapR-DB ir četras līdz septiņas reizes ātrāka nekā krājuma Hadoop datu bāze, t.i., HBase, kas tiek izpildīta citos izplatījumos.

Tam ir savas intriģējošās funkcijas, piemēram:

  • Tas ir vienīgais Hadoop izplatītājs, kurā ietilpst Pig, Hive un Sqoop bez jebkādām Java atkarībām - jo tas balstās uz MapR-File System.
  • MapR ir visizplatītākais Hadoop izplatītājs ar daudziem uzlabojumiem, kas padara to lietotājam draudzīgāku, ātrāku un uzticamāku.

Tagad padziļināti apspriedīsim Cloudera Hadoop izplatīšanu.

Abonējiet mūsu YouTube kanālu, lai iegūtu jaunus atjauninājumus ...

Cloudera Hadoop: Cloudera izplatīšana

Cloudera ir vispazīstamākais spēlētājs Hadoop telpā, kas izlaiž pirmo komerciālo Hadoop izplatījumu.

Att.: Cloudera Hadoop izplatīšana

Cloudera Hadoop Distribution atbalsta šādu funkciju kopu:

  1. Cloudera CDH ietver visus atvērtā koda komponentus, ir vērsti uz uzņēmuma klases izvietošanu un ir viens no populārākajiem komerciālajiem Hadoop izplatījumiem.
  2. Pazīstama ar jauninājumiem, Cloudera bija pirmā, kas piedāvāja SQL-for-Hadoop ar to Impala vaicājumu dzinējs.
  3. Pārvaldības konsole - Cloudera vadītājs , ir viegli lietojams un īstenojams ar bagātīgu lietotāja saskarni, kas organizētā un tīrā veidā parāda visu klastera informāciju.
  4. CDH jūs varat pievienot pakalpojumus iesāktajai un darbojošajai kopai bez traucējumiem.
  5. Citi Cloudera papildinājumi ietver drošību, lietotāja saskarni un saskarnes integrācijai ar trešo pušu lietojumprogrammām.
  6. CDH nodrošina Mezglu veidnes i., tas ļauj izveidot mezglu grupu Hadoop klasterī ar dažādu konfigurāciju. Tas izskauž vienas un tās pašas konfigurācijas izmantošanu visā Hadoop klasterī.
  7. Tas atbalsta arī:
    • Uzticamība
      Hadoop pārdevēji nekavējoties rīkojas, kad tiek atklāta kļūda. Lai komerciālos risinājumus padarītu stabilākus, nekavējoties tiek izvietoti ielāpi un labojumi.
    • Atbalsts
      Cloudera Hadoop pārdevēji sniedz tehniskas vadlīnijas un palīdzību, kas klientiem atvieglo Hadoop izmantošanu uzņēmuma līmeņa uzdevumiem un kritiski svarīgām lietojumprogrammām.

    • Pilnība
      Hadoop pārdevēji apvieno savus izplatījumus ar dažādiem citiem papildinājumu rīkiem, kas palīdz klientiem pielāgot Hadoop lietojumprogrammu, lai veiktu viņu īpašos uzdevumus.

Cloudera izplatījumos tiek piedāvāti 2 dažāda veida izdevumi.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Tagad aplūkosim atšķirības starp tām.

Iespējas Cloudera-Express Cloudera-Enterprise
Klasteru vadība
1. Vairāku kopu pārvaldība
2. Resursu vadība
Izvietošana
1. Atbalsts CDH 4 un 5
2. Ritošā CDH jaunināšana
Pakalpojumu un konfigurācijas pārvaldība
1. Pārvaldiet HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark un Accumulo pakalpojumus.
2. Pakāpeniska pakalpojumu restartēšana
Drošība
1. LDAP autentifikācija
2. SAML autentifikācija
Uzraudzība un diagnostika
1. Veselības vēsture
Brīdinājumu pārvaldība
1. Brīdināt pa e-pastu
2. Brīdinājums, izmantojot SNMP
Papildu pārvaldības funkcijas
1. Automatizēta dublēšana un atkopšana
2. Failu pārlūkošana un meklēšana
3. MapReduce, Impala, HBase, dzijas izmantošanas pārskati

Cloudera Hadoop: Cloudera vadītājs

Pēc Cloudera domām, Cloudera Manager ir labākais veids, kā to izdarīt uzstādīt , konfigurēt , pārvaldīt , un monitors Hadoopa kaudze.

Tas nodrošina:

  1. Automatizēta izvietošana un konfigurēšana
  2. Pielāgojama uzraudzība un ziņošana
  3. Vienkārša un droša problēmu novēršana
  4. Nulle - dīkstāves apkope

Iegūstiet padziļinātas zināšanas par Cloudera Hadoop un dažādiem tā rīkiem

Cloudera Manager demonstrācija

Izpētīsim Cloudera pārvaldnieku.

mana sql apmācība iesācējiem

1. Zemāk redzamais pakalpojumu skaits, kas pašlaik darbojas Cloudera Manager. Varat arī skatīt diagrammas par klastera CPU izmantošanu, diska IO lietošanu utt.

Attēls: Cloudera Manager mājas lapa

2. Zemāk redzamais attēls parāda HBase kopu. Tas sniedz diagrammas un diagrammas par pašreiz darbojošā HBase REST servera veselības stāvokli.

Att .: HBase servera veselības stāvokļi

stīgas java ir nemainīgas

3. Tagad apskatīsim HBase klastera cilni Instances, kur var pārbaudīt statusu un IP konfigurāciju.

Att .: HBase klastera resursdatora servera statuss un IP adrese

4. Pēc tam jums ir cilne Konfigurācija. Šeit jūs varat redzēt visus konfigurācijas parametrus un mainīt to vērtības.

Att .: HBase klastera konfigurācija

Tagad sapratīsim, kas ir Cloudera pakas.

Cloudera Hadoop: pakas

Sūtījums ir binārs izplatīšanas formāts, kas satur programmas failus kopā ar papildu metadatiem, kurus izmanto Cloudera Manager.

Pakas ir pašpietiekamas un instalētas versijā katalogā, kas nozīmē, ka blakus var instalēt vairākas attiecīgā pakalpojuma versijas.

Tālāk ir norādītas paku izmantošanas priekšrocības:

  • Tas nodrošina CDH izplatīšanu kā vienu objektu, t.i., tā vietā, lai katrai CDH daļai būtu atsevišķa pakete, pakām vienkārši ir jāinstalē viens objekts.

  • Tas piedāvā iekšēju konsekvenci (tā kā visa CDH tiek izplatīta vienā pakā, visi CDH komponenti ir saskaņoti un nebūs riska, ka dažādas daļas nāk no dažādām CDH versijām).

  • Izmantojot dažus klikšķus, CDH pakas var instalēt, uzlabot, pazemināt, izplatīt un aktivizēt.

Apskatīsim, kā instalēt un aktivizēt Kafka pakalpojumu CDH, izmantojot pakas.

  1. Dodieties uz Cloudera manager mājas lapu >> Saimnieki >> Pakas, kā parādīts zemāk

    Att .: paku atlase no saimniekiem

2. Ja paku sarakstā jūs neredzat Kafku, varat paku pievienot sarakstam.

  1. Atrodiet izmantojamo Kafka versijas paku. Ja to neredzat, sūtījumu krātuvi varat pievienot sarakstam.
  2. Atrodiet paku tai Kafka versijai, kuru vēlaties instalēt - Cloudera Apache Kafka versiju izplatīšana .
    Zemāk redzamais attēls parāda to pašu.

Att .: pakas krātuves ceļš.

3. Kopējiet saiti, kā parādīts iepriekšējā attēlā, un pievienojiet to Attālināto sūtījumu krātuvei, kā parādīts zemāk.

Att .: Kafka ceļa pievienošana no repozitorija

Četri.Pēc ceļa pievienošanas Kafka būs gatava lejupielādei. Jūs varat vienkārši noklikšķināt uz lejupielādes pogas un lejupielādēt Kafka.

Att .: Kafka lejupielāde

5. Kad Kafka ir lejupielādēts, viss, kas jums jādara, ir to izplatīt un aktivizēt.

Att .: Kafka aktivizēšana

Kad tas ir aktivizēts, varat doties uz priekšu un apskatīt Kafka Cloudera pārvaldnieka cilnē pakalpojumi.

Att .: Kafka serviss

Cloudera Hadoop: Oozie darbplūsmas izveide

Darbplūsmas izveide, manuāli rakstot XML kodu un pēc tam to izpildot, ir sarežģīta. Jūs varat to atsaukties Oozie darba plānošana emuāru, lai uzzinātu par tradicionālo pieeju.

Jūs varat redzēt zemāk esošo attēlu, kurā mēs esam uzrakstījuši XML failu, lai izveidotu vienkāršu Oozie darbplūsmu. Att .: Oozie darbplūsmas izveide, izmantojot tradicionālo pieeju

Kā redzat, pat izveidojot vienkāršu Oozie plānotāju, mums bija jāraksta milzīgs XML kods, kas ir laikietilpīgs, un katras rindas atkļūdošana kļūst apgrūtinoša. Lai to pārvarētu, Cloudera Manager ieviesa jaunu funkciju ar nosaukumu Hue kas nodrošina GUI un vienkāršas vilkšanas un nomešanas funkcijas, lai izveidotu un izpildītu Oozie darbplūsmas.

Tagad redzēsim, kā Hue veic to pašu uzdevumu vienkāršotā veidā.

Pirms darbplūsmas izveidošanas vispirms izveidosim ievades failus, t.i., clickstream.txt un user.txt.
Failā user.txt mums ir lietotāja ID, vārds, vecums, valsts, dzimums, kā parādīts zemāk. Mums ir nepieciešams šis lietotāja fails, lai zinātu, ka lietotājs skaita un noklikšķina uz URL (kas minēts klikšķu straumes failā), pamatojoties uz lietotāja ID.

Att .: teksta faila izveide

Lai uzzinātu lietotāja klikšķu skaitu uz katra URL, mums ir klikšķu plūsma, kurā ir lietotāja ID un URL.

Att .: Clickstream fails

Rakstīsim vaicājumus skripta failā.

Attēls: skripta fails

Pēc tam, kad būsit izveidojis lietotāja failu, clickstream failu un skripta failu, mēs varēsim izveidot Oozie darbplūsmu.

1. Jūs varat vienkārši vilkt un nomest Oozie darbplūsmu, kā parādīts attēlā.

Attēls: velciet un nometiet Oozie darbplūsmas izveidošanas funkciju

2. Drīz pēc darbības pārtraukšanas jums jānorāda skripta faila ceļi un jāpievieno skripta failā minētie parametri. Šeit jums jāpievieno parametri OUTPUT, CLICKSTREAM un USER un jānorāda ceļš uz katru no parametriem.

Att.: Skripta faila un nepieciešamo parametru pievienošana darbības izpildei

3. Kad esat norādījis ceļus un pievienojis parametrus, tagad vienkārši saglabājiet un iesniedziet darbplūsmu, kā parādīts zemāk esošajā attēlā.

Att .: Oozie darbības saglabāšana un iesniegšana

4. Kad esat iesniedzis uzdevumu, jūsu darbs ir pabeigts. Izpildi un pārējās darbības rūpējas Hjū.

Att .: Oozie darba izpildes statuss

5.Tagad, kad esam izpildījuši Oozie darbu, apskatīsim cilni Darbības. Tajā ir lietotāja ID un darbplūsmas statuss. Tas parāda arī kļūdas kodus, ja tādi ir, darbības vienuma sākuma un beigu laiku.

Attēls: elementi, kas atrodas Oozie darbplūsmas darbības cilnē

6. Blakus darbības cilnei ir cilne Informācija. Tajā mēs varam redzēt darba sākuma laiku un pēdējo mainīto darba laiku.

Attēls: informācija par Oozie darbplūsmu.

7. Blakus cilnei Detaļas mums ir darbplūsmas cilne Konfigurācija.

Attēls: Oozie darbplūsmas konfigurācijas iestatījumi

7. Veicot darbības vienumu, ja ir kļūdas, tas tiks norādīts cilnē Žurnāls. Varat atsaukties uz kļūdu paziņojumiem un attiecīgi atkļūdot.

Att .: Žurnāla fails, kas satur kļūdu kodus un kļūdu paziņojumus

8. Šeit ir Hue automātiski izveidotās darbplūsmas XML kods.

Att .: Oozie darbplūsmas XML kods

9.1. Tā kā 2. darbībā jau esat norādījis izejas direktorija ceļu, šeit HDFS pārlūkprogrammā ir izejas direktorijs, kā parādīts zemāk.

Attēls: HDFS pārlūka izvades direktorijs

9.2 Noklikšķinot uz izvades direktorija, jūs atradīsit teksta failu ar nosaukumu output.txt, un šajā teksta failā būs faktiskā izeja, kā parādīts zemāk redzamajā attēlā.

kā izmantot kārtot c ++

Att .: Galīgās izvades teksts

Tādā veidā Hue padara mūsu darbu vienkāršu, nodrošinot vilkšanas un nomešanas opcijas, lai izveidotu Oozie darbplūsmu.

Es ceru, ka šis emuārs bija noderīgs, lai izprastu Cloudera izplatīšanu un dažādos Cloudera komponentus.

Vai vēlaties piedalīties Big Data revolūcijā?

Tagad, kad esat sapratis Cloudera Hadoop Distribution, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.