Ar pieaugošo pieprasījumu pēc Big Data, un Apache Hadoop irplkstrevolūcijas būtība ir mainījusi datu organizēšanas un aprēķināšanas veidu. Nepieciešamība organizācijām pielāgot Hadoop savām biznesa vajadzībām ir veicinājusi komerciālo izplatījumu parādīšanos. Komerciālie Hadoop izplatījumi parasti tiek komplektēti ar funkcijām, kas paredzētas Hadoop izvietošanas pilnveidošanai. Cloudera Hadoop Distribution nodrošina mērogojamu, elastīgu, integrētu platformu, kas ļauj ērti pārvaldīt strauji augošos datu apjomus un šķirnes jūsu uzņēmumā.
Šajā emuārā vietnē Cloudera Hadoop Distribution mēs aplūkosim šādas tēmas:
Cloudera Hadoop: Ievads Hadoop
Hadoop ir Apache atvērtā koda sistēma, kas lielos datus uzglabā un apstrādā izplatītā vidēpārikopu, izmantojot vienkāršus programmēšanas modeļus. Hadoop nodrošina paralēlu aprēķinu sadalītās krātuves augšpusē.Lai sīkāk uzzinātu vairāk par Hadoop no jūs varat atsaukties uz šo
Pēc šī īsa Hadoop ievada ļaujiet man tagad izskaidrot dažādos Hadoop izplatīšanas veidus.
Cloudera Hadoop: Hadoop izplatījumi
Tā kā Apache Hadoop ir atvērta pirmkoda, daudzi uzņēmumi ir izstrādājuši izplatīšanu, kas pārsniedz sākotnējā atvērtā pirmkoda kodu. Tas ir ļoti līdzīgs Linux izplatījumiem, piemēram, RedHat, Fedora un Ubuntu. Katrs no Linux izplatījumiem atbalsta savas funkcijas un funkcijas, piemēram, lietotājam draudzīgu GUI Ubuntu. Līdzīgi sarkana cepure ir populārs uzņēmumos, jo tas piedāvā atbalstu un arī ideoloģiju, lai pēc savas izvēles veiktu izmaiņas jebkurā sistēmas daļā. Red Hat atbrīvo jūs no programmatūras saderības problēmām. Parasti tas lietotājiem ir liels jautājumskuri pāriet no Windows.
Tāpat ir 3 galvenie Hadoop izplatīšanas veidi, kuriem ir savs funkciju un funkciju kopums un kas ir iebūvēti zem HDFS bāzes.
Cloudera vs MapR vs Hortonworks
Attēls: MapR vs Hortonworks vs Cloudera
Cloudera Hadoop izplatīšana
Cloudera ir tirgus tendence Hadoop kosmosā, un tā ir pirmā, kas izlaiž Hadoop komerciālo izplatīšanu. Tas piedāvā konsultāciju pakalpojumus, lai mazinātu plaisu starp “ko Apache Hadoop nodrošina” un “organizācijām nepieciešamo”.
Cloudera izplatīšana ir:
- Ātri biznesam : Sākot no analītikas līdz datu zinātnei un visam citam, Cloudera nodrošina nepieciešamo veiktspēju, lai atvērtu neierobežotu datu potenciālu.
- Padara Hadoopu viegli pārvaldāmu : Izmantojot Cloudera Manager, automatizētie vedņi ļauj ātri izvietot savu kopu neatkarīgi no mēroga vai izvietošanas vides.
- Drošs bez kompromisiem: Atbilst stingrām datu drošības un atbilstības vajadzībām, nezaudējot biznesa veiklību. Cloudera nodrošina integrētu pieeju datu drošībai un pārvaldībai.
Hortons-Darbs Izplatīšana
Horton-Works datu platforma (HDP) ir pilnībā atvērta pirmkoda platforma, kas paredzēta, lai manevrētu datus no daudziem avotiem un formātiem. Platforma ietver dažādus Hadoop rīkus, piemēram, Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive un papildu komponentus.
Tas atbalsta arī tādas funkcijas kā:
- HDP padara stropu ātrāk izmantojot savu jauno Stinger projektu.
- HDP izvairās no pārdevēja bloķēšanas apņemoties Hadoop dakšu versiju.
- HDP ir vērsta uz lietojamība no Hadoop platformas.
MapR izplatīšana
MapR ir uz platformu orientēts Hadoop risinājumu nodrošinātājs, tāpat kā HortonWorks un Cloudera. MapR integrē savu datu bāzes sistēmu, kas pazīstama kā MapR-DB, vienlaikus piedāvājot Hadoop izplatīšanas pakalpojumus. Tiek apgalvots, ka MapR-DB ir četras līdz septiņas reizes ātrāka nekā krājuma Hadoop datu bāze, t.i., HBase, kas tiek izpildīta citos izplatījumos.
Tam ir savas intriģējošās funkcijas, piemēram:
- Tas ir vienīgais Hadoop izplatītājs, kurā ietilpst Pig, Hive un Sqoop bez jebkādām Java atkarībām - jo tas balstās uz MapR-File System.
- MapR ir visizplatītākais Hadoop izplatītājs ar daudziem uzlabojumiem, kas padara to lietotājam draudzīgāku, ātrāku un uzticamāku.
Tagad padziļināti apspriedīsim Cloudera Hadoop izplatīšanu.
Abonējiet mūsu YouTube kanālu, lai iegūtu jaunus atjauninājumus ...
Cloudera Hadoop: Cloudera izplatīšana
Cloudera ir vispazīstamākais spēlētājs Hadoop telpā, kas izlaiž pirmo komerciālo Hadoop izplatījumu.
Att.: Cloudera Hadoop izplatīšana
Cloudera Hadoop Distribution atbalsta šādu funkciju kopu:
- Cloudera CDH ietver visus atvērtā koda komponentus, ir vērsti uz uzņēmuma klases izvietošanu un ir viens no populārākajiem komerciālajiem Hadoop izplatījumiem.
- Pazīstama ar jauninājumiem, Cloudera bija pirmā, kas piedāvāja SQL-for-Hadoop ar to Impala vaicājumu dzinējs.
- Pārvaldības konsole - Cloudera vadītājs , ir viegli lietojams un īstenojams ar bagātīgu lietotāja saskarni, kas organizētā un tīrā veidā parāda visu klastera informāciju.
- CDH jūs varat pievienot pakalpojumus iesāktajai un darbojošajai kopai bez traucējumiem.
- Citi Cloudera papildinājumi ietver drošību, lietotāja saskarni un saskarnes integrācijai ar trešo pušu lietojumprogrammām.
- CDH nodrošina Mezglu veidnes i., tas ļauj izveidot mezglu grupu Hadoop klasterī ar dažādu konfigurāciju. Tas izskauž vienas un tās pašas konfigurācijas izmantošanu visā Hadoop klasterī.
- Tas atbalsta arī:
- Uzticamība
Hadoop pārdevēji nekavējoties rīkojas, kad tiek atklāta kļūda. Lai komerciālos risinājumus padarītu stabilākus, nekavējoties tiek izvietoti ielāpi un labojumi. Atbalsts
Cloudera Hadoop pārdevēji sniedz tehniskas vadlīnijas un palīdzību, kas klientiem atvieglo Hadoop izmantošanu uzņēmuma līmeņa uzdevumiem un kritiski svarīgām lietojumprogrammām.Pilnība
Hadoop pārdevēji apvieno savus izplatījumus ar dažādiem citiem papildinājumu rīkiem, kas palīdz klientiem pielāgot Hadoop lietojumprogrammu, lai veiktu viņu īpašos uzdevumus.
- Uzticamība
Cloudera izplatījumos tiek piedāvāti 2 dažāda veida izdevumi.
- Cloudera Express Edition
- Cloudera Enterprise Edition
Tagad aplūkosim atšķirības starp tām.
Iespējas | Cloudera-Express | Cloudera-Enterprise |
Klasteru vadība | ||
1. Vairāku kopu pārvaldība | Jā | Jā |
2. Resursu vadība | Jā | Jā |
Izvietošana | ||
1. Atbalsts CDH 4 un 5 | Jā | Jā |
2. Ritošā CDH jaunināšana | Nē | Jā |
Pakalpojumu un konfigurācijas pārvaldība | ||
1. Pārvaldiet HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark un Accumulo pakalpojumus. | Jā | Jā |
2. Pakāpeniska pakalpojumu restartēšana | Nē | Jā |
Drošība | ||
1. LDAP autentifikācija | Nē | Jā |
2. SAML autentifikācija | Nē | Jā |
Uzraudzība un diagnostika | ||
1. Veselības vēsture | Jā | Jā |
Brīdinājumu pārvaldība | ||
1. Brīdināt pa e-pastu | Jā | Jā |
2. Brīdinājums, izmantojot SNMP | Nē | Jā |
Papildu pārvaldības funkcijas | ||
1. Automatizēta dublēšana un atkopšana | Nē | Jā |
2. Failu pārlūkošana un meklēšana | Nē | Jā |
3. MapReduce, Impala, HBase, dzijas izmantošanas pārskati | Nē | Jā |
Cloudera Hadoop: Cloudera vadītājs
Pēc Cloudera domām, Cloudera Manager ir labākais veids, kā to izdarīt uzstādīt , konfigurēt , pārvaldīt , un monitors Hadoopa kaudze.
Tas nodrošina:
- Automatizēta izvietošana un konfigurēšana
- Pielāgojama uzraudzība un ziņošana
- Vienkārša un droša problēmu novēršana
- Nulle - dīkstāves apkope
Iegūstiet padziļinātas zināšanas par Cloudera Hadoop un dažādiem tā rīkiem
Cloudera Manager demonstrācija
Izpētīsim Cloudera pārvaldnieku.
mana sql apmācība iesācējiem
1. Zemāk redzamais pakalpojumu skaits, kas pašlaik darbojas Cloudera Manager. Varat arī skatīt diagrammas par klastera CPU izmantošanu, diska IO lietošanu utt.
Attēls: Cloudera Manager mājas lapa
2. Zemāk redzamais attēls parāda HBase kopu. Tas sniedz diagrammas un diagrammas par pašreiz darbojošā HBase REST servera veselības stāvokli.
Att .: HBase servera veselības stāvokļi
stīgas java ir nemainīgas
3. Tagad apskatīsim HBase klastera cilni Instances, kur var pārbaudīt statusu un IP konfigurāciju.
Att .: HBase klastera resursdatora servera statuss un IP adrese
4. Pēc tam jums ir cilne Konfigurācija. Šeit jūs varat redzēt visus konfigurācijas parametrus un mainīt to vērtības.
Att .: HBase klastera konfigurācija
Tagad sapratīsim, kas ir Cloudera pakas.
Cloudera Hadoop: pakas
Sūtījums ir binārs izplatīšanas formāts, kas satur programmas failus kopā ar papildu metadatiem, kurus izmanto Cloudera Manager.
Pakas ir pašpietiekamas un instalētas versijā katalogā, kas nozīmē, ka blakus var instalēt vairākas attiecīgā pakalpojuma versijas.
Tālāk ir norādītas paku izmantošanas priekšrocības:
Tas nodrošina CDH izplatīšanu kā vienu objektu, t.i., tā vietā, lai katrai CDH daļai būtu atsevišķa pakete, pakām vienkārši ir jāinstalē viens objekts.
Tas piedāvā iekšēju konsekvenci (tā kā visa CDH tiek izplatīta vienā pakā, visi CDH komponenti ir saskaņoti un nebūs riska, ka dažādas daļas nāk no dažādām CDH versijām).
Izmantojot dažus klikšķus, CDH pakas var instalēt, uzlabot, pazemināt, izplatīt un aktivizēt.
Apskatīsim, kā instalēt un aktivizēt Kafka pakalpojumu CDH, izmantojot pakas.
- Dodieties uz Cloudera manager mājas lapu >> Saimnieki >> Pakas, kā parādīts zemāk
Att .: paku atlase no saimniekiem
2. Ja paku sarakstā jūs neredzat Kafku, varat paku pievienot sarakstam.
- Atrodiet izmantojamo Kafka versijas paku. Ja to neredzat, sūtījumu krātuvi varat pievienot sarakstam.
- Atrodiet paku tai Kafka versijai, kuru vēlaties instalēt - Cloudera Apache Kafka versiju izplatīšana .
Zemāk redzamais attēls parāda to pašu.
Att .: pakas krātuves ceļš.
3. Kopējiet saiti, kā parādīts iepriekšējā attēlā, un pievienojiet to Attālināto sūtījumu krātuvei, kā parādīts zemāk.
Att .: Kafka ceļa pievienošana no repozitorija
Četri.Pēc ceļa pievienošanas Kafka būs gatava lejupielādei. Jūs varat vienkārši noklikšķināt uz lejupielādes pogas un lejupielādēt Kafka.
Att .: Kafka lejupielāde
5. Kad Kafka ir lejupielādēts, viss, kas jums jādara, ir to izplatīt un aktivizēt.
Att .: Kafka aktivizēšana
Kad tas ir aktivizēts, varat doties uz priekšu un apskatīt Kafka Cloudera pārvaldnieka cilnē pakalpojumi.
Att .: Kafka serviss
Cloudera Hadoop: Oozie darbplūsmas izveide
Darbplūsmas izveide, manuāli rakstot XML kodu un pēc tam to izpildot, ir sarežģīta. Jūs varat to atsaukties Oozie darba plānošana emuāru, lai uzzinātu par tradicionālo pieeju.
Jūs varat redzēt zemāk esošo attēlu, kurā mēs esam uzrakstījuši XML failu, lai izveidotu vienkāršu Oozie darbplūsmu. Att .: Oozie darbplūsmas izveide, izmantojot tradicionālo pieeju
Kā redzat, pat izveidojot vienkāršu Oozie plānotāju, mums bija jāraksta milzīgs XML kods, kas ir laikietilpīgs, un katras rindas atkļūdošana kļūst apgrūtinoša. Lai to pārvarētu, Cloudera Manager ieviesa jaunu funkciju ar nosaukumu Hue kas nodrošina GUI un vienkāršas vilkšanas un nomešanas funkcijas, lai izveidotu un izpildītu Oozie darbplūsmas.
Tagad redzēsim, kā Hue veic to pašu uzdevumu vienkāršotā veidā.
Pirms darbplūsmas izveidošanas vispirms izveidosim ievades failus, t.i., clickstream.txt un user.txt.
Failā user.txt mums ir lietotāja ID, vārds, vecums, valsts, dzimums, kā parādīts zemāk. Mums ir nepieciešams šis lietotāja fails, lai zinātu, ka lietotājs skaita un noklikšķina uz URL (kas minēts klikšķu straumes failā), pamatojoties uz lietotāja ID.
Att .: teksta faila izveide
Lai uzzinātu lietotāja klikšķu skaitu uz katra URL, mums ir klikšķu plūsma, kurā ir lietotāja ID un URL.
Att .: Clickstream fails
Rakstīsim vaicājumus skripta failā.
Attēls: skripta fails
Pēc tam, kad būsit izveidojis lietotāja failu, clickstream failu un skripta failu, mēs varēsim izveidot Oozie darbplūsmu.
1. Jūs varat vienkārši vilkt un nomest Oozie darbplūsmu, kā parādīts attēlā.
Attēls: velciet un nometiet Oozie darbplūsmas izveidošanas funkciju
2. Drīz pēc darbības pārtraukšanas jums jānorāda skripta faila ceļi un jāpievieno skripta failā minētie parametri. Šeit jums jāpievieno parametri OUTPUT, CLICKSTREAM un USER un jānorāda ceļš uz katru no parametriem.
Att.: Skripta faila un nepieciešamo parametru pievienošana darbības izpildei
3. Kad esat norādījis ceļus un pievienojis parametrus, tagad vienkārši saglabājiet un iesniedziet darbplūsmu, kā parādīts zemāk esošajā attēlā.
Att .: Oozie darbības saglabāšana un iesniegšana
4. Kad esat iesniedzis uzdevumu, jūsu darbs ir pabeigts. Izpildi un pārējās darbības rūpējas Hjū.
Att .: Oozie darba izpildes statuss
5.Tagad, kad esam izpildījuši Oozie darbu, apskatīsim cilni Darbības. Tajā ir lietotāja ID un darbplūsmas statuss. Tas parāda arī kļūdas kodus, ja tādi ir, darbības vienuma sākuma un beigu laiku.
Attēls: elementi, kas atrodas Oozie darbplūsmas darbības cilnē
6. Blakus darbības cilnei ir cilne Informācija. Tajā mēs varam redzēt darba sākuma laiku un pēdējo mainīto darba laiku.
Attēls: informācija par Oozie darbplūsmu.
7. Blakus cilnei Detaļas mums ir darbplūsmas cilne Konfigurācija.
Attēls: Oozie darbplūsmas konfigurācijas iestatījumi
7. Veicot darbības vienumu, ja ir kļūdas, tas tiks norādīts cilnē Žurnāls. Varat atsaukties uz kļūdu paziņojumiem un attiecīgi atkļūdot.
Att .: Žurnāla fails, kas satur kļūdu kodus un kļūdu paziņojumus
8. Šeit ir Hue automātiski izveidotās darbplūsmas XML kods.
Att .: Oozie darbplūsmas XML kods
9.1. Tā kā 2. darbībā jau esat norādījis izejas direktorija ceļu, šeit HDFS pārlūkprogrammā ir izejas direktorijs, kā parādīts zemāk.
Attēls: HDFS pārlūka izvades direktorijs
9.2 Noklikšķinot uz izvades direktorija, jūs atradīsit teksta failu ar nosaukumu output.txt, un šajā teksta failā būs faktiskā izeja, kā parādīts zemāk redzamajā attēlā.
kā izmantot kārtot c ++
Att .: Galīgās izvades teksts
Tādā veidā Hue padara mūsu darbu vienkāršu, nodrošinot vilkšanas un nomešanas opcijas, lai izveidotu Oozie darbplūsmu.
Es ceru, ka šis emuārs bija noderīgs, lai izprastu Cloudera izplatīšanu un dažādos Cloudera komponentus.
Vai vēlaties piedalīties Big Data revolūcijā?Tagad, kad esat sapratis Cloudera Hadoop Distribution, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.
Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.