Hadoop YARN Tutorial - uzziniet YARN Architecture pamatus



Šis emuārs koncentrējas uz Apache Hadoop YARN, kas tika ieviests Hadoop 2.0 versijā resursu pārvaldībai un darba plānošanai. Tas izskaidro YARN arhitektūru ar tās sastāvdaļām un katras no tām pienākumiem. Tas apraksta pieteikuma iesniegšanu un Apache Hadoop YARN darbplūsmu.

Hadoop YARN ada Hadoop atmiņas bloku, t.i., HDFS (Hadoop Distributed File System) ar dažādiem apstrādes rīkiem. Tiem no jums, kuriem šī tēma ir pilnīgi jauna, YARN nozīmē “ un TO nekur R esource N ierosinātājs ”. Es arī iesaku jums iet caur mūsu un pirms turpināt mācīties Apache Hadoop YARN. Es šeit izskaidrošu šādas tēmas, lai pārliecinātos, ka šī emuāra beigās jūsu izpratne par Hadoop YARN ir skaidra.

Kāpēc Dzija?

Hadoop versijā 1.0, kas tiek dēvēta arī par MRV1 (MapReduce versija 1), MapReduce veica gan apstrādes, gan resursu pārvaldības funkcijas. Tas sastāvēja no Job Tracker, kas bija vienīgais meistars. Darbu izsekotājs piešķīra resursus, veica plānošanu un pārraudzīja apstrādes darbus. Tas piešķīra karti un samazināja uzdevumus vairākos pakārtotos procesos, kurus sauc par uzdevumu izsekotājiem. Uzdevumu izsekotāji periodiski ziņoja par savu progresu Job Tracker.





MapReduce versija 1.0 - Hadoop YARN - Edureka

Šis dizains radīja mērogojamības vājās vietas, pateicoties vienam Job Tracker.IBM savā rakstā minēja, ka saskaņā ar Yahoo! Šāda dizaina praktiskās robežas tiek sasniegtas, vienlaikus darbojoties 5000 mezglu un 40 000 uzdevumu kopai.Izņemot šo ierobežojumu, skaitļošanas resursu izmantošana MRV1 ir neefektīva. Arī Hadoop ietvars aprobežojās tikai ar MapReduce apstrādes paradigmu.



Lai pārvarētu visus šos jautājumus, Yahoo un Hortonworks YARN 2012. gadā ieviesa Hadoop versijā 2.0. YARN pamatideja ir atvieglot MapReduce, pārņemot atbildību par resursu pārvaldību un darba plānošanu. YARN Hadoop sāka dot iespēju vadīt darbus, kas nav MapReduce, Hadoop ietvaros.

Jūs varat arī noskatīties zemāk esošo video, kur mūsu eksperts detalizēti apspriež YARN koncepcijas un tās arhitektūru.

Hadoop dzijas apmācība Hadoop dzijas arhitektūra | Edureka

Ieviešot Dziju, tika pilnībā revolūcionēta. Tas kļuva daudz elastīgāks, efektīvāks un pielāgojamāks. Kad Yahoo 2013. gada pirmajā ceturksnī sāka dzīvot kopā ar YARN, tas palīdzēja uzņēmumam samazināt Hadoop klastera lielumu no 40 000 mezgliem līdz 32 000 mezgliem. Bet darba vietu skaits dubultojās līdz 26 miljoniem mēnesī.



Ievads Hadoop YARN

Tagad, kad esmu apgaismojis jūs ar nepieciešamību pēc Dzijas, ļaujiet man jūs iepazīstināt ar Hadoop v2.0 galveno komponentu, Dzija . YARN ļauj dažādām datu apstrādes metodēm, piemēram, diagrammu apstrādei, interaktīvai apstrādei, straumes apstrādei, kā arī pakešu apstrādei, lai palaistu un apstrādātu HDFS saglabātos datus. Tāpēc YARN paver Hadoop citiem izplatīto lietojumprogrammu veidiem, izņemot MapReduce.

YARN ļāva lietotājiem veikt darbības atbilstoši prasībām, izmantojot dažādus rīkus, piemēram, reāllaika apstrādei, Stropu SQL, HBase priekš NoSQL un citiem.

Papildus resursu pārvaldībai YARN veic arī darba plānošanu. YARN veic visas apstrādes darbības, piešķirot resursus un plānojot uzdevumus. Apache Hadoop YARN arhitektūra sastāv no šādām galvenajām sastāvdaļām:

pēcdiploma diploms pret maģistra grādu
  1. Resursu pārvaldnieks : Darbojas ar galveno dēmonu un pārvalda resursu sadali klasterī.
  2. Mezglu pārvaldnieks: Viņi darbojas uz vergu dēmoniem un ir atbildīgi par uzdevuma izpildi katrā atsevišķā datu mezglā.
  3. Lietojumprogrammu maģistrs: Pārvalda lietotāja darba dzīves ciklu un atsevišķu lietojumprogrammu resursu vajadzības. Tas darbojas kopā ar mezglu pārvaldnieku un uzrauga uzdevumu izpildi.
  4. Konteiners: Resursu pakete, ieskaitot RAM, CPU, tīklu, HDD uc vienā mezglā.

Dzijas elementi

Jūs varat uzskatīt, ka YARN ir jūsu Hadoop ekosistēmas smadzenes. Zemāk redzamais attēls attēlo YARN arhitektūru.

The pirmā sastāvdaļa YARN Architecture ir

Resursu pārvaldnieks

  • Tā ir galvenā resursu piešķiršanas autoritāte .
  • Saņemot apstrādes pieprasījumus, tā attiecīgi nosūta pieprasījumu daļas atbilstošajiem mezglu pārvaldniekiem, kur notiek faktiskā apstrāde.
  • Tas ir klasteru resursu šķīrējtiesnesis un lemj par pieejamo resursu piešķiršanu konkurējošām lietojumprogrammām.
  • Optimizē kopu izmantošanu, piemēram, visu resursu saglabāšanu visu laiku pret dažādiem ierobežojumiem, piemēram, jaudas garantijām, taisnīgumu un SLA.
  • Tam ir divas galvenās sastāvdaļas:a) Plānotājsb)Lietojumprogrammu pārvaldnieks

a) Plānotājs

  • Plānotājs ir atbildīgs par resursu piešķiršanu dažādām darbojošām lietojumprogrammām, ņemot vērā jaudas ierobežojumus, rindas utt.
  • ResourceManager to sauc par tīru plānotāju, kas nozīmē, ka tas neveic nekādu lietojumprogrammu stāvokļa uzraudzību vai izsekošanu.
  • Ja ir lietojumprogrammas kļūme vai aparatūras kļūme, plānotājs negarantē neveiksmīgo uzdevumu restartēšanu.
  • Veic plānošanu, pamatojoties uz lietojumprogrammu resursu prasībām.
  • Tam ir pievienojams politikas spraudnis, kas ir atbildīgs par klastera resursu sadalīšanu starp dažādām lietojumprogrammām. Ir divi šādi spraudņi: Jaudas plānotājs un Godīgs plānotājs , kas pašlaik tiek izmantoti kā plānotāji programmā ResourceManager.

b) Lietojumprogrammu pārvaldnieks

  • Tā ir atbildīga par darba iesniegumu pieņemšanu.
  • Pārrunā resursu pārvaldnieka pirmo konteineru, lai izpildītu lietojumprogrammas lietojumprogrammu galveno.
  • Pārvalda Application Masters palaišanu klasterī un nodrošina pakalpojumu Master Master konteinera restartēšanai pēc kļūmes.

Nāk uz otrais komponents kurš ir:

Mezglu pārvaldnieks

  • Tas rūpējas par atsevišķiem mezgliem Hadoop klasterī unpārvalda lietotāja darbus un darbplūsmu dotajā mezglā.
  • Tas reģistrējas resursu pārvaldniekā un sūta sirdsdarbību ar mezgla veselības stāvokli.
  • Tās galvenais mērķis ir pārvaldīt lietojumprogrammu konteinerus, kurus tam piešķīris resursu pārvaldnieks.
  • Tas regulāri seko resursu pārvaldniekam.
  • Lietojumprogrammu meistars pieprasa piešķirto konteineru no mezglu pārvaldnieka, nosūtot tam konteinera palaišanas kontekstu (CLC), kas ietver visu lietojumprogrammas darbību. Mezglu pārvaldnieks izveido pieprasīto konteinera procesu un to sāk.
  • Uzrauga atsevišķu konteineru resursu izmantošanu (atmiņa, centrālais procesors).
  • Veic žurnāla pārvaldību.
  • Tas arī nogalina konteineru, kā norādījis resursu pārvaldnieks.

The trešais komponents ir Apache Hadoop YARN

Lietojumprogrammu maģistrs
  • Pieteikums ir viens darbs, kas iesniegts ietvarstruktūrā. Katrai šādai lietojumprogrammai ir piesaistīts unikāls lietojumprogrammu maģistrs, kas ir specifiska ietvara vienība.
  • Tas ir process, kas koordinē lietojumprogrammas izpildi klasterī un pārvalda arī kļūdas.
  • Tās uzdevums ir vienoties par resursu pārvaldnieku par resursiem un sadarboties ar mezglu pārvaldnieku, lai izpildītu un uzraudzītu komponentu uzdevumus.
  • Tas ir atbildīgs par sarunām par atbilstošiem resursu konteineriem no ResourceManager, to stāvokļa izsekošanu un progresa uzraudzību.
  • Kad tas ir sācies, tas periodiski sūta sirdsdarbību resursu pārvaldniekam, lai apstiprinātu tā veselību un atjauninātu resursu pieprasījuma reģistru.

The ceturtais komponents ir:

Konteiners
  • Tā ir fizisko resursu, piemēram, RAM, CPU kodolu un disku kolekcija vienā mezglā.
  • Dzijas konteinerus pārvalda konteinera palaišanas konteksts, kas ir konteinera dzīves cikls (CLC). Šis ieraksts satur vides mainīgo karti, attālināti pieejamā krātuvē glabātās atkarības, drošības marķierus, Node Manager pakalpojumu lietderīgo slodzi un procesa izveidošanai nepieciešamo komandu.
  • Tas piešķir tiesības uz lietojumprogrammu izmantot noteiktu resursu daudzumu (atmiņu, procesoru utt.) Konkrētam resursdatoram.

Pieteikuma iesniegšana YARN

Skatiet attēlu un apskatiet darbības, kas saistītas ar Hadoop YARN pieteikuma iesniegšanu:

1) Iesniedziet darbu

2)Iegūt lietojumprogrammas ID

3) Pieteikuma iesniegšanas konteksts

4 a) Sāciet konteineruUzsākt

b) Palaidiet programmu Master

5) Piešķirt resursus

6 a) Konteiners

b) Uzsākt

7) Izpildīt

Lietojumprogrammas darbplūsma Hadoop YARN

Skatiet norādīto attēlu un skatiet šīs darbības, kas saistītas ar Apache Hadoop YARN lietojumprogrammu darbplūsmu:

  1. Klients iesniedz pieteikumu
  2. Resursu pārvaldnieks piešķir konteineru, lai palaistu lietojumprogrammu pārvaldnieku
  3. Lietojumprogrammu pārvaldnieks reģistrējas resursu pārvaldniekā
  4. Lietojumprogrammu pārvaldnieks pieprasa konteinerus no resursu pārvaldnieka
  5. Lietojumprogrammu pārvaldnieks paziņo mezglu pārvaldniekam par konteineru palaišanu
  6. Lietojumprogrammas kods tiek izpildīts konteinerā
  7. Klients sazinās ar resursu pārvaldnieku / lietojumprogrammu pārvaldnieku, lai uzraudzītu lietojumprogrammas statusu
  8. Lietojumprogrammu pārvaldnieks reģistrējas no resursu pārvaldnieka

Tagad, kad jūs zināt Apache Hadoop YARN, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.