Kā izveidot Hadoop klasteri ar Amazon EMR?



Šajā rakstā mēs izpētīsim AWS EMR servisu un tā laikā uzzināsim, kā izveidot Amazon HMM klasteru ar Amazon EMR?

Šajā rakstā par to, kā izveidot Klasteris Ar Amazon EMR mēs redzētu, kā viegli palaist un mērogot Hadoop un Big Data lietojumprogrammas. Šajā rakstā tiks apskatīti šādi norādījumi,

Turpinot ar šo Kā izveidot Hadoop klasteri ar Amazon EMR?





Kā izveidot Hadoop klasteri ar Amazon EMR?

Meklējot kaut ko Google vai Yahoo, mēs atbildi saņemam sekundes daļās. Kā ir iespējams, ka Google, Yahoo un citas meklētājprogrammas tik ātri atgriež rezultātus no arvien pieaugošā tīmekļa? Meklētājprogrammas pārmeklē internetu, lejupielādē tīmekļa lapas un izveido indeksu, kā parādīts zemāk. Jebkuram vaicājumam no mums viņi izmanto indeksu, lai noskaidrotu, kuras ir visas tīmekļa lapas, kurās ir meklētais teksts. Apskatot zemāk redzamo rādītāju labajā pusē, mēs varam skaidri zināt, ka Hadoop ir 1., 2. un 3. tīmekļa lapa.

Attēls - kā izveidot Hadoop klasteri ar Amazon EMR - EdurekaTad, PageRanking algoritms tiek izmantots, pamatojoties uz to, kā lapas ir savienotas, lai noskaidrotu, kuru lapu rādīt augšdaļā un kuru apakšā. Zemāk redzamajā scenārijā W1 ir “vispopulārākais”, jo visi to saista un W4 ir “vismazāk populāri”, jo neviens ar to nesaista. Tātad meklēšanas rezultātos W1 tiek parādīts augšpusē un W4 apakšā.



kas ir nosaukumvietas c ++

Līdz ar tīmekļa lapu eksploziju šīs meklētājprogrammas atrada izaicinājumus, lai izveidotu indeksu un veiktu PageRanking aprēķinus. Šeit Hadoopa dzimšana notika Yahoo un vēlāk ASF (Apache Software Foundation) pakļautībā kļuva par FOSS (Free and Open Source Software). ĀCM laikā daudzi uzņēmumi sāka interesēties par Hadoop un sāka sniegt ieguldījumu tā uzlabošanā. Hadoop bija tas, kurš uzsāka lielo datu revolūciju, taču daudz citu programmatūru, piemēram, Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, sāka attīstīties, lai novērstu Hadoop ierobežojumus un nepilnības.

Tīmekļa meklētājprogrammas bija pirmās, kas izmantoja Hadoop, taču vēlāk, veidojoties arvien vairāk datu, sāka attīstīties daudz lietojumu. Ņemsim piemēru no e-komercijas lietojumprogrammas, ko izmanto grāmatu iesakīšanai lietotājam. Kā norādīts zemāk redzamajā diagrammā, lietotājs1 nopirka grāmatu1, grāmatu2 un grāmatu3, lietotājs2 nopirka dažas grāmatas un tā tālāk. Rūpīgi ieskatoties, mēs varam novērot, ka lietotājam1 un lietotājam2 ir līdzīga garša, tāpat kā viņi ir iegādājušies grāmatu1 un grāmatu2. Tātad, book3 var ieteikt lietotājam2 un book4 lietotājam1. To sauc par kopīgu filtrēšanu, mašīnmācīšanās algoritma veidu. Mēs varam uzsist zemāk redzamo diagrammu un iegūt līdzīgas grāmatas.

Iepriekš minētajā gadījumā mēs esam izveidojuši indeksu PageRanked un ieteikuši lietotājam, datu lielums bija mazs, tāpēc mēs varējām vizualizēt datus un secināt no tiem dažus rezultātus. Datu lielums katru dienu kļūst lielāks un nekontrolējams, šeit parādās tādi lielo datu rīki kā Hadoop.



Hadoop atrisina daudz problēmu, taču Hadoop un citas Big Data programmatūras instalēšana nekad nebija bijis viegls uzdevums. Lai uzlabotu daudz konfigurācijas parametru, piemēram, integrācijas, instalēšanas un konfigurācijas problēmas, ar kurām strādāt. Šeit ir tādi uzņēmumi kā Cloudera, un Databricks palīdz. Tie atvieglo programmatūras Big Data instalēšanu un sniedz komerciālu atbalstu, piemēram, pieņemsim, ka ražošanā kaut kas notiek. Amazon EMR (Elastic MapReduce) ļauj daudz vieglāk izmantot Hadoop utt. Nosaukums Elastic MapReduce ir nedaudz nepareizs nosaukums, jo EMR atbalsta arī citus izplatītus skaitļošanas modeļus, piemēram, Resilient Distributed Datasets, nevis tikai MapReduce.

Šajā apmācībā mēs izpētīsim, kā iestatīt EMR kopu AWS Cloud un gaidāmajā apmācībā izpētīsim, kā palaist Spark, Hive un citas programmas.

Turpinot ar šo Kā izveidot Hadoop klasteri ar Amazon EMR?

Demonstrācija: EMR kopas izveide AWS

1. darbība: Atveriet EMR pārvaldības konsoli un noklikšķiniet uz “Izveidot kopu”. Konsolē: metadati pārtraukta kopa tiek saglabāts arī divus mēnešus bez maksas. Tas ļauj izbeigto kopu atkal klonēt un izveidot.

2. solis : Ātro iespēju ekrānā noklikšķiniet uz “Pāriet uz papildu opcijām”, lai norādītu daudz sīkāku informāciju par kopu.

3. solis: Cilnē Papildu opcijas mēs varam izvēlēties dažādu programmatūru, kas jāinstalē EMR klasterī. SQL interfeisam var izvēlēties stropu. Datu plūsmas valodas saskarnei var izvēlēties Pig. Izplatītai lietojumprogrammu koordinēšanai var izvēlēties ZooKeeper utt. Šī cilne ļauj mums pievienot arī darbības, kas ir neobligāts uzdevums. Darbības ir lielo datu apstrādes darbi, izmantojot MapReduce, Pig, Hive uc. Tos var pievienot šajā cilnē vai vēlāk, tiklīdz klasteris ir izveidots. Noklikšķiniet uz “Next”, lai atlasītu EMR kopai nepieciešamo aparatūru.

4. solis: Hadoops seko galvenā un darba ņēmēja arhitektūrai, kur kapteinis veic visu koordināciju, piemēram, darba plānošanu un norīkošanu, kā arī viņu progresa pārbaudi, bet darbinieki faktiski veic datu apstrādi un glabāšanu. Viens kapteinis ir viena kļūmes punkts (SPOF). Amazon EMR atbalsta multi-master for High Availability (HA). Iepriekšējais solis ļauj iestatīt vairāku galveno kopu EMR.

EMR atļauj divu veidu mezglus, Core un Task. Galvenais mezgls tiek izmantots gan datu apstrādei, gan glabāšanai, uzdevuma mezgls tiek izmantots tikai datu apstrādei. Šajā apmācībā mēs varam atlasīt tikai vienu Core un ne Uzdevuma mezglus, jo tas mums prasa mazāk izmaksu. Izvēlieties arī Spot gadījumi beidzies Pēc pieprasījuma jo Spot gadījumi ir lētāki. Spot instances ir tādas, ka AWS tos var automātiski pārtraukt ar a divas minūtes iepriekš . Tas ir labi prakses dēļ un dažos faktiskajos scenārijos. Spot instances tiek automātiski pārtrauktas, jo tām ir zema prioritāte salīdzinājumā ar citiem instanču tipiem. Noklikšķiniet uz “Next”.

5. darbība: Norādiet klastera nosaukumu. un noklikšķiniet uz “Next”. Ievērojiet, ka “Termination protection” ir ieslēgta pēc noklusējuma. Tas nodrošina, ka EMR kopa netiek nejauši izdzēsta, veicot dažas darbības, pārtraucot kopu.

6. solis: Cilnē ir norādītas dažādas EMR kopas drošības opcijas. Lai pieteiktos EC2 instancē, ir jāizvēlas KeyPair. EMR automātiski izveidos atbilstošās lomas un drošības grupas un pievienos tās galvenajiem un strādājošajiem EC2 mezgliem. Noklikšķiniet uz “Izveidot kopu”.

Klastera izveide aizņem dažas minūtes, jo ir jāuzpērk EC2 gadījumi un jāinstalē un jākonfigurē dažādas Big Data programmatūras. Sākotnēji klastera statuss būs “Sākuma” stāvoklī un pāriet uz “Gaida” stāvokli. Stāvoklī “Gaida” EMR kopa vienkārši gaida, kad mēs iesniegsim dažādus lielo datu apstrādes darbus, piemēram, MR, Spark, Hive utt.

Ievērojiet arī paziņojumu no EC2 pārvaldības konsoles un ņemiet vērā, ka galvenajam un darba ņēmēja EC2 gadījumiem jābūt darba stāvoklī. Tie ir Spot gadījumi, kas ir izveidoti kā daļa no EMR kopas izveides. To pašu EC2 var novērot arī EMR pārvaldības konsoles cilnē Aparatūra. Ņemiet vērā, ka cilnē Aparatūra Spot EC2 gadījumu cena ir norādīta kā 0,032 $ / stundā. Spot instanču cena mainās laika gaitā un ir daudz zemāka nekā pēc pieprasījuma EC2 cenām.

7. solis: Tagad, kad EMR kopa ir veiksmīgi pievienota, var pievienot Steps vai Big Data apstrādes darbus. Atveriet cilni Darbības un noklikšķiniet uz “Pievienot soli” un atlasiet soļa veidu (MR, stropu, dzirksteli utt.). Mēs to izpētīsim gaidāmajā apmācībā. Pagaidām noklikšķiniet uz Atcelt.

8. solis: Tagad, kad esam redzējuši, kā sākt EMR, redzēsim, kā apturēt to pašu.

8.1. Darbība: Noklikšķiniet uz Pārtraukt.

8.2. Darbība: Kā minēts iepriekšējās darbībās, EMR kopai “Termination protection” ir ieslēgta, un poga Pārtraukt ir atspējota. Noklikšķiniet uz Mainīt.

8.3. Darbība: Atlasiet pogu “Izslēgts” un noklikšķiniet uz atzīmes. Tagad pogai Pārtraukt vajadzētu būt iespējotai. Šis ir papildu solis, ko EMR ir ieviesis, tikai lai pārliecinātos, ka mēs nejauši neizdzēšam EMR kopu.

Ievērojiet, ka EMR kopa būs statusa Terminating un EC2 darbība tiks pārtraukta. Visbeidzot, EMR kopa tiks pārvietota uz statusu “Izbeigts”, no šejienes apstāsies mūsu norēķini ar AWS. Pārliecinieties, ka pārtraucat kopu, lai neradītu papildu AWS izmaksas.

Secinājums

Šajā apmācībā mēs esam redzējuši, kā dažu minūšu laikā no tīmekļa konsoles (pārlūkprogrammas) palaist EMR kopu. To pašu var automatizēt, izmantojot , AWS SDK vai izmantojot AWS CloudFormation . Kā pamanījām, EMR klastera iestatīšana ir dažu minūšu jautājums, un lielo datu apstrādi var sākt uzreiz, tiklīdz apstrāde ir pabeigta, izvadi var saglabāt S3 vai DynamoDB un tāpēc klastera izslēgšana, lai apturētu norēķinus. Šī cenu modeļa un lietošanas ērtuma dēļ EMR ir liels panākums tiem, kas veic lielo datu apstrādi. Nav nepieciešams iegādāties serveri milzīgā skaitā, iegūt licences programmatūrai Big Data un tās uzturēt. ”

Tātad, tas ir puiši, tas mūs noved pie šī raksta beigām par to, kā izveidot Hadoop klasteri ar Amazon EMR?Gadījumā, ja vēlaties iegūt zināšanas šajā priekšmetā, Edureka ir izstrādājusi mācību programmu, kas precīzi aptver to, kas jums būtu nepieciešams, lai izjauktu Solution Architect eksāmenu! Jūs varat apskatīt kursa informāciju par apmācība.

Ja rodas jautājumi, kas saistīti ar šo emuāru, lūdzu, nekautrējieties uzdot jautājumu komentāru sadaļā zemāk, un mēs ar prieku jums atbildēsim ātrāk.