Hadoop 2.0 - bieži uzdotie jautājumi



Interese par Hadoop pēdējo pāris gadu laikā ir daudzkārt palielinājusies. Šis ieraksts atbild uz jūsu jautājumiem un novērš daudzas šaubas par Hadoop 2.0 un tā lietošanu.

Šis ir turpinājuma ziņojums ar atbildi uz bieži uzdotajiem jautājumiem publiskā tīmekļa vietnes seminārā, ko veica edureka! ieslēgts .

Bieži uzdotie jautājumi par Hadoop

Deepaks:





Kas ir Hadoop?
Apache Hadoop ir atvērtā pirmkoda programmatūras sistēma datu kopu glabāšanai un liela apjoma apstrādei preču aparatūras kopās. Tas ir atvērtā koda datu pārvaldības programmatūras ietvars ar paplašinātu krātuvi un izplatītu apstrādi. To būvē un izmanto globāla ieguldītāju un lietotāju kopiena.

Lasiet vairāk mūsu Hadoop emuāra ziņā un .



Meklēt:

Kādi ir lielo datu izmantošanas gadījumi ceļojumu, transporta un aviokompāniju nozarē?

Saulains:



Vai varat mums norādīt uz kādu Hadoop ieviešanas reālās dzīves paraugu, kuru mēs varam izpētīt?
Mēs esam līvigadalaikmetā, kad palielinās sastrēgumi pīķa laikā. Transporta operatori pastāvīgi meklē izdevīgus veidus, kā sniegt savus pakalpojumus, vienlaikus uzturot transporta parku labos apstākļos. Lielo datu analīzes izmantošana šajā domēnā var palīdzēt organizācijai:

  • Maršruta optimizācija
  • Ģeotelpiskā analīze
  • Satiksmes modeļi un sastrēgumi
  • Aktīvu uzturēšana
  • Ieņēmumu pārvaldība (t.i., aviosabiedrība)
  • Krājumu pārvaldība
  • Degvielas taupīšana
  • Mērķtiecīgs mārketings
  • Klientu lojalitāte
  • Jaudas prognozēšana
  • Tīkla veiktspēja un optimizācija

Daži no reālās lietošanas gadījumiem ir:
uz) Lidojuma izmaksu noteikšana
b) Prognozēšanas modelēšana krājumu loģistikai
c) Orbitz Worldwide - klientu pirkšanas modeļi
d) Sešas Super-Scale Hadoop izvietošanas
ir) Hadoop - vairāk nekā pievieno
f) Hadoops uzņēmumā

noklusējuma virknes vērtība Java

Jūs varat uzzināt vairāk par Hadoop reālās pasaules ieviešanu vietnē:

Hirdesh:

Vai Hadoop ir saistīts ar datu apstrādi un apstrādi? Kā mēs izmantojam pārskatu un vizuālo analīzi. Vai Qlikview, Tableau var izmantot virs Hadoop?
Galvenie Hadoop komponenti HDFS un MapReduce ir saistīti ar datu glabāšanu un apstrādi. HDFS uzglabāšanai un MapReduce apstrādei. Bet analīzei tiek izmantoti Hadoop galvenie komponenti, piemēram, Pig un Hive. Vizuālo ziņojumu tablo QlikView var savienot ar Hadoop for Visual Reporting.

Amit:

Hadoops vs. mongoDB
MongoDB tiek izmantots kā reāllaika datu krājums “Operational”, turpretī Hadoop tiek izmantots bezsaistes pakešdatu apstrādei un analīzei.
mongoDB ir uz dokumentiem orientēts, bez shēmas datu krājums, kuru varat izmantot tīmekļa lietojumprogrammā kā aizmuguri, nevis RDBMS, piemēram, MySQL, turpretī Hadoop galvenokārt tiek izmantots kā paplašināta krātuve un izplatīta liela datu apjoma apstrāde.

Lasiet vairāk mūsu vietnē mongoDB un Hadoop bloga ieraksts .

Šeit:

Vai Apache Spark ir Hadoop sastāvdaļa ?
Apache Spark ir ātrs un vispārējs dzinējs liela mēroga datu apstrādei. Spark ir ātrāks un atbalsta atmiņā esošo apstrādi. Dzirksteles izpildes dzinējs paplašina skaitļošanas slodžu veidu, ko Hadoop var apstrādāt un var darbināt Hadoop 2.0 YARN klasterī. Tā ir apstrādes ietvara sistēma, kas ļauj uzglabāt atmiņā esošos objektus (RDD), kā arī spēju apstrādāt šos objektus, izmantojot Scala slēgumus. Tas atbalsta Graph, Data Warehouse, Machine Learning un Stream apstrādi.

Ja jums ir Hadoop 2 kopa, varat palaist Spark bez nepieciešamības instalēt. Pretējā gadījumā Spark ir viegli darbināt atsevišķi vai uz EC2 vai Mesos. To var nolasīt no HDFS, HBase, Cassandra un jebkura Hadoop datu avota.

Lasiet vairāk vietnē Spark šeit .

pagriezt un atvienot sql

Prasad:

Kas ir Apache Flume?
Apache Flume ir izplatīta, uzticama un pieejama sistēma, lai efektīvi apkopotu, apkopotu un pārvietotu lielu žurnāldatu daudzumu no daudziem dažādiem avotiem uz centralizētu datu avotu.

Amit:

SQL vs NO-SQL datu bāzes
NoSQL datu bāzes ir nākamās paaudzes datu bāzes, un tās galvenokārt attiecas uz dažiem punktiem

  • nav saistīts
  • izplatīts
  • atvērtais avots
  • horizontāli mērogojams

Bieži tiek izmantotas citas īpašības, piemēram, bez shēmas, vienkāršs replikācijas atbalsts, vienkāršs API, galu galā konsekvents / BASE (nevis ACID), milzīgs datu apjoms un daudz ko citu. Piemēram, daži no atšķirīgajiem ir:

  • NoSQL datu bāzes palielinās horizontāli, pievienojot vairāk serveru, lai tiktu galā ar lielākām slodzēm. No otras puses, SQL datu bāzes parasti palielinās vertikāli, palielinoties datplūsmai, vienam serverim tiek pievienoti arvien vairāk resursu.
  • SQL datu bāzēs pirms jebkādas informācijas un datu pievienošanas jums bija jādefinē savas shēmas, taču NoSQL datu bāzēs nav shēmas, un shēmas definēšana nav nepieciešama iepriekš.
  • SQL datu bāzes ir tabulas pamatā ar rindām un kolonnām, ievērojot RDBMS principus, savukārt NoSQL datu bāzes ir dokumentu, atslēgu vērtību pāri, diagrammu vai plašu kolonnu krājumi.
  • SQL datu bāzēs datu definēšanai un manipulēšanai tiek izmantota SQL (strukturēta vaicājumu valoda). NoSQL datu bāzē vaicājumi dažādās datubāzēs atšķiras.

Populāras SQL datu bāzes: MySQL, Oracle, Postgres un MS-SQL
Populārs NoSQL datu bāzes: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j un CouchDB

Pārskatiet mūsu emuārus vietnē Hadoop un NoSQL datubāzes un vienas šādas datubāzes priekšrocības:

Koteswararao:

Vai Hadoopam ir iebūvēta kopu tehnoloģija?
Hadoop klasteris izmanto Master-Slave arhitektūru. Tas sastāv no viena galvenā (NameNode) un vergu kopas (DataNodes) datu glabāšanai un apstrādei. Hadoop ir paredzēts darbam ar lielu skaitu mašīnu, kurām nav kopīgas atmiņas vai diski. Šie DataNodes ir konfigurēti kā klasteri, izmantojot . Hadoops izmanto replikācijas koncepciju, lai nodrošinātu, ka klasterī visu laiku ir pieejama vismaz viena datu kopija. Tā kā ir vairākas datu kopijas, serverī glabātos datus, kas ir bezsaistē vai mirst, var automātiski atkārtot no zināmas labas kopijas.

Dinesh:

Kas ir darbs Hadoopā? Ko visu var paveikt, izmantojot Ījabu?
Programmā Hadoop Job ir programma MapReduce, lai apstrādātu / analizētu datus. Termins MapReduce faktiski attiecas uz diviem atsevišķiem un atšķirīgiem uzdevumiem, kurus veic Hadoop programmas. Pirmais ir uzdevums Karte, kas ņem datu kopu un pārvērš to citā starpposma datu kopā, kur atsevišķi elementi tiek sadalīti atslēgu un vērtību pāros. MapReduce Job otrā daļa, uzdevums Samazināt, izejas no kartes ņem kā ievadi un atslēgas vērtību pārus apvieno mazākā apkopotā atslēgas un vērtību pāra kopā. Kā norāda nosaukuma MapReduce secība, uzdevums Reduce vienmēr tiek veikts pēc Map uzdevumu pabeigšanas. Lasiet vairāk vietnē MapReduce Job .

Sukruth:

Kas īpašs ir NameNode ?
NameNode ir HDFS failu sistēmas sirds. Tas saglabā metadatus, piemēram, visu failu sistēmas failu direktoriju koku, un izseko vietas, kur visā klasterī tiek glabāti faila dati. Faktiskie dati DataNodes tiek glabāti kā HDFS bloki.
Klienta lietojumprogrammas runā ar NameNode ikreiz, kad tās vēlas atrast failu vai kad vēlas pievienot / kopēt / pārvietot / izdzēst failu. NameNode atbild uz veiksmīgajiem pieprasījumiem, atdodot attiecīgo DataNodes serveru sarakstu, kur atrodas dati. Lasiet vairāk par HDFS arhitektūru .

Dinesh:

Kad Hadoop 2.0 tika ieviests tirgū?
Apache Software Foundation (ASF), atvērtā koda grupa, kas pārvalda Hadoop Development, savā emuārā 2013. gada 15. oktobrī ir paziņojusi, ka Hadoop 2.0 tagad ir vispārpieejams (GA). Šis paziņojums nozīmē, ka pēc ilgas gaidīšanas Apache Hadoop 2.0 un YARN tagad ir gatavi izvietošanai Production. Vairāk par Emuārs.

Dinesh:

Kādi ir daži lietojumprogrammas, kas nav MapReduce Big Data, piemēri?
MapReduce ir lieliski piemērots daudzām lietojumprogrammām, lai atrisinātu lielo datu problēmas, taču ne visiem citiem programmēšanas modeļiem labāk ir piemērotas prasības, piemēram, diagrammas apstrāde (piemēram, Google Pregel / Apache Giraph) un iteratīva modelēšana ar ziņojumu nodošanas saskarni (MPI).

Marish:

Kā dati tiek sakārtoti un indeksēti HDFS?
Dati ir sadalīti 64 MB blokos (konfigurējami ar parametru) un tiek glabāti HDFS. NameNode glabā šo bloku glabāšanas informāciju kā bloka ID savā RAM (NameNode metadati). MapReduce darbavietas var piekļūt šiem blokiem, izmantojot NameNode RAM saglabātos metadatus.

Šašvats:

Vai vienā kopā mēs varam izmantot gan MapReduce (MRv1), gan MRv2 (ar YARN)?
Hadoop 2.0 ir ieviesis jaunu sistēmu YARN, lai rakstītu un izpildītu dažādas programmas Hadoop. Tātad, YARN un MapReduce ir divi atšķirīgi Hadoop 2.0 jēdzieni, un tos nevajadzētu jaukt un izmantot savstarpēji. Pareizais jautājums ir 'Vai ir iespējams palaist gan MRv1, gan MRv2 ar dziju iespējotu Hadoop 2.0 kopu?' Atbilde uz šo jautājumu ir a 'Nē' kaut arī Hadoop kopu var konfigurēt, lai palaistu gan MRv1, gan MRv2, bet jebkurā brīdī var palaist tikai vienu dēmonu kopu. Abās šajās sistēmās galu galā tiek izmantoti vieni un tie paši konfigurācijas faili ( dzija-site.xml un mapred-site.xml ), lai palaistu dēmonus, līdz ar to Hadoop klasterī var iespējot tikai vienu no abām konfigurācijām.

Lelle:

Kāda ir atšķirība starp nākamās paaudzes MapReduce (MRv2) un YARN?
Dzija un nākamās paaudzes MapReduce (MRv2) ir divi dažādi jēdzieni un tehnoloģijas Hadoop 2.0. YARN ir programmatūras sistēma, kuru var izmantot, lai palaistu ne tikai MRv2, bet arī citas lietojumprogrammas. MRv2 ir lietojumprogrammas ietvars, kas rakstīts, izmantojot YARN API, un tas darbojas YARN ietvaros.

Bharats:

attālās metodes izsaukuma java piemērs

Vai Hadoop 2.0 nodrošina atpakaļejošu saderību ar Hadoop 1.x lietojumprogrammām?
Neha:

Vai migrēšanai no Hadoop 1.0 līdz 2.0 ir nepieciešams smags lietojumprogrammas kods migrācija?
Nē, lielāko daļu lietojumprogrammu, kas izstrādāta, izmantojot “org.apache.hadoop.mapred” API, var palaist YARN bez jebkādas atkārtotas kompilēšanas. YARN ir binārs saderīgs ar MRv1 lietojumprogrammām, un “bin / hadoop” var izmantot, lai iesniegtu šos pieteikumus YARN. Lasiet vairāk par šo šeit .

Šerina:

Kas notiek, ja resursu pārvaldnieka mezgls neizdodas Hadoop 2.0?
Sākot ar Hadoop Release 2.4.0, Resursu pārvaldniekam ir pieejams arī augstas pieejamības atbalsts. ResourceManager kļūmju novēršanai izmanto Apache ZooKeeper. Kad resursu pārvaldnieka mezgls neizdodas, sekundārais mezgls var ātri atjaunoties, izmantojot ZooKeeper saglabāto kopas stāvokli. ResourceManager kļūmes gadījumā restartē visas rindā esošās un darbojošās lietojumprogrammas.

Sabbirali:

Vai Apache Hadoop ietvars darbojas Cloudera Hadoop?
Apache Hadoop tika ieviests 2005. gadā ar galveno MapReduce apstrādes motoru, lai atbalstītu HDFS saglabātu liela mēroga datu slodžu sadalītu apstrādi. Tas ir atvērtā koda projekts, un tam ir vairāki izplatījumi (līdzīgi kā Linux). Viens no šādiem Cloudera izplatījumiem ir Cloudera Hadoop (CDH). Citi līdzīgi izplatījumi ir HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights utt.

Arulvadivel:

Vai ir kāds vienkāršs veids, kā instalēt Hadoop manā klēpjdatorā un izmēģināt Oracle datu bāzes migrēšanu uz Hadoop?
Jūs varat sākt ar HortonWorks Sandbox vai Cloudera Quick VM jūsu klēpjdatorā (ar vismaz 4 GB RAM un i3 vai jaunāku procesoru). Izmantojiet SQOOP, lai pārvietotu datus no Oracle uz Hadoop, kā paskaidrots šeit .

Bābāni:

Kādas ir labākās grāmatas, kas pieejamas Hadoop apguvei?
Sākt ar Hadoops: galīgais ceļvedis autors Toms Vaits un Hadoop operācijas autors Ēriks Sammers.

Mahendra:

Vai Hadoop 2.0 ir pieejams kāds lasījums tāpat kā Hadoop galīgais ceļvedis?
Pārskatiet pēdējā ierašanās uz grāmatu plauktiem, ko uzrakstījuši daži no Hadoop 2.0 veidotājiem.

Sekojiet līdzi citiem šīs sērijas jautājumiem.