Apguvis Hadoopu? Laiks sākt darbu ar Apache Spark



Šis emuāra ziņojums izskaidro, kāpēc jums jāsāk strādāt ar Apache Spark pēc Hadoop un kāpēc Spark apgūšana pēc hadoopa apgūšanas var radīt brīnumus jūsu karjerai!

Hadoops, kā mēs visi zinām, ir lielo datu plakāts. Kā programmatūras sistēma, kas spēj apstrādāt ziloņu proporcijas, Hadoop ir nokļuvis CIO buzzwords saraksta augšgalā.





Tomēr bezprecedenta atmiņas kaudzes pieaugums lielo datu ekosistēmai ir devis jaunu analīzes alternatīvu. MapReduce analīzes veids tiek aizstāts ar jaunu pieeju, kas ļauj veikt analīzi gan Hadoop ietvaros, gan ārpus tā. Apache Spark ir jauna lielo datu analīzes seja.

Lielo datu entuziasti ir apstiprinājuši Apache Spark kā karstāko datu aprēķināšanas dzinēju lielajiem datiem pasaulē. Tas ātri izstumj MapReduce un Java no viņu pozīcijām, un darba tendences atspoguļo šīs izmaiņas. Saskaņā ar TypeSafe aptauju 71% pasaules Java izstrādātāju pašlaik vērtē vai pēta Spark apkārtni, un 35% no viņiem jau ir sākuši to izmantot. Spark eksperti šobrīd ir pieprasīti, un nākamajās nedēļās sagaidāms, ka ar Spark saistīto darba iespēju skaits iet tikai caur jumtu.



Tātad, kas tas ir par Apache Spark, kas padara to redzamu katra CIO uzdevumu saraksta augšpusē?

pitona klase __init__

Šeit ir dažas interesantas Apache Spark iezīmes:

  • Hadoop integrācija - Spark var strādāt ar failiem, kas saglabāti HDFS.
  • Spark’s Interactive Shell - Spark ir rakstīts Scala, un tam ir sava Scala tulka versija.
  • Spark's Analyt Suite - Spark nāk ar rīkiem interaktīvai vaicājumu analīzei, liela mēroga diagrammu apstrādei un analīzei, kā arī reāllaika analīzei.
  • Elastīgās izplatītās datu kopas (RDD) - RDD ir sadalīti objekti, kurus var saglabāt kešatmiņā atmiņā visā skaitļošanas mezglu kopā. Tie ir galvenie datu objekti, kas tiek izmantoti Spark.
  • Izplatītie operatori - Bez MapReduce ir arī daudzi citi operatori, kurus var izmantot RDD.

Tādas organizācijas kā NASA, Yahoo un Adobe ir apņēmušās atbalstīt Spark. Tas ir tas, ko saka Džons Tripīrs, alianses un ekosistēmas līderis Databricks: “Apache Spark ieviešana lielos un mazos uzņēmumos neticami strauji pieaug dažādās nozarēs, un pieprasījums pēc izstrādātājiem ar sertificētām zināšanām ir ātrs. sekojošais uzvalks ”. Nekad nav bijis labāks laiks, lai uzzinātu dzirksti, ja jums ir pieredze Hadoop.



Edureka ir īpaši kurējis Apache Spark & ​​Scala kursu, kuru kopīgi izveidojuši reālās dzīves nozares praktiķi. Lai iegūtu diferencētu tiešsaistes e-apmācības pieredzi, kā arī ar nozari saistītus projektus, pārbaudiet mūsu kursu. Drīz sākas jaunas partijas, tāpēc pārbaudiet kursu šeit: .

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

iegūt masīva javascript garumu

Apache Spark Vs Hadoop MapReduce