Apache Spark ar Hadoop - kāpēc tas ir svarīgi?



Apache Spark ar Hadoop ieviešana lielos uzņēmumos lielā mērā norāda uz tā panākumiem un potenciālu reāllaika apstrādē.

Hadoop, datu apstrādes sistēma, kas ir kļuvusi par platformu sev, kļūst vēl labāka, ja tam ir pievienoti labi komponenti. Daži Hadoop trūkumi, piemēram, Hadoop MapReduce sastāvdaļa, reāllaika datu analīzei ir slaveni.





Ievadiet Apache Spark, Hadoop balstītu datu apstrādes motoru, kas paredzēts gan sērijveida, gan straumēšanas darba slodzēm, tagad tā versijā 1.0 un aprīkots ar funkcijām, kas parāda, kāda veida darbu Hadoop tiek mudināts iekļaut. Spark darbojas virs esošajām Hadoop kopām, lai nodrošinātu uzlabotu un papildu funkcionalitāti.

Apskatīsim dzirksteles galvenās iezīmes un to, kā tā darbojas kopā ar Hadoop un .



Apache Spark galvenie ieguvumi:

img2-R

Spark's Awesome funkcijas:

  • Hadoop integrācija - Spark var strādāt ar failiem, kas saglabāti HDFS.
  • Spark’s Interactive Shell - Spark ir rakstīts Scala, un tai ir sava Scala tulka versija.
  • Spark's Analytic Suite - Spark nāk ar rīkiem interaktīvai vaicājumu analīzei, liela mēroga diagrammu apstrādei un analīzei, kā arī reāllaika analīzei.
  • Elastīgas izplatītās datu kopas (RDD) - RDD ir izplatīti objekti, kurus var saglabāt kešatmiņā visā skaitļošanas mezglu kopā. Tie ir galvenie datu objekti, kas tiek izmantoti Spark.
  • Izplatītie operatori - Bez MapReduce ir arī daudzi citi operatori, kurus var izmantot RDD.

Apache Spark izmantošanas ar Hadoop priekšrocības:

kā izveidot sesiju Java
  • Apache Spark iekļaujas Hadoop atvērtā pirmkoda kopienā, ēka virs Hadoop izplatītās failu sistēmas (HDFS). Tomēr Spark nav saistīts ar divpakāpju MapReduce paradigmu, un dažām lietojumprogrammām tā sola veiktspēju līdz pat 100 reizēm ātrāk nekā Hadoop MapReduce.



  • Labi piemērots mašīnmācīšanās algoritmiem - Spark nodrošina primitīvus atmiņas klastera skaitļošanai, kas ļauj lietotāja programmām ielādēt datus klastera atmiņā un atkārtoti to vaicāt.

  • Skrien 100 reizes ātrāk - Spark, analīzes programmatūra var arī paātrināt darbus, kas darbojas Hadoop datu apstrādes platformā. Ar nosaukumu “Hadoop Swiss Army Naz” dēvētais Apache Spark nodrošina iespēju izveidot datu analīzes darbus, kas var darboties 100 reizes ātrāk nekā tie, kas darbojas standarta Apache Hadoop MapReduce. MapReduce ir plaši kritizēts kā sašaurinājums Hadoop kopās, jo tas veic darbus sērijveida režīmā, kas nozīmē, ka datu reāllaika analīze nav iespējama.

  • Alternatīva MapReduce - Spark nodrošina alternatīvu MapReduce. Tas veic darbus īsos mikropartiju sērijās, kas atšķiras piecu sekunžu vai mazāk. Tas arī nodrošina lielāku stabilitāti nekā reāllaika, uz straumi orientēti Hadoop ietvari, piemēram, Twitter Storm. Programmatūru var izmantot dažādiem darbiem, piemēram, nepārtrauktu reālo datu analīzei un, pateicoties programmatūras bibliotēkai, skaitļošanas ziņā padziļinātākus darbus, kas saistīti ar mašīnmācīšanos un grafu apstrādi.

  • Atbalsts vairākām valodām - Izmantojot Spark, izstrādātāji var rakstīt datu analīzes darbus Java, Scala vai Python, izmantojot vairāk nekā 80 augsta līmeņa operatoru kopumu.

  • Bibliotēkas atbalsts - Spark bibliotēkas ir izstrādātas, lai papildinātu agresīvāk izpētīto apstrādes darbu veidus ar jaunākajām komerciāli atbalstītajām Hadoop izvietošanas iespējām. MLlib ievieš virkni parastu mašīnmācīšanās algoritmu, piemēram, naivu Bayes klasifikāciju vai Spark Streaming kopu, ļauj ātri apstrādāt datus, kas uzņemti no vairākiem avotiem, un GraphX ​​ļauj aprēķināt grafiku datus.

  • Stabila API - Ar 1.0 versiju Apache Spark piedāvā stabilu API (lietojumprogrammu saskarni), kuru izstrādātāji var izmantot, lai mijiedarbotos ar Spark, izmantojot savas lietojumprogrammas. Tas palīdz vieglāk izmantot Storm Hadoop balstītā izvietošanā.

    java atšķirība starp pagarina un īsteno
  • SPARK SQL komponents - Spark SQL komponents, lai piekļūtu strukturētiem datiem, ļauj datus iztaujāt līdzās nestrukturētiem datiem analīzes darbā. Spark SQL, kas pašlaik ir tikai alfa, ļauj SQL līdzīgus vaicājumus izpildīt pret Apache Hive glabātajiem datiem. Datu iegūšana no Hadoop, izmantojot SQL vaicājumus, ir vēl viens reāllaika vaicājumu funkcionalitātes variants, kas rodas ap Hadoop.

  • Apache Spark savietojamība ar Hadoop [HDFS, HBASE un YARN] - Apache Spark ir pilnībā savietojams ar Hadoop izplatīto failu sistēmu (HDFS), kā arī ar citiem Hadoop komponentiem, piemēram, YARN (Yet Another Resource Negotiator) un HBase izplatīto datu bāzi.

Nozares adoptētāji:

Tādi IT uzņēmumi kā Cloudera, Pivotal, IBM, Intel un MapR visi ir salikuši Spark savos Hadoop stekos. Dažu Spark izstrādātāju dibināts uzņēmums Databricks piedāvā programmatūras komerciālu atbalstu. Gan Yahoo, gan NASA, cita starpā, izmanto programmatūru ikdienas datu operācijām.

Secinājums:

Tas, ko Spark var piedāvāt, noteikti būs liels ieguvums gan lietotājiem, gan Hadoop komerciālajiem pārdevējiem. Lietotājus, kuri vēlas ieviest Hadoop un kuri jau ir izveidojuši daudzas savas analīzes sistēmas ap Hadoop, piesaista ideja par iespēju izmantot Hadoop kā reāllaika apstrādes sistēmu.

Spark 1.0 nodrošina viņiem dažādas citas funkcijas, lai atbalstītu vai izveidotu patentētus priekšmetus apkārt. Faktiski viens no trim lielākajiem Hadoop pārdevējiem, Cloudera, jau ir nodrošinājis komerciālu atbalstu Spark, izmantojot savu Cloudera Enterprise piedāvājumu. Hortonworks piedāvā arī Spark kā Hadoop izplatīšanas sastāvdaļu. Spark liela mēroga ieviešana, ko veic labākie uzņēmumi, norāda uz tā panākumiem un potenciālu reāllaika apstrādē.

Vai mums ir jautājums? Pieminiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

c ++ virtuālā funkcija = 0