Apache Flume apmācība: Twitter datu straumēšana



Šajā Apache Flume apmācības emuārā ir izskaidroti Apache Flume pamati un tā iespējas. Tas arī demonstrēs čivināt straumēšanu, izmantojot Apache Flume.

Šajā Apache Flume apmācības emuārā mēs sapratīsim, kā Flume palīdz straumēt datus no dažādiem avotiem. Bet pirms tam ļaujiet mums saprast datu uzņemšanas nozīmi. Datu uzņemšana ir sākotnējais un svarīgais solis, lai apstrādātu un analizētu datus un pēc tam no tiem iegūtu uzņēmējdarbības vērtības. Ir vairāki avoti, no kuriem dati tiek apkopoti organizācijā.

Ļaujiet runāt par vēl vienu svarīgu iemeslu, kāpēc Flume kļuva tik populārs. Es ceru, ka jūs varētu būt pazīstams , kas nozarē tiek ārkārtīgi izmantots, jo tajā var uzglabāt visu veidu datus. Flume var viegli integrēties ar Hadoop un izmest nestrukturētus, kā arī daļēji strukturētus datus uz HDFS, papildinot Hadoop spēku. Tāpēc Apache Flume ir svarīga Hadoop ekosistēmas sastāvdaļa.





Šajā Apache Flume apmācības emuārā mēs apskatīsim:



Mēs sāksim šo Flume apmācību, apspriežot to, kas ir Apache Flume. Tad virzoties uz priekšu, mēs sapratīsim Flume izmantošanas priekšrocības.

Apache Flume apmācība: Ievads Apache Flume

Apache Flume logo - Apache Flume apmācība - EdurekaApache Flume ir rīks datu uzņemšanai HDFS. Tas apkopo, apkopo un transportē lielu daudzumu straumēšanas datu, piemēram, žurnālfailus, notikumus no dažādiem avotiem, piemēram, tīkla trafika, sociālajiem medijiem, e-pasta ziņojumus utt., Uz HDFS.Flume ir ļoti uzticams un izplatīts.

Flume dizaina galvenā ideja ir straumēt datus no dažādiem tīmekļa serveriem uz HDFS. Tam ir vienkārša un elastīga arhitektūra, kuras pamatā ir datu straumēšanas straumēšana. Tas ir izturīgs pret kļūdām un nodrošina uzticamības mehānismu kļūdu tolerances un atteices atjaunošanai.



Pēc tam, kad esat sapratis, kas ir Flume, tagad dodieties uz priekšu šajā Flume Tutorial emuārā un izprotiet Apache Flume priekšrocības. Pēc tam virzoties uz priekšu, mēs apskatīsim Flume arhitektūru un mēģināsim saprast, kā tā darbojas principiāli.

fibonacci c ++ kods

Apache Flume apmācība: Apache Flume priekšrocības

Apache Flume ir vairākas priekšrocības, kas padara to labāku izvēli salīdzinājumā ar citiem. Priekšrocības ir:

  • Flume ir mērogojams, uzticams, izturīgs pret traucējumiem un pielāgojams dažādiem avotiem un izlietnēm.
  • Apache Flume var saglabāt datus centralizētos veikalos (t.i., dati tiek piegādāti no viena veikala), piemēram, HBase un HDFS.
  • Flume ir horizontāli mērogojams.
  • Ja lasīšanas ātrums pārsniedz rakstīšanas ātrumu, Flume nodrošina vienmērīgu datu plūsmu starp lasīšanas un rakstīšanas operācijām.
  • Flume nodrošina uzticamu ziņojumu piegādi. Flume darījumi ir balstīti uz kanālu, kur katram ziņojumam tiek uzturēti divi darījumi (viens sūtītājs un viens uztvērējs).
  • Izmantojot Flume, mēs varam ievadīt datus no vairākiem serveriem Hadoop.
  • Tas dod mums uzticamu un izplatītu risinājumu, kas palīdz apkopot, apkopot un pārvietot lielu datu kopu daudzumu, piemēram, Facebook, Twitter un e-komercijas vietnes.
  • Tas mums palīdz HDFS uzņemt tiešsaistes straumēšanas datus no dažādiem avotiem, piemēram, tīkla trafika, sociālajiem medijiem, e-pasta ziņojumiem, žurnāla failiem utt.
  • Tas atbalsta lielu avotu un galamērķu veidu kopumu.

Arhitektūra ir tāda, kas Apache Flume dod šīs priekšrocības. Tagad, kad mēs zinām Apache Flume priekšrocības, mēs varam virzīties uz priekšu un saprast Apache Flume arhitektūru.

Apache Flume apmācība: Flume Architecture

Tagad ļaujiet mums saprast Flume arhitektūru no šīs diagrammas:

Ir Flume aģents, kas straumēšanas datus no dažādiem datu avotiem apgūst HDFS. Pēc diagrammas jūs varat viegli saprast, ka tīmekļa serveris norāda datu avotu. Twitter ir viens no slavenākajiem datu straumēšanas avotiem.

Dūmu aģentam ir 3 sastāvdaļas: avots, izlietne un kanāls.

    1. Avots : Tas pieņem datus no ienākošās racionalizācijas un saglabā datus kanālā.
    2. Kanāls : Kopumā lasīšanas ātrums ir lielāks nekā rakstīšanas ātrums. Tādējādi mums ir nepieciešams zināms buferis, lai tas atbilstu lasīšanas un rakstīšanas ātruma starpībai. Būtībā buferis darbojas kā starpnieka krātuve, kas īslaicīgi uzglabā pārsūtāmos datus un tādējādi novērš datu zudumu. Līdzīgi kanāls darbojas kā vietējā krātuve vai pagaidu krātuve starp datu avotu un pastāvīgiem datiem HDFS.
    3. Izlietne : Tad mūsu pēdējais komponents, t.i., Sink, apkopo datus no kanāla un pastāvīgi apņemas tos ierakstīt HDFS.

Tagad, kad mēs zinām, kā darbojas Apache Flume, apskatīsim praktisko, kur mēs iegremdēsim Twitter datus un saglabāsim tos HDFS.

Apache Flume apmācība: Twitter datu straumēšana

Šajā praksē mēs straumēsim datus no Twitter, izmantojot Flume, un pēc tam tos uzglabāsim HDFS, kā parādīts zemāk esošajā attēlā.

Pirmais solis ir izveidot Twitter lietojumprogrammu. Lai to izdarītu, vispirms jādodas uz šo URL: https://apps.twitter.com/ un pierakstieties savā Twitter kontā. Dodieties uz cilnes lietojumprogramma izveidi, kā parādīts zemāk esošajā attēlā.

Pēc tam izveidojiet lietojumprogrammu, kā parādīts zemāk esošajā attēlā.

Pēc šīs lietojumprogrammas izveides jūs atradīsit Key & Access marķieri. Kopējiet atslēgu un piekļuves pilnvaru. Mēs nodosim šos marķierus mūsu Flume konfigurācijas failā, lai izveidotu savienojumu ar šo lietojumprogrammu.

Tagad izveidojiet failu flume.conf flume saknes direktorijā, kā parādīts zemāk esošajā attēlā. Kā mēs apspriedām, Flume’s Architecture mēs konfigurēsim mūsu avotu, izlietni un kanālu. Mūsu avots ir Twitter, no kurienes mēs straumējam datus, un mūsu izlietne ir HDFS, kur mēs rakstām datus.

Avota konfigurācijā mēs nododam Twitter avota tipu kā org.apache.flume.source.twitter.TwitterSource. Tad mēs nododam visus četrus žetonus, kurus saņēmām no Twitter. Visbeidzot avota konfigurācijā mēs nododam atslēgvārdus, uz kuriem mēs ienāksim twītus.

Izlietnes konfigurācijā mēs konfigurēsim HDFS rekvizītus. Mēs iestatīsim HDFS ceļu, rakstīšanas formātu, faila tipu, partijas lielumu utt. Visbeidzot, mēs iestatīsim atmiņas kanālu, kā parādīts zemāk esošajā attēlā.

Tagad mēs visi esam gatavi izpildei. Ļaujiet mums iet uz priekšu un izpildīt šo komandu:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Pēc tam, kad kādu laiku esat izpildījis šo komandu, un pēc tam varat iziet no termināla, izmantojot CTRL + C. Tad jūs varat doties savā Hadoop direktorijā un pārbaudīt minēto ceļu neatkarīgi no tā, vai fails ir izveidots vai nav.

skaitļa ciparu summa java

Lejupielādējiet failu un atveriet to. Jūs saņemsiet kaut ko, kā parādīts zemāk esošajā attēlā.

Es ceru, ka šis emuārs ir informatīvs un sniedz jums pievienoto vērtību. Ja vēlaties uzzināt vairāk, varat to iziet kas stāsta par Big Data un to, kā Hadoop risina problēmas, kas saistītas ar Big Data.

Tagad, kad esat sapratis Apache Flume, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.