HDFS apmācība: Ievads HDFS un tā funkcijās

Šis HDFS apmācības emuārs palīdzēs jums izprast HDFS vai Hadoop izplatīto failu sistēmu un tās funkcijas. Jūs arī īsi izpētīsit tā galvenos komponentus.

HDFS apmācība

Pirms virzīties uz priekšu šajā HDFS apmācības emuārā, ļaujiet man iepazīties ar neprātīgo statistiku, kas saistīta ar HDFS:

  • 2010. gadā Facebook apgalvoja, ka tai ir viena no lielākajām HDFS kopu glabātuvēm 21 petabaits datu.
  • 2012. gadā Facebook paziņoja, ka viņiem ir vislielākais atsevišķais HDFS klasteris ar vairāk nekā 100 PB datu .
  • Un Yahoo ! ir vairāk nekā 100 000 centrālais procesors vairāk nekā 40 000 serveru darbojas Hadoop ar savu lielāko Hadoop klasteri 4500 mezgli . Viss teikts, Yahoo! veikalos 455 petabaiti datu HDFS.
  • Faktiski līdz 2013. gadam lielākā daļa lielo vārdu Fortune 50 sāka izmantot Hadoop.

Pārāk grūti sagremot? Pa labi. Kā apspriests , Hadoopam ir divas pamatvienības - S torāža un Apstrāde . Kad es saku Hadoop krātuves daļu, es to atsaucos HDFS kas apzīmē Hadoop izplatītā failu sistēma . Tāpēc šajā emuārā es jūs iepazīstināšu HDFS .



Šeit es runāšu par:

  • Kas ir HDFS?
  • HDFS priekšrocības
  • HDFS iezīmes

Pirms runāt par HDFS, ļaujiet man jums pateikt, kas ir izplatītā failu sistēma?

DFS vai izplatītā failu sistēma:

Izplatītā failu sistēma runā par vadība dati , t.i. failus vai mapes vairākos datoros vai serveros. Citiem vārdiem sakot, DFS ir failu sistēma, kas ļauj mums saglabāt datus vairākos mezglos vai mašīnās un ļauj lietotājiem piekļūt datiem. Tātad būtībā tam ir tāds pats mērķis kā failu sistēmai, kas ir pieejama jūsu mašīnā, piemēram, Windows, kur jums ir NTFS (jauno tehnoloģiju failu sistēma), vai Mac, kur jums ir HFS (hierarhiskā failu sistēma). Vienīgā atšķirība ir tāda, ka izplatītās failu sistēmas gadījumā datus glabājat vairākās mašīnās, nevis vienā mašīnā. Kaut arī faili tiek glabāti visā tīklā, DFS sakārto un parāda datus tādā veidā, ka lietotājs, kurš sēž mašīnā, jutīsies kā visi dati ir glabāti tieši šajā mašīnā.

c ++ darbības jomas operators

Kas ir HDFS?

Hadoop Distributed failu sistēma jeb HDFS ir Java balstīta sadalīta failu sistēma, kas ļauj jums saglabāt lielus datus vairākos mezglos Hadoop klasterī. Tātad, ja instalējat Hadoop, jūs saņemat HDFS kā pamata glabāšanas sistēmu datu glabāšanai izplatītajā vidē.

Ņemsim piemēru, lai to saprastu. Iedomājieties, ka katrā mašīnā ir desmit mašīnas vai desmit datori ar cieto disku 1 TB. Tagad HDFS saka, ka, instalējot Hadoop kā platformu virs šīm desmit mašīnām, jūs iegūsit HDFS kā glabāšanas pakalpojumu. Hadoop izplatītā failu sistēma tiek izplatīta tā, ka katra mašīna veic savu individuālo krātuvi jebkura veida datu glabāšanai.

HDFS apmācība: HDFS priekšrocības

1. Dalīta krātuve:

Sadalītā krātuve - HDFS apmācība - Edureka

Piekļūstot Hadoop Distributed failu sistēmai no jebkuras no desmit Hadoop klastera mašīnām, jūs jutīsities tā, it kā būtu pieteicies vienā lielā mašīnā, kuras atmiņas ietilpība ir 10 TB (kopējā krātuve pārsniedz desmit mašīnas). Ko tas nozīmē? Tas nozīmē, ka jūs varat uzglabāt vienu lielu 10 TB failu, kas tiks sadalīts desmit mašīnās (katrā pa 1 TB).Tā tas ir neaprobežojas tikai ar fiziskajām robežām katras atsevišķas mašīnas.

2. Izplatītais un paralēlais aprēķins:

Tā kā dati ir sadalīti pa mašīnām, tas ļauj mums tos izmantot Izplatītais un paralēlais aprēķins . Sapratīsim šo jēdzienu, izmantojot iepriekš minēto piemēru. Pieņemsim, ka 1 TB faila apstrāde vienā mašīnā prasa 43 minūtes. Tātad, tagad pasakiet man, cik daudz laika būs nepieciešams, lai apstrādātu to pašu 1 TB failu, kad Hadoop klastera jums ir 10 mašīnas ar līdzīgu konfigurāciju - 43 minūtes vai 4,3 minūtes? 4,3 minūtes, pareizi! Kas te notika? Katrs no mezgliem paralēli strādā ar 1 TB faila daļu. Tāpēc darbs, kas bija vajadzīgs 43 minūtes iepriekš, tagad tiek pabeigts tikai 4,3 minūtēs, jo darbs sadalīts pa desmit mašīnām.

3. Horizontālā mērogojamība:

Visbeidzot, bet ne mazāk svarīgi, ļaujiet mums runāt par horizontāla mērogošana vai mērogošana Hadoopā. Ir divi mērogošanas veidi: vertikāli un horizontāli . Vertikālā mērogošanā (palielinot) jūs palielināt savas sistēmas aparatūras jaudu. Citiem vārdiem sakot, jūs iegādājaties vairāk RAM vai CPU un pievienojat to esošajai sistēmai, lai padarītu to izturīgāku un jaudīgāku. Bet ir problēmas, kas saistītas ar vertikālu mērogošanu vai palielināšanu:

  • Vienmēr ir ierobežojums, līdz kuram varat palielināt aparatūras jaudu. Tātad, jūs nevarat turpināt palielināt RAM vai CPU mašīnā.
  • Veicot vertikālu mērogošanu, vispirms pārtraucat savu mašīnu. Tad jūs palielināt RAM vai CPU, lai padarītu to par izturīgāku aparatūras kaudzi. Pēc tam, kad esat palielinājis aparatūras jaudu, restartējiet mašīnu. Šis dīkstāves laiks, kad pārtraucat savu sistēmu, kļūst par izaicinājumu.

Gadījumā, ja horizontāla mērogošana (mērogošana) , jūs pievienojat vairāk mezglu esošajai kopai, nevis palieliniet atsevišķu mašīnu aparatūras jaudu. Un pats galvenais, jūs varat pievienojiet vairāk mašīnu, atrodoties ceļā i., neapstādinot sistēmu . Tāpēc, kaut arī samazinātu, mums nav dīkstāves laika vai zaļās zonas, nekas tāds nav. Dienas beigās jums būs vairāk mašīnu, kas paralēli strādās, lai atbilstu jūsu prasībām.

HDFS mācību video:

Jūs varat apskatīt tālāk sniegto videoklipu, kurā ir detalizēti apspriesti visi ar HDFS saistītie jēdzieni:

kam tiek izmantota sas programmēšana

HDFS apmācība: HDFS iezīmes

Mēs detalizēti sapratīsim šīs funkcijas, kad izpētīsim HDFS arhitektūru mūsu nākamajā HDFS apmācības emuārā. Bet pagaidām apskatīsim HDFS iespējas:

  • Izmaksas: HDFS parasti tiek izvietots uz tādas aparatūras kā jūsu darbvirsma / klēpjdators, kuru izmantojat katru dienu. Tātad tas ir ļoti ekonomisks attiecībā uz projekta īpašumtiesību izmaksām. Tā kā mēs izmantojam zemas cenas preču aparatūru, jums nav jāiztērē milzīgi daudz naudas, lai paplašinātu savu Hadoop kopu. Citiem vārdiem sakot, papildu mezglu pievienošana HDFS ir rentabla.
  • Datu dažādība un apjoms: Kad mēs runājam par HDFS, tad mēs runājam par milzīgu datu, t.i., terabaitu un petabaitu datu un dažāda veida datu, glabāšanu. Tātad HDFS jūs varat uzglabāt jebkura veida datus, neatkarīgi no tā, vai tie ir strukturēti, nestrukturēti vai daļēji strukturēti.
  • Uzticamība un defektu tolerance: Uzglabājot datus HDFS, tas iekšēji sadala dotos datus datu blokos un saglabā tos sadalītā veidā visā jūsu Hadoop klasterī. Informācija par to, kurš datu bloks atrodas uz kura no datu mezgliem, ir ierakstīta metadatos. NameNode pārvalda metadatus un DataNodes ir atbildīgas par datu glabāšanu.
    Nosaukuma mezgls arī atkārto datus, t.i., uztur vairākas datu kopijas. Šī datu replikācija padara HDFS ļoti uzticamu un izturīgu pret kļūdām. Tātad, pat ja kāds no mezgliem neizdodas, mēs varam iegūt datus no kopijām, kas atrodas citos datu mezglos. Pēc noklusējuma replikācijas koeficients ir 3. Tāpēc, ja HDFS glabājat 1 GB failu, tas beidzot aizņems 3 GB vietas. Nosaukuma mezgls periodiski atjaunina metadatus un saglabā replikācijas koeficientu konsekventu.
  • Datu ticamība: Datu integritāte runā par to, vai HDFS saglabātie dati ir pareizi vai nē. HDFS pastāvīgi pārbauda saglabāto datu integritāti, salīdzinot ar tā kontrolsummu. Ja tā atrod kādu vainu, tā par to ziņo nosaukuma mezglam. Pēc tam nosaukuma mezgls izveido papildu jaunas kopijas un tāpēc izdzēš bojātās kopijas.
  • Augsta caurlaidspēja: Caurlaidība ir laika vienībā paveiktā darba apjoms. Tas runā par to, cik ātri jūs varat piekļūt datiem no failu sistēmas. Būtībā tas sniedz ieskatu par sistēmas veiktspēju. Kā redzējāt iepriekš minētajā piemērā, kur skaitļošanas uzlabošanai mēs kopīgi izmantojām desmit mašīnas. Tur mēs varējām samazināt apstrādes laiku no 43 minūtes uz vienkāršu 4,3 minūtes jo visas mašīnas darbojās paralēli. Tāpēc, apstrādājot datus paralēli, mēs ārkārtīgi samazinājām apstrādes laiku un tādējādi panācām lielu caurlaidspēju.
  • Datu atrašanās vieta: Datu lokalizācija runā par apstrādes vienības pārvietošanu uz datiem, nevis datiem uz apstrādes vienību. Mūsu tradicionālajā sistēmā mēs datus nogādājām lietojumprogrammas slānī un pēc tam apstrādājām. Bet tagad, pateicoties datu arhitektūrai un milzīgajam apjomam, dati tiks nogādāti lietojumprogrammas slānīievērojami samazināt tīkla veiktspēju.Tātad, HDFS, mēs aprēķina daļu ievedam datu mezglos, kur atrodas dati. Tādējādi jūs nepārvietojat datus, bet gan programmu vai procesudaļa no datiem.

Tātad tagad jums ir īsa ideja par HDFS un tā funkcijām. Bet ticiet man, puiši, tas ir tikai aisberga virsotne. Manā nākamajā , Es dziļi ieniršu HDFS arhitektūra un es atklāšu HDFS panākumu noslēpumus. Kopā mēs atbildēsim uz visiem jautājumiem, kas jūsu prātā apdomā, piemēram:

  • Kas notiek aizkulisēs, kad lasāt vai rakstāt datus Hadoop izplatītajā failu sistēmā?
  • Kādi ir algoritmi, piemēram, plauktu izpratne, kas padara HDFS tik izturīgu pret kļūdām?
  • Kā Hadoop izplatītā failu sistēma pārvalda un veido kopiju?
  • Kas ir bloķēšanas operācijas?

Tagad, kad esat sapratis HDFS un tā funkcijas, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.