Lielo datu apmācība: viss, kas jums jāzina par lielajiem datiem!

Šis emuārs par Big Data Tutorial sniedz jums pilnīgu pārskatu par Big Data, tā īpašībām, lietojumprogrammām, kā arī problēmām, kas saistītas ar Big Data.

Lielo datu apmācība

Big Data, vai jūs iepriekš neesat dzirdējis šo terminu? Es esmu pārliecināts, ka jums ir. Pēdējo 4 līdz 5 gadu laikā visi runā par Big Data. Bet vai jūs tiešām zināt, kas tieši ir šie lielie dati, kā tas ietekmē mūsu dzīvi un kāpēc organizācijas medī profesionāļus ar ? Šajā Big Data apmācībā es sniegšu jums pilnīgu ieskatu par Big Data.

Tālāk ir norādītas tēmas, kuras es apskatīšu šajā Big Data apmācībā:



  • Lielo datu stāsts
  • Lielo datu braukšanas faktori
  • Kas ir Big Data?
  • Lielo datu raksturojums
  • Lielo datu veidi
  • Lielo datu piemēri
  • Lielo datu lietojumi
  • Izaicinājumi ar lielajiem datiem

Lielo datu apmācība - Edureka

Ļaujiet man sākt šo Big Data apmācību ar īsu stāstu.

Lielo datu stāsts

Senos laikos cilvēki brauca no viena ciemata uz citu ciematu ar zirgu pajūgiem, taču, laikam ejot, ciemati kļuva par pilsētām un cilvēki izplatījās. Palielinājās arī attālums braucienam no vienas pilsētas uz otru. Tātad, par problēmu kļuva ceļot starp pilsētām kopā ar bagāžu. No zila gaisa, ieteica viens gudrs vīrs, mums vajadzētu vairāk kopt un barot zirgu, lai atrisinātu šo problēmu. Kad es skatos uz šo risinājumu, tas nav tik slikti, bet vai jūs domājat, ka zirgs var kļūt par ziloni? Es tā nedomāju. Vēl viens gudrs puisis teica, ka tā vietā, lai 1 zirgs vilktu ratiņus, mums būs 4 zirgi, lai vilktu to pašu ratiņu. Ko jūs, puiši, domājat par šo risinājumu? Es domāju, ka tas ir fantastisks risinājums. Tagad cilvēki var veikt lielus attālumus īsākā laikā un pat pārvadāt vairāk bagāžas.

Tas pats jēdziens attiecas arī uz lielajiem datiem. Big Data saka, ka līdz šodienai mums bija labi ar datu glabāšanu mūsu serveros, jo datu apjoms bija diezgan ierobežots, un arī laiks, lai apstrādātu šos datus, bija kārtībā. Bet tagad šajā pašreizējā tehnoloģiskajā pasaulē dati pieaug pārāk strauji, un cilvēki daudzkārt paļaujas uz datiem. Arī datu pieauguma ātrums kļūst neiespējams saglabāt datus jebkurā serverī.

Izmantojot šo emuāru par lielo datu apmācību, ļaujiet mums izpētīt lielo datu avotus, kurus tradicionālās sistēmas nespēj uzglabāt un apstrādāt.

Lielo datu braukšanas faktori

Datu daudzums uz planētas Zeme daudzu iemeslu dēļ pieaug eksponenciāli. Dažādi avoti un mūsu ikdienas aktivitātes rada daudz datu. Izgudrojot tīmekli, visa pasaule ir kļuvusi tiešsaistē, un katra mūsu darītā lieta atstāj digitālu pēdu. Kad viedie objekti nonāk tiešsaistē, datu pieauguma temps ir strauji pieaudzis. Galvenie lielo datu avoti ir sociālo mediju vietnes, sensoru tīkli, digitālie attēli / video, mobilie tālruņi, pirkumu darījumu ieraksti, tīmekļa žurnāli, medicīniskie dokumenti, arhīvi, militārā uzraudzība, e-komercija, sarežģīti zinātniski pētījumi un tā tālāk. Visa šī informācija ir aptuveni daži kvintiljonu baiti datu. Līdz 2020. gadam datu apjoms būs aptuveni 40 zettabaiti, kas ir līdzvērtīgs katra atsevišķa smilšu grauda pievienošanai uz planētas, kas reizināts ar septiņdesmit pieciem.

Kas ir Big Data?

Lielie dati ir termins, ko lieto lielu un sarežģītu datu kopu kolekcijai, kuru ir grūti uzglabāt un apstrādāt, izmantojot pieejamos datu bāzes pārvaldības rīkus vai tradicionālās datu apstrādes lietojumprogrammas. Izaicinājums ietver šo datu sagūstīšanu, izārstēšanu, glabāšanu, meklēšanu, koplietošanu, pārsūtīšanu, analīzi un vizualizāciju.

kas ir semafors java

Lielo datu raksturojums

Pieci raksturlielumi, kas nosaka lielos datus, ir: apjoms, ātrums, daudzveidība, ticamība un vērtība.

  1. APJOMS

    Apjoms attiecas uz “datu daudzumu”, kas katru dienu pieaug ļoti strauji. Cilvēku, mašīnu un to mijiedarbības sociālajos medijos ģenerēto datu apjoms ir milzīgs. Pētnieki ir paredzējuši, ka līdz 2020. gadam tiks ģenerēti 40 zettabaiti (40 000 eksabaiti), kas ir 300 reizes vairāk nekā 2005. gadā.

  2. VELOCITY

    Ātrums tiek definēts kā temps, kurā dažādi avoti katru dienu ģenerē datus. Šī datu plūsma ir liela un nepārtraukta. Pašlaik mobilajā ierīcē ir 1,03 miljardi ikdienas aktīvo lietotāju (Facebook DAU), kas ir par 22% vairāk nekā gadu iepriekš. Tas parāda, cik ātri sociālajos medijos pieaug lietotāju skaits un cik ātri dati tiek ģenerēti katru dienu. Ja jūs spējat apstrādāt ātrumu, jūs varēsiet ģenerēt ieskatu un pieņemt lēmumus, pamatojoties uz reāllaika datiem.

  3. Šķirne

    Tā kā ir daudz avotu, kas veicina lielo datu izmantošanu, to ģenerēto datu veids ir atšķirīgs. Tas var būt strukturēts, daļēji strukturēts vai nestrukturēts. Tādējādi katru dienu tiek ģenerēti dažādi dati. Iepriekš mēs izmantojām datu iegūšanu no Excel un datu bāzēm, tagad dati tiek parādīti attēlu, audio, video, sensoru datu utt. Veidā, kā parādīts zemāk esošajā attēlā. Tādējādi šī nestrukturēto datu dažādība rada problēmas datu uztveršanā, glabāšanā, iegūšanā un analīzē.

  4. PĀRBAUDE

    Patiesība attiecas uz datiem, par kuriem ir šaubas vai datu nenoteiktība datu neatbilstības un nepilnības dēļ. Zemāk redzamajā attēlā redzams, ka tabulā trūkst maz vērtību. Arī dažas vērtības ir grūti pieņemt, piemēram - 15000 minimālā vērtība 3. rindā, tas nav iespējams. Šī neatbilstība un nepilnība ir patiesums.
    Pieejamie dati dažreiz var kļūt neskaidri un varbūt grūti uzticēties. Izmantojot daudzu veidu lielos datus, kvalitāti un precizitāti ir grūti kontrolēt, piemēram, Twitter ziņas ar atsaucēm, saīsinājumiem, drukas kļūdām un sarunvalodu. Apjoms bieži ir iemesls datu kvalitātes un precizitātes trūkumam.

    • Datu nenoteiktības dēļ katrs trešais biznesa līderis neuzticas informācijai, kuru viņi izmanto lēmumu pieņemšanai.
    • Aptaujā tika atklāts, ka 27% respondentu nav pārliecināti par to, cik daudz viņu dati ir neprecīzi.
    • Slikta datu kvalitāte ASV ekonomikai izmaksā aptuveni 3,1 triljonu ASV dolāru gadā.
  5. VĒRTĪBA

    Pēc apjoma, ātruma, daudzveidības un ticamības apspriešanas ir vēl viens V, kas jāņem vērā, aplūkojot lielos datus, t.i., vērtību. Tas ir labi un labi, ja ir pieejams lielsdatibetja vien mēs to nevaram pārvērst vērtībā, tas ir bezjēdzīgi. Ar tā pārvēršanu vērtībā es domāju: vai tas palielina to organizāciju priekšrocības, kuras analizē lielos datus? Vai organizācija, kas strādā pie lielajiem datiem, sasniedz augstu ieguldījumu atdevi? Ja vien tas nepalielina viņu peļņu, strādājot pie Big Data, tas ir bezjēdzīgi.

Lai uzzinātu vairāk par Big Data, apmeklējiet mūsu videoklipu Big Data zemāk:

Lielo datu apmācība iesācējiem Kas ir lielie dati | Edureka

Kā minēts sadaļā Variety, ir dažādu veidu dati, kas tiek ģenerēti katru dienu. Tātad, ļaujiet mums tagad saprast datu veidus:

Lielo datu veidi

Lielie dati var būt trīs veidu:

  • Strukturēts
  • Daļēji strukturēts
  • Nestrukturēts

  1. Strukturēts

    Datus, kurus var uzglabāt un apstrādāt fiksētā formātā, sauc par strukturētiem datiem. Relāciju datu bāzes pārvaldības sistēmā (RDBMS) glabātie dati ir viens no “strukturēto” datu piemēriem. Strukturētos datus ir viegli apstrādāt, jo tiem ir fiksēta shēma. Strukturēta vaicājumu valoda (SQL) bieži tiek izmantota šāda veida datu pārvaldīšanai.

  2. Daļēji strukturēts

    Daļēji strukturēti dati ir datu veids, kam nav formālas datu modeļa struktūras, ti, tabulas definīcija relāciju DBVS, bet tomēr tam ir dažas organizatoriskas īpašības, piemēram, tagi un citi marķieri, lai atdalītu semantiskos elementus, kas atvieglo analizēt. XML faili vai JSON dokumenti ir daļēji strukturētu datu piemēri.

  3. Nestrukturēts

    Datus, kuru forma nav zināma un kurus nevar uzglabāt RDBMS, un kurus nevar analizēt, ja vien tie nav pārveidoti strukturētā formātā, sauc par nestrukturētiem datiem. Teksta faili un multivides saturs, piemēram, attēli, audio, video, ir nestrukturētu datu piemērs. Nestrukturētie dati pieaug ātrāk nekā citi, eksperti saka, ka 80 procenti organizācijas datu ir nestrukturēti.

Līdz šim es tikko aprakstīju Big Data ieviešanu. Turklāt šajā Big Data apmācībā tiek runāts par Big Data piemēriem, lietojumprogrammām un izaicinājumiem.

Lielo datu piemēri

Katru dienu mēs augšupielādējam miljoniem baitu datu. 90% pasaules datu ir izveidoti pēdējo divu gadu laikā.

  • Walmart apstrādā vairāk nekā 1 miljons klientu darījumi katru stundu.
  • Facebook veikali, piekļuves un analīzes 30+ petabaiti lietotāju ģenerēto datu.
  • 230 + miljoni no tvītiem tiek izveidoti katru dienu.
  • Vairāk par 5 miljardi cilvēki zvana, sūta īsziņas, čivina un pārlūko mobilos tālruņus visā pasaulē.
  • YouTube lietotāji augšupielādē 48 stundas jaunu video katru dienas minūti.
  • Amazon rokturi 15 miljoni klients dienā straumē lietotāju datus, lai ieteiktu produktus.
  • 294 miljardi e-pastus sūta katru dienu. Pakalpojumi analizē šos datus, lai atrastu surogātpastu.
  • Mūsdienu automašīnām ir tuvu 100 sensori kas uzrauga degvielas līmeni, riepu spiedienu utt., katrs transportlīdzeklis ģenerē daudz sensoru datu.

Lielo datu lietojumi

Mēs nevaram runāt par datiem, nerunājot par cilvēkiem, cilvēkiem, kuri gūst labumu no Big Data lietojumprogrammām. Mūsdienās gandrīz visas nozares vienā vai otrā veidā izmanto Big Data lietojumprogrammas.

  • Gudrāka veselības aprūpe : Izmantojot pacienta datu petabaitus, organizācija var iegūt nozīmīgu informāciju un pēc tam izveidot lietojumprogrammas, kas var iepriekš paredzēt pacienta stāvokļa pasliktināšanos.
  • Telekomunikācijas : Telekomunikāciju nozares vāc informāciju, analizē to un sniedz risinājumus dažādām problēmām. Izmantojot Big Data lietojumprogrammas, telekomunikāciju uzņēmumi ir spējuši ievērojami samazināt datu pakešu zudumus, kas rodas, ja tīkli ir pārslogoti, tādējādi nodrošinot nevainojamu savienojumu ar klientiem.
  • Mazumtirdzniecība : Mazumtirdzniecībai ir dažas no visstingrākajām rezervēm, un tā ir viena no lielāko lielo datu ieguvējām. Lielo datu mazumtirdzniecībā izmantošanas skaistums ir izprast patērētāju uzvedību. Amazon ieteikumu dzinējs sniedz ieteikumus, pamatojoties uz patērētāja pārlūkošanas vēsturi.
  • Satiksmes vadība : Satiksmes sastrēgumi ir liels izaicinājums daudzām pilsētām visā pasaulē. Efektīva datu un sensoru izmantošana būs galvenais faktors, lai labāk pārvaldītu satiksmi, jo pilsētas kļūst arvien blīvāk apdzīvotas.
  • Ražošana : Lielo datu analīze apstrādes rūpniecībā var samazināt detaļu defektus, uzlabot produktu kvalitāti, palielināt efektivitāti un ietaupīt laiku un naudu.
  • Meklēšanas kvalitāte : Katru reizi, kad mēs iegūstam informāciju no google, mēs vienlaikus ģenerējam datus par to. Google šos datus saglabā un izmanto, lai uzlabotu meklēšanas kvalitāti.

Kāds ir pareizi teicis: 'Ne viss dārzā ir rožains!' . Līdz šim šajā Big Data apmācībā es tikko parādīju jums rožainu Big Data attēlu. Bet, ja lielo datu izmantošana bija tik vienkārša, vai jūs domājat, ka visas organizācijas tajā ieguldīs? Ļaujiet man pateikt jums jau iepriekš, tas tā nav. Strādājot ar Big Data, rodas vairākas problēmas.

Tagad, kad esat iepazinies ar lielajiem datiem un to dažādajām funkcijām, nākamā šī emuāra sadaļa par Big Data Tutorial sniegs nelielu skaidrību par dažām galvenajām problēmām, ar kurām saskaras Big Data.

Izaicinājumi ar lielajiem datiem

Ļaujiet man pastāstīt dažus izaicinājumus, kas nāk kopā ar lielajiem datiem:

  1. Datu kvalitāte - Problēma šeit ir 4thV t.i. patiesums. Dati šeit ir ļoti neskaidri, nekonsekventi un nepilnīgi. Netīri dati ASV uzņēmumiem katru gadu izmaksā 600 miljardus ASV dolāru.
  1. Atklāšana - Ieskatu atrašana vietnē Big Data ir kā adatas atrašana siena kaudzē. Analizēt petabaitus datu, izmantojot ārkārtīgi spēcīgus algoritmus, lai atrastu modeļus un ieskatu, ir ļoti grūti.
  1. Uzglabāšana - Jo vairāk datu organizācijai ir, jo sarežģītākas var kļūt to pārvaldīšanas problēmas. Šeit rodas jautājums: “Kur to uzglabāt?”. Mums ir nepieciešama glabāšanas sistēma, kuru pēc pieprasījuma var viegli palielināt vai samazināt.
  1. Analytics - Lielo datu gadījumā lielāko daļu laika mēs nezinām par tiem datu veidiem, ar kuriem mums ir darīšana, tāpēc tos analizēt ir vēl grūtāk.
  1. Drošība - Tā kā dati ir milzīgi, to drošība ir vēl viena problēma. Tas ietver lietotāja autentifikāciju, piekļuves ierobežošanu, pamatojoties uz lietotāju, datu piekļuves vēstures reģistrēšanu, datu šifrēšanas pareizu izmantošanu utt.
  1. Talanta trūkums - Lielajās organizācijās ir daudz lielu datu projektu, taču sarežģīta izstrādātāju, datu zinātnieku un analītiķu komanda, kurai ir arī pietiekams daudzums domēnu, joprojām ir izaicinājums.

Hadoops uz glābšanu

Mums ir glābējs, lai risinātu lielo datu problēmas - tās Hadoops . Hadoop ir atvērtā pirmkoda Java balstīta programmēšanas sistēma, kas atbalsta ārkārtīgi lielu datu kopu glabāšanu un apstrādi sadalītā skaitļošanas vidē. Tā ir daļa no Apache projekta, kuru sponsorē Apache Software Foundation.

Hadoop ar tās izkliedēto apstrādi efektīvāk apstrādā lielu daudzumu strukturētu un nestrukturētu datu nekā tradicionālā uzņēmuma datu noliktava. Hadoop ļauj palaist lietojumprogrammas sistēmās ar tūkstošiem preču aparatūras mezglu un apstrādāt tūkstošiem terabaitu datu. Organizācijas pieņem Hadoop, jo tā ir atvērtā pirmkoda programmatūra un var darboties ar preču aparatūru (jūsu personālo datoru).Sākotnējie izmaksu ietaupījumi ir dramatiski, jo preču aparatūra ir ļoti lēta. Pieaugot organizatoriskajiem datiem, jums ir jāpievieno vairāk un vairāk preču aparatūras, lai to glabātu, un tādējādi Hadoop izrādās ekonomisks.Turklāt Hadoop aiz tā ir spēcīga Apache kopiena, kas turpina veicināt tās attīstību.

Kā jau solīts iepriekš, izmantojot šo Big Data Tutorial emuāru, es jums sniedzu maksimālu ieskatu Big Data. Ar to tiek pabeigta Big Data apmācība. Tagad nākamais solis uz priekšu ir Hadoop pazīšana un apgūšana. Mums ir Hadoop apmācības sērija emuāri, kas sīki sniegs zināšanas par pilnu Hadoop ekosistēmu.

Visu labu, laimīgu Hadooping!

Tagad, kad esat sapratis, kas ir Big Data, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas: