Lielie dati AWS - vieds risinājums lieliem datiem



Šis raksts palīdz saprast, kā AWS gudri rīkojas ar lielajiem datiem. Tas arī parāda, kā AWS var viegli atrisināt lielo datu problēmas.

Big Data ideja vienkārši nav jauna, tā ir visur. Big Data ietekme ir visur, sākot no biznesa līdz zinātnei, no valdības līdz mākslai un tā tālāk. Nav labāka pavadoņa par apstrādāt un analizēt lielos datus. Šajā rakstā es parādīšu, kā AWS risina Big Data izaicinājumus, un norādījumi, kurus es apskatīšu, ir šādi:

Kas ir Big Data?

lielo datu raksturojums





java ir-attiecības

Lielos datus varat uzskatīt par liela apjoma, liela ātruma un / vai ļoti daudzveidīgiem informācijas aktīviem, kuriem nepieciešami rentabli, novatoriski informācijas apstrādes veidi, kas ļauj uzlabot ieskatu, lēmumu pieņemšanu un procesu automatizāciju.

Lielie dati sastāv no 5 svarīgiem V, kas nosaka lielo datu īpašības. Pirms pārcelšanās uz AWS apspriedīsim šos jautājumus.



Kas ir AWS?

sastāv no daudziem dažādiem mākoņdatošanas produktiem un pakalpojumiem. Ļoti rentablā Amazon nodaļa nodrošina serverus, krātuves, tīklošanu, attālo skaitļošanu, e-pastu, mobilo attīstību un drošību. Turklāt. AWS sastāv no diviem galvenajiem produktiem: EC2, Amazon virtuālo mašīnu pakalpojuma un S3, Amazon glabāšanas sistēmas. Tas ir tik liels un atrodas skaitļošanas pasaulē, ka tagad tas ir vismaz 10 reizes lielāks nekā tuvākais konkurents, un tajā ir populāras vietnes, piemēram, Netflix un Instagram.

.

AWS ir sadalīts 12 globālos reģionos visā pasaulē, un katram no tiem ir vairākas pieejamības zonas, kurās atrodas tā serveri.Šie apkalpojamie reģioni ir sadalīti, lai lietotāji varētu noteikt savu pakalpojumu ģeogrāfiskos ierobežojumus, bet arī lai nodrošinātu drošību, dažādojot fiziskās atrašanās vietas, kurās tiek glabāti dati.



Kāpēc lielie dati AWS?

Zinātnieki, izstrādātāji un citi tehnoloģiju entuziasti no daudzām dažādām jomām izmanto AWS priekšrocības, lai veiktu lielo datu analīzi un risinātu kritiskās problēmas, kas saistītas ar pieaugošo digitālās informācijas Vs. AWS piedāvā mākoņdatošanas pakalpojumu portfeli, lai palīdzētu pārvaldīt lielos datus, ievērojami samazinot izmaksas, mērogojot, lai apmierinātu pieprasījumu, un palielinot inovāciju ātrumu.

Amazon Web Services nodrošina a pilnībā integrēts portfelis mākoņdatošanas pakalpojumu. Turklāt tas palīdz veidot, aizsargāt un izvietot lielo datu lietojumprogrammas. Turklāt, izmantojot AWS, jums nav nepieciešama aparatūra, lai iepirktos, un infrastruktūra, lai uzturētu un mērogotu. Tādēļ jūs varat koncentrēt savus resursus uz jaunu ieskatu atklāšanu.Tā kā jaunas funkcijas tiek nepārtraukti pievienotas, jūs vienmēr varēsit izmantot jaunākās tehnoloģijas, neprasot uzņemties ilgtermiņa ieguldījumu saistības.

Kā AWS var atrisināt lielo datu izaicinājumus?

AWS risinājumi lielajiem datiem

AWS ir daudz risinājumu visiem izstrādes un izvietošanas mērķiem. Tāpat datu zinātnes un lielo datu jomā AWS ir nākusi klajā ar jaunākajiem notikumiem dažādos lielo datu apstrādes aspektos. Pirms pāriet uz rīkiem, ļaujiet mums saprast dažādus lielo datu aspektus, kuriem AWS var sniegt risinājumus.

  1. Datu uzņemšana
    Neapstrādātu datu - darījumu, žurnālu, mobilo ierīču un citu datu - apkopošana ir pirmais izaicinājums, ar kuru daudzas organizācijas saskaras, strādājot ar lielajiem datiem. Laba lielo datu platforma atvieglo šo darbību, ļaujot izstrādātājiem jebkurā ātrumā uzņemt visdažādākos datus - sākot no strukturētiem līdz nestrukturētiem - no reāllaika līdz partijām.

  2. Datu glabāšana
    Jebkurai lielo datu platformai ir nepieciešama droša, mērogojama un izturīga krātuve, lai datus glabātu pirms vai pat pēc apstrādes. Atkarībā no jūsu īpašajām prasībām, jums var būt nepieciešami arī pagaidu krājumi datu pārsūtīšanai.

  3. Datu apstrāde
    Šis ir solis, kurā datu pārveidošana notiek no sākotnējā stāvokļa patēriņa formātā - parasti izmantojot šķirošanu, apkopošanu, apvienošanu un pat uzlabotu funkciju un algoritmu izpildi. Iegūtās datu kopas tiek uzglabātas tālākai apstrādei vai padarītas pieejamas patēriņam, izmantojot biznesa informācijas un datu vizualizācijas rīkus.

  4. Vizualizācija

    Lielie dati ir par to, lai no jūsu datu aktīviem iegūtu vērtīgu, praktisku ieskatu. Ideālā gadījumā dati ir pieejami ieinteresētajām personām, izmantojot pašapkalpošanās biznesa inteliģenci un veiklus datu vizualizācijas rīkus, kas ļauj ātri un viegli izpētīt datu kopas.

AWS rīki lieliem datiem

Iepriekšējās sadaļās mēs apskatījām laukus Big Data, kur AWS var sniegt risinājumus. Turklāt AWS arsenālā ir vairāki rīki un pakalpojumi, lai klienti varētu izmantot Big Data iespējas.

Apskatīsim dažādos AWS piedāvātos risinājumus dažādu Big Data apstrādes posmu apstrādei

Norīšana

  1. Kinezis

    Amazon Kinesis Firehose ir pilnībā pārvaldīts pakalpojums reāllaika straumēšanas datu piegādei tieši Amazon S3. Kinesis Firehose automātiski mērogojas, lai tas atbilstu straumēšanas datu apjomam un caurlaidspējai, un nav nepieciešama nepārtraukta administrēšana. Kinesis Firehose var konfigurēt straumēšanas datu pārveidošanai, pirms tos uzglabājat Amazon S3.

  2. Sniega pika
    Tu vari izmantot AWS sniega pika lai droši un efektīvi migrētu lielapjoma datus no lokālās uzglabāšanas platformām un Hadoop kopām uz S3 spaiņiem. Pēc darba izveidošanas AWS pārvaldības konsolē jūs automātiski iegūstat Snowball ierīci. Pēc Sniega bumbas pienākšanas pievienojiet to vietējam tīklam, instalējiet Sniega pikas klientu savā lokālajā datu avotā un pēc tam izmantojiet Sniega pikas klientu, lai atlasītu un pārsūtītu failu direktorijus uz Sniega bumbas ierīci.

Uzglabāšana

  1. Amazon S3

Amazon S3 ir droša, ļoti pielāgojama, izturīga objektu krātuve ar milisekunžu latentumu piekļuvei datiem. S3 var uzglabāt jebkura veida datus no jebkuras vietas - vietnes un mobilās lietotnes, korporatīvās lietojumprogrammas un datus no IoT sensoriem vai ierīcēm. Tas var arī uzglabāt un izgūt jebkādu datu apjomu ar nepārspējamu pieejamību un būvēts no zemes līdz pat 99,99999999999% (11 deviņi) izturības nodrošināšanai.

2. AWS līme

Līme ir pilnībā pārvaldīts pakalpojums, kas nodrošina datu katalogu, lai datus ezerā padarītu atklājamus. Turklāt tai ir iespēja veikt, pārveidot un ielādēt (ETL), lai sagatavotu datus analīzei. Turklāt iebūvētais datu katalogs ir kā pastāvīgs metadatu krājums visiem datu aktīviem, padarot visus datus meklējamus un vaicājamus vienā skatā.

Apstrāde

  1. EMR
    Lielu datu apstrādei, izmantojot Spark un Hadoop, Amazon EMR nodrošina pārvaldītu pakalpojumu, kas ļauj viegli, ātri un rentabli apstrādāt lielu daudzumu datu. Turklāt EMR atbalsta 19 dažādus atvērtā koda projektus, tostarp Hadoops , Dzirksts , un Tas arī nāk ar pārvaldītām EMR piezīmjdatoriem datu inženierijai, datu zinātnes attīstībai un sadarbībai.

  2. Sarkanā nobīde
    Datu uzglabāšanai, Amazon Redshift nodrošina iespēju izpildīt sarežģītus, analītiskus vaicājumus pret petabaitu strukturētiem datiem. Arī tas ietver Sarkanās nobīdes spektrs kas izpilda SQL vaicājumus tieši pret Sistēmas strukturētu vai nestrukturētu datu eksabaitiem bez nepieciešamības pēc nevajadzīgas datu pārvietošanas.

Vizualizācijas

  1. Amazon QuickSight

    Informācijas paneļiem un vizualizācijām Amazon Quicksight nodrošina ātru, ar mākoņiem balstītu biznesa analīzes pakalpojumu. Tas ļauj viegli izveidot satriecošas vizualizācijas un bagātīgus informācijas paneļus. Turklāt tiem varat piekļūt no jebkuras pārlūkprogrammas vai mobilās ierīces.

Demonstrācija - Austrālijas apdraudēto augu un dzīvnieku sugu datu analīze.

Šajā demonstrācijā mēs izmantosim apdraudēto augu un dzīvnieku sugu paraugus no Austrālijas štatiem un teritorijām. Šeit mēs izveidosim EMR kopu un konfigurēsim to, lai palaistu daudzpakāpju Apache Hive darbus. EMR klasterī būs instalēta Apache Hive. Šajā klasterī EMRFS tiks izmantota kā failu sistēma, lai tā datu ievades un izvades vietas tiktu kartētas S3 spainī. Klasteris žurnālfailu glabāšanai izmantos arī to pašu S3 spaini.

Tagad, lai apstrādātu datu kopas paraugu, klasterī izveidosim vairākas EMR darbības. Katrā no šīm darbībām tiks palaists Hive skripts, un galīgā izeja tiks saglabāta S3 spainī. Šīs darbības ģenerēs MapReduce žurnālus, un tas notiek tāpēc, ka Hive komandas tiek pārtulkotas uz MapReduce darbiem izpildes laikā. Katra soļa žurnālfaili tiek apkopoti no tā nārstotajiem konteineriem.

Datu paraugs

Datu kopa šim lietošanas gadījumam ir publiski pieejama vietnē Austrālijas valdības atvērto datu vietne . Šī datu kopa ir par apdraudētām dzīvnieku un augu sugām no dažādiem Austrālijas štatiem un teritorijām. Šīs datu kopas un CSV faila lauku aprakstu var redzēt un lejupielādēt šeit .

Apstrādes darbības

Pirmais EMR darba solis šeit ietver Hive tabulas izveidošanu kā shēmu pamata avota failam S3. Otrajā darba solī tagad veiksim veiksmīgu vaicājumu pret datiem. Līdzīgi mēs izpildīsim trešo un ceturto vaicājumu.

Mēs atkārtosim šīs četras darbības dažas reizes stundas laikā, simulējot secīgus daudzpakāpju sērijveida darba posmus. Tomēr reālās dzīves scenārijos laika starpība starp katru sērijveida sēriju parasti varētu būt daudz lielāka. Neliela laika starpība starp secīgiem skrējieniem ir paredzēta, lai paātrinātu mūsu testēšanu.

S3 kauss un mapes

Pirms EMR kopas izveidošanas šeit mums bija jāizveido S3 spainis, lai mitinātu tā failus. Šajā piemērā mēs šo kopu nosaucam par “arvind1-bucket”. Mapes zem šī kausa tiek parādītas zemāk S3 AWS konsolē:

  • Ievades mapē glabājas datu paraugi

  • Skriptu mapē ir Hive skriptu faili EMR darba soļiem

  • Izvades mapē acīmredzami būs Hive programmas izeja

  • EMR kopa izmanto mapi žurnāli, lai saglabātu savus žurnālfailus.

Stropu skripti EMR darba soļiem

1. Šis darba solis palaiž stropu skriptulai izveidotu ārēju Hive tabulu. Šajā tabulā ir aprakstīta pamatā esošā CSV datu faila shēma. Skripts tam ir šāds:

IZVEIDOT ĀRĒJO TABULU `threatened_species` (` zinātniskā nosaukuma virkne, `parastā nosaukuma` virkne,` pašreizējā zinātniskā nosaukuma virkne ,` apdraudētā statusa` virkne, `act` virkne,` nsw` virkne, `nt` virkne,` qld` virkne, `sa` virkne,` tas` virkne, `vic` virkne,` wa` virkne, `aci` virkne,` cki` virkne, `ci` virkne,` csi` virkne, `jbt` virkne,` nfi` virkne, `hmi` virkne,` aat` virkne, `cma` virkne,` uzskaitītais brētliņu taksonīds` bigints, `pašreizējais šprotu taksonīds` bigints,` valstības` virkne, `klases` virkne,` profila` virkne, `datums izvilkts` virkne, `nsl nosaukums` virkne,` ģimenes` virkne, `ģints` virkne,` sugas` virkne, `infraspecifiskā virkne` virkne,` infrasugu virkne, `sugas autora virkne,` infrasugu autora` virkne PABEIGTS AR, “STORED AS INPUTFORMAT” org.apache.hadoop.mapred.TextInputFormat 'OUTPUTFORMAT' org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat 'LOCATION' s3: // arvind1-bucket / script

2. Šis darba solis izpilda vaicājumu, lai aprēķinātu piecas galvenās apdraudētās sugas Jaundienvidvelsas štatā (NSW). Hive vaicājuma faila nosaukums ir apdraudēta sugaNSW.q un tas ir parādīts zemāk:

ATLASIET sugas, COUNT (nsw) AS_nopieņemto_suugu skaits no apdraudētajām sugām KUR (nsw = 'Jā' VAI nsw = 'Apdraudētais') UN 'apdraudētais statuss' = 'Apdraudētais' GRUPA PĒC sugām, kurām ir COUNT (nsw)> 1 PASŪTĪT PĒC NUMURA_NOSAUKTĀS_sugas DESC LIMIT 5

3.Šis darba solis izpilda vaicājumu, lai aprēķinātu apdraudēto augu sugu kopējo skaitu katrai Austrālijas augu saimei. Hive vaicājuma faila nosaukums irendangeredPlantSpecies.qun ir parādīts zemāk

ATLASIET ģimeni, COUNT (suga), kā_suzstājušo_suugu skaits no apdraudētajām sugām2 WHERE kingdom = 'Plantae' UN 'apdraudētais statuss' = 'Apdraudētais' GROUP BY family

4. Šajā solī ir uzskaitīti Austrālijas Kvīnslendas štatā izmirušo dzīvnieku sugu zinātniskie nosaukumi. Tiek izsaukts skripta fails izmirisDzīvniekiQLD.q un ir parādīts zemāk:

ATLASIET 'vispārpieņemtais nosaukums', 'zinātniskais nosaukums' NO apdraudētajām sugām, kur karaliste = 'Animalia' UN (qld = 'Jā' VAI qld = 'Izdzisusi') UN 'Apdraudētais statuss' = 'Izzudis'

Baļķu apkopošana

Šeit mēs arī esam augšupielādējuši JSON failu ar nosaukumu logAggregation.json skriptu mapē S3 spainī. Mēs izmantojam šo failu YARN žurnāla failu apkopošanai. Žurnāla apkopošana tiek konfigurēta dzijas-site.xml konfigurācijas failā, startējot klasterim. Faila logAggregation.json saturs ir šāds:

klases ceļa iestatīšana Java

[{“Klasifikācija”: “dzijas vietne”, “Rekvizīti”: {“yarn.log-aggregation-enable”: “true”, “yarn.log-aggregation.retain-seconds”: “-1”, “dzija .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Kad esat izveidojis S3 segmentu un datu un skriptu failus nokopējis attiecīgajās mapēs, ir pienācis laiks iestatīt EMR kopu. Šajos momentuzņēmumos ir aprakstīts process, kad mēs veidojam kopu ar galvenokārt noklusējuma iestatījumiem.

EMR klastera iestatīšana

Pirmajā attēlā, lai konfigurētu kopu AWS konsolē, mēs esam saglabājuši visas EMR ieteiktās lietojumprogrammas, ieskaitot Hive. Stropu metadatu glabāšanai mums nav jāizmanto AWS Glue, kā arī pašlaik nepievienojam nevienu darba soli. Tomēr mums jāpievieno Hive programmatūras iestatījums. Šeit jums rūpīgi jāievēro, kā mēs šajā laukā norādām ceļu uz žurnāla apkopošanas JSON failu.

Nākamajā solī mēs esam saglabājuši visus noklusējuma iestatījumus. Mūsu testa labad klasterim būs viens galvenais mezgls un divi galvenie mezgli. Katrs mezgls šeit ir m3.xlarge eksemplārs, un tā saknes apjoms ir 10 GB. Nākamajā solī mēs nosaucam klasteru arvind1-klasteru un norādām pielāgotu s3 atrašanās vietu tā žurnālfailiem.

Visbeidzot, lai piekļūtu klastera galvenajam mezglam, mēs norādījām EC2 atslēgu pāri. EMR, EC2 instances profila un automātiskās mērogošanas opciju noklusējuma IAM lomas nemainās. Arī galvenie un galvenie mezgli pēc noklusējuma izmanto pieejamās drošības grupas. Parasti tā ir noklusējuma iestatīšana EMR kopai. Kad viss ir gatavs, kopa ir gaidīšanas statusā, kā parādīts zemāk:

Iesniedziet stropa darba soļus

Pēc tam mums jāļauj piekļūt SSH.

  1. Atveriet Amazon EMR konsoli vietnē https://console.aws.amazon.com/elasticmapreduce/ .
  2. Izvēlieties Kopas .
  3. Izvēlies Nosaukums kopas.
  4. Zem Drošība un piekļuve Izvēlies Maģistra drošības grupas saite.
  5. Izvēlieties ElasticMapReduce-master no saraksta.
  6. Izvēlieties Ienākošie , Rediģēt .
  7. Atrodiet kārtulu ar šādiem iestatījumiem un izvēlieties x ikona, lai to izdzēstu:
    • Tips SSH
    • Osta 22
    • Avots Pielāgots 0.0.0.0/0
  8. Ritiniet līdz noteikumu saraksta apakšai un izvēlieties Pievienot kārtulu .
  9. Priekš Tips , atlasiet SSH .Tas automātiski ienāk TCP priekš Protokols un 22 priekš Ostas diapazons .
  10. Avotam atlasiet Mans IP . Tas automātiski pievieno klienta datora IP adresi kā avota adresi. Varat arī pievienot diapazonu Pielāgots uzticamu klientu IP adreses un izvēlieties pievienojiet kārtulu izveidot papildu noteikumus citiem klientiem. Daudzās tīkla vidēs jūs IP adreses piešķirat dinamiski, tāpēc, lai atjauninātu uzticamo klientu IP adresi, iespējams, periodiski būs jārediģē drošības grupas kārtulas.
  11. Izvēlieties Saglabāt .
  12. Pēc izvēles izvēlēties ElasticMapSamazināt-vergu no saraksta un atkārtojiet iepriekš minētās darbības, lai SSH klientam ļautu piekļūt uzticamo klientu galvenajiem un uzdevumu mezgliem.

Tā kā EMR kopa darbojas un darbojas, mēs esam pievienojuši četrus darba soļus. Šie ir soļi, kurus EMR veiktu viens pēc otra. Šajā attēlā ir redzamas AWS EMR konsoles darbības:

Kad būsim pievienojuši četras darbības, mēs varēsim pārbaudīt šo darbību statusu kā pabeigtu. Pat ja ir kādas problēmas ar šo darbību izpildi, šādos gadījumos to var atrisināt, izmantojot šo darbību žurnālfailus.

Tātad tas ir no manas puses šajā rakstā par lielajiem datiem AWS. Es ceru, ka jūs esat sapratis visu, ko es šeit esmu izskaidrojis.

Ja atklājāt, ka šie lielie dati AWS ir svarīgi, varat apskatīt Edureka tiešraides un instruktoru vadītos kursus , kuru kopīgi izveidojuši nozares praktiķi.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā šajā sadaļā Kā izvietot Java tīmekļa lietojumprogrammu AWS, un mēs ar jums sazināsimies.