IEVADS APACHE STROPĀ .CO

Apache Hive ir datu glabāšanas pakotne, kas izveidota virs Hadoop un tiek izmantota datu analīzei. Strops ir paredzēts lietotājiem, kuriem SQL ir ērti. Tas ir līdzīgs SQL un tiek saukts par HiveQL, ko izmanto strukturētu datu pārvaldīšanai un vaicājumiem. Apache Hive tiek izmantots abstraktai Hadoop sarežģītībai. Šī valoda arī ļauj tradicionālajiem karšu / samazināšanas programmētājiem pieslēgt savus pielāgotos kartētājus un reduktorus. Hive populārā iezīme ir tā, ka nav jāapgūst Java.

konvertēt virkni datuma java

Hive, atvērtā koda beta baitu mēroga datumu noliktavas sistēmu, kuras pamatā ir Hadoop, izstrādāja Facebook datu infrastruktūras komanda. Strops ir arī viena no tehnoloģijām, kas tiek izmantota, lai izpildītu prasības Facebook. Strops ir ļoti populārs visiem Facebook lietotājiem, un tas tiek izmantots, lai kopā ar simtiem lietotāju klasterī palaistu tūkstošiem darbavietu visdažādākajām lietojumprogrammām. Hive-Hadoop kopa pie Facebook glabā vairāk nekā 2PB neapstrādātu datu un regulāri ikdienā ielādē 15 TB datu.

Apskatīsim dažas tās funkcijas, kas padara to populāru un lietotājam draudzīgu:

Ļauj programmētājiem pieslēgt pielāgotus kartētājus un reduktorus.
Ir datu noliktavas infrastruktūra.
Nodrošina rīkus, kas nodrošina ērtu datu ETL izmantošanu.
Definē SQL līdzīgu vaicājumu valodu, ko sauc par QL.

Apache Hive lietošanas gadījums - Facebook:

Stropu lietošanas gadījums - Facebook

Pirms Hive ieviešanas Facebook saskārās ar daudzām problēmām, jo ģenerējamo datu apjoms palielinājās vai drīzāk uzsprāga, padarot to patiešām grūti apstrādāt. Tradicionālais RDBMS nevarēja izturēt spiedienu, un tāpēc Facebook meklēja labākas iespējas. Lai atrisinātu šo gaidāmo problēmu, Facebook sākotnēji mēģināja izmantot Hadoop MapReduce, taču ar grūtībām programmēt un obligātās zināšanas SQL, padarīja to par nepraktisku risinājumu. Strops ļāva viņiem pārvarēt grūtības, ar kurām viņi saskārās.

Izmantojot Hive, viņi tagad var veikt šādas darbības:

Galdus var sadalīt porcijās un salikt pa grupām
Shēmas elastība un attīstība
Ir pieejami JDBC / ODBC draiveri
Stropu tabulas var definēt tieši HDFS
Paplašināms - veidi, formāti, funkcijas un skripti

Stropu lietošanas gadījums veselības aprūpē:

Kur izmantot stropu?

Apache Hive var izmantot šādās vietās:

Datu ieguve
Žurnālu apstrāde
Dokumentu indeksēšana
Klients saskaras ar biznesa izlūkošanu
Prognozējošā modelēšana
Hipotēžu pārbaude

Stropu arhitektūra:

Strops sastāv no šādām galvenajām sastāvdaļām:

Metastore - lai saglabātu metadatus.
JDBC / ODBC - vaicājumu sastādītājs un izpildes dzinējs, lai pārveidotu SQL vaicājumus MapReduce secībā.
SerDe un ObjectInspectors - datu formātiem un tipiem.
UDF / UDAF - lietotāja definētām funkcijām.
Klienti - līdzīgi MySQL komandrindai un tīmekļa lietotāja saskarnei.

Stropa sastāvdaļas:

Metastore:

kas ir java java

Metastore glabā informāciju par tabulām, starpsienām, kolonnām tabulās. Metastore ir 3 glabāšanas veidi: iegultā metastore, lokālā metastore un attālā metastore. Pārsvarā attālā metastore tiks izmantota ražošanas režīmā.

Stropu ierobežojumi:

ko math.abs dara java

Stropam ir šādi ierobežojumi, un šādos apstākļos to nevar izmantot:

Nav paredzēts tiešsaistes darījumu apstrādei.
Nodrošina pieņemamu latentumu interaktīvai datu pārlūkošanai.
Nepiedāvā reāllaika vaicājumus un rindu līmeņa atjauninājumus.
Stropu vaicājumu latentums parasti ir ļoti augsts.

Vai mums ir jautājums? Pieminiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

Stropu komandas

Ievads Apache Hive

Apache Hive ir datu glabāšanas pakotne, kas izveidota virs Hadoop un tiek izmantota datu analīzei. Strops ir paredzēts lietotājiem, kuriem SQL ir ērti.

Apache Hive lietošanas gadījums - Facebook:

Stropu lietošanas gadījums veselības aprūpē:

Kur izmantot stropu?

Stropu arhitektūra:

Stropa sastāvdaļas:

Stropu ierobežojumi:

Kategorijas

Popular Articles

Populārākās Java datu struktūras un algoritmi, kas jums jāzina

Kas ir Kotlins? - Uzziniet Kotlinu no skrāpējumiem

Funkciju kartēšana, filtrēšana un samazināšana Python: viss, kas jums jāzina

Uzziniet, kā rīkoties ar izņēmumiem PL / SQL

Bitcoin Blockchain paskaidrots: izpratne par Bitcoin un Blockchain

Kāpēc lieliem datiem jāizvēlas Python

Viss, kas jums jāzina par Java brīvo savienošanu

Izstrādes vides iestatīšana, izmantojot Vagrant

Top 5 biznesa informācijas rīki

Kāpēc mums ir vajadzīgs Hadoop datu zinātnei?

Reālā laika lielo datu lietojumprogrammas dažādos domēnos

Excel diagrammas: uzlabota datu vizualizācija, izmantojot MS Excel