Ievads Apache Hive



Apache Hive ir datu glabāšanas pakotne, kas izveidota virs Hadoop un tiek izmantota datu analīzei. Strops ir paredzēts lietotājiem, kuriem SQL ir ērti.

Apache Hive ir datu glabāšanas pakotne, kas izveidota virs Hadoop un tiek izmantota datu analīzei. Strops ir paredzēts lietotājiem, kuriem SQL ir ērti. Tas ir līdzīgs SQL un tiek saukts par HiveQL, ko izmanto strukturētu datu pārvaldīšanai un vaicājumiem. Apache Hive tiek izmantots abstraktai Hadoop sarežģītībai. Šī valoda arī ļauj tradicionālajiem karšu / samazināšanas programmētājiem pieslēgt savus pielāgotos kartētājus un reduktorus. Hive populārā iezīme ir tā, ka nav jāapgūst Java.





konvertēt virkni datuma java

Hive, atvērtā koda beta baitu mēroga datumu noliktavas sistēmu, kuras pamatā ir Hadoop, izstrādāja Facebook datu infrastruktūras komanda. Strops ir arī viena no tehnoloģijām, kas tiek izmantota, lai izpildītu prasības Facebook. Strops ir ļoti populārs visiem Facebook lietotājiem, un tas tiek izmantots, lai kopā ar simtiem lietotāju klasterī palaistu tūkstošiem darbavietu visdažādākajām lietojumprogrammām. Hive-Hadoop kopa pie Facebook glabā vairāk nekā 2PB neapstrādātu datu un regulāri ikdienā ielādē 15 TB datu.

Apskatīsim dažas tās funkcijas, kas padara to populāru un lietotājam draudzīgu:



  • Ļauj programmētājiem pieslēgt pielāgotus kartētājus un reduktorus.
  • Ir datu noliktavas infrastruktūra.
  • Nodrošina rīkus, kas nodrošina ērtu datu ETL izmantošanu.
  • Definē SQL līdzīgu vaicājumu valodu, ko sauc par QL.

Apache Hive lietošanas gadījums - Facebook:

Stropu lietošanas gadījums - Facebook

Pirms Hive ieviešanas Facebook saskārās ar daudzām problēmām, jo ​​ģenerējamo datu apjoms palielinājās vai drīzāk uzsprāga, padarot to patiešām grūti apstrādāt. Tradicionālais RDBMS nevarēja izturēt spiedienu, un tāpēc Facebook meklēja labākas iespējas. Lai atrisinātu šo gaidāmo problēmu, Facebook sākotnēji mēģināja izmantot Hadoop MapReduce, taču ar grūtībām programmēt un obligātās zināšanas SQL, padarīja to par nepraktisku risinājumu. Strops ļāva viņiem pārvarēt grūtības, ar kurām viņi saskārās.

Izmantojot Hive, viņi tagad var veikt šādas darbības:



  • Galdus var sadalīt porcijās un salikt pa grupām
  • Shēmas elastība un attīstība
  • Ir pieejami JDBC / ODBC draiveri
  • Stropu tabulas var definēt tieši HDFS
  • Paplašināms - veidi, formāti, funkcijas un skripti

Stropu lietošanas gadījums veselības aprūpē:

Kur izmantot stropu?

Apache Hive var izmantot šādās vietās:

  • Datu ieguve
  • Žurnālu apstrāde
  • Dokumentu indeksēšana
  • Klients saskaras ar biznesa izlūkošanu
  • Prognozējošā modelēšana
  • Hipotēžu pārbaude

Stropu arhitektūra:

Strops sastāv no šādām galvenajām sastāvdaļām:

  • Metastore - lai saglabātu metadatus.
  • JDBC / ODBC - vaicājumu sastādītājs un izpildes dzinējs, lai pārveidotu SQL vaicājumus MapReduce secībā.
  • SerDe un ObjectInspectors - datu formātiem un tipiem.
  • UDF / UDAF - lietotāja definētām funkcijām.
  • Klienti - līdzīgi MySQL komandrindai un tīmekļa lietotāja saskarnei.

Stropa sastāvdaļas:

Metastore:

kas ir java java

Metastore glabā informāciju par tabulām, starpsienām, kolonnām tabulās. Metastore ir 3 glabāšanas veidi: iegultā metastore, lokālā metastore un attālā metastore. Pārsvarā attālā metastore tiks izmantota ražošanas režīmā.

Stropu ierobežojumi:

ko math.abs dara java

Stropam ir šādi ierobežojumi, un šādos apstākļos to nevar izmantot:

  • Nav paredzēts tiešsaistes darījumu apstrādei.
  • Nodrošina pieņemamu latentumu interaktīvai datu pārlūkošanai.
  • Nepiedāvā reāllaika vaicājumus un rindu līmeņa atjauninājumus.
  • Stropu vaicājumu latentums parasti ir ļoti augsts.

Vai mums ir jautājums? Pieminiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

Stropu komandas