Būtiski Hadoop rīki lielu datu griešanai



Hadoop ir populārs vārds mūsdienās IT pasaulē, un šis ieraksts apraksta būtiskos Hadoop rīkus, kas sagrauj lielos datus.

Mūsdienās populārākais termins IT pasaulē ir ‘Hadoop’. Īsā laika posmā Hadoops ir ievērojami pieaudzis un izrādījies noderīgs lielai dažādu projektu kolekcijai. Hadoop kopiena strauji attīstās, un tai ir nozīmīga loma tās ekosistēmā.





Šeit ir ieskats būtiskajos Hadoop rīkos, kas tiek izmantoti Big Data apstrādei.

kā lietot br HTML

ambari



Ambari ir Apache projekts, kuru atbalsta Hortonworks. Tas piedāvā tīmekļa GUI (grafisko lietotāja saskarni) ar vedņa skriptiem, lai izveidotu kopas ar lielāko daļu standarta komponentu. Ambari nodrošina, pārvalda un uzrauga visus Hadoop darbu klasterus.

hdfs-logo

The HDFS , kas izplatīts ar Apache licenci, piedāvā pamata sistēmu datu kolekciju sadalīšanai starp vairākiem mezgliem. HDFS lielie faili ir sadalīti blokos, kur visi mezgli satur visus mezglus no faila. Failu sistēma ir veidota tā, lai sajauktu kļūdu toleranci ar lielu caurlaidspēju. HDFS bloki tiek ielādēti, lai uzturētu vienmērīgu straumēšanu. Parasti tie netiek saglabāti kešatmiņā, lai samazinātu latentumu.



hbaselogo

HBase ir uz kolonnām orientēta datu bāzes pārvaldības sistēma, kas darbojas virs HDFS. HBase lietojumprogrammas ir rakstītas Java valodā, līdzīgi kā programma MapReduce. Tas sastāv no tabulu kopas, kur katrā tabulā ir rindas un kolonnas, piemēram, tradicionālā datu bāze. Kad dati iekrīt lielajā tabulā, HBase glabās datus, meklēs tos un automātiski koplietos tabulu vairākos mezglos, lai MapReduce darbavietas varētu tos palaist lokāli. HBase piedāvā ierobežotu garantiju dažām vietējām izmaiņām. Izmaiņas, kas notiek vienā rindā, var vienlaikus izdoties vai neizdoties.

hive

Ja jūs jau pārzināt SQL, tad varat izmantot Hadoop Stropu . Stropu izstrādāja daži cilvēki vietnē Facebook. Apache Hive regulē bitu iegūšanas procesu no visiem HBase failiem. Tas atbalsta lielu datu kopu analīzi, kas glabājas Hadoop HDFS un saderīgās failu sistēmās. Tas nodrošina arī SQL līdzīgu valodu, ko sauc par HSQL (HiveSQL), kas iekļūst failos un izraksta kodam nepieciešamos fragmentus.

sqoop

Apache Sqoop ir īpaši izstrādāts, lai efektīvi pārsūtītu lielapjoma datus no tradicionālajām datu bāzēm uz Hive vai HBase. To var arī izmantot, lai iegūtu datus no Hadoop un eksportētu tos uz ārējiem strukturētiem datu krājumiem, piemēram, relāciju datu bāzēm un uzņēmuma datu noliktavām. Sqoop ir komandrindas rīks, kartēšana starp tabulām un datu glabāšanas slāni, tabulu tulkošana konfigurējamā HDFS, HBase vai Hive kombinācijā.

Pig1

Kad saglabātie dati ir redzami Hadoop, Apache Pig ienirst datos un palaiž kodu, kas ir rakstīts savā valodā ar nosaukumu Cūku latīņu valoda. Cūku latīņu valoda ir piepildīta ar abstrakcijām datu apstrādei. Cūkai ir standarta funkcijas kopīgiem uzdevumiem, piemēram, datu vidējai aprēķināšanai, darbam ar datumiem vai virkņu atšķirību atrašanai. Cūka arī ļauj lietotājam patstāvīgi rakstīt valodas, sauktas par UDF (User Defined Function), kad standarta funkcijas nav izpildītas.

zookeper

Zoodārza sargs ir centralizēts pakalpojums, kas uztur, konfigurē informāciju, dod vārdu un nodrošina sadalītu sinhronizāciju visā klasterī. Tas klasterī uzliek failu sistēmai līdzīgu hierarhiju un glabā visus mašīnu metadatus, lai mēs varētu sinhronizēt dažādu mašīnu darbu.

NoSQL

Daži Hadoop kopas integrējas ar NoSQL datu krātuves, kurām ir savi datu glabāšanas mehānismi mezglu kopā. Tas ļauj viņiem uzglabāt un izgūt datus ar visām NoSQL datu bāzes funkcijām, pēc tam Hadoop var izmantot, lai ieplānotu datu analīzes darbus vienā un tajā pašā kopā.

mahoutlogo

Mahout ir paredzēts, lai ieviestu lielu skaitu algoritmu, klasifikāciju un datu analīzes filtrēšanu Hadoop klasterī. Daudzi standarta algoritmi, piemēram, K-mean, Dirichelet, paralēlā modeļa un Bayesian klasifikācijas, ir gatavi darboties ar datiem ar Hadoop stila karti un samazināt.

Lucene, rakstīts Java valodā un viegli integrēts ar Hadoop, ir Hadoop dabisks pavadonis. Tas ir rīks, kas paredzēts lielu nestrukturēta teksta bloku indeksēšanai. Lucene veic indeksēšanu, bet Hadoop izplata vaicājumus visā klasterī. Lucene-Hadoop funkcijas strauji attīstās, kad tiek izstrādāti jauni projekti.

Avro

Eiro ir serializācijas sistēma, kas apvieno datus kopā ar shēmu to izpratnei. Katrai paketei ir JSON datu struktūra. JSON paskaidro, kā datus var parsēt. JSON galvene norāda datu struktūru, kur var izvairīties no nepieciešamības rakstīt papildu tagus datos, lai atzīmētu laukus. Izeja ir ievērojami kompaktāka nekā tradicionālie formāti, piemēram, XML.

Darbu var vienkāršot, sadalot to pa soļiem. Pārdalot projektu vairākos Hadoop darbos, Oozie sāk tos apstrādāt pareizajā secībā. Tas pārvalda DAG (Directed Acyclic Graph) norādīto darbplūsmu, un nav nepieciešams savlaicīgs monitorings.

ĢIS rīki

Darbs ar ģeogrāfiskajām kartēm ir liels darbs kopām, kurās darbojas Hadoop. ĢIS ( Ģeogrāfiskās informācijas sistēma ) rīki Hadoop projektiem ir pielāgojuši labākos Java balstītos rīkus ģeogrāfiskās informācijas izpratnei, lai tie darbotos ar Hadoop. Datubāzes tagad var apstrādāt ģeogrāfiskos vaicājumus, izmantojot koordinātas, un kodi var izvietot ĢIS rīkus.

Visu datu apkopošana ir vienāda ar to glabāšanu un analīzi. Apache Flume nosūta “īpašos aģentus”, lai apkopotu informāciju, kas tiks saglabāta HDFS. Apkopotā informācija var būt žurnāla faili, Twitter API vai vietņu atgriezumi. Šos datus var ķēdīt un pakļaut analīzēm.

Spark

Dzirksts ir nākamā paaudze, kas darbojas gandrīz tāpat kā Hadoop, kas apstrādā atmiņā kešatmiņā saglabātos datus. Tās mērķis ir padarīt datu analīzi ātri izpildāmu un rakstāmu, izmantojot vispārēju izpildes modeli. Tas var optimizēt patvaļīgus operatora grafikus un atbalstīt atmiņas skaitļošanu, kas ļauj tai vaicāt datus ātrāk nekā uz diskiem balstītiem dzinējiem, piemēram, Hadoop.

SQL uz Hadoop

Kad ir nepieciešams izpildīt ātru ad hoc vaicājumu par visiem klastera datiem, var uzrakstīt jaunu Hadoop darbu, taču tas prasa zināmu laiku. Kad programmētāji sāka to darīt biežāk, viņi nāca klajā ar rīkiem, kas rakstīti vienkāršā SQL valodā. Šie rīki piedāvā ātru piekļuvi rezultātiem.

Apache urbis

Apache Drill nodrošina zema latentuma ad-hoc vaicājumus daudziem un dažādiem datu avotiem, ieskaitot ligzdotus datus. Drill, kas iedvesmots no Google Dremel, ir paredzēts mērogošanai līdz 10 000 serveriem un petabaitiem datu vaicājumu sekundēs.

Šie ir būtiskākie Hadoop rīki lielo datu griešanai!

Vai mums ir jautājums? Lūdzu, pieminējiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

Praktiski iemesli apgūt Hadoop 2.0