Cūku programmēšana: izveidojiet savu pirmo Apache Pig skriptu



Izlasiet šo emuāra ziņojumu, lai izveidotu savu pirmo Apache Pig skriptu. Apache Pig skripti tiek izmantoti, lai kolektīvi izpildītu Apache Pig komandu kopu.

Cūku programmēšana: izveidojiet savu pirmo Apache Pig skriptu

Mūsu , mēs tagad uzzināsim, kā izveidot Apache Pig skriptu. Apache Pig skripti tiek izmantoti, lai kolektīvi izpildītu Apache Pig komandu kopu. Tas palīdz samazināt laiku un pūles, kas ieguldītas, rakstot un izpildot katru komandu manuāli, to darot Pig programmēšanā.Tā ir arī neatņemama programmas sastāvdaļa .Šis emuārs ir soli pa solim paredzēts, lai palīdzētu jums izveidot savu pirmo Apache Pig skriptu.

Apache Pig skriptu izpildes režīmi

Vietējais režīms : “Vietējā režīmā” cūku skriptu var izpildīt vietējā failu sistēmā. Šajā gadījumā dati nav jāglabā Hadoop HDFS failu sistēmā, tā vietā jūs varat strādāt ar datiem, kas saglabāti pašā vietējā failu sistēmā.





MapReduce režīms : ‘MapReduce režīmā’ dati ir jāglabā HDFS failu sistēmā, un datus var apstrādāt ar cūku skripta palīdzību.

Apache Pig skripts MapReduce režīmā

Teiksim, ka mūsu uzdevums ir nolasīt datus no datu faila un parādīt nepieciešamo saturu terminālā kā izvadi.



Windows ceļam pievieno java

Datu faila paraugā ir šādi dati:

Informatīvais txt fails - Apache Pig Script - Edureka

Saglabājiet teksta failu ar nosaukumu ‘information.txt’



Datu faila paraugā ir piecas kolonnas Vārds , Uzvārds , MobilaisNē , Pilsēta , un Profesija atdalīts ar cilnes taustiņu . Mūsu uzdevums ir nolasīt šī faila saturu no HDFS un parādīt visas šo ierakstu kolonnas.

Lai apstrādātu šos datus, izmantojot Pig, šim failam jābūt Apache Hadoop HDFS.

Komanda : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

1. darbība: Cūkas scenārija rakstīšana

Redaktorā izveidojiet un atveriet Apache Pig skripta failu (piemēram, gedit).

Komanda : sudo gedit /home/edureka/output.pig

Šī komanda izveidos failu “output.pig” edureka lietotāja mājas direktorijā.

Uzrakstīsim dažas PIG komandas failā output.pig.

A = LOAD '/edureka/information.txt', izmantojot PigStorage ('') kā (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A ģenerēt FName, MobileNo, Profession DUMP B

Saglabājiet un aizveriet failu.

  • Pirmā komanda ielādē failu ‘information.txt’ mainīgajā A ar netiešu shēmu (FName, LName, MobileNo, City, Profession).
  • Otrā komanda ielādē nepieciešamos datus no mainīgā A uz mainīgo B.
  • Trešajā rindā tiek parādīts mainīgā B saturs terminālā / konsolē.

2. darbība: Izpildiet Apache Pig skriptu

Lai izpildītu cūku skriptu HDFS režīmā, izpildiet šādu komandu:

Komanda : cūka /home/edureka/output.pig

Pēc izpildes beigām pārskatiet rezultātu. Šie zemāk redzamie attēli parāda rezultātus un to starpkarti un samazina funkcijas.

Zemāk redzamais attēls parāda, ka skripts ir veiksmīgi izpildīts.

Zemāk attēlā parādīts mūsu skripta rezultāts.

Apsveicam ar veiksmīgu pirmā Apache Pig skripta izpildi!

Tagad jūs zināt, kā izveidot un izpildīt Apache Pig skriptu. Tādējādi mūsu nākamais emuārs būs par to, kā izveidot UDF (lietotāja definētas funkcijas) Apache Pig un izpildiet to MapReduce / HDFS režīmā.

Tagad, kad esat izveidojis un izpildījis Apache Pig Script, pārbaudiet Autors: Edureka, uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē. Edureka Big Data Hadoop sertifikācijas apmācības kurss palīdz izglītojamajiem kļūt par HDFS, dzijas, MapReduce, Pig, Hive, HBase, Oozie, Flume un Sqoop ekspertiem, izmantojot reāllaika lietošanas gadījumus mazumtirdzniecības, sociālo mediju, aviācijas, tūrisma, finanšu jomā.

Vai mums ir jautājums? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.