Apache Flink: nākamās paaudzes lielo datu analīzes ietvars straumēšanas un pakešdatu apstrādei



Šajā emuārā uzziniet visu par Apache Flink un Flink kopas iestatīšanu. Flink atbalsta reāllaika un pakešu apstrādi, un tā ir obligāta Big Data Analytics tehnoloģija Big Data.

Apache Flink ir atvērtā koda platforma izplatītas straumes un pakešdatu apstrādei. Tas var darboties operētājsistēmās Windows, Mac OS un Linux OS. Šajā emuāra ziņā apspriedīsim, kā Flink kopu iestatīt lokāli. Tas daudzējādā ziņā ir līdzīgs Spark - tam ir API grafiku un mašīnu apmācības apstrādei, piemēram, Apache Spark, taču Apache Flink un Apache Spark nav gluži vienādi.





Lai iestatītu Flink kopu, sistēmā jābūt instalētai Java 7.x vai jaunākai versijai. Tā kā CentOS (Linux) manā galā ir instalēts Hadoop-2.2.0, esmu lejupielādējis Flink pakotni, kas ir saderīga ar Hadoop 2.x. Palaidiet komandu zemāk, lai lejupielādētu Flink pakotni.

Komanda: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Noņemiet failu, lai iegūtu mirgojošo direktoriju.

Komanda: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Komanda: ls

Pievienojiet Flink vides mainīgos .bashrc failā.

Komanda: sudo gedit .bashrc

Jums jāpalaiž zemāk esošā komanda, lai tiktu aktivizētas izmaiņas .bashrc failā

Komanda: avots .bashrc

Tagad dodieties uz mirkšķināšanas direktoriju un sāciet kopu lokāli.

Komanda: cd dūšīgs-1.0.0

Komanda: bin / start-local.sh

Kad esat startējis kopu, varēsit redzēt, kā darbojas jauns dēmons JobManager.

Komanda: jps

Atveriet pārlūkprogrammu un dodieties uz vietni http: // localhost: 8081, lai skatītu Apache Flink tīmekļa lietotāja saskarni.

pl sql iesācējiem ar piemēriem

Palaidīsim vienkāršu vārdu skaita piemēru, izmantojot Apache Flink.

Pirms palaist piemēru, instalējiet netcat savā sistēmā (sudo yum install nc).

Tagad jaunajā terminālī izpildiet tālāk norādīto komandu.

Komanda: nc -lk 9000

Palaist zemāk norādīto komandu mirgošanas terminālā. Šī komanda palaiž programmu, kas straumētos datus uztver kā ievadi un veic straumēto datu vārdu skaitu.

Komanda: bin / flink izpildes piemēri / straumēšana / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Tīmekļa lietotāja saskarnē jūs varēsiet redzēt darbu darba stāvoklī.

Palaidiet komandu zem jauna termināla, tādējādi tiks izdrukāti straumētie un apstrādātie dati.

Komanda: asti - f žurnāls / mirgošana - * - darba vadītājs - *. ārā

Tagad dodieties uz termināli, kurā sākāt netcat, un ierakstiet kaut ko.

kā iziet pēc vērtības java

Brīdī, kad pēc tam, kad esat ievadījis dažus datus netcat terminālī, nospiežat ievadīšanas pogu atslēgvārdam, šiem datiem tiks piemērota vārdu skaitīšanas darbība, un izlaide tiks izdrukāta šeit (flink’s jobmanager žurnāls) milisekundēs!

Ļoti īsā laikā dati tiks straumēti, apstrādāti un izdrukāti.

Ir daudz vairāk uzzināt par Apache Flink. Mēs skarsim citas Flink tēmas mūsu gaidāmajā emuārā.

Vai mums ir jautājums? Pieminiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

Apache Falcon: jauna datu pārvaldības platforma Hadoop ekosistēmai