Datu zinātnes nozīme ar Kasandru



Kasandra ir atvērtā pirmkoda datu bāze, kas paredzēta lielu datu apjoma apstrādei daudzos serveros, tāpēc datu zinātnieku ar kasandras zināšanām pieprasījums ir liels.

'

Digitālo datu strauja paplašināšanās, izmantojot datorus, mobilos, video, sociālos medijus, digitālos sensorus utt., Apvienojumā ar lieliem sasniegumiem zemāku izmaksu apstrādes jaudā, atvērtā koda datu bāzes lietojumprogrammās un plašākā joslas platumā ir izraisījusi milzīgu interesi visā biznesa pasaulē. topošā Big Data zinātnes joma un analītika.





Lielie dati lielos nestrukturētos apjomos ir pārāk milzīgi, lai tos varētu pārvaldīt un analizēt, izmantojot tradicionālās metodes. Mūsdienu datu milzīgais daudzums un ātrums padara uztveršanu, filtrēšanu, uzglabāšanu un analīzi par īstu izaicinājumu. Lai to risinātu, regulāri tiek izstrādāti jauni produkti, kas prasa jaunas prasmju kopas un zināšanas. Arvien pieaug vajadzība pēc personām, kuras var organizācijā integrēt jaunu infrastruktūru, platformas un procesus, kā arī tām, kas var izveidot jaunus analītiskos un algoritmus, kas spēj radīt milzīgu intelektu ar lielu biznesa vērtību. Lai iegūtu vairāk informācijas, lasiet mūsu emuāra ierakstu vietnē

Datu zinātnes atbilstība dažādās nozarēs:

Datu zinātnei un analītikai ir pielietojums visās nozarēs:



  • e-komercija - personalizācijas un ieteikumu motori, kas palielina pārdošanas apjomus.
  • Reklāma - mērķtiecīga, reāllaika reklāmu piegāde patērētājiem.
  • Multivide un izklaide - Pielāgota satura izstrāde, kas maksimāli palielina lietotāju iesaisti.
  • Sociālie mēdiji - Paaugstināta vietnes “lipīgums”, lietotāju pieaugums, spēja izsekot strauji plīstošām tendencēm, pamatojoties uz patērētāju noskaņojumu.
  • Finanšu pakalpojumi –Optimizēta kreditēšanas prakse, kas samazina risku un krāpšanu.
  • Pharma / bioinformātika - Uzlabota zāļu atklāšana, efektīvāka draudu slimību ārstēšana, gēnu inženierijas uzlabojumi.
  • Veselības aprūpe - Labāka medicīnisko pacientu novērtēšana par veselības apdraudējumu, kā arī slimību paredzēšana un agrīna profilakse.
  • Jauda / Enerģija - Viedā tīkla izlūkošana, lietošanas efektivitāte, enerģijas ietaupījums un dīkstāves laika samazināšana.
  • Informācijas drošība - ievērojami uzlabota vērtīgas uzņēmuma informācijas un aktīvu zādzību atklāšana un uzraudzība.

Datu zinātnes profesionāļu galvenās prasmes:

Datu zinātnes domēnā ir nepieciešami profesionāļi, kuri:

  • Izprot datu analīzi un lēmumu zinātni
  • Labi pārzina IT
  • Ir spēcīga biznesa prasme
  • Piemīt spēja efektīvi sazināties ar lēmumu pieņēmējiem

Lasīt vairāk: Nepieciešamas pamatprasmes, lai būtu datu zinātnieks.

Kopīgas tehnoloģijas, kas saistītas ar datu zinātnes praksi:

Ar datu zinātni saistītās tehnoloģijas



  • Datu bāzes

Oracle, SQL Server, Teradata

Kasandra, Hadops, MapReduce, HBase

Aster, Greenplum, Netezza

  • Valodas

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Strops, Cūka, Lucene, Mahout, Solr

  • Statistika un prognozēšana

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Datu vizualizācija

QlikView, Spotfire, Tableau, yWorks, R.

  • BI un pārskati

BusinessObjects, Cognos, MicroStrategy

Kas ir Kasandra?

  • Apache Cassandra ir atvērtā koda izplatīta datu bāzes pārvaldības sistēma, kas paredzēta lielu datu apjomu apstrādei daudzos preču serveros.
  • Kasandra nodrošina augstu pieejamību bez viena neveiksmes punkta.
  • Cassandra piedāvā spēcīgu atbalstu kopām, kas aptver vairākus datu centrus, ar asinhronu galveno replikāciju, kas ļauj visiem klientiem veikt zemas aiztures operācijas.

Lai iegūtu vairāk informācijas, izlasiet mūsu emuāra ziņojumu vietnē .

Kā Datu zinātne izmanto Kasandru?

Kasandra ir & kautrīga un kautrīga izplatīta datu bāze ar zemu latentumu, augstas caurlaidspējas pakalpojumiem, kas apstrādā reāllaika darba slodzes, kas sastāv no simtiem atjauninājumu sekundē un desmitiem tūkstošu lasījumu sekundē.

Kasandra Lietojuma gadījums - PROS:

PROS ir lielo datu programmatūras uzņēmums, kura programmatūrā ir noteikta receptes analīze, kas klientiem palīdz analizēt viņu datus un iegūt ieskatu un norādījumus, lai optimizētu cenu, pārdošanas un ieņēmumu pārvaldību.

Viņiem ir reāllaika pakalpojums, kas aprēķina aviosabiedrību pieejamību, dinamiski ņemot vērā ieņēmumu kontroles datus un krājumu līmeni, kas var mainīties simtiem reižu sekundē.

Šis pakalpojums tiek vaicāts vairākus tūkstošus reižu sekundē, kas nozīmē desmitiem tūkstošu datu meklēšanu. Viņu aizmugures glabāšanas slānis šim pakalpojumam ir Kasandra.

Reāllaika risinājumam PROS saprata, ka ir nepieciešams:

kas ir actionlistener java
  • Izplatīta kešatmiņa, kas ir ļoti pieejama.
  • Viegli mērogojams.
  • Ar bez meistara arhitektūru.
  • Ar gandrīz reāllaika datu replikāciju pat visos datu centros.
  • Tas var apstrādāt reālā laika lasījumus un rakstus.

PROS novērtēja Kasandru salīdzinājumā ar Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort un Redis. Apache Kasandra diezgan viegli iekļuva saraksta augšgalā.

PROS un Kasandra

  • PROS izmanto Cassandra kā izplatītu datu bāzi ar zemu latentumu, augstas caurlaides pakalpojumiem, kas apstrādā reāllaika darba slodzi, kas sastāv no simtiem atjauninājumu sekundē un desmitiem tūkstošu lasījumu sekundē.
  • Piemēram, viņiem ir reāllaika pakalpojums, kas dinamiski aprēķina aviokompānijas pieejamību, ņemot vērā ieņēmumu kontroles datus un krājumu līmeni, kas var mainīties simtiem reižu sekundē. Šis pakalpojums tiek vaicāts vairākus tūkstošus reižu sekundē, kas nozīmē desmitiem tūkstošu datu meklēšanu. Viņu aizmugures glabāšanas slānis šim pakalpojumam ir Kasandra. Dažos viņu SaaS piedāvājumos Cassandra tiek izmantota kā aizmugurējais veikals, lai apstrādātu reāllaika un Hadoop bāzes partiju darba slodžu kombināciju.
  • Runājot par Hadoop un Cassandra, viņi izvelk datus no Cassandra un ievieto Hadoop, kā arī palaiž partiju un analīzi, un pēc tam tas atgriežas Cassandra. Tas tiek panākts, izmantojot Kasandras Hadoop integrāciju.
  • Hadoop darbavietās tiek izvilkti dati no Kasandras, tiek veiktas ar darbu saistītas transformācijas vai analīze un dati tiek atgriezti Kasandrā. Šajā integrācijā viņi neizmanto Datastax (oficiālais Cassandra uzturētāja) Enterprise izdevumu, tikai atvērtā koda Hadoop instalāciju ar Cassandra.

Datu modelēšana ar Cassandra:

Ja vēlaties nomainīt galveno vērtību krātuvi ar kaut ko vairāk reālā laika replikācijas un datu izplatīšanas jomā, pētījumi par Dynamo, KLP teorēmu un iespējamo konsekvences modeli parāda, ka Kasandra šim modelim ir piemērots. Uzzinot vairāk par datu modelēšanas iespējām, mēs pakāpeniski virzāmies uz datu sadalīšanos.

Ja kāds nāk no relāciju datubāzes fona ar spēcīgu ACID semantiku, tad jāvelta laiks, lai izprastu iespējamās konsekvences modeli.

Ļoti labi izprot Kasandras arhitektūru un to, ko tā dara zem pārsega. Izmantojot Cassandra 2.0, jūs saņemat vieglus darījumus un aktivizētājus, taču tie nav tādi paši kā tradicionālie datubāzes darījumi, kas varētu būt pazīstami. Piemēram, nav pieejami ārvalstu atslēgu ierobežojumi - tas ir jārisina paša lietojumprogrammai. Pirms datu modelēšanas ar Kasandru un skaidri jāizlasa visi lietošanas gadījumi un datu piekļuves modeļi, kā arī jāizlasa visa pieejamā dokumentācija.

Secinājums:

Apache Cassandra attīstās ātri, un mēs mācāmies un saprotam tās iespējas - it īpaši datu modelēšanas pusē. Mēs to uztveram kā izplatītu NoSQL datubāzi, kas piemērota mūsu Big Data pakalpojumiem un risinājumiem.

Edureka sniedz visaptverošu tiem, kas vēlas kļūt par datu zinātnieku. Kurss aptver virkni Hadoop, R un mašīnmācīšanās paņēmienu, kas aptver visu Datu zinātnes pētījumu. Edureka arī nodrošina kas palīdz apgūt NoSQL datu bāzes. Šis kurss ir paredzēts, lai sniegtu zināšanas un prasmes, lai kļūtu par veiksmīgu Kasandras ekspertu.