Datu zinātnes apmācība - uzziniet datu zinātni no Scratch!



Šī Data Science apmācība ir ideāli piemērota tiem, kas meklē pāreju uz Data Science domēnu. Tas ietver visas datu zinātnes pamatprincipus ar karjeras ceļu.

Vai vēlaties sākt savu karjeru kā datu zinātnieks, bet nezināt, ar ko sākt? Jūs esat īstajā vietā! Sveiki puiši, laipni lūdzam šajā lieliskajā emuārā Data Science Tutorial, tas dos jums sākumu datu zinātnes pasaulē. Lai iegūtu padziļinātas zināšanas par datu zinātni, varat reģistrēties tiešraidē autors Edureka ar diennakts atbalstu un piekļuvi mūža garumā. Apskatīsim, ko mēs šodien mācīsimies:

    1. Kāpēc datu zinātne?
    2. Kas ir datu zinātne?
    3. Kas ir datu zinātnieks?
    4. Darba tendences
    5. Kā atrisināt problēmu datu zinātnē?
    6. Datu zinātnes komponenti
    7. Datu zinātnieka darba lomas





Kāpēc datu zinātne?

Ir teikts, ka Data Scientist ir 21. gadsimta seksīgākais darbs. Kāpēc? Tā kā pēdējos gados uzņēmumi glabā savus datus. Un to dara katrs uzņēmums, un tas pēkšņi ir izraisījis datu eksploziju. Dati šodien ir kļuvuši par visplašāko lietu.

Bet ko jūs darīsit ar šiem datiem? Sapratīsim to, izmantojot piemēru:



Pieņemsim, ka jums ir uzņēmums, kas ražo mobilos tālruņus. Jūs izlaidāt savu pirmo produktu, un tas kļuva par milzīgu hitu. Katrai tehnoloģijai ir sava dzīve, vai ne? Tātad, tagad ir pienācis laiks nākt klajā ar kaut ko jaunu. Bet jūs nezināt, kas būtu jāievieš, lai apmierinātu to lietotāju cerības, kuri ar nepacietību gaida jūsu nākamo laidienu?

Kāds jūsu uzņēmumā nāk klajā ar ideju izmantot lietotāju ģenerētās atsauksmes un izvēlēties lietas, kuras, mūsuprāt, lietotāji sagaida nākamajā laidienā.

Datu zinātnes jomā jūs izmantojat dažādas datu ieguves metodes, piemēram, noskaņojuma analīzi utt., Un iegūstat vēlamos rezultātus.



Tas ir ne tikai tas, ka jūs varat pieņemt labākus lēmumus, bet arī samazināt ražošanas izmaksas, izmantojot efektīvus veidus, un dot klientiem to, ko viņi patiesībā vēlas!

Tādējādi Data Science var sniegt neskaitāmus ieguvumus, un tāpēc jūsu uzņēmumam ir absolūti nepieciešams izveidot Data Science komandu.Šādas prasības šodien noveda pie “Datu zinātnes” kā priekšmeta, tāpēc mēs jums rakstām šo emuāru Datu zinātnes apmācībā. :)

Datu zinātnes apmācība: kas ir datu zinātne?

Termins Datu zinātne nesen parādījās, attīstoties matemātiskajai statistikai un datu analīzei. Ceļojums ir bijis pārsteidzošs, mēs šodien tik daudz esam paveikuši Datu zinātnes jomā.

Tuvāko gadu laikā mēs varēsim prognozēt nākotni, kā apgalvoja MIT pētnieki. Viņi ar savu lielisko pētījumu jau ir sasnieguši pagrieziena punktu nākotnes prognozēšanā. Tagad viņi ar savu mašīnu var paredzēt, kas notiks nākamajā filmas sižetā! Kā? Tagad jums tas varētu būt nedaudz sarežģīti saprast, taču neuztraucieties līdz šī emuāra beigām, jums būs arī atbilde uz to.

Atgriežoties, mēs runājām par datu zinātni, tā ir arī pazīstama kā ar datiem pamatota zinātne, kas izmanto zinātniskas metodes, procesus un sistēmas, lai iegūtu datus vai ieskatus no datiem dažādās formās, t.i., strukturētā vai nestrukturētā veidā.

Kādas ir šīs metodes un procesi, ko mēs šodien apspriedīsim šajā Datu zinātnes apmācībā.

Kurš virzās uz priekšu, kurš visu šo smadzeņu vētru veic vai kurš praktizē Datu zinātni? A Datu zinātnieks .

Kas ir datu zinātnieks?

Kā redzat attēlā, datu zinātnieks ir visu amatu meistars! Viņam vajadzētu pārzināt matemātiku, viņam vajadzētu pievērsties uzņēmējdarbības jomai, kā arī lieliskām datorzinātņu prasmēm. Nobijies? Neesiet. Lai gan jums ir jābūt labam visos šajos laukos, bet pat ja neesat, jūs neesat viens! Nav tādas lietas kā “pilnīgs datu zinātnieks”. Ja mēs runājam par darbu korporatīvajā vidē, darbs tiek sadalīts starp komandām, kur katrai komandai ir sava pieredze. Bet lieta ir tāda, ka jums vajadzētu pārzināt vismaz vienu no šiem laukiem. Turklāt, pat ja šīs prasmes jums ir jaunas, atdzesējiet! Tas var aizņemt laiku, taču šīs prasmes var attīstīt, un ticiet man, ka būtu vērts to laiku ieguldīt. Kāpēc? Apskatīsim darba tendences.

kas ir CSS kursors

Datu zinātnieka darba tendences

Grafiks visu izsaka, ne tikai ir daudz darba datu zinātniekam, bet arī darba vietas ir labi apmaksātas! Un nē, mūsu emuārs neaptvers algu rādītājus, ej googlē!

Nu, tagad mēs zinām, ka datu zinātnes apgūšanai ir jēga ne tikai tāpēc, ka tā ir ļoti noderīga, bet arī tuvākajā nākotnē jums tajā ir lieliska karjera.

Sāksim savu ceļojumu datu zinātnes apgūšanā tagad un sāksim ar

Kā atrisināt problēmu datu zinātnē?

Tāpēc tagad apspriedīsimies, kā vajadzētu pieiet problēmai un atrisināt to ar datu zinātni. Datu zinātnes problēmas tiek risinātas, izmantojot algoritmus. Bet vislielākais, par ko spriest, ir tas, kuru algoritmu un kad to izmantot?

Būtībā datu zinātnē var saskarties ar 5 veidu problēmām.

Apskatīsim katru no šiem jautājumiem un ar tiem saistītos algoritmus pa vienam:

Vai tas ir A vai B?

Ar šo jautājumu mēs atsaucamies uz problēmām, kurām ir kategoriska atbilde, piemēram, uz problēmām, kurām ir noteikts risinājums, atbilde varētu būt vai nu jā, vai nē, 1 vai 0, interesē, varbūt vai neinteresē.

Piemēram:

J. Kas jums būs, tēja vai kafija?

Šeit jūs nevarat teikt, ka vēlaties koksu! Tā kā jautājums piedāvā tikai tēju vai kafiju, un tāpēc jūs varat atbildēt tikai uz vienu no šiem.

Ja mums ir tikai divu veidu atbildes, ti, jā vai nē, 1 vai 0, to sauc par 2 klases klasifikāciju. Izmantojot vairāk nekā divas iespējas, to sauc par daudzklases klasifikāciju.

Noslēdzot, vienmēr, kad rodas jautājumi, kuru atbilde ir kategoriska, Datu zinātnē šīs problēmas atrisināsit, izmantojot klasifikācijas algoritmus.

Nākamā problēma šajā Datu zinātnes apmācībā, ar kuru varat saskarties, varbūt kaut kas līdzīgs šim,

Vai tas ir dīvaini?

Šādi jautājumi attiecas uz modeļiem, un tos var atrisināt, izmantojot anomāliju noteikšanas algoritmus.

Piemēram:

Mēģiniet saistīt problēmu “vai tas ir dīvaini?” uz šo diagrammu,

Kas ir dīvaini iepriekš minētajā modelī? Sarkanais puisis, vai ne?

Ikreiz, kad notiek modeļa pārtraukums, algoritms atzīmē šo konkrēto notikumu mums pārskatīšanai. Kredītkaršu kompānijas ir ieviesušas reālu šī algoritma lietojumu, kur jebkurš neparasts lietotāja darījums tiek atzīmēts pārskatīšanai. Tādējādi tiek īstenota drošība un samazināti cilvēku centieni uzraudzībā.

Apskatīsim nākamo problēmu šajā Data Science Tutorial, nebaidieties, nodarbojas ar matemātiku!

Cik vai cik?

Tie no jums, kuriem nepatīk matemātika, ir atviegloti! Regresijas algoritmi ir šeit!

Tātad, ja rodas kāda problēma, kas var prasīt skaitļus vai skaitliskas vērtības, mēs to atrisinām, izmantojot regresijas algoritmus.

Piemēram:

Kāda būs rītdienas temperatūra?

Tā kā atbildē uz šo problēmu mēs sagaidām skaitlisku vērtību, mēs to atrisināsim, izmantojot regresijas algoritmus.

Pārvietojoties šajā Datu zinātnes apmācībā, apspriedīsim nākamo algoritmu,

Kā tas tiek organizēts?

Pieņemsim, ka jums ir daži dati, un tagad jums nav ne jausmas, kā no šiem datiem saprast jēgu. No tā izriet jautājums, kā tas tiek organizēts?

Nu, jūs varat to atrisināt, izmantojot kopu veidošanas algoritmus. Kā viņi atrisina šīs problēmas? Paskatīsimies:

Klasterizācijas algoritmi grupē datus pēc raksturīgajiem raksturlielumiem. Piemēram, iepriekšējā diagrammā punkti ir sakārtoti, pamatojoties uz krāsām. Tāpat, neatkarīgi no tā, vai tie ir dati, kopu veidošanas algoritmi mēģina uztvert to, kas starp viņiem ir kopīgs, un tādējādi tos “kopas” veido kopā.

Nākamā un pēdējā veida problēma šajā Data Science apmācībā, ar kuru jūs varat saskarties, ir

Ko man darīt tālāk?

Ikreiz, kad rodas problēma, kad datoram jāpieņem lēmums, pamatojoties uz apmācību, kuru esat tam devis, tas ietver pastiprināšanas algoritmus.

Piemēram:

kā izmantot stringbuffer Java

Jūsu temperatūras kontroles sistēma, kad tai jāizlemj, vai tai vajadzētu pazemināt vai paaugstināt telpas temperatūru.

Kā šie algoritmi darbojas?

Šie algoritmi ir balstīti uz cilvēka psiholoģiju. Mums patīk, ja mūs novērtē pareizi? Datori ievieš šos algoritmus un sagaida, ka tiks novērtēti, kad tiks apmācīti. Kā? Paskatīsimies.

Tā vietā, lai mācītu datoram, kas jādara, jūs ļaujat tam izlemt, ko darīt, un šīs darbības beigās jūs sniedzat pozitīvas vai negatīvas atsauksmes. Tādējādi tā vietā, lai definētu, kas ir pareizi un kas nepareizi jūsu sistēmā, jūs ļaujat savai sistēmai “izlemt”, ko darīt, un beigās sniedzat atsauksmes.

Tas ir tāpat kā apmācīt savu suni. Jūs nevarat kontrolēt, ko dara jūsu suns, vai ne? Bet jūs varat viņu aizrādīt, kad viņš rīkojas nepareizi. Līdzīgi, varbūt patpinot viņam pa muguru, kad viņš izdara gaidīto.

Izmantosim šo izpratni iepriekšējā piemērā, iedomājieties, ka jūs apmācāt temperatūras kontroles sistēmu, tāpēc vienmēr, kad nē cilvēku skaits telpā palielinās, ir jāveic sistēmas darbība. Vai nu pazeminiet temperatūru, vai arī paaugstiniet to. Tā kā mūsu sistēma neko nesaprot, tā pieņem nejaušu lēmumu, pieņemsim, ka tas paaugstina temperatūru. Tādēļ jūs sniedzat negatīvas atsauksmes. Tādējādi dators vienmēr saprot, kad telpā palielinās cilvēku skaits, nekad nepaaugstina temperatūru.

Tāpat arī attiecībā uz citām darbībām jums jāsniedz atsauksmes.Ar katru atgriezenisko saiti jūsu sistēma mācās un tādējādi kļūst precīzāka, pieņemot nākamo lēmumu, šāda veida mācīšanos sauc par pastiprinošu mācīšanos.

Tagad algoritmi, kurus mēs uzzinājām iepriekš šajā Datu zinātnes apmācībā, ietver kopēju “mācīšanās praksi”. Mēs liekam mašīnai iemācīties labi?

Kas ir mašīnmācīšanās?

Tas ir mākslīgā intelekta veids, kas padara datorus spējīgus mācīties patstāvīgi, t.i., nepārprotami neprogrammējot. Izmantojot mašīnmācīšanos, mašīnas var atjaunināt paši savu kodu vienmēr, kad nonāk jaunā situācijā.

Noslēdzot šo Datu zinātnes apmācību, mēs tagad zinām, ka Datu zinātni atbalsta mašīnmācīšanās un tās analīzes algoritmi. Kā mēs veicam analīzi, kur mēs to darām. Datu zinātnei ir arī daži komponenti, kas palīdz mums risināt visus šos jautājumus.

Pirms tam ļaujiet man atbildēt, kā MIT var paredzēt nākotni, jo es domāju, ka jūs, puiši, varētu to tagad saistīt. Tātad, MIT pētnieki apmācīja savu modeli ar filmām, un datori uzzināja, kā cilvēki reaģē vai kā viņi rīkojas pirms darbības veikšanas.

Piemēram, kad jūs gatavojaties paspiest roku kādam, jūs izņemat roku no kabatas vai, iespējams, atspiedāties pret cilvēku. Būtībā katrai darbībai ir pievienota “iepriekšēja darbība”. Dators ar filmu palīdzību tika apmācīts par šīm “iepriekšējām darbībām”. Skatoties aizvien vairāk filmu, viņu datori pēc tam spēja paredzēt, kāda varētu būt varoņa nākamā darbība.

Viegli vai ne? Ļaujiet man uzmest jums vēl vienu jautājumu šajā Datu zinātnes apmācībā! Kurš mašīnmācīšanās algoritms viņiem tajā ir jāievieš?

Datu zinātnes komponenti

1. Datu kopas

Ko jūs analizēsiet? Dati, vai ne? Jums ir nepieciešams daudz datu, kurus var analizēt, šie dati tiek ievadīti jūsu algoritmos vai analītiskajos rīkos. Jūs saņemat šos datus no dažādiem agrāk veiktiem pētījumiem.

2. R studija

R ir atvērtā koda programmēšanas valoda un programmatūras vide statistikas skaitļošanai un grafikai, kuru atbalsta R fonds. R valoda tiek izmantota IDE, ko sauc par R Studio.

Kāpēc to lieto?

  • Programmēšana un statistikas valoda
    • Neatkarīgi no tā, ka to lieto kā statistikas valodu, to var izmantot arī programmēšanas valodu analītiskiem mērķiem.
  • Datu analīze un vizualizācija
    • Papildus tam, ka R ir viens no dominējošākajiem analīzes rīkiem, tas ir arī viens no populārākajiem datu vizualizēšanai izmantotajiem rīkiem.
  • Vienkārši un viegli iemācīties
    • R ir vienkārša un viegli iemācāma, lasāma un rakstāma

  • Brīvs un atvērts avots
    • R ir FLOSS (Free / Libre un Open Source Software) piemērs, kas nozīmē, ka var brīvi izplatīt šīs programmatūras kopijas, lasīt tās pirmkodu, modificēt utt.

R Studio bija pietiekama analīzei, līdz mūsu datu kopas kļuva milzīgas, vienlaikus arī nestrukturētas. Šāda veida datus sauca par lielajiem datiem.

3. Lielie dati

Lielie dati ir tik lielu un sarežģītu datu kopu termins, ka to ir grūti apstrādāt, izmantojot datubāzes pārvaldības rīkus vai tradicionālās datu apstrādes lietojumprogrammas.

Tagad, lai pieradinātu šos datus, mums bija jānāk klajā ar rīku, jo neviena tradicionālā programmatūra nevarēja apstrādāt šāda veida datus, un līdz ar to mēs nācām klajā ar Hadoop.

4. Hadops

Hadoop ir sistēma, kas mums palīdz veikalā un process lielas datu kopas paralēli un izplatīšanas veidā.

Koncentrēsimies uz Hadoop veikalu un apstrādāsim to.

Veikals

Hadoop krātuves daļu apstrādā HDFS, t.i., Hadoop izplatītā failu sistēma. Tas nodrošina augstu pieejamību izplatītajā ekosistēmā. Tas, kā tas darbojas šādi, sadala ienākošo informāciju gabalos un izplata tos dažādiem klastera mezgliem, ļaujot sadalītai krātuvei.

Process

MapReduce ir Hadoop apstrādes sirds. Algoritmi veic divus svarīgus uzdevumus, kartē un samazina. Kartētāji sadala uzdevumu mazākos uzdevumos, kas tiek apstrādāti paralēli. Kad visi kartētāji veic savu darbu, viņi apkopo savus rezultātus, un pēc tam Reduce process samazina šos rezultātus līdz vienkāršākai vērtībai. Lai uzzinātu vairāk par Hadoop, varat iet caur mūsu .

Ja mēs izmantojam Hadoop kā mūsu datu krātuves krātuvi, ir grūti apstrādāt ievadi ar R Studio, jo tā nespēj labi darboties izplatītajā vidē, tāpēc mums ir Spark R.

5. Dzirkstele R

Tā ir R pakete, kas nodrošina vieglu Apache Spark izmantošanas veidu ar R. Kāpēc jūs to izmantosit tradicionālajām R lietojumprogrammām? Tā kā tā nodrošina izplatītu datu ietvara ieviešanu, kas atbalsta tādas darbības kā atlasi, filtrēšanu, apkopošanu utt., Bet lielās datu kopās.

Atvelc elpu tagad! Mēs esam pabeiguši tehnisko daļu šajā Datu zinātnes apmācībā. Apskatīsim to tagad no sava darba viedokļa. Es domāju, ka jūs jau tagad būtu izpētījis datu zinātnieka algas, bet tomēr apspriedīsim darba lomas, kas jums pieejamas kā datu zinātniekam.

Datu zinātnieka darba lomas

Daži no ievērojamākajiem Data Scientist amatu nosaukumiem ir:

  • Datu zinātnieks
  • Datu inženieris
  • Datu arhitekts
  • Datu administrators
  • Datu analītiķis
  • Biznesa analītiķis
  • Datu / Analytics pārvaldnieks
  • Biznesa informācijas pārvaldnieks

Šajā zemāk esošajā Datu zinātnes apmācības tabulā Payscale.com ir parādīta vidējā Datu zinātnieka alga pēc prasmēm ASV un Indijā.

Ir pienācis laiks apgūt datu zinātnes un lielo datu analīzes prasmes, lai izmantotu datu zinātnes karjeras iespējas, kas jums rodas. Tas mūs noved pie Data Science apmācības emuāra beigām. Es ceru, ka šis emuārs bija informatīvs un sniedza jums pievienoto vērtību. Tagad ir laiks ienākt Datu zinātnes pasaulē un kļūt par veiksmīgu Datu zinātnieku.

Edurekai ir īpaši kurators kas palīdz iegūt zināšanas mašīnmācīšanās algoritmos, piemēram, K-Means Clustering, Decision Trees, Random Forest, Naive Bayes. Jūs uzzināsiet arī jēdzienus Statistika, Laika rindas, Teksta ieguve un ievadu dziļai mācībai. Drīz sākas jaunas sērijas šim kursam !!

Vai mums ir jautājums Datu zinātnes apmācībā? Lūdzu, pieminējiet to komentāru sadaļā, un mēs ar jums sazināsimies.