Pamācība Python Pandas: uzziniet pandas datu analīzei



Šajā apmācībā Python Pandas jūs uzzināsiet dažādas Pandas darbības. Tas ietver arī lietojumu, kurā varat analizēt datus, izmantojot Pandas.

Šajā emuārā mēs apspriedīsim datu analīzi, izmantojot Pyandas Pyandas.Šodien ir populāra prasme nozarē, kas pārspēja PHP 2017. gadā un C # 2018. gadā vispārējās popularitātes un izmantošanas ziņā.Pirms runāt par Pandām, ir jāsaprot Numpy masīvu jēdziens. Kāpēc? Tā kā Pandas ir atvērtā pirmkoda programmatūras bibliotēka, kas ir veidota uz . Šajā apmācības programmā Python Pandas es iepazīstināšu jūs ar šādām tēmām, kas kalpos par pamatu gaidāmajiem emuāriem:

Sāksim. :-)





Kas ir Python Pandas?

Pandas tiek izmantotas datu apstrādei, analīzei un tīrīšanai. Python pandas ir labi piemērotas dažāda veida datiem, piemēram:

  • Dati tabulās ar neviendabīgi ierakstītām kolonnām
  • Sakārtotu un nesakārtotu laikrindu dati
  • Patvaļīgi matricas dati ar rindu un kolonnu etiķetēm
  • Nemarķēti dati
  • Jebkura cita veida novērojumu vai statistikas datu kopas

Kā instalēt Pandas?

Lai instalētu Python Pandas, dodieties uz komandrindu / termināli un ierakstiet “pip install pandas”, vai arī, ja jūsu sistēmā ir instalēta anakonda, vienkārši ierakstiet “conda install pandas”. Kad instalēšana ir pabeigta, dodieties uz savu IDE (Jupyter, PyCharm uc) un vienkārši importējiet to, ierakstot: “import pandas as pd”



Virzoties uz priekšu Python pandas apmācībā, apskatīsim dažas no tās darbībām:

Python Pandas operācijas

Izmantojot Python pandas, jūs varat veikt daudz operāciju ar sērijām, datu rāmjiem, trūkstošajiem datiem, grupēt utt. Dažas no parastākajām datu manipulācijas darbībām ir uzskaitītas zemāk:



PandasOperations - Python Pandas apmācība - Edureka

Ļaujiet mums saprast visas šīs darbības pa vienam.

Datu rāmja sagriešana

Lai veiktu datu sagriešanu, jums ir nepieciešams datu rāmis. Neuztraucieties, datu rāmis ir divdimensiju datu struktūra un visizplatītākais pandas objekts. Tāpēc vispirms izveidosim datu ietvaru.

Skatiet zemāk redzamo kodu, lai to ieviestu PyCharm:

importēt pandas kā pd XYZ_web = {'Diena': [1,2,3,4,5,6], 'Apmeklētāji': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) druka (df)

Rezultāts :

Bounce_Rate dienas apmeklētāji 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Iepriekš minētais kods pārveidos vārdnīcu par pandas datu rāmi kopā ar indeksu pa kreisi. Ļaujiet mums sagriezt konkrētu kolonnu no šī datu rāmja. Skatiet attēlu zemāk:

drukāt (df.head (2))

Izeja:

Bounce_Rate dienas apmeklētāji 0 20 1 1000 1 20 2700

Līdzīgi, ja vēlaties pēdējās divas datu rindas, ierakstiet zemāk esošo komandu:

drukāt (df.tail (2))

Izeja:

Bounce_Rate dienas apmeklētāji 4 10 5 400 5 34 6 350

Nākamais Python Pandas apmācībā ļaujiet mums veikt apvienošanu un pievienošanu.

Apvienošanās un pievienošanās

Apvienojot, varat apvienot divus datu rāmjus, lai izveidotu vienu datu rāmi. Varat arī izlemt, kuras kolonnas vēlaties padarīt parastas. Ļaujiet man to praktiski īstenot. Vispirms es izveidošu trīs datu rāmjus, kuros ir daži atslēgu un vērtību pāri, un pēc tam datu rāmjus apvienos kopā. Skatiet kodu zemāk:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Izeja:

importēt pandas kā pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, indekss = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, indekss = [2005, 2006,2007,2008]) sapludināts = pd. sapludināt (df1, df2) drukāt (apvienots)

Kā redzat iepriekš, abi datu rāmji ir apvienoti vienā datu rāmī. Tagad jūs varat arī norādīt kolonnu, kuru vēlaties padarīt parastu. Piemēram, es vēlos, lai sleja “HPI” būtu izplatīta, un visam citam - atsevišķas kolonnas. Tātad, ļaujiet man to praktiski īstenot:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, rādītājs = [2001, 2002, 2003, 2004]] df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indekss = [2005, 2006,2007,2008]) sapludināts = pd. sapludināt (df1, df2, on = 'HPI') drukāt (apvienots)

Izeja:

IND_GDP Int_Rate Low_Tier_HPI Bezdarbs 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Tālāk ļaujiet mums saprast pievienojas pitona pandas apmācībā. Tā ir vēl viena ērta metode divu atšķirīgi indeksētu datu ietvaru apvienošanai vienā rezultātu datu ietvarā. Tas ir diezgan līdzīgs “sapludināšanas” operācijai, izņemot to, ka pievienošanās operācija būs “indeksā”, nevis “kolonnās”. Īstenosim to praktiski.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indekss = [2001, 2002,2003,2004]] df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Bezdarbs': [1,3,5,6]}, indekss = [2001, 2003,2004,2004]) pievienojās = df1. pievienoties (df2) izdrukāt (savienots)

Izeja:

IND_GDP Int_Rate Low_Tier_HPI Bezdarbs 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Kā jūs varat pamanīt iepriekšminētajā izlaidumā, 2002. gadā (indekss) slejām “low_tier_HPI” un “bezdarbs” nav pievienota vērtība, tāpēc tā ir iespiesta NaN (Not a Number). Vēlāk 2004. gadā abas vērtības ir pieejamas, tāpēc tā ir izdrukājusi attiecīgās vērtības.

Jūs varat iziet šo Python Pandas apmācības ierakstu, kur mūsu instruktors ir detalizēti izskaidrojis tēmas ar piemēriem, kas palīdzēs labāk izprast šo jēdzienu.

Python datu analīzei | Python Pandas apmācība | Python apmācība | Edureka


Pārejot uz priekšu Python pandas apmācībā, ļaujiet mums saprast, kā savienot divus datu datu rāmjus.

Savienošana

Savienošana galvenokārt apvieno datu ietvarus. Jūs varat izvēlēties dimensiju, uz kuras vēlaties savienot. Lai to izdarītu, vienkārši izmantojiet “pd.concat” un nododiet datu ietvaru sarakstā, lai kopā savienotos. Apsveriet šo piemēru.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indekss = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indekss = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) druka (concat)

Izeja:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Kā redzat iepriekš, abi datu ietvari ir salīmēti vienā datu ietvarā, kur indekss sākas no 2001. gada līdz pat 2008. gadam. Pēc tam jūs varat arī norādīt ass = 1, lai pievienotos, apvienotos vai katatenētos pa kolonnām. Skatiet kodu zemāk:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indekss = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indekss = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], ass = 1) druka (concat)

Izeja:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 60 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

Kā jūs varat iepriekš, ir virkne trūkstošo vērtību. Tas notiek tāpēc, ka datu ietvariem nebija vērtību visiem indeksiem, kurus vēlaties savienot. Tāpēc jums vajadzētu pārliecināties, vai visa informācija ir pareizi sakārtota, kad pievienojaties vai saķeras uz ass.

publisks stīgu tostrings ()

Mainīt indeksu

Turpmāk pitona pandas apmācībā mēs sapratīsim, kā mainīt datu ietvara indeksu vērtības. Piemēram, izveidosim datu bāzi ar dažiem atslēgas vērtību pāriem vārdnīcā un mainīsim indeksa vērtības. Apsveriet tālāk sniegto piemēru:

Apskatīsim, kā tas faktiski notiek:

importēt pandas kā pd df = pd.DataFrame ({'Diena': [1,2,3,4], 'Apmeklētāji': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Diena', vietne = True) druka (df)

Izeja:

Apmeklētāju atlēcienu likme 1. diena 20 200 2 45 100 3 60 230 4 10 300

Kā pamanāt iepriekš redzamajā izvadā, indeksa vērtība ir mainīta attiecībā pret kolonnu “Diena”.

Mainiet kolonnu galvenes

Tagad mainīsim kolonnu galvenes šajā apmācības pitonā. Ņemsim to pašu piemēru, kur es mainīšu kolonnas galveni no “Apmeklētāji” uz “Lietotāji”. Tātad, ļaujiet man to praktiski īstenot.

importēt pandas kā pd df = pd.DataFrame ({'Diena': [1,2,3,4], 'Apmeklētāji': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (kolonnas = {'Apmeklētāji': 'Lietotāji'}) drukāt (df)

Izeja:

Bounce_Rate dienas lietotāji 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Kā redzat iepriekš, kolonnas galvene “Apmeklētāji” ir mainīta uz “Lietotāji”. Nākamais python pandas apmācībā ļaujiet mums veikt datu sūtīšanu.

Datu dzēšana

Programmā Data munging varat konvertēt konkrētus datus citā formātā. Piemēram, ja jums ir .csv fails, varat to pārveidot arī .html vai jebkurā citā datu formātā. Tātad, ļaujiet man to praktiski īstenot.

importēt pandas kā pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-jauniešu-bezdarbsAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Pēc šī koda palaišanas tiks izveidots HTML fails ar nosaukumu “edu.html”. Jūs varat tieši nokopēt faila ceļu un ielīmēt to savā pārlūkprogrammā, kurā dati tiek parādīti HTML formātā. Skatiet šo ekrānuzņēmumu:


Tālāk pitona pandas apmācībā apskatīsim lietošanas gadījumu, kurā runāts par globālo jauniešu bezdarbu.

Python Pandas apmācība: izmantojiet gadījumu, lai analizētu jauniešu bezdarba datus

Problēmas izklāsts :Jums tiek dota datu kopa, kura sastāv no jauniešu bezdarbnieku īpatsvara visā pasaulē no 2010. līdz 2014. gadam. Jums jāizmanto šī datu kopa un jāatrod jauniešu procentuālās izmaiņas katrā valstī no 2010. līdz 2011. gadam.

Pirmkārt, ļaujiet mums saprast datu kopu, kurā slejas ir Valsts nosaukums, Valsts kods un gads no 2010. līdz 2014. gadam. Tagad, izmantojot pandas, mēs izmantosim pd.read_csv, lai lasītu .csv faila formāta failu.
Skatiet zemāk redzamo ekrānuzņēmumu:

Ejam uz priekšu un veicam datu analīzi, kurā mēs noskaidrosim jauniešu bezdarbnieku procentuālās izmaiņas laikā no 2010. līdz 2011. gadam. Tad mēs to pašu vizualizēsim, izmantojot bibliotēka, kas ir spēcīga bibliotēka vizualizēšanai Python. To var izmantot Python skriptos, čaulā, tīmekļa lietojumprogrammu serveros un citos GUI rīku komplektos. Lasīt vairāk varat šeit:

Ļaujiet mums ieviest kodu PyCharm:

importēt pandas kā pd importēt matplotlib.pyplot kā plt no matplotlib importa stila style.use ('fivethirtyeightight') valsts = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-jauniešu-bezdarbībasAPI_ILO_country_YU.csv', index_col = 0) df = valsts. head (5) df = df.set_index (['Valsts kods']) sd = sd.reindex (kolonnas = ['2010', '2011']) db = sd.diff (ass = 1) db.plot (veida = 'bar') plt.show ()

Kā redzat iepriekš, es esmu veicis analīzi 5 augstākajās valsts datu ietvara rindās. Pēc tam es definēju indeksa vērtību “Valsts kods” un pēc tam kolonnu indeksēju uz 2010. un 2011. gadu. Pēc tam mums ir vēl viens datu ietvars db, kas izdrukā starpību starp abām kolonnām vai bezdarbnieku jauniešu procentuālās izmaiņas no 2010. līdz 2011. gadam. Visbeidzot, es esmu uzzīmējis joslu, izmantojot Matplotlib bibliotēku Python.


Tagad, ja jūs pamanījāt iepriekšminētajā sižetā, Afganistānā (AFG) laikā no 2010. līdz 2011. gadam, bezdarbnieku jauniešu skaits ir pieaudzis par aptuveni. 0,25%. Pēc tam Angolā (AGO) ir negatīva tendence, kas nozīmē, ka jauniešu bezdarbnieku procentuālais daudzums ir samazināts. Tāpat jūs varat veikt dažādu datu kopu analīzi.

Es ceru, ka mans emuārs “Python Pandas apmācība” jums bija aktuāls. Lai iegūtu padziļinātas zināšanas par pitonu un tā dažādajām lietojumprogrammām, varat reģistrēties tiešraidē autors Edureka ar diennakts atbalstu un piekļuvi mūža garumā.

Vai mums ir jautājums? Lūdzu, pieminējiet to šī emuāra “Python Pandas apmācība” komentāru sadaļā, un mēs pēc iespējas ātrāk sazināsimies ar jums.