Mašīnmācīšanās statistika: ceļvedis iesācējiem



Šis raksts par mašīnmācīšanās statistiku ir visaptverošs ceļvedis par dažādiem statistikas jēdzieniem un piemēriem.

Datu izpratne un spēja no tiem radīt vērtību ir desmitgades prasme. Mašīnmācība ir viena no galvenajām prasmēm, kas uzņēmumiem palīdz to izpildīt. Tomēr, lai sāktu darbu, jums ir pareizi jāveido savi pamati. Tāpēc šajā rakstā es apskatīšu dažus pamatjēdzienus un sniegšu jums vadlīnijas, lai sāktu savu ceļu mašīnmācībā. Tātad šajā rakstā par mašīnmācīšanās statistiku tiks aplūkotas šādas tēmas:

  1. Varbūtība
  2. Statistika
  3. Lineārā algebra

Mašīnmācīšanās varbūtība un statistika:





Kas ir varbūtība?

Varbūtība kvantificē notikuma iespējamību. Piemēram, ja jūs metat taisnīgu, objektīvu mirst, tad varbūtība viens uz augšu ir 1/6 . Tagad, ja jūs domājat wčau? Tad atbilde ir pavisam vienkārša!

Tas ir tāpēc, ka pastāv sešas iespējas, un visas ir vienlīdz ticamas (godīga mirstība). Tāpēc mēs varam pievienot 1 + 1 + 1 + 1 + 1 + 1 = 6. Bet, tā kā mūs interesē notikums, kurā parādās 1 . Tur ir notikums var notikt tikai vienā veidā. Tāpēc



Varbūtība 1 pagriezties uz augšu = 1/6

Līdzīgi ir ar visiem pārējiem skaitļiem, jo ​​visi notikumi ir vienlīdz iespējami. Vienkārši, vai ne?

Labi, ka šī gadījuma biežuma definīcija par varbūtību varētu izklausīties - varbūtība, ka 1 uz augšu uz augšu, ir 1 pagriezto reižu skaita attiecība pret kopējo reižu ripināšanas reižu skaitu, ja matraci velmēja bezgalīgi reizes.Kā tam ir jēga?



Padarīsim to interesantāku. Apsveriet divus gadījumus - jūs 5 reizes velmējāt taisnīgu mirst. Vienā gadījumā augšupvērstā skaitļu secība ir - [1,4,2,6,4,3]. Citā gadījumā mēs iegūstam - [2,2,2,2,2,2]. Kura, jūsuprāt, ir ticamāka?

Abi ir vienlīdz ticami. Šķiet dīvaini, vai ne?

kā iestatīt klases ceļu Java operētājsistēmā Windows 10

Tagad apsveriet vēl vienu gadījumu, kad visi 5 ruļļi katrā gadījumā ir neatkarīgs . Tas nozīmē, ka viens rullis neietekmē otru. Pirmajā gadījumā, kad parādās 6, tam nebija ne mazākās nojausmas, ka pirms tā parādījās 2. Tādējādi visi 5 ruļļi ir vienlīdz ticami.

Tāpat taisnos 2s otrajā gadījumā var saprast kā neatkarīgu notikumu secību. Un visi šie notikumi ir vienlīdz ticami. Kopumā, tā kā mums ir vienādi kauliņi, konkrēta skaitļa parādīšanās varbūtība gadījumā, ja viens ir tāds pats kā otrais gadījums. Tālāk šajā rakstā par mašīnmācīšanās statistiku ļaujiet mums saprast šo terminu Neatkarība.

Neatkarība

Divi notikumi Tiek uzskatīts, ka A un B ir neatkarīgi, ja A iestāšanās neietekmē B notikumu . Piemēram, ja jūs izmetat monētu un ripojat matricu, matricas iznākums neietekmē to, vai uz monētas ir redzamas galvas vai astes. Arī par divi neatkarīgi notikumi A un B , varbūtība, ka A un B var notikt kopā . Piemēram, ja vēlaties, lai varbūtība, ka monēta rāda galvas, bet mirst - 3.

P (A un B) = P (A) * P (B)

Tāpēc P = & frac12 (galvu pagriešanās varbūtība) * ⅙ (varbūtība 3 pagriezties uz augšu) = 1/12

Iepriekšējā piemērā abiem gadījumiem P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Tagad parunāsim par notikumiem, kas nav neatkarīgi. Apsveriet šo tabulu:

Aptaukošanās Nav aptaukošanās
Sirds problēmasČetri, piecipiecpadsmit
Nav sirds problēmu1030

Tika veikta 100 cilvēku aptauja. 60 bija sirds problēmas, bet 40 nebija. No 60 cilvēkiem ar sirds problēmām 45 bija aptaukošanās. No 40, kuriem nebija sirds problēmu, 10 bija aptaukošanās. Ja kāds tev jautā -

  1. Cik liela ir sirds problēmu iespējamība?
  2. Cik liela varbūtība ir ar sirdsdarbību un nav aptaukošanās?

Atbilde uz pirmajiem jautājumiem ir vienkārša - 60/100. Otrajam tas būtu 15/100. Tagad apsveriet trešo jautājumu - persona tika izvēlēta nejauši. Viņam tika konstatēta sirds slimība. Kāda ir varbūtība, ka viņam ir aptaukošanās?

Tagad padomājiet par jums sniegto informāciju - ir zināms, ka viņam ir sirds slimība. Tāpēc viņš nevar būt no 40, kuriem nav sirds slimību. Ir tikai 60 iespējamās iespējas (tabulas augšējā rinda). Starp šīm samazinātajām iespējām varbūtība, ka viņam ir aptaukošanās, ir 45/60. Tagad, kad jūs zināt, kas ir neatkarīgi notikumi, nākamais šajā rakstā par mašīnmācīšanās statistiku ļaujiet mums saprast nosacītās varbūtības.

Nosacītas varbūtības

Lai saprastu nosacītās varbūtības, turpināsim diskusiju ar iepriekš minēto piemēru. Aptaukošanās statuss un sirdsdarbības stāvoklis nav neatkarīgs. Ja aptaukošanās neietekmēja sirds problēmas, cilvēku ar aptaukošanos un aptaukošanās gadījumu skaits cilvēkiem ar sirds problēmām būtu bijis vienāds.

Turklāt mums tika dots, ka personai ir sirds problēmas, un mums bija jānoskaidro varbūtība, ka viņš ir aptaukošanās. Tātad varbūtību šajā gadījumā saka atkarīga no tā, ka viņam ir sirds problēmas. Ja notikuma A iespējamība ir atkarīga no notikuma B, mēs to attēlojam kā

P (A | B)

Tagad ir teorēma, kas mums palīdz aprēķināt šo nosacīto varbūtību. To sauc par Bayes noteikums .

P (A | B) = P (A un B) / P (B)

Jūs varat pārbaudīt šo teorēmu, pievienojot tikko apspriesto piemēru. Ja līdz šim esat sapratis, varat sākt ar šādām darbībām - Naivie Beiji . Tas izmanto nosacītas varbūtības, lai klasificētu, vai e-pasts ir surogātpasts vai nē. Tas var veikt daudzus citus klasifikācijas uzdevumus. Bet būtībā pamatā ir nosacīta varbūtība .

Statistika:

Statistika ir izmanto, lai apkopotu un izdarītu secinājumus par lielu skaitu datu punktu. Datu zinātnē un mašīnmācībā jūs bieži sastopaties ar šādu terminoloģiju

  • Centralizācijas pasākumi
  • Sadalījumi (īpaši normāli)

Centralizācijas pasākumi un izplatīšanās pasākumi

Nozīmē:

Mean ir tikai skaitļu vidējais rādītājs . Lai uzzinātu vidējo, jums jāsummē skaitļi un jāsadala tas ar skaitļu skaitu. Piemēram, [1,2,3,4,5] vidējais lielums ir 15/5 = 3.

mean-statistics-for-machine-learning

Mediāna:

Mediāna ir ciparu kopas vidējais elements kad tie ir sakārtoti augošā secībā. Piemēram, skaitļi [1,2,4,3,5] ir sakārtoti augošā secībā [1,2,3,4,5]. Vidējais no tiem ir 3. Tāpēc mediāna ir 3. Bet ko darīt, ja skaitļu skaits ir pāra un tāpēc tam nav vidējā skaitļa? Tādā gadījumā jūs ņemat vidējo rādītāju no diviem vidēji lielākajiem skaitļiem. 2n skaitļu secībai augošā secībā vidēji n-to un (n + 1)thnumuru, lai iegūtu mediānu. Piemērs - [1,2,3,4,5,6] mediāna (3 + 4) / 2 = 3,5

Režīms:

Režīms ir vienkārši visbiežāk sastopamais skaitlis skaitļu komplektā . Piemēram, [1,2,3,3,4,5,5,5] režīms ir 5.

apvienot kārtot c ++ ieviešanu

Dispersija:

Dispersija nav centralizācijas mērs. Tas mēra kā jūsu dati tiek izplatīti vidējā līmenī . To kvantitatīvi izsaka kā

xir N skaitļu vidējais lielums. Jūs ņemat punktu, atņemiet vidējo, ņemiet šīs starpības kvadrātu. Dariet to visiem N skaitļiem un vidēji. Dispersijas kvadrātsakni sauc par standartnovirzi. Tālāk, šajā rakstā par mašīnmācīšanās statistiku, ļaujiet mums saprast normālu izplatīšanu.

Normāls sadalījums

Izplatīšana mums palīdz saprast, kā tiek izplatīti mūsu dati . Piemēram, vecuma grupā mums var būt vairāk jauniešu nekā vecāki pieaugušie, līdz ar to mazākas vecuma vērtības ir lielākas nekā lielākas. Bet kā mēs definējam sadalījumu? Apsveriet tālāk sniegto piemēru

Y ass apzīmē blīvumu. Šī sadalījuma veids ir 30, jo tas ir maksimums un līdz ar to arī visbiežāk. Mēs varam arī atrast mediānu. Mediāna atrodas punktā x ass, kur ir pārklāta puse no laukuma zem līknes. Platība zem jebkura normāla sadalījuma ir 1, jo visu notikumu varbūtību summa ir 1. Piemēram,

Mediāna iepriekš minētajā gadījumā ir aptuveni 4. Tas nozīmē, ka laukums zem līknes pirms 4 ir tāds pats kā pēc 4. Apsveriet citu piemēru

Mēs redzam trīs normālus sadalījumus. Zilajiem un sarkanajiem ir vienāds vidējais. Sarkanajam ir lielāka dispersija. Tādējādi tas ir vairāk izplatīts nekā zils. Bet, tā kā laukumam ir jābūt 1, sarkanās līknes smaile ir īsāka par zilo līkni, lai platība būtu nemainīga.

Ceru, ka sapratāt pamata statistiku un normālos sadalījumus. Tagad, šajā rakstā par mašīnmācīšanās statistiku, ļaujiet mums uzzināt par lineāro algebru.

Lineārā algebra

Mūsdienu mākslīgais intelekts nebūtu iespējams bez lineārās algebras. Tas veido kodolu Dziļa mācīšanās un ir izmantots pat tādos vienkāršos algoritmos kā . Sāksim bez turpmākas kavēšanās.

Jums jāpārzina vektori. Tie ir sava veida ģeometriski attēlojumi telpā. Piemēram, vektoram [3,4] ir 3 vienības pa x asi un 4 vienības pa y asi. Apsveriet šādu attēlu -

Vektoram d1 pa x asi ir 0,707 vienības un y asī - 0,707 vienības. Vektoram ir 1 dimensija. Tam obligāti ir lielums un virziens. Piemēram,

Iepriekš minētajam attēlam ir vektors (4,3). Tās lielums ir 5 un ar x asi veido 36,9 grādus.

Kas ir matrica? Matrica ir daudzdimensionāls skaitļu masīvs. Kāpēc tas tika izmantots? Mēs redzēsim uz priekšu. Bet vispirms apskatīsim, kā tas tiek izmantots.

Matrica

Matricai var būt daudz izmēru. Apsvērsim 2-dimensiju matricu. Tam ir rindas (m) un kolonnas (n). Tāpēc tajā ir m * n elementi.

Piemēram,

Šai matricai ir 5 rindas un 5 kolonnas. Sauksim to par A. Tāpēc A (2,3) ir ieraksts otrajā rindā un trešajā kolonnā, kas ir 8.

Tagad, kad jūs zināt, kas ir matrica, ļaujiet mums izpētīt dažādas matricas darbības.

Matricas operācijas

Matricu pievienošana

Divas matricas tāpat izmērus var pievienot. Pievienošana notiek elementāri.

Skalāra reizināšana

Matricu var reizināt ar skalāru lielumu. Šāda reizināšana noved pie tā, ka katrs matricas ieraksts tiek reizināts ar skalāru. Skalārs ir tikai skaitlis

Matricas transponēšana

Matricas transponēšana ir vienkārša. Matricai A (m, n) ļauj A ’būt tās transponēšanai. Tad

A '(i, j) = A (j, i)

Piemēram,

saistīts saraksta kods c

Matricas reizināšana

Tas, iespējams, ir mazliet grūts nekā citas darbības. Pirms ienirt tajā, definēsim punktu reizinājumu starp diviem vektoriem.

Apsveriet vektoru X = [1,4,6,0] un vektoru Y = [2,3,4,5]. Tad punktu reizinājums starp X un Y ir definēts kā

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Tātad, tas ir elementa ziņā reizinājums un saskaitīšana. Tagad,ņemsim vērā divas matricas A (m, n) un B (n, k), kur m, n, k ir izmēri un līdz ar to veseli skaitļi. Mēs definējam matricas reizināšanu kā

Iepriekš minētajā piemērā produkta pirmo elementu (44) iegūst ar kreisās matricas pirmās rindas punktu punktu ar labās matricas pirmo kolonnu. Līdzīgi 72 iegūst ar kreisās matricas pirmās rindas punktu labās matricas otrās kolonnas punktu punktu.

Ņemiet vērā, ka kreisajā matricā kolonnu skaitam jābūt vienādam ar rindu skaitu labajā kolonnā. Mūsu gadījumā produkts AB pastāv, bet ne BA, jo m nav vienāds ar k. Divām matricām A (m, n) un B (n, k) ir noteikts produkts AB un produkta izmērs ir (m, k) (lielākie (m, n), (n, k) izmēri )). Bet BA nav definēta, ja vien m = k.

Ar to mēs esam nonākuši galā ar šo rakstu par mašīnmācīšanās statistiku. Es ceru, ka jūs daži esat sapratuši dažus mašīnmācīšanās žargonu. Tomēr tas nebeidzas šeit. Lai pārliecinātos, vai esat gatavs rūpniecībai, varat apskatīt Edureka kursus par datu zinātni un mākslīgo intelektu. Tos var atrast