Kas ir neobjektivitāte mašīnmācībā?



Šis raksts aptver neobjektivitātes un dispersijas jēdzienu mašīnmācībā ar attiecībām starp tām, kas nosaka modeļa prognozēšanas precizitāti.

In , modeļa veiktspēja ir balstīta uz tā prognozēm un to, cik labi tas vispārina neredzētus, neatkarīgus datus. Viens veids, kā izmērīt modeļa precizitāti, ir modeļa neobjektivitātes un dispersijas ņemšana vērā. Šajā rakstā mēs uzzināsim, kā neobjektivitātei ir svarīga loma modeļa autentiskuma noteikšanā. Šajā rakstā ir apskatītas šādas tēmas:

Nereducējama kļūda

Jebkurš modelis tiek novērtēts, balstoties uz prognozēšanas kļūdu jaunā neatkarīgā, neredzētā datu kopā. Kļūda nav nekas cits kā atšķirība starp faktisko un prognozēto rezultātu. Lai aprēķinātu kļūdu, mēs veicam reducējamas un nereducējamas kļūdas summēšanu, kas ir arī novirzes-dispersijas sadalīšanās.





html tags rindas pārtraukuma ievietošanai

Neatgriezeniska kļūda ir nekas cits kā tās kļūdas, kuras nevar samazināt neatkarīgi no tām ko izmantojat modelī. To izraisa neparasti mainīgie, kas tieši ietekmē izejas mainīgo. Tāpēc, lai padarītu jūsu modeli efektīvu, mums paliek mazināma kļūda, kas mums par katru cenu jāoptimizē.

Samazināmai kļūdai ir divi komponenti - Aizspriedumi un dispersija , neobjektivitātes un dispersijas klātbūtne vairākos veidos ietekmē modeļa precizitāti pārspīlēti, nepietiekami utt.Apskatīsim neobjektivitāti un dispersijas, lai saprastu, kā rīkoties ar samazināmo kļūdu .



Kas ir neobjektivitāte mašīnmācībā?

Aizspriedumi būtībā ir tas, cik tālu mēs esam prognozējuši vērtību no faktiskās vērtības. Mēs sakām, ka aizspriedumi ir pārāk lieli, ja vidējās prognozes ir tālu no faktiskajām vērtībām.

Liela novirze novedīs pie algoritma garām dominējošā modeļa vai attiecības starp ievades un izvades mainīgajiem lielumiem. Ja aizspriedumi ir pārāk lieli, tiek pieņemts, ka modelis ir diezgan vienkāršs un neaptver datu kopas sarežģītību, lai noteiktu attiecības un tādējādiizraisot nepietiekamu aprīkojumu.

Mašīnmācīšanās modeļa dispersija?

Uz neatkarīgu, neredzētu datu kopu vai apstiprināšanas kopu. Ja modelis nedarbojas tik labi, kā tas notiek ar apmācīto datu kopu, pastāv iespēja, ka modelim ir dispersija. Tas būtībā stāsta, cik prognozētās vērtības ir izkliedētas no faktiskajām vērtībām.



Augsta datu kopas dispersija nozīmē, ka modelis ir trenējies ar lielu troksni un neatbilstošiem datiem. Tādējādi izraisot modeļa pārspīlēšanu. Ja modelim ir liela dispersija, tas kļūst ļoti elastīgs un nepareizi prognozē jaunus datu punktus. Jo tā ir noregulējusies uz treniņu komplekta datu punktiem.

Mēģināsim arī matemātiski izprast aizspriedumu dispersijas jēdzienu. Ļaujiet mainīgajam, kuru mēs paredzam būt Y, un pārējiem neatkarīgajiem mainīgajiem lielumiem jābūt X. Tagad pieņemsim, ka starp šiem diviem mainīgajiem pastāv sakarība:

Y = f (X) + e

Iepriekš minētajā vienādojumā šeit ir ir aplēstā kļūda ar vidējo vērtību 0. Kad klasifikatoru izveidojam, izmantojot tādus algoritmus kā lineārā regresija , , utt., paredzamā kvadrātiskā kļūda punktā x būs:

kļūdīties (x) = aizspriedumi2+ Dispersija + nereducējama kļūda

Ļaujiet mums arī saprast, kā novirze-dispersija ietekmēs a Mašīnmācība modeļa sniegumu.

Kā tas ietekmē mašīnmācīšanās modeli?

Attiecības starp aizspriedumiem un dispersijām var iedalīt četrās zemāk uzskaitītajās kategorijās:

  1. Augsta dispersija - augsta novirze - modelis ir pretrunīgs un arī vidēji neprecīzs
  2. Zema dispersija - augsta novirze - modeļi ir konsekventi, bet vidēji maz
  3. Augsta dispersija - zema novirze - nedaudz precīza, bet neatbilstoša vidējiem rādītājiem
  4. Zema dispersija - zema novirze - tas ir ideāls scenārijs, modelis ir vidēji konsekvents un precīzs.

neobjektivitāte-dispersija mašīnmācībā-edureka

Lai gan modeļa neobjektivitātes un dispersijas noteikšana ir diezgan acīmredzama. Modelim ar lielu dispersiju būs zema apmācības kļūda un augsta validācijas kļūda. Liela aizsprieduma gadījumā modelim būs liela apmācības kļūda, un validācijas kļūda ir tāda pati kā apmācības kļūda.

Lai gan atklāšana šķiet viegla, patiesais uzdevums ir to samazināt līdz minimumam. Tādā gadījumā mēs varam rīkoties šādi:

  • Pievienojiet vairāk ievades funkciju
  • Sarežģītāka, ieviešot polinoma pazīmes
  • Samazināt legalizācijas termiņu
  • Iegūstiet vairāk apmācības datu

Tagad, kad mēs zinām, kas ir neobjektivitāte un dispersija un kā tā ietekmē mūsu modeli, apskatīsim neobjektivitātes un dispersijas kompromisu.

Bias-Variance kompromiss

Pareiza līdzsvara atrašanu starp modeļa neobjektivitāti un dispersiju sauc par Bias-Variance kompromisu. Būtībā tas ir veids, kā pārliecināties, ka modelis nekādā gadījumā nav aprīkots ar pārāk lielu vai nepietiekamu aprīkojumu.

Ja modelis ir pārāk vienkāršs un tam ir ļoti maz parametru, tas cietīs no lielas novirzes un zemas dispersijas. No otras puses, ja modelim ir liels parametru skaits, tam būs liela dispersija un maza novirze. Šīs kompromisa rezultātā abām vajadzētu būt pilnīgi līdzsvarotām. Ideālā gadījumā jebkura mašīnmācīšanās modeļa mērķis ir zems neobjektivitāte un zema dispersija.

konvertēt virkni datumā Java

Kopējā kļūda

Jebkurā mašīnmācīšanās modelī labs līdzsvars starp neobjektivitāti un dispersiju kalpo kā ideāls scenārijs attiecībā uz prognozējamo precizitāti un izvairīšanos no pārspīlēšanas, pilnīgi nepietiekamas. Optimāls līdzsvars starp neobjektivitāti un dispersiju algoritmu sarežģītības ziņā nodrošinās, ka modeli nekad nepārsniedz vai nepietiekami.

Vidējā kvadrātiskā kļūda statistiskajā modelī tiek uzskatīta par kvadrāta novirzes un kļūdu dispersijas un dispersijas summu. To visu var ievietot pilnīgā kļūdā, kur modeļa kļūdas, dispersijas un nesamazināmas kļūdas.

Ļaujiet mums saprast, kā mēs varam samazināt kopējo kļūdu, izmantojot praktisku ieviešanu.

Mēs esam izveidojuši lineārās regresijas klasifikators iekš Lineārā regresija mašīnmācībā raksts par Edureka, izmantojot datu kopas par diabētu datu kopu modulī scikit mācīties bibliotēka.

Kad mēs novērtējām klasifikatora vidējo kvadrāta kļūdu, mēs saņēmām kopējo kļūdu ap 2500.

Lai samazinātu kopējo kļūdu, mēs klasifikatoram piegādājām vairāk datu, un pretī vidējā kvadrāta kļūda tika samazināta līdz 2000.

Tā ir vienkārša kopējās kļūdas samazināšanas ieviešana, modelim ievadot vairāk apmācības datu. Līdzīgi mēs varam izmantot citus paņēmienus, lai samazinātu kļūdu un saglabātu līdzsvaru starp aizspriedumiem un dispersijām efektīvam mašīnmācīšanās modelim.

Tas noved mūs pie šī raksta beigām, kur mēs esam iemācījušies aizspriedumus-dispersiju MachMācīšanās ar tās ieviešanas un izmantošanas gadījumu. Es ceru, ka jums ir skaidrs viss, kas ar jums ir kopīgots šajā apmācībā.

Ja jums šis raksts par tematu “Mašīnmācības novirze - atšķirība” ir noderīgs, pārbaudiet uzticams tiešsaistes mācību uzņēmums ar vairāk nekā 250 000 apmierinātu izglītojamo tīklu visā pasaulē.

Mēs esam šeit, lai palīdzētu jums ik uz soļa jūsu ceļojumā un izdomātu mācību programmu, kas paredzēta studentiem un profesionāļiem, kuri vēlas būt . Kurss ir paredzēts, lai dotu jums sākumu Python programmēšanā un apmācītu gan pamata, gan uzlabotas Python koncepcijas kopā ar dažādām patīk , utt.

Ja rodas kādi jautājumi, droši uzdodiet visus jautājumus komentāru sadaļā “Bias-Variance In Machine Learning”, un mūsu komanda ar prieku atbildēs.