Mi az a gépi tanulás és hogyan működik?

Ha rákeresel a Google keresőjében a „what is machine learning“ kifejezésre, rengeteg találat jelenik meg különböző fórumokkal, tudományos oldalakkal és számos programozóknak, tudósoknak szóló honlappal. A gépi tanulás, vagy az angol kifejezéssel machine learning, azonban nem csak egy szűken szakosodott rétegnek való. Épp ellenkezőleg! Napjainkban a gépi tanulás hasznos segítség lehet olyan embereknek is, akik javítani akarnak vállalkozásukon azáltal, hogy képesek lesznek hatékonyan és pontosan dolgozni nagy adatmennyiséggel. Nézzünk szét egy kicsit a machine learning világában.

Egy kis történelem: A gépi tanulás története

Talán mindenki hallott már a Turing-tesztről. Ha valakinek mégsem ismerős ez a név, Alan Turing volt az a brit matematikus, aki feltörte a náci titkosító berendezést a The British Bombe-ként elhíresült géppel. A Turing-tesztet arra használták, hogy kiderítsék, az adott gép intelligens-e. A teszt során a gépnek meg kellett győznie az embert, hogy ő egy gondolkodó személy. Alan Turing már akkor megjósolta, hogy a gépek hamarosan helyettesítik az emberi munkaerőt több szakmában is. Bár véleménye szerint a gépek sosem lesznek képesek teljes egészében pótolni az embert a megoldandó feladatok mérete miatt.

1952-ben lett megalkotva a dámajátszó program. A feltaláló Arthur Samuel az akkori legmodernebb IBM számítógépen írta meg ezt a játékprogramot. A dáma az első olyan játékok egyike, amelynek fejlesztése során gépi tanulást alkalmaztak. A számítógép a lejátszott játékok számának növekedésével javult. Tanulmányozta és összehasonlította azokat a lépéseket és nyerő stratégiákat, amelyek hatékonyak voltak, majd beépítette azokat saját programjába.

Az IBM 701 volt a világ legjobb számítógépe 1951-ben. Neumann János volt a feltalálók egyike. Forrás: ibm.com

Az igazi áttörés a gépi tanulásban 1997-ben következett be, amikor az IBM Deep Blue rendszere megverte az akkori sakkvilágbajnokot.

Geoffry Hinton 2006-ban megalkotta a deep learning fogalmát. Olyan algoritmusokat jelölt meg ezzel a kifejezéssel, amelyek lehetővé teszik a számítógép számára az objektumok és szövegek felismerését videókban és képeken. 2014-ben egy gép sikeresen teljesítette a Turing-tesztet. Egy évvel később a mesterséges intelligencia és robotika területén aktív, 3000 fejlesztő találkozott, hogy aláírják azt a nyílt levelet, amely felhívja a figyelmet azon autonóm fegyverek veszélyeire, amelyek emberi beavatkozás nélkül választják ki céljaikat és támadják meg azokat. A résztvevők között volt Elon Musk, Steve Wozniak és Stephen Hawking is.

2016-ban a Google által kifejlesztett mesterséges intelligencia első ízben vert meg egy profi játékost a Go kínai játékban, amely a legösszetettebb táblajáték a világon. Az AlphaGo algoritmus mind az öt játszmát megnyerte a Go mérkőzésen.

Hol találkozunk napjainkban a leggyakrabban gépi tanulással?

A malware-ek az egyik legnagyobb problémát jelentik, amellyel számos technológiai vállalat küzd. Az antivírusok aránylag gyenge biztonságot nyújtanak napjainkban, hiszen rengeteg olyan szofisztikált vírus létezik, amelyet nem ismernek fel. Egy ellopott adatrekord átlagértéke 141 dollár, s azáltal, hogy a támadások egyre kifinomultabbak, a kiberbiztonság felé támasztott elvárások is növekednek. Sok esetben az antivírus nem elegendő, így lép be a képbe a gépi tanulás. Minden új malware kódrészlete azonos az eredeti káros szoftver kódjának egy részével. Az új kódtípusnál 2-10% a variációs lehetőség. A gépi tanulás számára nem jelent gondot magas bizonyossággal felismerni, mely állományok tekinthetők malware-nek. Más esetekben az algoritmusok képesek arra, hogy megtalálják a mintákat a cloud adatokhoz való hozzáférés során, és jelentsék azokat az anomáliákat, amelyek biztonsági rés jelenthetnek.

Hogyan is működik a gépi tanulás?

A gépi tanulás legegyszerűbb magyarázatával a Google szolgált a 2015-ös konferenciájukon. Diákokból és egy tanárból álló modellt mutatott be, ahol a tanár a matematika dolgozathoz szükséges tanulási időt igyekszik meghatározni.

A tanárnak először fel kell állítania egy modellt, amely a teszt eredményét határozza meg a tanulásra fordított idő függvényében. Alapvető fontosságú az, hogy a tanuláshoz a gép értelmezni tudja a szükséges változókat, illetve meg kell adni a kezdeti inputot. A tanárnak a saját tapasztalataira támaszkodva kell a lehető legvalósághűbben meghatároznia a modellt.

0 óra = 50%-os eredmény
1 óra = 60%-os eredmény
2 óra = 70%-os eredmény
3 óra = 80%-os eredmény
4 óra = 90%-os eredmény
5 óra = 100%-os eredmény

Ezek az adatok egészen reálisak, így a tanár továbbléphet a következő fázisra. Összegyűjti a diákoktól az adott tananyag elsajátítására fordított órák valós számát, amely azonban nem egyezik az elsődleges modellel. A gép felismeri az eltéréseket, és fokozatosan tanulni kezd. A folyamatnak akkor van vége, amikor a tanár biztos abban, hogy a matematikai modell eléggé tükrözi a valóságot. Például:

0 óra = 45%-os eredmény
1 óra = 55%-os eredmény
2 óra = 65%-os eredmény
3 óra = 75%-os eredmény
4 óra = 85%-os eredmény
5 óra= 95%-os eredmény
6 óra = 100%-os eredmény

A legpontosabb modellt akkor kapja meg, ha sok diákot kérdez meg. Ebben az esetben elegendő adat áll rendelkezésre ahhoz, hogy a gép tovább tanulhasson. Ahhoz, hogy a modell egyre jobb legyen, a paraméterek csak minimálisan változhatnak. Ezért is kiemelten fontos az első fázis. A szükséges adatmennyiségre sok változó hat. Az algoritmusokon múlik a legtöbb. A minta nagyságát heurisztikai statisztikával saccolják meg, de ezek a becslések gyakran pontatlanok. Épp ezért sokszor előfordulhat, hogy sokkal több adatra van szükség.

Gondolkodj el a következő kérdéseken:

Engedélyezni kéne a gépi tanulást autonóm fegyverek esetében?

Milyen mértékben legyen alkalmazható a gépi tanulás a médiában és az újságokban?

Szükséges szabályozni, hogy hová repülhetnek a drónok?

Ezek és még további kérdések olyan etikai problémát jelentenek, amelyek a gépi tanulás hozadékai. A gépi tanulás etikai vonatkozásairól egy másik cikkben foglalkozunk majd.

Hol tudhatsz meg többet a gépi tanulásról?

A medium.com oldalon nagyszerű cikk olvasható a témában. A legjobb források a Tensor Flow, az Anaconda és a Scikit learn. Itt igazán elmerülhetünk a gépi tanulás mélységeiben.

Egy kis történelem: A gépi tanulás története

Hol találkozunk napjainkban a leggyakrabban gépi tanulással?

Hogyan is működik a gépi tanulás?

Gondolkodj el a következő kérdéseken:

Hol tudhatsz meg többet a gépi tanulásról?

Vélemény, hozzászólás? Válasz megszakítása