AI – A mindennapi életünk szerves része
Szintetikus adatok, AutoML módszer, SAME keretrendszer / REINFORCE AI KONFERENCIA 2022
2022. 03. 31.
A márciusi kiemelkedő AI eseményen, a Reinforce AI konferencián számos magyar és nemzetközi, mesterséges intelligencia szakértő vezette be az érdeklődőket a terület legújabb vívmányaiba. Felhívták a figyelmet a megoldandó problémákra, javasolt megoldásokra és megmutatták, hogyan is kapcsolódik a mesterséges intelligencia a mindennapi életünkhöz, milyen hatást gyakorol arra.
A tavalyihoz hasonlóan különösen nagy hangsúlyt kaptak a rendezvényen az AI módszereket övező etikai kérdések, megfontolások és lehetséges megoldások. Ezt támasztja alá az is, hogy a 15 előadásból 3 csak erre fókuszált, illetve vissza-visszatérő téma volt ez a további előadások során is.
Ezen kívül az eseményen szó esett a mesterséges intelligencia jövőképéről és az AI közösség szerepéről, valamint olyan technikai megoldásokról, amelyek automatikus módszereket kínálnak az AI applikációk éles környezetben történő működésére. Láthattunk például egy élő demót is Javier Blanco Cordero, a Quix senior data scientist munkatársának és Tomas Neubauer, a Quix társalapítójának előadásában: a hallgatóság bevonásával mutatták be az általuk fejlesztett termék képességeit, egy valós idejű chat-alkalmazás üzeneteinek szemantikai elemzésével.
Szintetikus adatok használata – Alexandra Ebert
Adatbányászaink a szintetikus adatok használatába is nyerhettek betekintést, ami egy igen népszerű témakör, és szorosan kapcsolódik az etikához. A szintetikus adatok előnyeiről Alexandra Ebert, vezető trust officer tartott kiváló előadást, aki korábban az AI rendszerek működését és használatát kutatta a GDPR vonatkozásában.
Ebert arról beszélt, hogy milyen kihívásokkal szembesül az, aki a nagymennyiségű összegyűjtött adatai felhasználásával üzleti értéket szeretne teremteni. Először úgy tűnhet, hogy a nehézséget az adatok beszerzése jelenti, de ez manapság már nem feltétlenül igaz. A problémát az jelenti, hogy a GDPR-on kívül számos más szabályozás is életben van, amelyek megszabják, hogy a vállalatok mire használhatják az általuk birtokolt adatokat, ezek pedig általában nincsenek összhangban az egyes AI projektek céljaival.
A szakértő elmondása szerint annak ellenére, hogy a cégek egyre több adattal rendelkeznek az ügyfeleikről, egyre kevesebbet tudnak felhasználni belőlük a szabályozások miatt. Természetesen régóta léteznek módszerek az adatok „anonimizálására”, viszont ezek alkalmazása általában meggátolja, hogy modellezni lehessen ezen anonim adatokat. Alexandra szerint a megoldás a szintetikus adatok használata, ami azt jelenti, hogy a meglévő érzékeny adatok alapján olyan gépi tanulási modelleket hozunk létre, amelyek képesek lesznek az eredeti adatokhoz nagyon hasonló adatot generálni.
Mivel az így létrehozott adatok semmilyen módon nem visszavezethetők az entitáshoz – amit az eredeti érzékeny adat leír -, de a létrejött adat struktúráját tekintve megegyező az eredetivel, szabadon, hatékonyan használható valós alkalmazások fejlesztése során.
Ennek a módszernek nem csak akkor van előnye, ha érzékeny adatokkal szeretnénk dolgozni, hanem akkor is, ha kevés adat áll a rendelkezésünkre. Ebben az esetben szintetikus adatokat generálhatunk annak érdekében, hogy bővítsük adathalmazunkat. Ez szorosan kapcsolódik az etikai
megfontolásokhoz, amikor például társadalmi, vagy emberekhez köthető előrejelzéseket, becsléseket szeretnénk tenni az AI modellünk segítségével. Ekkor ugyanis gondoskodhatunk arról, hogy az érintett embercsoportok egyformán reprezentáltak legyen az adathalmazunkban azáltal, hogy az alul reprezentált osztályok adatpontjai alapján szintetikus adatpontokat hozunk létre. Ezzel egy nagy lépést tudunk tenni annak irányába, hogy a modell diszkriminációtól mentes legyen, mivel így elérhető, hogy mindenről és mindenkiről megfelelő mennyiségű információval rendelkezzen.
A technikai megoldásokat illetően sem maradtak el az új ismeretek. Az előadásokból kiderült, hogy a szakma jelentős része arra a problémára keresi a megoldást, hogy hogyan lehetne az adatbányász munkafolyamatokat egyszerűsíteni. Ez természetesen egy igen sokrétű feladat, sok lehetséges megközelítéssel.
AutoML módszer – Erin LeDell
Erin LeDell, vezető machine learning scientist az úgynevezett AutoML módszert mutatta be, amivel gépi tanulási megoldásokat lehet automatikusan létrehozni. A felhasználónak csak az adatról kell gondoskodnia, a számítási infrastruktúrát, a modell kiválasztását, tanítását, finomhangolását és értékelését a platform szolgáltatja. Ezzel a módszerrel programozási tudás nélkül is képesek lehetnek a szakemberek kiemelkedő teljesítménnyel rendelkező modelleket létrehozni és alkalmazni, amelynek nagy előnye, hogy sok időt és emberi erőforrást megspórolnak egy vállalat számára. További előny, hogy a platform az elkészült modellt etikai szempontok szerint is kiértékeli, ami közel sem egyszerű feladat, manapság mégis alapvető követelmény.


Ploomber keretrendszer – Eduardo Blancas, SAME keretrendszer – David Aronchik
Eduardo Blancas, a Ploomber alapítója, és David Aronchik, a Protocol Labs igazatója és fejlesztési vezetője egy-egy keretrendszerről tartottak egy-egy előadást. Mindkét keretrendszer célja az adatbányász munka egyszerűsítése úgy, hogy a prototipizálás, illetve a kísérletek által megírt kódot azonnal fel lehessen használni az élessel megegyező környezetben. Ezt úgy érik el, hogy a fejlesztői környezetet olyan platformokhoz integrálják, amik az éles környezetet szolgáltatják.


Ez azért hasznos, mert így a kódot elég egyszer jól megírni, és egyből „production ready” megoldást tudunk felmutatni, amit bármikor, kis változtatásokkal, valós időben lehet módosítani, illetve az eredményeket reprodukálhatóvá tudják tenni. A futtató környezet módosítása, cseréje szintén egyszerű ezen módszerekkel, mivel elég csak konfigurációs fájlokat megadni, és a keretrendszerek ez alapján üzemelik be a programunkat, lehetővé téve, hogy mindenféle igénynek megfelelő teljesítményt nyújthasson az így létrejött szolgáltatás.
Szerző: Kiss Norbert, az eNet Internetkutató és Tanácsadó Kft. adatbányász kollégája
Képek forrása: pexels.com; reinforceconf.com