„Néha nem tudjuk, hogy mi hiányzik az adatok közül, csak azt látjuk, hogy valami nincs ott”

Mit csinál egy adattudós és mit bányásznak az adatbányában?

Andersen Dávid

2021. Szeptember 22.

Napjaink egyik trendi kifejezése a „big data”, amely megközelítőleg annyit jelent, hogy jelentős mennyiségű adatok feldolgozása, elemzése, illetve az ezen alapuló tudományos megközelítés, amely a modern technológia eszközeit veti be, olyan összefüggések, mélyben meghúzódó korrelációk feltárására és kiaknázására, amelyekre „hagyományos” módon nem, vagy legfeljebb óriási erőfeszítések árán lehetne rávilágítani.

A big data legfőbb módszere az adatbányászat, amely óriási adathalmazokban keresi az úgynevezett 3V-nek vagy 3É-nek (érdekes, értelmes, értékes) megfelelő információkat. Innentől azonban már bonyolultabbá válik a helyzet, ugyanis különbséget kell tenni adatbányász, adatelemző és adattudós között.

A SZTAKI és az EPIC InnoLabs kutatója, Bergmann Júlia ez utóbbi két kategóriába sorolható, titulusa szerint ugyanis ipari adatelemző és adattudós, akit többek között arról kérdeztünk, hogyan lehet felfedezni az izgalmas összefüggéseket a száraz számsorok mögött, illetve, hogy mit takar az adatok „masszírozása”.

Kezdjük az elején, mivel egy viszonylag új területről van szó, bár persze, a különféle adatok elemzésével már jó ideje foglalkoznak a statisztikusok, matematikusok. Hogyan lesz valakiből adattudós, pontosabban, hogyan kerültél erre a területre?

Biztosan vannak sokan, akik régóta készülnek hasonló pályára és tudatosan tervezik a karrierjüket, én viszont a véletlennek köszönhetően „tévedtem” erre az útra. Egy lisszaboni, NOVA IMF Erasmus-képzésre jártam, ezen belül volt egy tárgy, aminek megtetszett a címe (Intelligent Systems) és ezzel a témával foglalkozott. Ezután, amikor hazajöttem, úgy voltam vele, hogy szeretnék valamit csinálni adatokkal és valamit kihozni belőlük, ami első ránézésre nem látható.

Adatokkal egy jó ideje dolgozik már az emberiség, ehhez képest az adatbányászat mennyire számít új területnek?

Részben új csak, legalábbis, ami a big data részét illeti. Emellett fontos megemlíteni a magyarul furán hangzó data engineering (kb. adatmérnökség) területét, ami azért felel, hogy minden stabilan működjék egy rendszerben és mindenre legyen elég kapacitás, de ne legyen nagy a „túllövés”. Ez egy teljesen új dolog. Rengeteget hallani mostanában arról, hogy évente termelünk most annyi adatot, mint amit eddig az emberiség összesen. Ezzel az adatrengeteggel kell valamit kezdeni, de értelmesen.

Persze, átlagszámítás már az ógörögöknél is volt, szóval a hasonló módszerek régi alapokon nyugszanak, a statisztikai modellek is léteznek már egy ideje. Még a neurális hálózatokkal és a gép tanulás témakörével is régóta foglalkoznak a kutatók, de az új, hogy ezek az iparban is alkalmazhatóak legyenek. Mindezt „kicsiben” az is látja, aki nem szakember, mert ha olyan hirdetésekkel találkozik az interneten, amelyek pont neki szólnak, az nem véletlen.

Lehet, hogy nagyon laikus a kérdés, de mi a különbség egy adatbányász és egy adattudós között?

Kicsit kiegészíteném: adattudós, adatbányász és adatelemző is van, a kérdés, hogy az adatok melyik „oldalán ül”, melyik részével foglalkozik az ember. Persze, vannak átfedések is, mert, ha valaki adatokkal szeretne dolgozni, de nincs adatbányásza, akkor saját magának kell összegyűjtenie.

A nagyobb cégeknél erre már külön csapatok vagy részlegek is vannak, nálunk, az InnoLabs-nél 4-5 ember foglalkozik ilyesmivel. Ezzel azonban még nem válaszoltuk meg a kérdést, mert például, ha egy olyan applikációt fejlesztenénk, ami egy cégvezetőnek megmondja, hogy melyik termékből kell többet gyártani, akkor kelleni fog egy csapat adatbányász, aki összegyűjti az adatokat, egy másik, amelyik rendszerezi, feldolgozhatóvá teszi azokat, és egy harmadik, amelyik elemzi az adatokat és ezekből előrejelzéseket, predikciókat készít, és egy negyedik, amelyik implementálja a kapott következtetéseket, azaz, megoldja, hogy a rendszer stabilan működjék ezek alapján. Ezen felül pedig kell egy külön csapat, akik megdizájnolják a felületet és egy másik csapat, akik ezt eladják a cégvezetőknek. A csapattal, amelyikkel dolgozom, ennek a folyamatnak körülbelül a közepén vagyunk, elemzőként.

Mit jelent ez a gyakorlatban, miből áll egy napod, mivel foglalkozol?

Nagyon szerteágazó és változatos a munkám, mert ahány céggel, partnerrel dolgozunk, annyiféle feladat, annyiféle adatformátum érkezik be hozzánk és ezekből ugyanilyen sokféle adatot kapunk meg. Jó esetben „kulcsra készen” kapjuk az adatbázist, ami rendesen van dokumentálva, könnyen lehet párosítani egyik táblázatot a másikkal. Olyan is előfordul viszont, hogy csak a hozzáférést kapjuk meg, ilyenkor ez olyan, mintha beengedtek volna a könyvtárba, ahol nem mondják meg, melyik könyv hol van és melyik könyvben mi van. Ez komoly kihívás, megtalálni, hogy honnan lehet kigyűjteni a hasznos információkat és hol vannak a kapcsolódási pontok. Van, amikor ez nagyon körülményes munka, mert sokat kell tesztelni, mire kiderül, hogy egy adott típusú adatoszlop vajon mit jelenthet. Sokszor erre még azok sem tudnak válaszolni, akik gyűjtik az adatokat, mert gyakori, hogy egy fejlesztő egy évtizeddel korábban lekódolt valamit és ahhoz azóta nem nyúltak hozzá.

Néha nem tudjuk, hogy mi hiányzik az adatok közül, csak azt látjuk, hogy valami nincs ott

Bergmann Júlia adattudós (Fotó: SZTAKI/InnoLabs)

Mivel keresnek meg titeket az ügyfeleitek, milyen kérdésekkel fordulnak hozzátok?

Van egy általános hozzáállás, amikor az az igény, hogy szeretne az adott cég hatékonyabb lenni. Ez viszont messzire vezet, ilyenkor általában visszakérdezünk, hogy oké, és hogyan? Az a szerencsésebb eset, amikor már konkrét dologgal keresnek, például, hogy két alkatrészt össze szeretnének hegeszteni és kíváncsiak rá, hogy akkor mekkora lesz a szakítószilárdság. Ehhez hasonló, ha előre szeretnék jelezni, hogy egy gép vagy szerszám mikor fog elromlani, vagy, ha szeretnék észlelni, hogy hamarosan elromlik. Sok cégnél előfordul, hogy ilyesmire nem figyelnek, ezért egy rossz géppel legyártanak valamilyen termékből egy csomót, ami mind selejtes.

Ilyenkor, ha megkapunk egy hasonló felkérést, összegyűjtjük az adatokat, amik szerintünk befolyásolhatják a hatékonyságot és elkezdjük „masszírozni” a számokat. Ezt hívják adatfeldolgozási folyamatnak. Azaz, például, ha van egy olyan oszlopom, amiben gyümölcsök vannak, de van benne alma, körte és narancs, akkor ezt nem tudom, egy algoritmusba betáplálni, mert az számokkal dolgozik. Ugyanakkor számokkal sem helyettesíthetem, mert ha az alma 1, a körte 2 és a narancs 3, akkor az algoritmus azt fogja gondolni, hogy a narancs háromszor annyit ér, mint az alma. Ez csak egy példa, de rávilágít, hogy milyen az, amikor az adatok formátuma teljesen eltérő, ezeket először valami– például egy időbélyeg – alapán össze kell hangolni, egy táblázattá gyúrni az egészet, ami így már egy jól strukturált tömeg. Ezután lehet bevetni a gépi tanulási módszereket és megnézni, hogy így mit adnak az algoritmusok.

Azt mondtad az előbb, hogy olyan adatokat vizsgáltok, amelyek szerintetek befolyásolhatják az adott cégnél a folyamatokat. Ez azt jelenti, hogy minden partneretek tevékenységében szakértővé kell válnotok? Hiszen csak így tudjátok eldönteni, hogy milyen tényezők befolyásolhatják a működést.

Valamennyire igen. Általában nem mi magunk gyűjtjük az adatokat, hanem azokat a partnereinktől kapjuk, viszont, ilyenkor csak azokhoz kapunk hozzáférést, amelyek szerintük fontosak. Nekünk viszont ilyenkor „bele kell mászni” az adott problémába, mert lehetnek olyan tényezők, amikre a hétköznapi felhasználók nem gondolnak. Előfordul viszont, hogy mi nem tudjuk, mi hiányzik az adatok közül, csak azt látjuk, hogy valami nincs ott, látjuk, hogy itt bizony van két sor, ami nem „kerek”. Például, volt egy olyan munkánk, ahol ipari gépek ciklusidejét kellett megbecsülnünk és láttuk, hogy a kapott adatokból ez nem megállapítható, mert a gépek különböző feladatokat végeztek el, és ezeket a feladattípusokat nem lehetett egyértelműen szétválasztani. Ilyenkor gyakori, hogy van a partnernél valamilyen táblázat vagy adatbázis, ami gyűjti ezeket az információkat, csak elfelejtik odaadni.

Ha jól sejtem, a munkátok egy része abból is áll, hogy a kapott adatokkal különféle dolgokat megpróbáltok és vagy működik, vagy nem, ez helytálló?

Igen, a próbálgatás, amit angolul trial & errornak neveznek abszolút bevett gyakorlat. Ilyenkor igyekszünk minél többféle módon megjeleníteni az adathalmazt. Nekem is az egyik első dolgom mindig az, hogy oszloponként kirajzoltatom a különböző adatsorokat, és nézem, hogy mennyi a korreláció az egyes sorok között. Ha valami nagyon összetart, akkor felteszem a kérdést, hogy ez valódi összefüggés-e, vagy csak véletlen. Ha pedig valami nagyon „szór”, azaz pont össze-vissza mennek a számok, nincs rendszeresség benne, akkor megnézem, hogy fel lehet-e bontani az adatokat valami más mentén, mert lehet, hogy ha már elfelezem az adathalmazt, akkor kirajzolódik valamilyen minta.

Fotó: Getty Images

Emellett, rengeteg különféle statisztikai tesztet is le lehet futtatni, ami rávilágíthat az összefüggésekre. Vagy, ha a matek azt „mondja” két tényezőre, hogy erős a korreláció, akkor is rá kell kérdezni, hogy nem véletlenről van-e szó.

Visszatérve a korábban említett algoritmusokhoz, te magad mennyire látod ezeket működőképesnek? A közösségi oldalakon azért nem nehéz belefutni olyan reklámokba, amiknek semmi köze a felhasználók érdeklődési köréhez, mit gondolsz, javul ez a tendencia?

Ha jót ajánl a rendszer, akkor én mindig örülök neki, mert nem nekem kellett megkeresni az adott terméket vagy szolgáltatást. Meg persze, kicsit a lelkemet is simogatja, hogy azért működik ez a tudomány, de én is mérges tudok lenni, ha hetekig ugyanazok a reklámok jönnek szembe. Ettől függetlenül, összességében úgy látom, javul a tendencia. Úgy 4-5 évvel ezelőtt például vettem egy sátrat és utána még két hétig sátorhirdetésekkel találkoztam. Most pedig azt tapasztalom, hogy, ha megveszek valamit, utána már nem annyira dobja fel a hasonló reklámokat.

Bár gondolom, akik hozzátok fordulnak, azok már eleve tudatosabbak, de mennyire vannak tisztában a cégek azzal, hogy léteznek hozzátok hasonló cégek és szakemberek, illetve, hogy mit kell tudni az efféle szolgáltatásokról?

A világ többi részén lehet, hogy már előrébb tartanak, de Magyarországon egyelőre azt látom, hogy sokan azt hiszik, hogy ez majd mindent megold, azt viszont nem gondolják át, hogy ez nem olyasmi, ami két hét alatt megszünteti a problémákat, hanem akár hónapokig vagy akár egy évig is tartó fejlesztésre szükség lehet.

Az erre irányuló akaratot már látom az ipari partnereinknél, már megbarátkoztak ezzel a témával, ami nehéz, az a kisebb eredmények megfelelő prezentálása. Ami nekem öröm, mert rájöttem valamilyen megoldásra, az egy végfelhasználó számára még kevésnek tűnhet. Apró léptekkel haladunk és próbáljuk mindenkivel megértetni, hogy ez nem egy kulcsrakész dolog, hanem minden esetben „személyre” szabott feladat. Persze ez valahol érthető, mert 3-5 év egyetemi képzést nem lehet belesűríteni egy másfél órás megbeszélésbe. Azt a kényes egyensúlyt kell megtalálni, hogy mi az, ami még nem száraz és unalmas, de meggyőzi őket arról, hogy nem a hasunkra ütöttünk, hanem tényleg működik a modell.

Mennyire lehet kalkulálni az emberi tényezővel, mennyire látszik az adatokban, ha egy munkatárs kávészünetet tart vagy elmegy ebédelni?

Ez szinte mindig látszik az adatokon, de ezzel nincs is baj, mert ezek tervezhető, szükséges dolgok. Ami sokkal nagyobb nehézség, az az emberek által gyűjtött adat. Például, ha egy operátornak kell beírni, hogy milyen típusú eszközt használ, vagy akár azt, hogy hány óra van. Ilyenkor rengeteg a hibalehetőség, ezért az ilyen jellegű adatokban nem is lehet megbízni. Nem azért, mert rosszat feltételeznénk bárkiről, hanem azért, mert emberek vagyunk, előbb-utóbb mindenki téveszt vagy hibázik.

A munkán kívül mennyire alkalmazod a tudásodat? Arra gondolok, hogy kiszámolod-e, melyik napszakban érdemes elmenni bevásárolni, hogy kisebb legyen a sor vagy hasonlóra.

Szinte semennyire, szeretek a véletlennek élni. Egyedül az autóm átlagfogyasztását szoktam számolgatni. Az én munkámban nagyon rendezettnek kell lenni. Azt szoktam mondani, hogy ha elolvasok egy 400 oldalas könyvet és találok benne két elütést, az attól még lehet egy jó könyv, de ha a kódban van két elütés, akkor teljesen máshogy fog működni. Ezt valahol ellensúlyoznom kell, mert nem lehet mindig, mindenhol nagyon rendezettnek lenni.

Még több inspiráló nő az nlc-n:

Ezek nélkül a nők nélkül a digitális világ sehol sem lenne
Gal Gadot: „Én csak eljátszom, hogy hős vagyok, ők viszont valódi hősök”
Eleanor Roosevelt-ről mintázott Barbie is bekerült az Inspiráló Nők kollekcióba

Bergmann Júlia adattudós adatbányászat big data algoritmus neurális hálózat

Ha kommentelni, beszélgetni, vitatkozni szeretnél, vagy csak megosztanád a véleményedet másokkal, az nlc Facebook-oldalán teheted meg.