Umjetna inteligencija, big data i NLP tehnologije koje koristimo u poslovanju
NLP (natural language processing technologies) su tehnologije koje računalima omogućuju razumijevanje i procesuiranje prirodnog, nestrukturiranog govornog i pisanog jezika primjenom algoritama.
Newton Media Grupa uslugu koristi u procesu praćenja, klasifikacije i analize medijskog sadržaja kako bi povećala radnu efikasnost i smanjila vrijeme izvedbe.
Jesu li NLP tehnologije učinkovitije i bolje od ljudi u analiziranju podataka?
Naše istraživanje potvrdilo je da jesu. U istom zadatku koji je zadan našim zaposlenicima i softveru koji primjenjuje NLP tehnologiju, potonja je provela analizu s 2% pogreške, a analitičari su napravili 13 % pogreške. Unatoč tomu, analitičari su i dalje važan čimbenik u procesu analize sadržaja, a sada, kad je softver preuzeo ulogu obrade i kodiranja velike količine podataka, imaju više vremena baviti se modeliranjem i interpretiranjem te davanjem značenja podacima.
Koliko će dobre NLP tehnologije biti ovisi o tome kako ste ih implementirali. Kontinuiranim treniranjem softvera i implementacijom neuralnih mreža i dubokog učenja, značajno se može povećati točnost obrade podatka, iako je trenutna greška u prosjeku 2%. Implementacija NLP tehnologija je dugoročan proces koji ne ovisi toliko o smišljanju novih tehnologija, one već postoje, nego o tome koliko ćete ih dobro primijeniti kao poslovni model.
Znanost o podacima
NLP tehnologije dio su znanosti o upravljanju podacima. Znanost o podacima, kao i NLP tehnologije, imaju za cilj riješiti problem ili dobiti određenja saznanja putem modeliranja podataka.
Da biste riješili problem, morate slijediti znanstvenu i metodološku strukturu – definirati temu, cilj, hipotezu, postaviti prava pitanja, postaviti svrhu.
Svaka ozbiljna tvrtka bi u svoje poslovne procese trebala uključiti upravljanje podacima. Ono podrazumijeva:
- Prikupljanje podataka – to mogu biti različiti podaci koje uspoređujemo prema brojnim parametrima. U našoj grupaciji prikupljamo podatke iz svih medija. Podaci mogu biti i oni koje već imate u tvrtki, poput izvještaja prodaje, stanja na tržištu ili u pojedinoj industriji.
- Opisivanje podataka – dodavanje novih varijabli sirovim podacima, kao na primjer geografska rasprostranjenost (tvrtki, klijenata), socio-demografski podaci ili stil života ciljne skupine, odnosno klijenata.
- Modeliranje podataka i stjecanje uvida. Na primjer, koji novinari su naklonjeni mojem brandu, koji nisu. Jesu li aktivnosti na društvenim mrežama imale utjecaj na prodajne rezultate. Ako da, s kojeg kanala, koji influencer je bio zaslužan.
- Predviđanje. Ono podrazumijeva postavljanje pitanja poput ovih: hoće li konkurencija kupiti neku tvrtku, koju, zašto, koja su poslovna objašnjenja za taj čin.
- Savjetovanje. Kako osvojiti novo tržište, kako iskoristiti kompetitivne prednosti i koji poslovni model primijeniti?
Koji stručnjaci su potrebni u procesu obrade velike količine podataka?
Proces svakako zahtijeva prisutnost menadžera koji razumije potrebe posla i koji definira ciljeve (npr. stručnjak za odnose s javnošću). Programer dolazi do podataka ovisno o cilju koji je menadžer definirao te kontrolira podatke, kako ne bi bilo pogrešaka. IT stručnjak – software developer – zadužen je za razvoj infrastrukture pomoću koje se upravlja velikom količinom podataka. On također razvija i održava algoritme za duboko učenje. Potreban je i analitičar podataka/statističar koji obrađuje podatke kako bi dao odgovore vezano uz ciljeve koje je postavio menadžer. Ovaj proces svakako možete povjeriti specijaliziranim poduzećima, poput MediaNeta. Naš stručni tim će, u suradnji s vama, definirati ciljeve i strategiju obrade podataka kojima raspolažete, a kao finalni proizvod isporučiti istraživački izvještaj s rezultatima obrade podataka, zaključcima i preporukama.
Tehnologije koje smo razvili i kojima raspolažemo u grupaciji:
K2 klasifikator – odvaja bitan medijski sadržaj od nebitnog brzo i efikasno, štedeći vrijeme i financijska sredstva. Klasificira temeljem unaprijed određenih ključnih riječi, ili bez njih koristeći metodu strojnog učenja. Temelji se na morfološkom rječniku, što znači da se svaka NLP tehnologija može primijeniti na bilo koji jezik, ukoliko se razvije morfološki rječnik za taj jezik. Može detektirati i sličan sadržaj ili općenite teme i kategorije, ne samo zadane ključne riječi.
Bee – speech–to-text tehnologija koja se služi automatskom detekcijom i transkripcijom govora (zapisuje ono što je izgovoreno). To je bitno jer NLP tehnologija radi na tekstu. Tehnologija omogućuje brzu obradu audio-vizualnog sadržaja i različite mogućnosti primjene, poput brzog titlovanja i transkripcije sadržaja u realnom vremenu ili pak olakšava pregled i klasifikaciju velike količine audio-vizualnog sadržaja.
Similarity – uspoređuje sadržaj i označava ga sličnim ili različitim. Detektira sličan sadržaj kako bi se pratilo kako se pojedina priča ili događaj širi kroz medije.
NERC (Named Entity Recognition) pronalazi osobe, organizacije, lokacije, etnicitete i druge entitete u sadržaju.
IVENTI (Event detection) automatski grupira sadržaj povezan uz isti događaj , što znači da kao rezultat dobivate bilo koju količinu sadržaja grupiranu u temu, priču ili događaj.
QUEX (Quotation Extraction) detektira i izvlači citate – tko je što rekao.
SYNEX (Identifikacija izvora) – NLP tehnologija koja izvlači podrijetlo sadržaja.
Wordcloud – vizualni prikaz tekstualnih podataka – ključnih riječi gdje je veća pojavnost riječi prikazana većim fontom. Omogućena je i vizualizacija konteksta – koji pojmovi okružuju i uz koje pojmove su češće vezane pojedine ključne riječi.
Automatski sentiment – NLP se koriste u procesuiranju teksta za identifikaciju emocija (pozitivnih, negativnih ili neutralnih).
Primjena NLP tehnologija u poslovanju
Analiza velike količine podataka uz pomoć umjetne inteligencije može se primijeniti u kriznom menadžmentu kada je potrebno brzo reagirati. Tehnologija omogućuje da dobijemo brze i precizne informacije uz mala financijska ulaganja o tome gdje je kriza počela, tko ju je započeo, kamo se proširila (putem kojih kanala). Pomaže nam detektirati žarišta i vidjeti jesu li poduzete neke akcije da bi se kriza zaustavila. Ako da, tko je što učinio i je li bilo uspješno.
Uz pomoć NLP tehnologija može se lako detektirati tko su akteri pojedinih priča ili događaja, osobe ili organizacije.
Unutar određene komunikacije koja se odvijala kroz duže vrijeme moguće je detektirati tko je što izjavio. Sve izjave mogu se grupirati prema događajima, što su zapravo teme rasprave. Event detection pronalazi teme, a QUEX potom izvlači izjave odabranih aktera (npr. što su aktualni hrvatski premijer i predsjednik izjavljivali tijekom, a što prije mandata).
Uz pomoć NLP tehnologija moguće je otkriti koji je kanal najviše korišten kao izvor informacija.
U nastavku donosimo nekoliko studija slučajeva u kojima smo uspješno primijenili NLP tehnologiju i klijentima pomogli u rješavanju problema ili unapređivanju poslovanja.
Koji je medij najveći izvor informacija
Budući da mediji, osim što kreiraju, većinom prenose vijesti i informacije, analizom sadržaja iz svih vrsta medija, elektroničkih, tiskovnih i online, ustanovili smo da je najviše sadržaja podijeljeno s HRT-a. Slijede televizija N1 te novinska agencija HINA. Na šestom mjestu se nalazi Facebook, kao medij s kojeg se najviše dijele informacije u ostale medije. Za analizu se koristila tehnologija Izvori. Situacija se mijenja ako se analiza usmjeri na sadržaj koji se tematski odnosi samo na neku specifičnu industriju, na primjer farmaciju, telekomunikacije, osiguranja…Ova analiza može se primijeniti i na autore, novinare te se na taj način može vidjeti koji autor preferira koje brendove.
Migrantska kriza – lažne vijesti i detekcija entiteta
Cilj ove analize bio je otkriti događaj koji je lažna vijest, a povezan je s migrantskom krizom u Hrvatskoj. Detektiranje lažne vijesti i izmišljenog događaja je omogućilo na vrijeme zaustaviti kriznu situaciju koja bi inače mogla eskalirati, a lažna vijest biti prihvaćena kao istinita priča. Analizom entiteta pratili smo kako su se kroz vrijeme mijenjale ključne osobe povezane s krizom i kako se mijenjala njihova angažiranost. Analizom izjava detektirali smo tko je direktno uključen u medijsku komunikaciju vezano uz krizu, kroz davanje izjava, a tko indirektno, spomenut od treće strane. Detektirali smo i osobu koja je trebala reagirati i obavijestiti javnost o lažnoj vijesti, no propustila je to učiniti što je bio znak lošeg i neuspješnog upravljanja kriznom situacijom u odnosu na navedenog aktera.
Detekcija lokacija povezanih s migrantskom krizom pokazala je da se određene lokacije nisu pojavile u medijima niti jednom drugom kontekstu, nego u kontekstu migrantske krize. Drugim riječima, migrantska kriza dala je nekim lokacijama, koje inače nisu bile medijski popraćene, publicitet i vidljivost.
Primjer iz znanstvenog istraživanja primjenjiv je i na tržište. Analiza može pokazati djeluje li medijski sadržaj koji povećava vidljivost branda povoljno na gradnju imidža ili suprotno.
Tehnologija IVENTI primijenjena na temi govor mržnje
Medijsku arhivu od gotovo 11.000 članaka unazad godinu dana bilo je potrebno pregledati kako bismo detektirali najpopularnije priče i događaje koje uključuju govor mržnje. Uz pomoć tehnologije IVENTI (event detection) grupirali smo teme (događaje) i odabrali one s najviše članaka. Dobili smo listu događaja prema broju članaka koju su o temi izvještavali te datum kad se počelo izvještavati o temi.
Event detection se može koristiti i kada želite vidjeti koliki je značaj pridan različitim aktivnostima konkurencije, koji vanjski faktori su utjecali na PR kampanju te usporediti vidljivost PR kampanje i događaja vezanih uz brand koji nisu bili planirani. Ili pak vidjeti koliko je uspješno odrađen posao pretvaranja neplaniranog medijski popraćenog događaja u uspješnu priču. I to sve na velikoj količini podataka.
Event detection na primjeru – znanstveni rad na temu govora mržnje:
Opis događaja
| Datum prve objave | Ukupan broj objava |
Ivan Đakić, sin saborskog zastupnika, povodom pravoslavnog Božića objavio je objavio fotografiju ustaše s odrubljenom ljudskom glavom s porukom: “Svim ‘prijateljima’ srbićima sretan Božić” | 6.1.2019. | 523 |
Ivan Penava, gradonačelnik Vukovara, optužen je za poticanje spirale govora mržnje te je umalo započeo tučnjavu u Hrvatskom Saboru | 15.1.2019. | 235 |
Milorad Pupovac, predsjednik SDSS-a: spaljivanje fašnika s mojim licem je govor mržnje | 4.3.2019. | 155 |
Izvještaj Europske komisije: govor mržnje u Hrvatskoj je u porastu | 14.5.2018. | 154 |
Optužba protiv Vjerice Radete, srpske političarke koja je tvitala o smrti Hatidže Mehmedović, predsjednice Majki Srebrenice. Tvit glasi: “Čitam umrla Hatidža Mehmedović iz udruženja biznismenki Srebrenice. Tko će je sahraniti. Muž ili sinovi?!” | 24.7.2018. | 130 |
Pokolj u džamiji u Novom Zelandu | 14.3.2019. | 113 |
Sve TV postaje koje su emitirale Bujicu na temu migranata morat će prestati emitirati program na 24 sata | 22.11.2018. | 107 |
Nenad Stazić, saborski zastupnik, komentirao je na Facebooku: “Izgleda da u svibnju 1945. posao nije obavljen temeljito. Kakva šlampavost pobjednika.” | 27.5.2018. | 102 |
Primjena na sadržaju koji nije medijski
NLP se mogu primijeniti i na sadržaj koji nije medijski. Analiza je rađena za odvjetničko društvo koje je imalo preko 70.000 stranica teksta za samo jedan sudski proces. Tekst je trebalo organizirati po datumu i odrediti kada se pojavio određeni svjedok i kada su se pojedini elementi optužnice pojavili u procesu. Drugi je primjer iz industrije telekomunikacija gdje je bilo potrebno pregledati preko 1000 ugovora s različitim tvrtkama i ustanoviti koji klijent je potpisao ugovor prema predlošku, a koji je napravio izmjene na predlošku, kako bi se vidjelo koji ugovori zahtijevaju dodatnu pažnju i obradu. U znanstvenoj literaturi također je moguće određivati entitete, pretraživati citate i tražiti tko je koga citirao, klasificirati i grupirati znanstvenu literaturu po temama i pretraživati citate određenih ljudi.
Zaključak
NLP tehnologije su kompanijama u našoj grupaciji omogućile bržu i efikasniju analitiku medijskog sadržaja te obogaćivanje i inovaciju vlastitog portfelja usluga.
Mogućnosti korištenja big data i NLP tehnologije su brojne. Podaci se mogu procesuirati i analizirati iz toliko različitih kutova da je mašta jedina granica.
Gledano u perspektivi razvoja umjetne inteligencije u narednih nekoliko godina, zaključak je da će ljudi i dalje biti potrebni, prvenstveno za obuku, ‘treniranje’ umjetne inteligencije u smjeru u kojem želimo da obavlja posao umjesto nas. Najveći izazov je povezivanje svih dobivenih podataka i davanje značenja, smisla tim podacima kako bi bili iskoristivi našim klijentima u njihovim strateškim planovima i svakodnevnom radu. Ljudi neće biti zamijenjeni tehnologijom, samo će obavljati pametnije poslove, manje automatizirane i one koje zahtijevaju veću kreativnost.