Využití syntetických finančních dat - Syntetická data jsou statisticky realistická „umělá“ data, napodobují skutečná data.

Syntetická data jsou statisticky realistická „umělá“ data. Skutečná data, která bývají obtížně dostupná, což brzdí vývoj nových produktů a služeb na finančním trhu a potenciálně zpomaluje vznik inovací v oblasti finančních služeb, tak pouze napodobují svými charakteristikami a vlastnostmi. Při jejich sdílení, například pro účely testování a vyvíjení finančních produktů a služeb, by se tedy finanční instituce neměly dostat do střetu se zákony na ochranu osobních údajů. Syntetická data lze také využít/použít pro testování a trénování modelů umělé inteligence, přičemž se předpokládá, že do roku 2030 se pro vývoj modelů umělé inteligence budou používat primárně syntetická data.

Výzva Evropské komise

Syntetická data mají velký potenciál k využití (nejen) na finančním trhu. Práci se syntetickými finančními daty se věnuje i Evropská komise, která zveřejnila výzvu k zapojení se do Data Hubu na Platformě EU pro digitální finance. V první fázi projektu chce Komise zprostředkovat syntetické soubory dat, které budou vytvořeny na základě skutečných dat jednotlivých orgánů finančního dohledu. Společnosti, které se zapojí, mohou ovlivnit, jaké datové soubory zpřístupní k testování, přičemž se bude jednat pouze o neosobní data. Přihlašování je možné do 12. dubna 2023.

Zkušenosti britského orgánu dohledu nad finančním trhem

Pro bližší seznámení se s významnými syntetickými finančními daty je možné si přečíst Zprávu o závěrech dotazníkového šetření ohledně syntetických dat (dále jen „Zpráva“), kterou v únoru 2023 vydal Britský orgán dohledu nad finančním trhem Financial Conduct Authority (FCA).

FCA se problematikou syntetických dat zabývala již dříve. Ve spolupráci s City of London Corporation úspěšně zavedla digitální sandbox, v rámci kterého proběhly dva pilotní projekty, které nabízely přístup k syntetickým data souborům pro testování a vývoj Proof of Concept (PoC). První projekt probíhal od října 2020 do února 2021 a byl zaměřen na zlepšení financování malých a středních podniků, odhalování a prevenci podvodů a podporu finanční odolnosti zranitelných spotřebitelů. Druhý pilotní projekt probíhal od října 2021 do března 2022 a zaměřil se na finanční inovace spojené s udržitelností. Oba sandboxy nabízely účastníkům přístup k syntetickým data souborům a také k řadě dalších vývojových nástrojů. Klíčovým zjištění z obou projektů bylo, že na trhu je po digitálním testovacím prostředí značná poptávka, a to zejména mezi start-upy, a že účastníci projektů nejvíce ocenili funkcionalitu spočívající v přístupu k syntetickým datům. Využití syntetických dat při testování v sandboxu se ale nesetkalo pouze s pozitivními ohlasy, britské FinTechy například poukázali na nedostatečnou referenční provázanost a nedostatečnou úroveň detailu syntetických data souborů.

Na základě těchto zkušeností se FCA rozhodla problematice syntetických dat věnovat podrobněji. Další motivací FCA také bylo získat přehled o tom, v čem oslovené subjekty spatřují výhody syntetických dat a také nevýhody nebo rizika jejich využívání. Proto FCA uspořádala dotazníkové šetření ohledně syntetických dat. Šetření se zúčastnilo přes 50 subjektů, mezi nimi FinTechy a další finanční společnosti, profesní asociace, společnosti zaměřující se na data a technologie, start-upy a odborná veřejnost. Polovina z respondentů, kteří se šetření zúčastnili, uvedla, že vytváří (generuje), testuje nebo zkoumá syntetická data (většinou šlo o FinTechy, RegTechy nebo datové společnosti).

Klíčová zjištění

Respondenti se shodli, že data jsou pro inovace klíčová. Přístup k datům a jejich sdílení ve finančních službách je však problematické. Ze Zprávy mimo jiné vyplývá, že 31 % respondentů požaduje stanovit standardy a rámcové pokyny pro oblast syntetických dat. Tyto kroky mohou následně přispět k většímu objemu investic do odvětví a rozšířit používání syntetických dat.

Nevýhody a rizika spojené s přístupem k datům a jejich sdílením v oblasti finančních služeb

Nevýhody syntetických dat respondenti spatřovali v:

vysokých nákladech na pořízení dat,
problematické kvalitě dat a jejich případné omezené využitelnosti pro testování, neboť generování syntetických dat může vést k nepřesnostem, zejména pokud neexistují skutečná data a při jejich generování se vychází z domněnek,
ve validaci syntetických data setů, která vyžaduje přístup ke skutečným datům pro porovnání (při validaci je také třeba porozumět použitým technikám a procesům generování dat, což může být náročné, pokud společnost zakoupila syntetická data od třetí strany, navíc pro validaci syntetických dat existuje mnoho různých metrik a může být obtížné vybrat tu nejvhodnější),
problémech s infrastrukturou,
špatných postupech při správě dat,
nedostatečné standardizaci datových souborů, včetně formátu, struktury, označování a spravování,
malé velikosti nebo neúplnosti datových souborů na to, aby bylo možné trénovat prediktivní modely nebo modely strojového učení s dostatečnou přesností,
pro některé konkrétní případy použití neexistují pro účely trénování data v dostatečném množství nebo vůbec.

FCA se s názory respondentů shoduje a problémy spatřuje zejména v úrovni detailu dat (tzv. granularitě), ve velikosti datových souborů a v kvalitě dat. Další rizika pak FCA spatřuje v možném zkreslení syntetických dat a v potenciální zpětné identifikaci subjektů dat, která hrozí například i u anonymizovaných dat. FCA zmiňuje, že čím větší je přesnost syntetického souboru dat, tím větší je riziko nedostatečné ochrany osobních údajů (některé metody generování syntetických dat totiž využívají skutečná data, která jsou v rámci syntetizace napodobována). S tímto závěrem respondenti souhlasili a navrhli, že kombinací více technologií zajišťujících ochranu soukromí (privacy-enhancing technologies - PET) by se mohlo riziko ohrožení ochrany osobních údajů zmírnit.

Fórum pro umělou inteligenci (AIPPF) následně doplnilo další zjištění ze Závěrečné zprávy. Podle AIPPF jsou někdy data společností a jejich správa a řízení organizovány v datových silech, která ale mohou být neefektivní pro systémy umělé inteligence, které naopak vyžadují holistický a multifunkční přístup.

Výhody syntetických dat

FCA vyzdvihuje tři hlavní výhody používání syntetických dat:

nahrazení reálných dat, která se vyskytují v omezeném množství nebo vůbec,
používání je méně nákladné (pro trénování přesných algoritmů strojového učení jsou nezbytné velké objemy dat, proto může být efektivnější a výhodnější generovat velké objemy syntetických dat než pořizovat reálná data),
potenciál zajistit dostatečnou ochranu osobních údajů.

Většina respondentů souhlasila s výše uvedenými přínosy používání syntetických dat. Nejčastěji spatřují přínosy syntetických dat v oblasti testování, vývoje a ověřování nových řešení nebo k modelování neobvyklých či extrémních scénářů (podvodné aktivity) nebo pro zátěžové testování.

Datová etika

Pro respondenty byla důležitá i datová etika. Pokud je syntetický datový soubor dat zkreslený nebo málo kvalitní, mohou společnosti na základě těchto dat činit rozhodnutí, která mohou vést k poškození a diskriminaci spotřebitelů.

FCA proto stanovila nové povinnosti společností vůči spotřebitelům. Při rozhodování v reálném světě na základě analýzy ze syntetických dat musí společnosti zajistit, aby syntetická data byla spravedlivá a reprezentativní. Společnosti také musí podniknout konkrétní kroky k odstranění zkreslení reálných vstupních dat a vygenerovaného souboru dat. Společnosti by neměly používat syntetická data jako náhradu reálných dat automaticky ve všech případech. Naopak by měly zvážit, zda je v konkrétním případě vhodnější použít syntetická data nebo reálná data.

Hlavní případy použití syntetických dat

Nejčastěji používají respondenti syntetická data v oblasti:

odhalování podvodů, finanční kriminality a boje proti praní špinavých peněz (48 % respondentů), v těchto případech mohou syntetická data obohatit skutečné data sety o známou typologii podvodů, což může přispět k vývoji sofistikovanějších algoritmů pro odhalování podvodů a automatizovat proces ověřování identity uživatelů,
vývoje modelů umělé inteligence a strojového učení (36 % respondentů).

Za nejcennější soubory syntetických dat respondenti z řad FinTechů a RegTechů považují:

transakční a finanční data, která se dají využít pro trénování obchodních modelů a pro případy použití související s odhalováním podvodů a boje proti praní špinavých peněz,
data o úvěrech, hypotékách a zaměstnání, která lze využít k vytváření profilů zákazníků a ke zlepšení personalizace služeb.