Autorská díla a multimodální AI - střípky ze světa postupujícího vývoje AI

PhDr. Ondřej Neumajer Ph.D.

Aktuální k: 24. 09. 2024

Může AI vytvářet skutečná autorská díla? Multimodální AI, která kombinuje text, obraz a video, zasahuje do tradičního pojetí AI. Vyvolává diskuse nejen mezi právníky a programátory, ale řeší jej také učitelé v rámci jejich výuky. Generátor videí Sora například umožňuje lidem bez technického vybavení a zkušeností vytvářet zajímavé videoobsahy. Nabízí příležitost pro efektivnější, rychlejší a kreativnější práci, ale přináší také rizika v podobě zneužívání jejích možností.

AI a autorské dílo

Zlé jazyky říkají, že na vývoji AI se podílí více právníků nežli programátorů. Nebylo by to nic divného. Současný svět netrpí tím, že by vývoj nových technologií byl pomalý nebo se nějak zásadně zadrhával, ale tím, že jejich adopce do společnosti vázne a v některých případech nejsou moderní výdobytky společností přijímány s nadšením (což je obecně dobře), nebo jsou dokonce odmítány. Mnohdy za to mohou obavy a nejasnosti kolem odpovědnosti. Samořiditelné auto s bezpečností větší, než kdyby jej řídil průměrný řidič, tu je již roky, ale převzetí odpovědnosti, když automobil přece jen nabourá, je složitý právní a i etický problém. Nežli se automobilky vydají do neodvratně navazujících právních bitev, pracují najatí právníci na tom, aby možné vyplácené kompenzace a pokuty byly co nejmenší.

V souvislosti s AI ve vzdělávání nás například zajímá, kdo má práva na výsledek dodaný chatbotem AI, který vznikl na základě našeho zadání, tzv. promptu. Podle autorského zákona může autorské dílo vytvářet jen člověk (… jsou výsledkem tvůrčí činnosti autora). Proto nelze výtvory AI chápat jako díla autorská a takovým dílům tedy nenáleží autorská ochrana, na jakou jsme zvyklí u lidských děl slovesných, hudebních, filmových či fotografických. Na tomto se právníci celkem shodnou.

Například advokátka Petra Dolejšová¹⁾ je ale přesvědčena, že v případě velmi přesných instrukcí pro chatbota, typicky u obrázků nebo u videí, kdy má člověk přesnou představu, jak by výsledek měl vypadat, autorským dílem výsledek vytvořený AI být může (VACA, J. Petra Dolejšová: Samotné prompty většinou autorským dílem nejsou. Doporučuju je ale archivovat. Lupa.cz, Internet Info. 19. 7. 2024).

Nejčastější otázky a odpovědi o generativní AI

Podmínky pro další využívání vygenerovaného obsahu jsou navíc upraveny v licenčních podmínkách jednotlivých AI aplikací. Začínám chápat sousloví „člověk v tísni“ – vyznat se v tom všem vyžaduje množství energie a jistou odolnost. Abychom učitelům alespoň trochu ulehčili, připravili jsme v Národním pedagogickém institutu ve spolupráci s právníkem Nejčastější otázky a odpovědi o generativní AI.

Rok multimodality

Rok 2024 je v AI ve znamení multimodality. Na pojem „multimediální“ jsme si v oblasti digitálního vzdělávání již dávno zvykli a všichni tušíme, co znamená. V souvislosti s nejnovějším vývojem AI se někdy hovoří o tom, že rok 2024 je rokem „multimodality“. Na to, jaký je v daných fenoménech významový rozdíl, jsem se zeptal několika chatbotů AI. Nejsrozumitelněji podle mne odpověděl Le Chat od francouzského Mistral AI – viz následující rámeček.

Multimediální vs. multimodální

Multimediální a multimodální jsou dva pojmy, které se často používají v souvislosti s komunikací a technologiemi, ale mají poněkud odlišné významy. Multimediální: Multimediální se týká použití více médií najednou. Média mohou zahrnovat text, obrázky, zvuk, video, animace atd. Například prezentace může být považována za multimediální, pokud obsahuje kombinaci textu, obrázků a videa. Multimediální komunikace se tedy týká použití různých forem médií k přenosu informací. Multimodální : Multimodální se týká použití více způsobů nebo kanálů k přenosu informací. V tomto kontextu „modus“ neznamená jen různé druhy médií, ale také různé smysly nebo způsoby komunikace. Například komunikace může být považována za multimodální, pokud zahrnuje sluchovou komunikaci (mluvené slovo), vizuální komunikaci (gesta, výrazy obličeje) a haptickou komunikaci (dotek).

(Zdroj: Mistral AI. Stručně vysvětli rozdíl mezi multimediální a multimodální [prompt]. Le Chat, 2023-05-16 [citováno 20. 7. 2024]. Dostupné z: https://chat.mistral.ai/.)

V zásadě lze říci, že multimediální se týká použití různých forem médií, zatímco multimodální se týká použití různých smyslových nebo komunikačních kanálů.

Po uvedení ChatGPT koncem roku 2022 nám vyrážely dech svou věrohodností textové výstupy jazykových modelů. K těm se v roce 2023 přidaly i generátory obrázků. V letošním roce není problém s generováním hudby, hlasu a videí. Nástup multimodální AI je ale něco více. Nejde jen o rozpoznávání hlasu a jeho převod na text nebo o vygenerování videa na základě slovního popisu. Klíčová je schopnost vnímat všechny tyto formy současně, v každý okamžik mít kontext i ostatních informací. Sami to známe, když například posloucháme lidskou konverzaci, ale samotné lidi – jejich tváře, mimiku, gesta, neverbální projevy atp. – nevidíme, a jistá část sdělení nám tak může unikat.

Představte si situaci, kdy v českém filmu dítě něco slibuje a kamera zabere, že při tom má za zády zkřížený ukazováček s prostředníčkem. Filmovému divákovi je hned jasné, že tím slib neguje. Ke stejnému závěru by nyní měl dospět i multimodální systém AI, byť ze samotné hlasové konverzace takové vyznění získat nelze. A to je skutečně velký rozdíl oproti automatickým titulkům, které si již několik let můžeme například na YouTube nechat zobrazovat. Tomáš Kapler, odborník na AI, to vyjadřuje větou: „Multimodální model pracuje s několika typy vstupních informací zároveň, tedy je trénovaný, aby vnímal ‚svět kolem sebe‘ podobně jako třeba člověk. (Google představil multimodální AI modely Gemini. Jsou lepší než GPT-4? Kapler.cz. 7. 12. 2023)

Generátor videí Sora

OpenAI představila v únoru 2024 svůj generátor videí Sora(https://openai.com/index/sora/), jehož realistická videa obletěla díky své uvěřitelnosti celý svět. Z textového zadání je Sora schopen vytvořit plynulé video ve full HD rozlišení s neuvěřitelnou mírou detailu. Ačkoli technologickým demům není radno vždy stoprocentně věřit, troufnu si tvrdit, že Sora předznamenává novou éru médií. Režisérem, kameramanem či filmařem se nyní může stát každý člověk, a to i bez potřebného technického filmařského vybavení, znalostí a zkušeností. To jistě přinese zcela nové a dosud nevídané možnosti pro kreativitu a vyjadřování jedince. Pro vzdělávání to například může znamenat možnost, aby každý učitel relativně jednoduše vytvářel vzdělávací videa pro své žáky.

Je více než jisté, že tento nový fenomén AI bude doprovázen i masivním zneužíváním ve formě zmanipulovaných obrázků, zaměňování hlasů nám známých lidí, lehce uvěřitelných deepfake videí, propracovaných dezinformačních kampaní… Poskytovatelé AI si to uvědomují, proto paralelně pracují na zavádění postupů a technologií, které znemožní nebo alespoň ztíží vytvářet různé formy dezinformací, nenávistného a předsudečného obsahu a zamezí jejich další distribuci. Nežli budou mít dojem, že se jim to dostatečně daří, nebude Sora veřejnosti dostupná. Obdobný postoj zatím zaujali i další poskytovatelé multimodálních AI produktů, kteří mezitím jejich nové verze ohlásili. Jiné společnosti, mezi nimi např. společnost Meta se svým multimodálním jazykovým modelem Llama, vůbec neplánují uvádět tento nástroj pro uživatele v Evropské unii, prý kvůli právnímu regulačnímu prostředí.

Význam digitálního vzdělávání v éře umělé inteligence

Nám ve vzdělávání to dává alespoň určitý čas pracovat na podpoře nového pojetí vzdělávání zaměřeného na mediální výchovu a digitální vzdělávání, které bude odpovídat dnešní úrovni rozvoje umělé inteligence.

Proto je důležité nejnovější směr vývoje AI a digitálních technologií sledovat a vyhodnocovat. Jak nám nedávná historie kolem Brexitu či minulých voleb amerického prezidenta ukázala, ve hře není mimo jiné nic menšího nežli budoucnost demokracie.

Společně s Řízením školy a Národním pedagogickým institutem jsme se tomuto tématu věnovali 4. října 2024 na konferenci Škola jako místo setkávání v odpolední sekci digitálního vzdělávání. Z článků na téma ICT ve škole doporučujeme Bezpečnost školních informačních systémů.

Zdroj: Časopis Řízení školy; Ilustrační obrázek. ChatGPT (OpenAI) ve verzi GPT-4o (DALL·E).4. 8. 2024