Vědci z M asarykovy univerzity vyvinuli novou metodu vyhledávání
v multimediálních datech. Díky ní se dají velmi dobře
vyhledávat podobné fotografie. Nově vyvinutá metoda
netextového vyhledávání dokáže prohledat obsah více než
50 mil. obrázků za méně než půl sekundy.
Tato technologie získala prestižní
cenu IBM Shared University
Research. Masarykova univerzita se
tak stala první vysokou školou v České
republice, která je držitelem tohoto
mezinárodního ocenění. Součástí
ceny je dar v podobě hardwarového
vybavení, díky němuž je demonstrační
verze zpřístupněna široké
veřejnosti na adrese http://mufin.
fi.muni.cz/imgsearch/.
Vyhledávání
je jedním z nejstarších témat informatiky.
Digitální multimediální
technologie (hlas, hudba, obraz,
video) a exponenciální růst objemu
dat vyvolal masivní nárůst různých
způsobů vyhledávání. Zájem o kvalitní
vyhledávání roste zejména v éře
internetu. Vyhledávání je typickou
neplacenou službou, která je ale
přesto značně výdělečná. Současné
vyhledávače využívají pouze textovou
informaci (klíčová slova), popisující
datové objekty.
Všechny běžně používané metody
vyhledávají na základě porovnávání
podobnosti textových popisů, neumí
však porovnávat samotné obsahy
souborů. V případě obrázků, ale
i audio a videosouborů je vyhledávání
omezeno pouze na slovní popisy
a komentáře, což může výrazně snížit
úspěšnost vyhledávání.
Netextové vyhledávání
je obtížné. Existuje mnoho různých
typů deskriptorů i způsobů jejich
porovnávání. Deskriptory nelze
v tomto případě uspořádat, i když
uspořádání dat je základním předpokladem
tradičních vyhledávacích
metod.
Nová technologie s názvem
MUFIN (Multi-Feature Indexing
Network) je založena na porovnávání
obsahu datových objektů prostřednictvím
jejich vlastností. Z obrázku
se vyextrahují určité vlastnosti, jako
je barevné spektrum, textura nebo
rozlišení tvarů. Na základě takto analyzovaných
vlastností pak program
určí pro každý obrázek bod ve vícedimenzionálním
prostoru a porovnává
jeho vzdálenost s ostatními. Čím
blíže jsou tyto body, tím podobnější
si budou i k nim přiřazené obrázky.
Vývoj
Na vývoji technologie pracuje tým
informatiků z Masarykovy univerzity
pod vedením prof. Pavla Zezuly od
roku 2004. Jsou to jak zaměstnanci, tak
studenti MU FI. K základnímu rozvoji
došlo v uplynulých dvou letech v rámci
mezinárodního projektu vedeného
Výzkumnou laboratoří IBM v Haifě,
která Masarykovu univerzitu také nominovala
na ocenění. Je třeba podotknout,
že o cenu nelze žádat, ale že cena může
být udělena pouze na návrh pracoviště
IBM. Výzkum je u IBM soustředěn
v 8 výzkumných laboratořích. Výzkum
vyhledávání organizuje právě Výzkumná
laboratoř v izraelské Haifě.
Spolupráce mezi MU a společností
IBM je značně provázaná a v průběhu
let vznikla řada projektů, jež
významně rozšířily působnost společnosti
IBM v akademické sféře
České republiky. Oceněný projet je
jedinečnou technologií s možností
širokého uplatnění. Díky spolupráci
s IBM a darovanému hardwarovému
vybavení bude možné zmnohonásobit
počet porovnávaných obrázků
a rozšířit výzkum podobnostního hledání
do dalších aplikačních oblastí.
Demo verze
Veřejná demonstrační verze obsahuje
50 mil. obrázků z kolekce Flickr.
Využívá tři deskriptory pro barvy
a dva pro texturu. Hardware představuje
6 IBM serverů se dvěma čtyřjádrovými
procesory (dar IBM obsahoval celkem
8 serverů). Doba odezvy je cca 250 ms.
Prostupnost je asi 20 dotazů na sekundu.
Během krátké doby chtějí autoři
rozšířit databázi na 100 mil. fotografií.
Možnost aplikací
Novou technologii lze využít také
v řadě aplikací v biologii pro hledání
podobných DNA sekvencí, v oblasti
biometrických měření pro porovnávání
otisků prstů nebo rozpoznávání
obličejů případně při zpracování geografických
dat. Další aplikace se týkají
fyziky a chemie (zejména modelování),
medicíny, vyhledávání anomálií
v počítačových sítích, hledání plagiátů
a kopií různých medií apod. Software
lze použít také pro integraci a čištění
dat z nezávislých zdrojů nebo pro
vyhledávání přebytečných kopií.
Současné výzkumné
zaměření
Vývoj je zaměřen na škálovatelnost
a determinismus. Práce se týkají zejména
zvládnutí narůstající různorodosti a objemů
dat a růstu počtu uživatelů (dotazů)
i vícejazyčných dotazů. V oblasti determinismu
se především jedná o zdokonalování
podobnosti přesnosti odpovědí.
Vývoj směřuje k samoorganizovaným
vyhledávacím sítím. Cílem je také rozšíření
podobnostního hledání do dalších
aplikačních oblastí. Vyzkoušejte demoverzi
a v případě zájmu kontaktujte
zezula@muni.cz l /an/
Tisková konference, Masarykova univerzita, 11. prosince 2008