October 27, 2023
Неодамна навлегов во светот на компјутерската визија и открив возбудлив модел на јазик на видот наречен LLaVA. Овој модел го револуционизира процесот на учење на модел да препознава специфични карактеристики на сликата.
Традиционално, обуката на модел да ја препознае бојата на автомобилот на сликата бара макотрпен процес на обука од нула. Меѓутоа, кај моделите како LLaVA, сè што треба да направите е да го поттикнете со прашање како „Која е бојата на автомобилот?" и Voila! Го добивате вашиот одговор, стил на нула-шут.
Овој пристап го отсликува напредокот што го видовме во областа на обработка на природни јазици (НЛП). Наместо да ги обучуваат јазичните модели од нула, истражувачите сега ги дотеруваат претходно обучените модели за да одговараат на нивните специфични потреби. Слично на тоа, компјутерската визија се движи во иста насока.
Замислете дека можете да извлечете вредни сознанија од сликите со едноставен текстуален потсетник. И ако треба да ги подобрите перформансите на моделот, малку дотерување може да направи чуда. Всушност, моите експерименти покажаа дека фино подесените модели можат дури и да ги надминат оние обучени од нула. Тоа е како да го имаш најдоброто од двата света!
Но, тука е вистинската промена на играта: основните модели, благодарение на нивната обемна обука за масивни сетови на податоци, поседуваат извонредно разбирање на претставите на слики. Ова значи дека можете фино да ги подесите со само неколку примери, елиминирајќи ја потребата од собирање илјадници слики. Всушност, тие можат дури и да научат од еден единствен пример.
Брзината на развој е уште една предност од користењето текстуални поттикнувања за интеракција со слики. Со овој пристап, можете брзо да креирате прототип за компјутерска визија за неколку секунди. Тој е брз, ефикасен и прави револуција на теренот.
Значи, дали се движиме кон иднината каде основните модели ќе го преземат водството во компјутерската визија, или сè уште има место за обука на модели од нула? Одговорот на ова прашање ќе ја обликува иднината на компјутерската визија.
PS Би сакал бесрамно да ја приклучам мојата платформа со отворен код наречена Datasaurus. Ја користи моќта на моделите на јазикот на видот за да им помогне на инженерите брзо да извлечат увид од сликите. Сакав да ги споделам моите размислувања и да започнам разговор за иднината на компјутерската визија. Ајде да разговараме!
Ана Стојановска е динамична личност во светот на онлајн играње во Северна Македонија. Со страст кон технологијата и локалните нијанси, таа се специјализира за локализација на содржината на онлајн казина за да резонира со македонските ентузијасти.