Nga EPFL një model i ri multimodal për AI më fleksibël

Mund të mësojë nga teksti, imazhet, video dhe zëri dhe, falë modularitetit, prodhon çdo numër ose kombinim parashikimesh

Mësimi i makinerisë: një model i ri multimodal për AI më fleksibël nga EPFL
Nga EPFL një model i ri multimodal për AI më fleksibël (Foto: Brian Penny/Pixabay)

Pavarësisht nëse po flasim për OpenAI ose ChatGPT, shumica dërrmuese e chatbots inteligjencë artificiale gjeneruese janë të bazuara në të ashtuquajturat Modeli i gjuhës së madhe (LLM), modelet e të mësuarit e thellë në një shkallë të gjerë të trajnuar për t'u dhënë përgjigje pyetjeve që u bëhen duke mësuar informacion përmes sasive të mëdha të tekstit.

Kufiri i fundit iAI gjeneruese Sono i modelet multimodale, të cilat kombinojnë kuptimin e gjuhës dhe imazhet, videon dhe audion për të ofruar një përvojë dhe shërbim edhe më të avancuar.

Krijimi i tyre, megjithatë, paraqet disa sfida, veçanërisht nëse synimi është të ndërtohen modele multimodale në një shkallë të vogël: të shpeshta. prania e të dhënave që mungojnë për shkak të mungesës së informacionit, pothuajse gjithmonë për shkak të disponueshmërisë së pjesshme të burimeve.

Shkurtimisht, rreziku është që modeli të mësojë në bazë të mungesës dhe që llogaritjet dhe parashikimet janë të shtrembëruara. Dhe këtu filloi EPFL me projektin e saj të ri.

Nga Universiteti Teknik i Lozanës dhe Cyrihut një koalicion për energjinë e gjelbër
Në 3D, doreza teknologjike që do ta bëjë realitetin virtual të prekshëm

Mësim Machine
Kampusi i Politeknikut Federal në Lozanë (Foto: Facebook/EFPL)

MultiModN, modeli multimodal modular i lindur në Lozanë

Studiuesit e Politekniku Federal i Lozanës (EPFL), një nga universitetet më të mira në botë për sa i përket inxhinierisë dhe teknologjisë së informacionit, në fakt janë zhvilluar MultiModN, një model unik multimodal modular i paraqitur së fundmi në NeurIPS2023.

Studiuesit nga laboratorët e Learning Machine for Education (ML4ED) dhe Machine Learning and Optimization (MLO) në Shkollën e Shkencave Kompjuterike dhe Komunikimit të EPFL vendosën të zhvillojnë dhe testojnë saktësisht të kundërtën e një të madhe, por të mendojnë në një shkallë më të vogël.

Të udhëhequr nga mësuesi Mary-Anne Hartley, drejtor i Laboratorit për Teknologjitë Globale Inteligjente të Shëndetit të organizuar bashkërisht në MLO dhe Shkollën e Mjekësisë Yale, dhe profesor Tanja Käser, drejtor i ML4ED, ekipi krijoi një model multimodal që mund të mësojë nga teksti, imazhet, videot dhe tingujt, por që, ndryshe nga ato ekzistuese, përbëhet nga një numër i ndryshueshëm i moduleve më të vogla, autonome dhe specifike për hyrjet.

Ky i fundit mund të zgjidhet bazuar në informacionin e disponueshëm dhe më pas të bashkohet në një sekuencë të çdo numri, kombinimi ose lloji të hyrjes. Prandaj, mund të prodhojë çdo numër ose kombinim parashikimesh.

"Ne vlerësuam MultiModN në dhjetë aktivitete reale, duke përfshirë mbështetjen për diagnozën mjekësore, parashikimin e performancës akademike dhe parashikimin e motit,” shpjegoi ai Vinitra Swamy, student i doktoraturës në ML4ED dhe MLO dhe bashkëautori i parë i projektit.

“Përmes këtyre eksperimenteve, ne besojmë se MultiModN është qasja e parë e interpretueshme dhe rezistente ndaj të dhënave që mungojnë në modelimin multimodal.".

"Receta" e EPFL për kompjuterë kuantikë më të fuqishëm
Nga Inteligjenca Artificiale një nxitje vendimtare për kriptovalutat?

Mësim Machine
Shkolla EPFL e Shkencave Kompjuterike dhe Komunikimit (Foto: Facebook/EPFL IC)

Rasti i parë i përdorimit: vendimet klinike për personelin mjekësor

Rasti i parë i përdorimit të MultiModN do të jetë si një sistem mbështetës për vendimet klinike për personelin mjekësor në mjedise me burime të kufizuara.

Në sektorin e kujdesit shëndetësor, në fakt, të dhënat klinike shpesh mungojnë, ndoshta për shkak të burimeve të kufizuara (një pacient nuk mund të përballojë një test specifik) ose, anasjelltas, për shkak të bollëkut të burimeve dhe informacionit. MultiModN është në gjendje të mësojë nga këto të dhëna të botës reale pa thithur të ashtuquajturat paragjykime të tij dhe të përshtatë parashikimet me çdo kombinim ose numër të dhënash.

"Mungesa e të dhënave është një shenjë dalluese në kontekstet me burime të kufizuara, dhe ndërsa modelet mësojnë këto modele që mungojnë, ato mund të kodojnë gabimet në parashikimet e tyre. nënvizoi ai Mary-Anne Hartley.

“Nevoja për fleksibilitet përballë burimeve të disponueshme në mënyrë të paparashikueshme është ajo që frymëzoi MultiModN".

Në një ngjarje kryesore, ndikimi i AI dhe mësimi i makinerive në shërbime
Të gjitha arsyet për ndikimin në rritje të AI në artin dixhital

Mësim Machine
Një laborator analizash (Foto: Michal Jarmoluk/Pixabay)

Nga laboratori në jetën reale: një provë për pneumoninë dhe tuberkulozin është duke u zhvilluar

Publikimi, megjithatë, është vetëm hapi i parë drejt zbatimit dhe testimit në terren. Profesor Hartley punoi me kolegët në Spitalin Universitar të Lozanës (CHUV) dhe Inselspital, Spitali Universitar i Bernës, për të kryer provat klinike fokusuar në diagnostikimin e pneumonisë dhe tuberkulozit në mjedise të kufizuara me burime dhe është në procesin e rekrutimit të mijëra pacientëve Afrika e Jugut, Tanzania, Namibia e benin.

Grupet kërkimore ndërmorën një iniciativë të gjerë trajnimi, mësimdhënie më shumë se 100 mjekë për të mbledhur sistematikisht të dhëna multimodale duke përfshirë imazhet dhe videot me ultratinguj, në mënyrë që MultiModN të mund të trajnohet për të qenë i ndjeshëm ndaj të dhënave reale nga rajone me burime të ulëta.

"Ne po mbledhim saktësisht llojin e të dhënave komplekse multimodale që MultiModN është krijuar për të trajtuar", tha doktori Noémie Boillat-Blanco, specialist i sëmundjeve infektive në CHUV.

“Ne jemi të emocionuar të shohim një model që mund ta vlerësojë kompleksiteti i burimeve që mungojnë në kontekstet tona dhe mungesën sistematike të vlerësimeve rutinë klinike", shtoi doktori Kristina Keitel të Inselspital, spitali universitar në kryeqytetin zviceran.

Siguria e AI? Deklarata e Bletchley Park është vendimtare
Aksi Axel Springer-OpenAI për AI në shërbim të gazetarisë

Inovacioni i EPFL është krijuar për të përmirësuar vendimmarrjen klinike duke ofruar akses në njohuri të specializuara mjekësore (Foto: Irwan/Unsplash)

Mësimi i Makinerisë në shërbim të së mirës publike

Zhvillimi dhe trajnimi i MultiModN përfaqëson vazhdimin e përpjekjeve të EPFL për të përshtatur mjetet e mësimit të makinerive me realitetin dhe për të mirën publike, dhe vjen menjëherë pas lançimit të Meditron, një model i inteligjencës artificiale i krijuar posaçërisht për sektorin mjekësor.

Meditron gjithashtu i përket kategorisë së Modeleve të Mëdha të Gjuhës (LLM), por ndryshe nga modelet gjeneraliste, të cilat shërbejnë një gamë të gjerë detyrash, ai fokusohet në fushë mjekësore, dhe është më kompakt për sa i përket madhësisë, por po aq efektiv.

Qëllimi i Meditron është që demokratizimi i aksesit në informacionin mjekësor me cilësi të lartë, duke ndihmuar kështu vendimet klinike.

Studiuesit e EPFL zhvilluan dy versione me respektivisht 7 miliardë dhe 70 miliardë parametra dhe modelet u trajnuan mbi burime të përzgjedhura të të dhënave mjekësore me cilësi të lartë, duke përfshirë literaturën shkencore të rishikuar nga kolegët dhe udhëzimet e ndryshme klinike, duke siguruar një bazë njohurish të gjerë dhe të saktë.

Si Meditron, i prezantuar në nëntor 2023, ashtu edhe MultiModN janë në përputhje me misionin e Qendrës së re të AI të EPFL, e cila fokusohet në mënyrën se si inteligjenca artificiale e përgjegjshme dhe efektive mund të promovojë inovacionin teknologjik për të mirën e të gjithë sektorëve të shoqërisë.

Sensorët revolucionarë që mund të kursejnë miliona bateri
AI: Lufta që do të shpërthejë nuk do të jetë siç presim…

Mësimi i makinerisë: një model i ri multimodal për AI më fleksibël nga EPFL
Pamja e jashtme e kampusit EPFL me logon e Politeknikut Federal të Lozanës (Foto: Facebook/EFPL IC)