Mi a UniX AI kínai humanoid robot?
A kínai Wanda, a mesterséges intelligenciával működő humanoid robot most mutatta be új intelligencia képességeit. A Google és a Standford új Streetscapes-t ad ki, az Nvidia pedig lehetővé teszi az Audio Flamingo használatát. Ultra "UniTouch" intelligencia plusz 32 DoF (GOOGLE + STANFORD AI).
https://www.youtube.com/watch?v=jONS9FHyitc
A videó három innovatív fejlesztést ír le a mesterséges intelligencia (artificial intelligence) területén:
-
1. Wanda: A hétköznapi életre tervezett humanoid robot
* Képességek:
* Háztartási feladatok:
Kényes tárgyak kezelése (mint a tofu), mosogatás, takarítás, más robotokkal való együttműködés.
* Operatív feladatok:
Egészségügyi diagnózisok, tanácsadás és segítségnyújtás.
* Családgondozás:
Oktatás, egészségügyi felügyelet, társaság, érzelmi támogatás.
* Kulcsfontosságú technológiai jellemzők:
* Uni-Touch taktilis AI modell (Uni-Touch Tactile AI Model):
Lehetővé teszi a különböző tárgyak pontos megragadását és kezelését.
* Központi platform (Central Platform):
Lehetővé teszi a szemantikus megértést, 3D-s környezeti érzékelést, pozicionálást és akadályelkerülést.
* Bionikus kar (Bionic Arm):
Erőt és precizitást biztosít a mozgásban.
* Moduláris felépítés (Modular Design):
Lehetővé teszi a költséghatékony tömeggyártást.
* Jövőbeli fejlesztések:
* Kerekes modell gyártása még ebben az évben.
* Kétlábú modell várhatóan 2025-ben.
* Potenciális alkalmazások az intelligens gyártásban, kereskedelmi szolgáltatásokban és háztartásokban.
-
2. Streetscapes: AI által generált realisztikus városi látképek
* Képességek:
Rendkívül realisztikus utcaképeket generál teljes városokról a semmiből, vezetési élményeket szimulálva.
* Kulcsfontosságú technológiai jellemzők:
* Diffúziós modellek (Diffusion Models):
Millió valódi utcaképen tanítva a Google Street View-ból.
* Bemeneti adatok:
Utcatérképeket, épületmagasság-térképeket és kívánt kameraútvonalakat használ.
* Mozgásmodul (Motion Module):
Biztosítja a sima és következetes mozgást a képkockák között.
* Időbeli interpoláció (Temporal Imputation):
Új képeket generál az előzőek figyelembevételével a koherens szekvenciákért.
* Szöveges prompt vezérlés (Text Prompt Control):
Lehetővé teszi a felhasználók számára a napszak, időjárás, sőt az építészeti stílusok keverésének meghatározását.
* Jövőbeli fejlesztések:
* Integráció fejlettebb modellekkel, mint az OpenAI Sora.
* Javított irányítás a mozgó objektumok felett.
* Fokozott konzisztencia az egymást követő képek között.
-
3. Audio Flamingo: Nyelvi modellek kiterjesztése hangértelmezéssel
* Képességek:
* Széles körű hangok megértése, beleértve a nem beszédhangokat és nem verbális jelzéseket.
* Azonosítja a hangok sorrendjét, tisztaságát, hangerőváltozásait és a távoli zajokat.
* Többfordulós párbeszédet folytat kontextuális megértéssel.
* Kulcsfontosságú technológiai jellemzők:
* Kevés mintán alapuló tanulás és visszakeresés (Few-Shot Learning and Retrieval):
Alkalmazkodik az új feladatokhoz minimális tanítási adattal.
* Kulcsszó-kölcsönzés (Keyword Borrowing):
Releváns kulcsszavakat használ a visszakeresett hangmintákból.
* Potenciális alkalmazások:
Forradalmasítja a valós világbeli AI alkalmazásokat azáltal, hogy természetesebb és hatékonyabb interakciót tesz lehetővé különböző kontextusokban.
Összhatás:
Ez a három AI-fejlesztés jelentős előrelépést mutat különböző területeken, a robotikától és automatizálástól kezdve a virtuális világok létrehozásáig és a fejlett hangértelmezésig. Potenciálisan átalakíthatják az iparágakat, javíthatják a mindennapi életet, és új lehetőségeket nyithatnak meg a mesterséges intelligencia területén.
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.