Apple udostępniło model zmieniający zdjęcie w obiekt 3D. Efekty są niesamowite

instalki.pl 1 dzień temu

Apple po raz kolejny zaskakuje świat technologii, publikując otwartoźródłowy model, który potrafi w mgnieniu oka zamienić zwykłe zdjęcie 2D w realistyczną scenę 3D. Rozwiązanie nazwane SHARP powstało w ramach badań nad syntezą widoków i już teraz wzbudza duże zainteresowanie w środowisku sztucznej inteligencji.

Co istotne, mówimy nie o koncepcji, ale o działającym narzędziu, które Apple udostępniło publicznie. Model generuje wynik w czasie krótszym niż sekunda i nie wymaga specjalistycznego sprzętu dużej mocy. SHARP nie potrzebuje serii zdjęć ani skomplikowanej optymalizacji, co dotąd było standardem w tej dziedzinie. Wystarcza pojedyncza fotografia.

Jak działa SHARP

Zgodnie z opisem Apple, SHARP analizuje jedno zdjęcie i przewiduje trójwymiarową reprezentację sceny opartą na tzw. gaussach 3D. Są to drobne, rozmyte punkty światła i koloru, których miliony połączone razem tworzą scenę przestrzenną.

New paper from Apple – Sharp Monocular View Synthesis in Less than a Second

Mescheder et al. @ Apple just released a very impressive paper (congrats! ). You give it an image and it generates a really great looking 3d Gaussian representation. Uses depth pro. It's really good.… pic.twitter.com/XSZCZA8iio

— Tim Davison ᯅ (@timd_ca) December 16, 2025

What an awesome new model from Apple: "Sharp Monocular View Synthesis" #apple https://t.co/f3iBvQTuux pic.twitter.com/FF6LxHN1MP

— Gero Gerber ᯅ (@gerogerber) December 16, 2025

Model wykonuje cały proces w jednym przebiegu sieci neuronowej, co pozwala osiągnąć rekordową szybkość. Uzyskana scena nieźle zachowuje skalę i odległości, dzięki czemu możliwe są naturalne ruchy kamery. Apple podkreśla, iż SHARP osiąga znacznie lepsze wyniki jakościowe niż wcześniejsze rozwiązania, jednocześnie skracając czas generowania obrazu choćby tysiąckrotnie.

Framework SHARP. Źródło: 9to5Mac

Trening i ograniczenia

Aby osiągnąć taki efekt, SHARP został wytrenowany na ogromnych zbiorach danych syntetycznych oraz rzeczywistych. Dzięki temu model nauczył się rozpoznawać typowe zależności głębi i geometrii w różnych scenach.

Single image to Splat in just 2 seconds.
Testing out in AirVis app. Apple ML team did an amazing job. pic.twitter.com/3ATNDLA4En

— Arun Kurian (@AKurian001) December 16, 2025

Sharp Monocular View Synthesis in Less Than a Second

Monocular Video → 4DGS
Per-frame Gaussian splats generated from monocular video, visualized in the SuperSplat Editor.
SHARP project page: https://t.co/Ny3FNLMlUB#AppleML #PlayCanvas #SHARP #GaussianSplatting pic.twitter.com/QwHHqDWXcU

— VisualitoXr (@VisualitoXr) December 17, 2025

Nie jest to jednak rozwiązanie pozbawione kompromisów. SHARP bardzo dobrze odtwarza widoki zbliżone do oryginalnego punktu obserwacji, ale nie generuje fragmentów sceny, które nie były widoczne na zdjęciu. Jak podają badacze Apple, to świadoma decyzja projektowa, pozwalająca zachować zarówno wysoką szybkość, jak i stabilność wyników.

Otwarta przyszłość projektu

Apple udostępniło SHARP w serwisie GitHub, co umożliwia samodzielne testy i dalszy rozwój modelu. Użytkownicy już publikują własne eksperymenty, w tym animacje i krótkie filmy oparte na wygenerowanych scenach 3D.

SHARP pokazuje, iż choćby pojedyncze zdjęcie może stać się punktem wyjścia do pełnowymiarowego świata 3D – i to szybciej, niż wielu się spodziewało. Choć Apple oficjalnie nie zapowiada komercyjnych zastosowań, technologia ta może w przyszłości znaleźć miejsce w rozszerzonej rzeczywistości, wizualizacji przestrzennej czy narzędziach kreatywnych.

Źródło: 9to5mac, X

Bieber atakuje Apple. Jeden przycisk doprowadza go do szału
AIAppleciekawostkigrafika 3Dsztuczna inteligencjazdjęcia
Idź do oryginalnego materiału