
Duże modele językowe (LLM) gwałtownie się rozwijają, oferując spore możliwości w zakresie inspekcji wizualnej i kontroli jakości. Jednak w przypadku przetwarzania danych wizualnych bardziej trafnym określeniem są duże modele multimodalne (LMM), które rozszerzają LLM o możliwość przetwarzania dodatkowych modalności, takich jak obraz czy dźwięk. Dla uproszczenia, w niniejszym artykule będziemy odnosić się do nich jako LLM, ponieważ termin ten jest szerzej rozpoznawalny i powszechnie stosowany.
Wiele firm chętnie bada możliwości LLM w zakresie wizualnej kontroli jakości. Jednak najważniejsze pytanie pozostaje otwarte: Czy LLM mogą dorównać wydajnością dedykowanym metodom?
Aby to sprawdzić, przeprowadziliśmy serię eksperymentów oceniających skuteczność LLM w rzeczywistych zadaniach inspekcji wizualnej. Pierwszy eksperyment dotyczył wykrywania wad na płytkach PCB, co stanowi duże wyzwanie ze względu na specyfikę zbioru danych. Drugi skoncentrował się na inspekcji przemysłowej, gdzie warunki są nieprzewidywalne, a rodzaje wad znacznie się różnią. Te studia przypadków pomagają zobrazować, gdzie LLM sprawdzają się najlepiej, gdzie zawodzą i jakie ma to znaczenie dla firm rozważających wdrożenie AI do kontroli jakości.
Studium przypadku 1: Wykrywanie wad na płytkach PCB
Nasz pierwszy eksperyment koncentrował się na wykrywaniu wad na płytkach PCB przy użyciu zbioru danych VISA (PCB4) z AWS Open Data. Ten zestaw danych stanowi poważne wyzwanie ze względu na ograniczoną liczbę obrazów przedstawiających wady, nierównomierny rozkład klas oraz złożoność klasyfikacji wieloetykietowej. Niektóre klasy wad są dobrze reprezentowane, podczas gdy inne występują bardzo rzadko, co utrudnia modelowi uogólnianie wyników dla wszystkich możliwych wad.
Aby ocenić wydajność modelu GPT-4o, przedstawiliśmy mu obrazy wraz z opisem potencjalnych typów wad. Następnie model miał za zadanie sklasyfikować wykryte wady lub potwierdzić, iż płytka PCB jest wolna od usterek.

Wyniki eksperymentu
Przetestowaliśmy 40 obrazów w dwóch scenariuszach. W pierwszym przypadku wykorzystano jedynie obrazy z wadami. Model osiągnął wynik F1 na poziomie 0,37, dobrze radząc sobie z niektórymi typami wad, ale całkowicie pomijając inne. Wartość F1 odzwierciedla jakość modelu w przypadku nierównomiernego rozkładu klas. Wynik bliższy 1 oznacza lepszą skuteczność.
W drugim scenariuszu uwzględniono zarówno obrazy wadliwe, jak i te bez wad, co poprawiło wynik F1 do 0,59 – głównie dlatego, iż model skutecznie klasyfikował obrazy bez wad.
Aby zwiększyć precyzję modelu, wprowadziliśmy metodę one-shot learning, dostarczając modelowi obraz referencyjny przedstawiający możliwe wady przed testem. Ta technika znacząco poprawiła wyniki, podnosząc F1 do 0,51 oraz 0,68 w odpowiednich scenariuszach. Jednak pomimo tej poprawy, rezultaty przez cały czas były gorsze niż w przypadku tradycyjnych metod wykrywania anomalii, gdzie w poprzednich badaniach uzyskano porównywalny współczynnik AU PRC na poziomie 0,981.
Od Płytek PCB do Inspekcji Przemysłowych
Wykrywanie defektów na płytkach PCB dostarczyło cennych informacji na temat wydajności LLM, ale warunki w tym eksperymencie były wciąż stosunkowo uporządkowane w porównaniu do rzeczywistych inspekcji przemysłowych. W wielu branżach inspekcje realizowane są w znacznie mniej przewidywalnych warunkach, z różnym oświetleniem, orientacją obiektów, co dodatkowo utrudnia wykrywanie defektów. Aby dokładniej przetestować możliwości LLM w takich warunkach, przeprowadziliśmy drugie studium przypadku na obrazach i filmach z inspekcji przemysłowych pochodzących z zestawu danych klienta.
Studium przypadku 2: Wykrywanie Defektów w Inspekcjach Przemysłowych
Drugie studium przypadku polegało na wykrywaniu defektów w obrazach i filmach z inspekcji przemysłowych. W przeciwieństwie do inspekcji płytek PCB, które najczęściej realizowane są w kontrolowanych warunkach, inspekcje przemysłowe są znacznie bardziej nieprzewidywalne. Dane klienta okazały się dość skomplikowane: zawierały wizualnie podobne typy defektów oraz bardzo mało danych z etykietami. Oświetlenie, orientacja obiektów i rozdzielczość obrazów w zbiorze danych różniły się, co czyniło zadanie jeszcze bardziej wymagającym.
Wyniki Eksperymentu
Oceniliśmy dwa modele, które w tej chwili znajdują się na szczycie rankingu Chatbot Arena w zadaniach związanych z wizją: ChatGPT-4o i Gemini-2.0-pro-exp-02-05. Przetestowaliśmy dwa różne podejścia. W pierwszym scenariuszu modele miały za zadanie zwrócić najbardziej prawdopodobny i drugi najbardziej prawdopodobny defekt. Ta metoda poprawiła skuteczność, ale nie spełniała jeszcze wymaganej dokładności dla systemu klasy przemysłowej. Zastosowanie metody one-shot learning w której przykłady defektów były prezentowane przed testowaniem, pomogło poprawić wyniki klasyfikacji, ale nie na tyle aby wykluczyć manualne sprawdzanie wyników przez operatora systemu.
Drugie podejście uprościło klasyfikację do decyzji binarnej – defekt vs. brak defektu. Ta metoda poprawiła dokładność z 0,61 w początkowym teście do 0,73 dla ChatGPT-4o i z 0,63 do 0,66 dla Gemini-2.0-pro-exp-02-05. Mimo to, wyniki te wciąż pozostają niewystarczające dla rzeczywistych systemów przemysłowych, które wymagają niemal doskonałej niezawodności.

Kluczowe Wyzwania LLM w Przemysłowej Inspekcji Wzrokowej
Chociaż LLM wykazują potencjał w zakresie inspekcji jakości, przed ich wdrożeniem w rzeczywistych środowiskach przemysłowych należy wziąć pod uwagę kilka ograniczeń:
Czas Przetwarzania: LLM dostępne za pośrednictwem interfejsów API wprowadzają sporą latencję, ponieważ każdy obraz musi być przesyłany indywidualnie. W zależności od złożoności zapytania oraz liczby przykładów one-shot learning, czasy przetwarzania mogą wynosić od 1 do 10 sekund na obraz. Ta latencja sprawia, iż kontrola jakości w czasie rzeczywistym staje się niepraktyczna w szybkim tempie pracy przemysłowej.
Sprzęt i Skalowalność: Wdrożenie mniejszych, lokalnie hostowanych modeli (takich jak Qwen czy Molmo) może pomóc zmniejszyć zależność od chmurowych API, ale wymaga to znacznych inwestycji w sprzęt. Dodatkowo, skalowanie takiego rozwiązania na wiele miejsc inspekcji wiąże się z wyzwaniami logistycznymi i infrastrukturalnymi, co jeszcze bardziej utrudnia jego wdrożenie.
Przeczytaj więcej o tym, dlaczego dopasowane LLM to mądre rozwiązanie dla firm: Tutaj
Czy LLM mogą zastąpić Tradycyjne Systemy Kontroli Jakości?
LLM wciąż się rozwijają, ale nie są jeszcze samodzielnym rozwiązaniem w inspekcji wizualnej w przemyśle. Choć mogą wspierać niektóre zadania, wciąż wymagają nadzoru ludzkiego i dodatkowej infrastruktury.
Firmy rozważające kontrolę jakości opartą na LLM muszą dokładnie ocenić kompromisy. Tradycyjne modele uczenia maszynowego wciąż przewyższają ogólne LLM w kontrolowanych warunkach. Jednak w przypadku firm działających poza standardowymi liniami produkcyjnymi – gdzie warunki się różnią, obrazy są zróżnicowane, a wymagana jest mobilna akwizycja danych – LLM mogą pełnić rolę użytecznego narzędzia uzupełniającego, a nie pełnej zamiany.
Współpraca z theBlue.ai
Wiele firm dostrzega potencjał LLM/LMM w kontroli jakości, ale wdrożenie ich w rzeczywistych warunkach napotyka istotne wyzwania. Choć te modele mogą być użyteczne w eksperymentach, ich wyniki często są niejednoznaczne, gdy poddaje się je rygorystycznym testom. Tradycyjne podejścia wciąż mogą zapewniać lepszą dokładność i niezawodność w wielu przypadkach.
Nasza rola polega na pomocy firmom w pokonywaniu tych trudności. Analizujemy każdy przypadek indywidualnie, oceniamy różne rozwiązania oparte na sztucznej inteligencji oraz tradycyjne, a także przeprowadzamy szczegółowe testy w rzeczywistych warunkach. Dzięki temu firmy nie opierają się na modelu “jeden rozmiar pasuje do wszystkich”, ale wdrażają najbardziej efektywne i niezawodne rozwiązanie dostosowane do ich potrzeb.
Nasza rola to:
- Ocena modeli AI pod kątem praktycznego wdrożenia, a nie tylko teoretycznej wydajności.
- Testowanie i porównywanie różnych metodologii, aby firmy mogły wykorzystać najskuteczniejsze dostępne podejście.
- Konsulting eskpercki w zakresie integracji rozwiązań AI, minimalizowania ryzyka i maksymalizowania efektywności.
- Niezawodność i skalowalność, aby firmy mogły pewnie wdrażać inspekcję napędzaną AI na szeroką skalę
Dzięki naszemu doświadczeniu, oferujemy konsulting w zakresie wyboru odpowiedniego podejścia, oceny wydajności modeli i zapewnienia praktycznej integracji z istniejącymi procesami roboczymi. Wiele firm może nie mieć specjalistycznej wiedzy potrzebnej do przeprowadzenia takich ocen samodzielnie, i tutaj wkraczamy my. Łączymy nowoczesną technologię AI z rzeczywistymi potrzebami kontroli jakości, zapewniając dokładność, efektywność i skalowalność.
Jeśli Twoja firma rozważa kontrolę jakości opartą na AI, pomożemy wybrać najlepsze podejście – czy to model oparty na LLM, tradycyjny, czy hybrydowy. Skontaktuj się z nami, aby omówić, jak możemy zoptymalizować procesy inspekcji i poprawić niezawodność wykrywania defektów.
Quellen:
1Zou, Yang, Jongheon Jeong, Latha Pemula, Dongqing Zhang, and Onkar Dabeer. “SPot-the-Difference Self-Supervised Pre-training for Anomaly Detection and Segmentation.” arXiv, 2022, https://arxiv.org/pdf/2207.14315.
Najczęściej Zadawane Pytania (FAQ)
Czy LLM mogą całkowicie zastąpić tradycyjne metody wizualnej kontroli jakości?
Nie, choć LLM mogą pomóc w wykrywaniu defektów i nieprawidłowości, przez cały czas nie dorównują one niezawodności i dokładności tradycyjnych modeli uczenia maszynowego czy systemów opartych na regułach, szczególnie w zastosowaniach przemysłowych, gdzie spójność jest kluczowa.
Jakie są największe wyzwania związane z wykorzystaniem LLM do inspekcji wizualnej?
Główne wyzwania to czas przetwarzania, potrzeba korzystania z chmurowych interfejsów API, zmienność warunków obrazów oraz konieczność walidacji przez człowieka z powodu niespójnych wyników.
Czy system inspekcji jakości oparty na LLM może działać w czasie rzeczywistym?
Aktualnie LLM borykają się z problemami opóźnień związanych z czasem przetwarzania przez API, co sprawia, iż są one niepraktyczne w zastosowaniach w czasie rzeczywistym. Modele hostowane lokalnie mogą zmniejszyć to opóźnienie, ale wiążą się z wyzwaniami dotyczącymi skalowalności i inwestycji w sprzęt.
Jak firmy mogą określić, czy LLM są odpowiednim wyborem do ich potrzeb kontroli jakości?
Najlepszym podejściem jest przeprowadzenie zaplanowanych eksperymentów i porównanie wyników z tradycyjnymi metodami. Pomagamy firmom ocenić różne modele AI i wybrać najbardziej efektywne rozwiązanie na podstawie ich specyficznych wymagań.
Czy zdarzają się przypadki, w których LLM przewyższają tradycyjne metody wykrywania defektów?
LLM mogą być użyteczne w analizach eksploracyjnych, w sytuacjach o wysokiej zmienności warunków lub gdy dane oznaczone są rzadkością. Jednak w dobrze zorganizowanych środowiskach przemysłowych tradycyjne modele wciąż zapewniają lepszą dokładność i niezawodność.
Jak nasza firma może rozpocząć korzystanie z AI w wizualnej kontroli jakości?
Oferujemy usługi konsultacyjne i testowe, aby ocenić wykonalność inspekcji jakości opartej na AI w konkretnej aplikacji. Skontaktuj się z nami, aby omówić, jak możemy dostosować rozwiązanie do Twoich potrzeb.

Potencjał biznesowy modeli multimodalnych z wizją

Pionierski postęp: uczenie zero-shot na nowo definiuje segmentację obrazu
