Krytyczna podatność w Apache Tika prowadzi do XXE — co trzeba załatać już dziś (CVE-2025-66516)

securitybeztabu.pl 1 dzień temu

Wprowadzenie do problemu / definicja luki

W Apache Tika ujawniono krytyczną podatność XXE (XML External Entity Injection) oznaczoną jako CVE-2025-66516 i ocenioną na CVSS 10.0. Błąd umożliwia atakującemu wstrzyknięcie zewnętrznych encji XML poprzez spreparowany plik PDF zawierający XFA, co może prowadzić do odczytu wrażliwych plików, SSRF, a choćby Denial-of-Service. Luka dotyczy kluczowych modułów Tiki i została skorygowana w najnowszych wydaniach projektu.

W skrócie

  • CVE-2025-66516 (CVSS 10.0) — XXE w Tice wyzwalane przez PDF z XFA.
  • Dotyczy m.in.: tika-core (1.13–3.2.1), tika-pdf-module (2.0.0–3.2.1), tika-parsers (1.13–1.28.5).
  • Źródło problemu leży w tika-core; samo podniesienie wersji parsera PDF nie wystarczało. Naprawa wymaga aktualizacji tika-core ≥ 3.2.2.
  • Luka rozszerza wcześniejsze CVE-2025-54988 – obecny wpis obejmuje więcej pakietów/gałęzi 1.x.

Kontekst / historia / powiązania

W sierpniu 2025 r. Apache Tika załatała XXE w module tika-parser-pdf-module (CVE-2025-54988). Późniejsza analiza wykazała jednak, iż wektor wejścia był w PDF-parserze, ale istotą podatności był kod w tika-core. Stąd drugi wpis CVE-2025-66516, który poszerza zakres dotkniętych pakietów, w tym gałąź 1.x (gdzie PDFParser znajdował się w „tika-parsers”). To wyjaśnia przypadki, w których organizacje zaktualizowały sam PDF-parser, a i tak pozostały podatne.

Analiza techniczna / szczegóły luki

Podatność polega na niewłaściwym przetwarzaniu zewnętrznych encji XML podczas analizy PDF-ów zawierających formularze XFA. W praktyce napastnik może osadzić w PDF odwołania do file://, http(s):// czy innych schematów, zmuszając Tikę do:

  • odczytu lokalnych plików i ich ujawnienia (np. /etc/passwd, klucze, tokeny),
  • wykonywania żądań SSRF do zasobów wewnętrznych (np. metadane chmury, serwisy admin),
  • potencjalnego przepełnienia zasobów (DoS) poprzez ekspansję encji.
    Dotknięte zakresy wersji wskazane są dla tika-core 1.13–3.2.1, tika-pdf-module 2.0.0–3.2.1 oraz tika-parsers 1.13–1.28.5. Naprawa wymaga aktualizacji tika-core; sama aktualizacja parsera PDF nie usuwała ryzyka.

Praktyczne konsekwencje / ryzyko

Apache Tika jest powszechnie wbudowana w systemy wyszukiwania, DMS/ECM, pipeline’y ETL, antywirusy, serwisy e-discovery i platformy bezpieczeństwa. W środowiskach, gdzie Tika parsuje niezweryfikowane dokumenty (np. uploady użytkowników, skrzynki pocztowe, roboty indeksujące), XXE może skutkować:

  • wyciekiem danych z hosta analizującego,
  • SSRF do sieci wewnętrznej/chmury,
  • eskalacją na łańcuchach (np. pobranie kluczy, które umożliwią dalszy ruch boczny),
  • a w określonych konfiguracjach — RCE (gdy łańcuchy XXE/SSRF dotykają usług wykonujących polecenia).

Rekomendacje operacyjne / co zrobić teraz

  1. Pilna aktualizacja pakietów Tiki
    • Zaktualizuj do wydań naprawczych, w szczególności tika-core ≥ 3.2.2, oraz powiązane moduły (tika-pdf-module, tika-parsers). jeżeli używasz metapakietów (np. tika-server-standard, tika-app), upewnij się, iż transitively podnoszą tika-core.
  2. Twardnienie środowiska analizy plików
    • Sandbox (konteneryzacja, seccomp, AppArmor/SELinux) dla procesu parsowania.
    • Blokada egress: ogranicz ruch wychodzący z hostów parsujących (eliminuje SSRF exfil).
    • Mounty „read-only” i brak dostępu do sekretów (klucze, tokeny) dla kontenerów Tiki.
  3. Konfiguracja parsera PDF / XML
    • Jeżeli to możliwe, wyłącz rozwiązywanie zewnętrznych encji XML dla ścieżek, gdzie Tika jest używana (np. przez odpowiednie fabryki parserów XML/bezpieczne funkcje w JVM), do czasu pełnej aktualizacji. (Wskazówka ogólna przy XXE).
  4. Weryfikacja łańcucha zależności
    • Przejrzyj SBOM/aplikacje korzystające z Tiki (w tym aplikacje serwerowe: tika-server-standard, tika-grpc, tika-app oraz paczki „standard-modules/package”). Upewnij się, iż wszystkie zależności podbiły tika-core.
  5. Monitoring i detekcja
    • Szukaj nietypowych wywołań file:///http:// w logach Tiki, błędów parsera PDF, anomalii sieci wychodzącej z hostów analizy.
    • Rozważ reguły detekcyjne dla wzorców XXE/SSRF w ruchu wychodzącym. (Dobre praktyki wg opracowań branżowych).

Różnice / porównania z innymi przypadkami (jeśli dotyczy)

  • CVE-2025-54988 (sierpień 2025) opisano pierwotnie jako XXE w tika-parser-pdf-module. Obecny wpis CVE-2025-66516 koryguje i rozszerza zakres: problem faktycznie tkwił w tika-core, a dodatkowo wskazano dotknięte gałęzie 1.x. Dlatego część środowisk po wcześniejszej „łatce” przez cały czas była podatna.

Podsumowanie / najważniejsze wnioski

  • To krytyczna XXE (CVSS 10.0) w powszechnie wykorzystywanym komponencie — Tika.
  • Aktualizacja tika-core jest obowiązkowa; sama podmiana PDF-parsera nie wystarcza.
  • Środowiska parsujące niezaufane dokumenty są szczególnie narażone — wdrażaj sandbox, blokadę egress i monitoring.
  • Sprawdź cały łańcuch zależności (serwery Tiki, metapakiety), aby uniknąć „fałszywego poczucia bezpieczeństwa” po częściowych aktualizacjach.

Źródła / bibliografia

  • SecurityWeek: „Critical Apache Tika Vulnerability Leads to XXE Injection” (08.12.2025). (SecurityWeek)
  • CVE Program (cve.org): CVE-2025-66516 — rozszerzenie zakresu wobec CVE-2025-54988. (CVE)
  • GitHub Advisory: „Apache Tika has XXE vulnerability — CVE-2025-66516” (zakres wersji i wymóg tika-core ≥ 3.2.2). (GitHub)
  • CSO Online: przegląd i kontekst „patch widziany jako niepełny” (grudzień 2025). (CSO Online)
  • Belgian CCB Advisory: implikacje dla metapakietów (tika-server-standard, tika-app, itp.) i rozszerzenie wobec CVE-2025-54988. (CCB Safeonweb)
Idź do oryginalnego materiału