
Wprowadzenie do problemu / definicja luki
W Apache Tika ujawniono krytyczną podatność XXE (XML External Entity Injection) oznaczoną jako CVE-2025-66516 i ocenioną na CVSS 10.0. Błąd umożliwia atakującemu wstrzyknięcie zewnętrznych encji XML poprzez spreparowany plik PDF zawierający XFA, co może prowadzić do odczytu wrażliwych plików, SSRF, a choćby Denial-of-Service. Luka dotyczy kluczowych modułów Tiki i została skorygowana w najnowszych wydaniach projektu.
W skrócie
- CVE-2025-66516 (CVSS 10.0) — XXE w Tice wyzwalane przez PDF z XFA.
- Dotyczy m.in.: tika-core (1.13–3.2.1), tika-pdf-module (2.0.0–3.2.1), tika-parsers (1.13–1.28.5).
- Źródło problemu leży w tika-core; samo podniesienie wersji parsera PDF nie wystarczało. Naprawa wymaga aktualizacji tika-core ≥ 3.2.2.
- Luka rozszerza wcześniejsze CVE-2025-54988 – obecny wpis obejmuje więcej pakietów/gałęzi 1.x.
Kontekst / historia / powiązania
W sierpniu 2025 r. Apache Tika załatała XXE w module tika-parser-pdf-module (CVE-2025-54988). Późniejsza analiza wykazała jednak, iż wektor wejścia był w PDF-parserze, ale istotą podatności był kod w tika-core. Stąd drugi wpis CVE-2025-66516, który poszerza zakres dotkniętych pakietów, w tym gałąź 1.x (gdzie PDFParser znajdował się w „tika-parsers”). To wyjaśnia przypadki, w których organizacje zaktualizowały sam PDF-parser, a i tak pozostały podatne.
Analiza techniczna / szczegóły luki
Podatność polega na niewłaściwym przetwarzaniu zewnętrznych encji XML podczas analizy PDF-ów zawierających formularze XFA. W praktyce napastnik może osadzić w PDF odwołania do file://, http(s):// czy innych schematów, zmuszając Tikę do:
- odczytu lokalnych plików i ich ujawnienia (np. /etc/passwd, klucze, tokeny),
- wykonywania żądań SSRF do zasobów wewnętrznych (np. metadane chmury, serwisy admin),
- potencjalnego przepełnienia zasobów (DoS) poprzez ekspansję encji.
Dotknięte zakresy wersji wskazane są dla tika-core 1.13–3.2.1, tika-pdf-module 2.0.0–3.2.1 oraz tika-parsers 1.13–1.28.5. Naprawa wymaga aktualizacji tika-core; sama aktualizacja parsera PDF nie usuwała ryzyka.
Praktyczne konsekwencje / ryzyko
Apache Tika jest powszechnie wbudowana w systemy wyszukiwania, DMS/ECM, pipeline’y ETL, antywirusy, serwisy e-discovery i platformy bezpieczeństwa. W środowiskach, gdzie Tika parsuje niezweryfikowane dokumenty (np. uploady użytkowników, skrzynki pocztowe, roboty indeksujące), XXE może skutkować:
- wyciekiem danych z hosta analizującego,
- SSRF do sieci wewnętrznej/chmury,
- eskalacją na łańcuchach (np. pobranie kluczy, które umożliwią dalszy ruch boczny),
- a w określonych konfiguracjach — RCE (gdy łańcuchy XXE/SSRF dotykają usług wykonujących polecenia).
Rekomendacje operacyjne / co zrobić teraz
- Pilna aktualizacja pakietów Tiki
- Zaktualizuj do wydań naprawczych, w szczególności tika-core ≥ 3.2.2, oraz powiązane moduły (tika-pdf-module, tika-parsers). jeżeli używasz metapakietów (np. tika-server-standard, tika-app), upewnij się, iż transitively podnoszą tika-core.
- Twardnienie środowiska analizy plików
- Sandbox (konteneryzacja, seccomp, AppArmor/SELinux) dla procesu parsowania.
- Blokada egress: ogranicz ruch wychodzący z hostów parsujących (eliminuje SSRF exfil).
- Mounty „read-only” i brak dostępu do sekretów (klucze, tokeny) dla kontenerów Tiki.
- Konfiguracja parsera PDF / XML
- Jeżeli to możliwe, wyłącz rozwiązywanie zewnętrznych encji XML dla ścieżek, gdzie Tika jest używana (np. przez odpowiednie fabryki parserów XML/bezpieczne funkcje w JVM), do czasu pełnej aktualizacji. (Wskazówka ogólna przy XXE).
- Weryfikacja łańcucha zależności
- Przejrzyj SBOM/aplikacje korzystające z Tiki (w tym aplikacje serwerowe: tika-server-standard, tika-grpc, tika-app oraz paczki „standard-modules/package”). Upewnij się, iż wszystkie zależności podbiły tika-core.
- Monitoring i detekcja
- Szukaj nietypowych wywołań file:///http:// w logach Tiki, błędów parsera PDF, anomalii sieci wychodzącej z hostów analizy.
- Rozważ reguły detekcyjne dla wzorców XXE/SSRF w ruchu wychodzącym. (Dobre praktyki wg opracowań branżowych).
Różnice / porównania z innymi przypadkami (jeśli dotyczy)
- CVE-2025-54988 (sierpień 2025) opisano pierwotnie jako XXE w tika-parser-pdf-module. Obecny wpis CVE-2025-66516 koryguje i rozszerza zakres: problem faktycznie tkwił w tika-core, a dodatkowo wskazano dotknięte gałęzie 1.x. Dlatego część środowisk po wcześniejszej „łatce” przez cały czas była podatna.
Podsumowanie / najważniejsze wnioski
- To krytyczna XXE (CVSS 10.0) w powszechnie wykorzystywanym komponencie — Tika.
- Aktualizacja tika-core jest obowiązkowa; sama podmiana PDF-parsera nie wystarcza.
- Środowiska parsujące niezaufane dokumenty są szczególnie narażone — wdrażaj sandbox, blokadę egress i monitoring.
- Sprawdź cały łańcuch zależności (serwery Tiki, metapakiety), aby uniknąć „fałszywego poczucia bezpieczeństwa” po częściowych aktualizacjach.
Źródła / bibliografia
- SecurityWeek: „Critical Apache Tika Vulnerability Leads to XXE Injection” (08.12.2025). (SecurityWeek)
- CVE Program (cve.org): CVE-2025-66516 — rozszerzenie zakresu wobec CVE-2025-54988. (CVE)
- GitHub Advisory: „Apache Tika has XXE vulnerability — CVE-2025-66516” (zakres wersji i wymóg tika-core ≥ 3.2.2). (GitHub)
- CSO Online: przegląd i kontekst „patch widziany jako niepełny” (grudzień 2025). (CSO Online)
- Belgian CCB Advisory: implikacje dla metapakietów (tika-server-standard, tika-app, itp.) i rozszerzenie wobec CVE-2025-54988. (CCB Safeonweb)
