(export) Filter non-HTML documents in exporters

Add a check to ensure only documents with "text/html" content type are processed in FeedExporter, AtagExporter, and TermFrequencyExporter. This prevents non-HTML documents from being parsed and helps maintain data consistency and keep the memory usage down.
2025-02-23 13:09:00 +00:00 · 2024-11-25 15:06:42 +01:00 · 2024-11-25 15:06:42 +01:00 · 3ec9c4c5fa
commit 3ec9c4c5fa
parent 0b6b5dab07
3 changed files with 5 additions and 1 deletions
--- a/code/processes/export-task-process/java/nu/marginalia/extractor/AtagExporter.java
+++ b/code/processes/export-task-process/java/nu/marginalia/extractor/AtagExporter.java
@ -89,6 +89,8 @@ public class AtagExporter implements ExporterIf {
                continue;
            if (null == doc.documentBody)
                continue;
            if (!doc.contentType.toLowerCase().startsWith("text/html"))
                continue;
            var baseUrl = new EdgeUrl(doc.url);
            var parsed = Jsoup.parse(doc.documentBody);
--- a/code/processes/export-task-process/java/nu/marginalia/extractor/FeedExporter.java
+++ b/code/processes/export-task-process/java/nu/marginalia/extractor/FeedExporter.java
@ -83,6 +83,8 @@ public class FeedExporter implements ExporterIf {
                continue;
            if (null == doc.documentBody)
                continue;
            if (!doc.contentType.toLowerCase().startsWith("text/html"))
                continue;
            var baseUrl = new EdgeUrl(doc.url);
            var parsed = Jsoup.parse(doc.documentBody);
--- a/code/processes/export-task-process/java/nu/marginalia/extractor/TermFrequencyExporter.java
+++ b/code/processes/export-task-process/java/nu/marginalia/extractor/TermFrequencyExporter.java
@ -111,7 +111,7 @@ public class TermFrequencyExporter implements ExporterIf {
                if (!(stream.next() instanceof CrawledDocument doc)) continue;
                if (doc.documentBody == null) continue;
-                if (!doc.contentType.startsWith("text/html"))
+                if (!doc.contentType.toLowerCase().startsWith("text/html"))
                    continue;
                docCount.incrementAndGet();