(crawler) Correct feed URLs in domain state db

Discovered feed URLs were given a double slash after their domain name in the DB. This will go away in the URL normalizer, so the URLs are still viable, but the commit fixes the issue regardless.
2025-02-23 04:58:59 +00:00 · 2024-12-26 15:18:31 +01:00 · 2024-12-26 15:18:31 +01:00 · 89db69d360
commit 89db69d360
parent 895cee7004
1 changed files with 10 additions and 10 deletions
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
@ -297,16 +297,16 @@ public class CrawlerRetreiver implements AutoCloseable {
    }

    private final List<String> likelyFeedEndpoints = List.of(
-            "/rss.xml",
-            "/atom.xml",
-            "/feed.xml",
-            "/index.xml",
-            "/feed",
-            "/rss",
-            "/atom",
-            "/feeds",
-            "/blog/feed",
-            "/blog/rss"
+            "rss.xml",
+            "atom.xml",
+            "feed.xml",
+            "index.xml",
+            "feed",
+            "rss",
+            "atom",
+            "feeds",
+            "blog/feed",
+            "blog/rss"
    );

    private Optional<String> guessFeedUrl(CrawlDelayTimer timer) throws InterruptedException {