The refactoring will continue until morale improves.

2025-02-23 13:09:00 +00:00 · 2023-03-12 11:42:07 +01:00 · 2023-03-12 11:42:07 +01:00 · 8b8fc49901
commit 8b8fc49901
parent 73eaa0865d
313 changed files with 275 additions and 105 deletions
--- a/code/crawl-models/common/build.gradle
+++ b/code/crawl-models/common/build.gradle
@ -14,6 +14,7 @@ java {
 dependencies {
    implementation project(':code:common:model')
    implementation project(':code:common:config')
+    implementation project(':code:features-crawl:work-log')
    implementation project(':code:libraries:guarded-regex')
    implementation project(':code:crawl-models:crawling-model')

--- a/code/crawl-models/common/readme.md
+++ b/code/crawl-models/common/readme.md
@ -1,3 +1,3 @@
-# Crawl/Common
+# Crawl Common

 Contains model classes shared by the whole crawl-process-load ecosystem. 
--- a/code/crawl-models/common/src/main/java/nu/marginalia/crawling/common/plan/EdgeCrawlPlan.java
+++ b/code/crawl-models/common/src/main/java/nu/marginalia/crawling/common/plan/EdgeCrawlPlan.java
@ -4,9 +4,9 @@ import com.google.errorprone.annotations.MustBeClosed;
 import lombok.AllArgsConstructor;
 import lombok.NoArgsConstructor;
 import lombok.ToString;
-import nu.marginalia.crawling.common.WorkLog;
+import nu.marginalia.work_log.WorkLog;
 import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.model.CrawlLogEntry;
+import nu.marginalia.work_log.WorkLogEntry;
 import nu.marginalia.crawling.model.CrawledDomain;
 import nu.marginalia.crawling.model.CrawlingSpecification;
 import org.jetbrains.annotations.NotNull;
@ -22,7 +22,7 @@ import java.util.function.Predicate;
 import java.util.stream.Stream;

@AllArgsConstructor @NoArgsConstructor @ToString
-public class EdgeCrawlPlan {
+public class CrawlPlan {
    private final Logger logger = LoggerFactory.getLogger(getClass());
    public String jobSpec;
    public WorkDir crawl;
@ -80,19 +80,19 @@ public class EdgeCrawlPlan {
        CrawlerSpecificationLoader.readInputSpec(getJobSpec(), consumer);
    }

-    public void forEachCrawlingLogEntry(Consumer<CrawlLogEntry> consumer) throws FileNotFoundException {
+    public void forEachCrawlingLogEntry(Consumer<WorkLogEntry> consumer) throws FileNotFoundException {
        WorkLog.readLog(this.crawl.getLogFile(), consumer);
    }
-    public void forEachProcessingLogEntry(Consumer<CrawlLogEntry> consumer) throws FileNotFoundException {
+    public void forEachProcessingLogEntry(Consumer<WorkLogEntry> consumer) throws FileNotFoundException {
        WorkLog.readLog(this.process.getLogFile(), consumer);
    }

    public void forEachCrawledDomain(Consumer<CrawledDomain> consumer) {
        final CrawledDomainReader reader = new CrawledDomainReader();

-        try (Stream<CrawlLogEntry> entryStream = WorkLog.streamLog(crawl.getLogFile())) {
+        try (Stream<WorkLogEntry> entryStream = WorkLog.streamLog(crawl.getLogFile())) {
            entryStream
-                    .map(CrawlLogEntry::path)
+                    .map(WorkLogEntry::path)
                    .map(this::getCrawledFilePath)
                    .map(reader::readRuntimeExcept)
                    .forEach(consumer);
@ -106,10 +106,10 @@ public class EdgeCrawlPlan {
    public void forEachCrawledDomain(Predicate<String> idReadPredicate, Consumer<CrawledDomain> consumer) {
        final CrawledDomainReader reader = new CrawledDomainReader();

-        try (Stream<CrawlLogEntry> entryStream = WorkLog.streamLog(crawl.getLogFile())) {
+        try (Stream<WorkLogEntry> entryStream = WorkLog.streamLog(crawl.getLogFile())) {
            entryStream
                    .filter(entry -> idReadPredicate.test(entry.id()))
-                    .map(CrawlLogEntry::path)
+                    .map(WorkLogEntry::path)
                    .map(this::getCrawledFilePath)
                    .map(reader::readRuntimeExcept)
                    .forEach(consumer);
@ -132,8 +132,8 @@ public class EdgeCrawlPlan {
            final CrawledDomainReader reader = new CrawledDomainReader();

            stream = WorkLog.streamLog(crawl.getLogFile())
-                    .map(CrawlLogEntry::path)
-                    .map(EdgeCrawlPlan.this::getCrawledFilePath)
+                    .map(WorkLogEntry::path)
+                    .map(CrawlPlan.this::getCrawledFilePath)
                    .map(reader::readRuntimeExcept);
        }

--- a/code/crawl-models/common/src/main/java/nu/marginalia/crawling/common/plan/CrawlPlanLoader.java
+++ b/code/crawl-models/common/src/main/java/nu/marginalia/crawling/common/plan/CrawlPlanLoader.java
@ -13,9 +13,9 @@ public class CrawlPlanLoader {
        yaml = new Yaml();
    }

-    public EdgeCrawlPlan load(Path yamlFile) throws IOException {
+    public CrawlPlan load(Path yamlFile) throws IOException {
        try (var reader = new FileReader(yamlFile.toFile())) {
-            return yaml.loadAs(reader, EdgeCrawlPlan.class);
+            return yaml.loadAs(reader, CrawlPlan.class);
        }
        catch (IOException ex) {
            throw new IOException("Failed to load crawl plan " + yamlFile, ex);
--- a/code/crawl-models/common/src/main/java/nu/marginalia/crawling/common/plan/CrawlerSpecificationLoader.java
+++ b/code/crawl-models/common/src/main/java/nu/marginalia/crawling/common/plan/CrawlerSpecificationLoader.java
@ -3,11 +3,8 @@ package nu.marginalia.crawling.common.plan;
 import com.github.luben.zstd.ZstdInputStream;
 import com.google.gson.Gson;
 import com.google.gson.JsonStreamParser;
-import com.google.gson.stream.JsonReader;
-import nu.marginalia.crawling.common.AbortMonitor;
 import nu.marginalia.crawling.model.CrawlingSpecification;
 import nu.marginalia.model.gson.GsonFactory;
-import org.apache.logging.log4j.util.Strings;

 import java.io.BufferedReader;
 import java.io.FileInputStream;
--- a/code/crawl-models/converting-model/readme.md
+++ b/code/crawl-models/converting-model/readme.md
@ -1,4 +1,4 @@
 # Converting Models

-Contains models shared by the [converting-process](../../crawl/converting-process/) and
-[loading-process](../../crawl/loading-process/).
+Contains models shared by the [converting-process](../../crawl-processes/converting-process/) and
+[loading-process](../../crawl-processes/loading-process/).
--- a/code/crawl-models/crawling-model/readme.md
+++ b/code/crawl-models/crawling-model/readme.md
@ -1,7 +1,7 @@
 # Crawling Models

-Contains models shared by the [crawling-process](../../crawl/crawling-process/) and
-[converting-process](../../crawl/converting-process/).
+Contains models shared by the [crawling-process](../../crawl-processes/crawling-process/) and
+[converting-process](../../crawl-processes/converting-process/).

 ## Central Classes

--- a/code/crawl-models/crawling-model/src/main/java/nu/marginalia/crawling/model/CrawlLogEntry.java
+++ b/code/crawl-models/crawling-model/src/main/java/nu/marginalia/crawling/model/CrawlLogEntry.java
@ -1,4 +0,0 @@
-package nu.marginalia.crawling.model;
-
-public record CrawlLogEntry(String id, String ts, String path, int cnt) {
-}
--- a/code/crawl-processes/converting-process/build.gradle
+++ b/code/crawl-processes/converting-process/build.gradle
@ -40,7 +40,9 @@ dependencies {
    implementation project(':code:features-crawl:adblock')
    implementation project(':code:features-crawl:pubdate')
    implementation project(':code:features-crawl:topic-detection')
-
+    implementation project(':code:features-crawl:crawl-blocklist')
+    implementation project(':code:features-crawl:link-parser')
+    implementation project(':code:features-crawl:work-log')
    implementation libs.lombok
    annotationProcessor libs.lombok
    implementation libs.bundles.slf4j
--- a/code/crawl-processes/converting-process/readme.md
+++ b/code/crawl-processes/converting-process/readme.md
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/ConversionLog.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/ConversionLog.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/ConverterMain.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/ConverterMain.java
@ -4,9 +4,9 @@ import com.google.gson.Gson;
 import com.google.inject.Guice;
 import com.google.inject.Inject;
 import com.google.inject.Injector;
-import nu.marginalia.crawling.common.WorkLog;
+import nu.marginalia.work_log.WorkLog;
 import nu.marginalia.crawling.common.plan.CrawlPlanLoader;
-import nu.marginalia.crawling.common.plan.EdgeCrawlPlan;
+import nu.marginalia.crawling.common.plan.CrawlPlan;
 import nu.marginalia.converting.compiler.InstructionsCompiler;
 import nu.marginalia.converting.instruction.Instruction;
 import nu.marginalia.converting.processor.DomainProcessor;
@ -41,7 +41,7 @@ public class ConverterMain {

    @Inject
    public ConverterMain(
-            EdgeCrawlPlan plan,
+            CrawlPlan plan,
            DomainProcessor processor,
            InstructionsCompiler compiler,
            Gson gson
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/ConverterModule.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/ConverterModule.java
@ -5,19 +5,19 @@ import com.google.inject.AbstractModule;
 import com.google.inject.name.Names;
 import nu.marginalia.LanguageModels;
 import nu.marginalia.WmsaHome;
-import nu.marginalia.crawling.common.plan.EdgeCrawlPlan;
+import nu.marginalia.crawling.common.plan.CrawlPlan;
 import nu.marginalia.model.gson.GsonFactory;

 public class ConverterModule extends AbstractModule {

-    private final EdgeCrawlPlan plan;
+    private final CrawlPlan plan;

-    public ConverterModule(EdgeCrawlPlan plan) {
+    public ConverterModule(CrawlPlan plan) {
        this.plan = plan;
    }

    public void configure() {
-        bind(EdgeCrawlPlan.class).toInstance(plan);
+        bind(CrawlPlan.class).toInstance(plan);

        bind(Gson.class).toInstance(createGson());

--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/InstructionWriter.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/InstructionWriter.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/UpdateDomainStatistics.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/UpdateDomainStatistics.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/DocumentsCompiler.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/DocumentsCompiler.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/FeedsCompiler.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/FeedsCompiler.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/InstructionsCompiler.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/InstructionsCompiler.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/LinksCompiler.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/LinksCompiler.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/RedirectCompiler.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/RedirectCompiler.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/UrlsCompiler.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/compiler/UrlsCompiler.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/DisqualifiedException.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/DisqualifiedException.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/ProcessedDocument.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/ProcessedDocument.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/ProcessedDocumentDetails.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/ProcessedDocumentDetails.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/ProcessedDomain.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/model/ProcessedDomain.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/AcceptableAds.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/AcceptableAds.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/DocumentProcessor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/DocumentProcessor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/DomainProcessor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/DomainProcessor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/SiteWords.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/SiteWords.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/DocumentKeywordExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/DocumentKeywordExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/ArtifactKeywords.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/ArtifactKeywords.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/DocumentKeywordPositionBitmaskExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/DocumentKeywordPositionBitmaskExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/KeywordCounter.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/KeywordCounter.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/NameCounter.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/NameCounter.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/SimpleKeywords.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/SimpleKeywords.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/SubjectCounter.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/SubjectCounter.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/UrlKeywords.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/keywords/extractors/UrlKeywords.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/DocumentValuator.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/DocumentValuator.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/DomPruningFilter.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/DomPruningFilter.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/FeatureExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/FeatureExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/FeedExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/FeedExtractor.java
@ -1,6 +1,6 @@
 package nu.marginalia.converting.processor.logic;

-import nu.marginalia.crawling.common.link.LinkParser;
+import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.model.EdgeUrl;
 import org.jsoup.nodes.Element;
 import org.slf4j.Logger;
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/HtmlStandardExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/HtmlStandardExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/LshDocumentDeduplicator.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/LshDocumentDeduplicator.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/PlainTextLogic.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/PlainTextLogic.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/TitleExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/TitleExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/links/CommonKeywordExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/links/CommonKeywordExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/links/InternalLinkGraph.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/links/InternalLinkGraph.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/links/LinkProcessor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/links/LinkProcessor.java
@ -1,7 +1,7 @@
 package nu.marginalia.converting.processor.logic.links;

 import nu.marginalia.converting.model.ProcessedDocumentDetails;
-import nu.marginalia.crawling.common.blocklist.UrlBlocklist;
+import nu.marginalia.ip_blocklist.UrlBlocklist;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;

--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractionFilter.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractionFilter.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractor.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractor.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
@ -4,7 +4,7 @@ import com.google.inject.Inject;
 import com.google.inject.name.Named;
 import nu.marginalia.converting.processor.logic.links.LinkProcessor;
 import nu.marginalia.converting.processor.logic.summary.SummaryExtractor;
-import nu.marginalia.crawling.common.link.LinkParser;
+import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.crawling.model.CrawledDocument;
 import nu.marginalia.crawling.model.CrawledDomain;
 import nu.marginalia.converting.processor.keywords.DocumentKeywordExtractor;
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/tool/DocumentDebugger.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/tool/DocumentDebugger.java
--- a/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/util/LineUtils.java
+++ b/code/crawl-processes/converting-process/src/main/java/nu/marginalia/converting/util/LineUtils.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/DomPruningFilterTest.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/DomPruningFilterTest.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/PlainTextLogicTest.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/PlainTextLogicTest.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/SummaryExtractorTest.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/SummaryExtractorTest.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/pubdate/PubDateTest.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/logic/pubdate/PubDateTest.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/processor/keywords/SentenceExtractorTest.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/processor/keywords/SentenceExtractorTest.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/util/LineUtilsTest.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/converting/util/LineUtilsTest.java
--- a/code/crawl-processes/converting-process/src/test/java/nu/marginalia/test/util/TestLanguageModels.java
+++ b/code/crawl-processes/converting-process/src/test/java/nu/marginalia/test/util/TestLanguageModels.java
--- a/code/crawl-processes/converting-process/src/test/resources/html/monadnock.html
+++ b/code/crawl-processes/converting-process/src/test/resources/html/monadnock.html
--- a/code/crawl-processes/converting-process/src/test/resources/html/readme.md
+++ b/code/crawl-processes/converting-process/src/test/resources/html/readme.md
--- a/code/crawl-processes/converting-process/src/test/resources/html/summarization/187.shtml
+++ b/code/crawl-processes/converting-process/src/test/resources/html/summarization/187.shtml
--- a/code/crawl-processes/converting-process/src/test/resources/html/summarization/surrey.html
+++ b/code/crawl-processes/converting-process/src/test/resources/html/summarization/surrey.html
--- a/code/crawl-processes/converting-process/src/test/resources/html/summarization/surrey.html.1
+++ b/code/crawl-processes/converting-process/src/test/resources/html/summarization/surrey.html.1
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/index
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/index
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1021546012
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1021546012
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1028592943
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1028592943
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1081293162
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1081293162
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1105046394
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1105046394
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1146923296
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1146923296
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1194694074
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1194694074
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1207898281
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1207898281
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1268145073
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1268145073
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1294876331
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1294876331
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1314767420
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1314767420
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1316269786
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1316269786
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1316766580
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1316766580
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1319968043
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1319968043
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1338576987
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1338576987
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1341909571
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1341909571
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1369578579
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1369578579
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1437315645
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1437315645
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1458954960
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1458954960
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1475681345
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1475681345
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1498328446
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1498328446
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1507779664
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1507779664
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1540303379
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1540303379
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--154898476
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--154898476
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1552059399
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1552059399
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1557688340
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1557688340
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1584145751
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1584145751
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1605151204
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1605151204
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--162269247
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--162269247
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1624294488
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1624294488
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--164108285
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--164108285
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1645688243
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1645688243
--- a/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1658004609
+++ b/code/crawl-processes/converting-process/src/test/resources/html/work-set/url--1658004609
--- a/Show More
+++ b/Show More