Yet more restructuring. Improved search result ranking.

2025-02-23 04:58:59 +00:00 · 2023-03-16 21:35:54 +01:00 · 2023-03-16 21:35:54 +01:00 · 449471a076
commit 449471a076
parent 5ef17a2a20
471 changed files with 19834 additions and 1088 deletions
--- a/code/api/index-api/build.gradle
+++ b/code/api/index-api/build.gradle
@ -28,7 +28,8 @@ dependencies {
    implementation libs.guice
    implementation libs.rxjava
    implementation libs.protobuf
-    implementation libs.gson
+    implementation libs.bundles.gson
+    implementation libs.fastutil

    testImplementation libs.bundles.slf4j.test
    testImplementation libs.bundles.junit
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/IndexClient.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/IndexClient.java
@ -30,9 +30,9 @@ public class IndexClient extends AbstractDynamicClient {
    }

    @CheckReturnValue
-    public List<SearchResultItem> query(Context ctx, SearchSpecification specs) {
+    public SearchResultSet query(Context ctx, SearchSpecification specs) {
        return wmsa_search_index_api_time.time(
-                () -> this.postGet(ctx, "/search/", specs, SearchResultSet.class).blockingFirst().getResults()
+                () -> this.postGet(ctx, "/search/", specs, SearchResultSet.class).blockingFirst()
        );
    }

--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultItem.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultItem.java
@ -15,14 +15,14 @@ public class SearchResultItem {
    public final long combinedId;

    /** How did the subqueries match against the document ? */
-    public final List<SearchResultKeywordScore> scores;
+    public final List<SearchResultKeywordScore> keywordScores;

    /** How many other potential results existed in the same domain */
    public int resultsFromDomain;

    public SearchResultItem(long val) {
        this.combinedId = val;
-        this.scores = new ArrayList<>(16);
+        this.keywordScores = new ArrayList<>(16);
    }

    public EdgeId<EdgeUrl> getUrlId() {
@ -37,11 +37,11 @@ public class SearchResultItem {
    }

    /* Used for evaluation */
-    private transient double scoreValue = 1;
-    public void setScore(double score) {
+    private transient SearchResultPreliminaryScore scoreValue = null;
+    public void setScore(SearchResultPreliminaryScore score) {
        scoreValue = score;
    }
-    public double getScore() {
+    public SearchResultPreliminaryScore getScore() {
        return scoreValue;
    }

--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultKeywordScore.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultKeywordScore.java
@ -26,68 +26,17 @@ public final class SearchResultKeywordScore {
        this.hasPriorityTerms = hasPriorityTerms;
    }

-    private boolean hasTermFlag(WordFlags flag) {
+    public boolean hasTermFlag(WordFlags flag) {
        return WordMetadata.hasFlags(encodedWordMetadata, flag.asBit());
    }

-    public double documentValue() {
-        long sum = 0;
-
-        sum += DocumentMetadata.decodeQuality(encodedDocMetadata) / 5.;
-
-        sum += DocumentMetadata.decodeTopology(encodedDocMetadata);
-
-        if (DocumentMetadata.hasFlags(encodedDocMetadata, DocumentFlags.Simple.asBit())) {
-            sum += 20;
+    public int positionCount() {
+        return Integer.bitCount(positions());
    }

-        int rank = DocumentMetadata.decodeRank(encodedDocMetadata) - 13;
-        if (rank < 0)
-            sum += rank / 2;
-        else
-            sum += rank / 4;
-
-        return sum;
+    public int tfIdf() {
+        return (int) WordMetadata.decodeTfidf(encodedWordMetadata);
    }
-
-    public double termValue() {
-        double sum = 0;
-
-        double tfIdf = WordMetadata.decodeTfidf(encodedWordMetadata);
-        int positionBits = WordMetadata.decodePositions(encodedWordMetadata);
-
-        if (hasTermFlag(WordFlags.Title)) {
-            sum -= 15;
-        }
-
-        if (hasTermFlag(WordFlags.Site) && positionBits != 0) {
-            sum -= 10;
-        } else if (hasTermFlag(WordFlags.SiteAdjacent) && positionBits != 0) {
-            sum -= 5;
-        }
-
-        if (hasTermFlag(WordFlags.Subjects)) {
-            sum -= 10;
-        }
-        if (hasTermFlag(WordFlags.NamesWords)) {
-            sum -= 1;
-        }
-
-        if (hasTermFlag(WordFlags.UrlDomain)) {
-            sum -= 5;
-        }
-
-        if (hasTermFlag(WordFlags.UrlPath)) {
-            sum -= 5;
-        }
-
-
-        sum -= tfIdf / 10.;
-        sum -= Integer.bitCount(positionBits) / 3.;
-
-        return sum;
-    }
-
    public int subquery() {
        return subquery;
    }
@ -138,8 +87,8 @@ public final class SearchResultKeywordScore {
        return "SearchResultKeywordScore[" +
                "set=" + subquery + ", " +
                "keyword=" + keyword + ", " +
-                "encodedWordMetadata=" + encodedWordMetadata + ", " +
-                "encodedDocMetadata=" + encodedDocMetadata + ", " +
+                "encodedWordMetadata=" + new WordMetadata(encodedWordMetadata) + ", " +
+                "encodedDocMetadata=" + new DocumentMetadata(encodedDocMetadata) + ", " +
                "hasPriorityTerms=" + hasPriorityTerms + ']';
    }

--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultPreliminaryScore.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultPreliminaryScore.java
@ -0,0 +1,42 @@
+package nu.marginalia.index.client.model.results;
+
+import org.jetbrains.annotations.NotNull;
+
+import static java.lang.Boolean.compare;
+import static java.lang.Integer.compare;
+
+public record SearchResultPreliminaryScore(boolean hasSingleTermMatch,
+                                           boolean hasPriorityTerm,
+                                           int minNumberOfFlagsSet,
+                                           int minNumberOfPositions,
+                                           int overlappingPositions)
+        implements Comparable<SearchResultPreliminaryScore>
+{
+    @Override
+    public int compareTo(@NotNull SearchResultPreliminaryScore other) {
+        int diff;
+
+        diff = compare(hasSingleTermMatch, other.hasSingleTermMatch);
+        if (diff != 0) return diff;
+
+        diff = compare(minNumberOfFlagsSet, other.minNumberOfFlagsSet);
+        if (diff != 0) return diff;
+
+        diff = compare(hasPriorityTerm, other.hasPriorityTerm);
+        if (diff != 0) return diff;
+
+        diff = compare(overlappingPositions, other.overlappingPositions);
+        if (diff != 0) return diff;
+
+        return compare(minNumberOfPositions, other.minNumberOfPositions);
+    }
+
+    public boolean isGreat() {
+        return hasSingleTermMatch || (minNumberOfFlagsSet >= 1 && overlappingPositions >= 1);
+    }
+    public boolean isEmpty() {
+        return minNumberOfFlagsSet == 0
+            && minNumberOfPositions == 0
+            && overlappingPositions == 0;
+    }
+}
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultRankingContext.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultRankingContext.java
@ -0,0 +1,25 @@
+package nu.marginalia.index.client.model.results;
+
+import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
+import lombok.ToString;
+
+import java.util.Map;
+
+@ToString
+public class SearchResultRankingContext {
+    private final int docCount;
+    private final Object2IntOpenHashMap<String> termCounts = new Object2IntOpenHashMap<>(10, 0.5f);
+
+    public SearchResultRankingContext(int docCount, Map<String, Integer> termCounts) {
+        this.docCount = docCount;
+        this.termCounts.putAll(termCounts);
+    }
+
+    public int termFreqDocCount() {
+        return docCount;
+    }
+
+    public int frequency(String keyword) {
+        return termCounts.getOrDefault(keyword, 1);
+    }
+}
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultSet.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultSet.java
@ -9,7 +9,7 @@ import java.util.List;
@AllArgsConstructor @Getter @ToString
 public class SearchResultSet {
    public List<SearchResultItem> results;
-
+    public SearchResultRankingContext rankingContext;
    public int size() {
        return results.size();
    }
--- a/code/common/process/build.gradle
+++ b/code/common/process/build.gradle
@ -0,0 +1,32 @@
+plugins {
+    id 'java'
+    id "io.freefair.lombok" version "5.3.3.3"
+    id 'jvm-test-suite'
+}
+
+java {
+    toolchain {
+        languageVersion.set(JavaLanguageVersion.of(17))
+    }
+}
+
+dependencies {
+    implementation libs.notnull
+    implementation libs.lombok
+    annotationProcessor libs.lombok
+
+    implementation libs.bundles.slf4j
+    testImplementation libs.bundles.slf4j.test
+
+    implementation libs.guava
+    implementation libs.guice
+    implementation libs.commons.lang3
+
+    implementation libs.snakeyaml
+
+    testImplementation libs.bundles.slf4j.test
+    testImplementation libs.bundles.junit
+    testImplementation libs.mockito
+}
+
+
--- a/code/common/process/readme.md
+++ b/code/common/process/readme.md
@ -0,0 +1,4 @@
+# Process
+
+Basic functionality for a Process. Processes must include this dependency to ensure
+their loggers are configured properly!
--- a/code/features-crawl/work-log/src/main/java/nu/marginalia/work_log/WorkLog.java
+++ b/code/features-crawl/work-log/src/main/java/nu/marginalia/work_log/WorkLog.java
@ -1,4 +1,4 @@
-package nu.marginalia.work_log;
+package nu.marginalia.process.log;

 import com.google.errorprone.annotations.MustBeClosed;
 import org.apache.logging.log4j.util.Strings;
--- a/code/features-crawl/work-log/src/main/java/nu/marginalia/work_log/WorkLogEntry.java
+++ b/code/features-crawl/work-log/src/main/java/nu/marginalia/work_log/WorkLogEntry.java
@ -1,4 +1,4 @@
-package nu.marginalia.work_log;
+package nu.marginalia.process.log;

 public record WorkLogEntry(String id, String ts, String path, int cnt) {
 }
--- a/code/common/process/src/main/java/nu/marginalia/util/ParallelPipe.java
+++ b/code/common/process/src/main/java/nu/marginalia/util/ParallelPipe.java
--- a/code/common/process/src/main/resources/log4j2.properties
+++ b/code/common/process/src/main/resources/log4j2.properties
@ -0,0 +1,9 @@
+log4j2.isThreadContextMapInheritable=true
+status = info
+appender.console.type = Console
+appender.console.name = LogToConsole
+appender.console.layout.type = PatternLayout
+appender.console.layout.pattern = %highlight{%-5level}{FATAL=red, ERROR=red, WARN=yellow} %c{1}- %msg{nolookups}%n
+appender.console.filter.http.type = MarkerFilter
+rootLogger.level = info
+rootLogger.appenderRef.console.ref = LogToConsole
--- a/code/features-convert/keyword-extraction/readme.md
+++ b/code/features-convert/keyword-extraction/readme.md
@ -6,7 +6,7 @@ functions based on [POS tags](https://www.ling.upenn.edu/courses/Fall_2003/ling0

 ## Central Classes

-* [DocumentKeywordExtractor](src/main/java/nu/marginalia/keyword_extraction/DocumentKeywordExtractor.java)
+* [DocumentKeywordExtractor](src/main/java/nu/marginalia/keyword/DocumentKeywordExtractor.java)

 ## See Also

--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/DocumentKeywordExtractor.java
@ -1,7 +1,7 @@
-package nu.marginalia.keyword_extraction;
+package nu.marginalia.keyword;

-import nu.marginalia.keyword_extraction.extractors.*;
-import nu.marginalia.keyword_extraction.model.DocumentKeywordsBuilder;
+import nu.marginalia.keyword.extractors.*;
+import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.WordPatterns;
 import nu.marginalia.language.encoding.AsciiFlattener;
 import nu.marginalia.language.model.DocumentLanguageData;
@ -73,6 +73,8 @@ public class DocumentKeywordExtractor {
        }
    }

+
+
    private void createSimpleWords(DocumentKeywordsBuilder wordsBuilder,
                                  KeywordMetadata metadata,
                                  DocumentLanguageData documentLanguageData)
@ -88,7 +90,7 @@ public class DocumentKeywordExtractor {
                }

                String w = AsciiFlattener.flattenUnicode(word.wordLowerCase());
-                if (WordPatterns.singleWordQualitiesPredicate.test(w)) {
+                if (matchesWordPattern(w)) {
                    wordsBuilder.add(w, metadata.getMetadataForWord(word.stemmed()));
                }
            }
@ -101,4 +103,43 @@ public class DocumentKeywordExtractor {
            }
        }
    }
+
+    boolean matchesWordPattern(String s) {
+        // this function is an unrolled version of the regexp [\da-zA-Z]{1,15}([.\-_/:+*][\da-zA-Z]{1,10}){0,4}
+
+        String wordPartSeparator = ".-_/:+*";
+
+        int i = 0;
+
+        for (int run = 0; run < 15 && i < s.length(); run++, i++) {
+            char c = s.charAt(i);
+            if (c >= 'a' && c <= 'z') continue;
+            if (c >= 'A' && c <= 'Z') continue;
+            if (c >= '0' && c <= '9') continue;
+            break;
+        }
+
+        if (i == 0)
+            return false;
+
+        for (int j = 0; j < 5; j++) {
+            if (i == s.length()) return true;
+
+            if (wordPartSeparator.indexOf(s.charAt(i)) < 0) {
+                return false;
+            }
+
+            i++;
+
+            for (int run = 0; run < 10 && i < s.length(); run++, i++) {
+                char c = s.charAt(i);
+                if (c >= 'a' && c <= 'z') continue;
+                if (c >= 'A' && c <= 'Z') continue;
+                if (c >= '0' && c <= '9') continue;
+                break;
+            }
+        }
+
+        return false;
+    }
 }
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/KeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/KeywordExtractor.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction;
+package nu.marginalia.keyword;

 import nu.marginalia.language.WordPatterns;
 import nu.marginalia.language.model.DocumentSentence;
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/KeywordMetadata.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/KeywordMetadata.java
@ -1,7 +1,7 @@
-package nu.marginalia.keyword_extraction;
+package nu.marginalia.keyword;

 import lombok.Builder;
-import nu.marginalia.keyword_extraction.extractors.*;
+import nu.marginalia.keyword.extractors.*;
 import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.model.idx.WordFlags;

--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/WordReps.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/WordReps.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction;
+package nu.marginalia.keyword;

 import nu.marginalia.language.model.WordRep;

--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/ArtifactKeywords.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/ArtifactKeywords.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import nu.marginalia.language.model.DocumentLanguageData;

--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/KeywordPositionBitmask.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/KeywordPositionBitmask.java
@ -1,8 +1,8 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import com.google.inject.Inject;
 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.model.DocumentLanguageData;

 /** Generates a position bitmask for each word in a document */
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/NameLikeKeywords.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/NameLikeKeywords.java
@ -1,13 +1,13 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import com.google.common.base.CharMatcher;
 import it.unimi.dsi.fastutil.objects.Object2IntMap;
 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
-import nu.marginalia.keyword_extraction.WordReps;
+import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.model.WordRep;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.KeywordExtractor;

 import java.util.*;
 import java.util.stream.Collectors;
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/SubjectLikeKeywords.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/SubjectLikeKeywords.java
@ -1,12 +1,12 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
-import nu.marginalia.keyword_extraction.WordReps;
+import nu.marginalia.keyword.KeywordExtractor;
+import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.WordRep;
 import nu.marginalia.language.model.WordSpan;
 import nu.marginalia.language.model.WordSeparator;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
 import org.apache.commons.lang3.StringUtils;

 import java.util.*;
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/TitleKeywords.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/TitleKeywords.java
@ -1,7 +1,7 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

-import nu.marginalia.keyword_extraction.WordReps;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.WordReps;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.WordRep;

--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/UrlKeywords.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/UrlKeywords.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import ca.rmen.porterstemmer.PorterStemmer;
 import nu.marginalia.model.EdgeDomain;
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/WordsTfIdfCounts.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/extractors/WordsTfIdfCounts.java
@ -1,12 +1,12 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
-import nu.marginalia.keyword_extraction.WordReps;
+import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.WordPatterns;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.model.WordRep;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.model.WordSpan;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.apache.commons.lang3.StringUtils;
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/model/DocumentKeywords.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction.model;
+package nu.marginalia.keyword.model;


 import nu.marginalia.model.idx.WordMetadata;
--- a/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/src/main/java/nu/marginalia/keyword_extraction/model/DocumentKeywordsBuilder.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction.model;
+package nu.marginalia.keyword.model;

 import it.unimi.dsi.fastutil.objects.Object2LongLinkedOpenHashMap;
 import lombok.Getter;
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@ -0,0 +1,24 @@
+package nu.marginalia.keyword;
+
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
+
+class DocumentKeywordExtractorTest {
+
+    @Test
+    public void testWordPattern() {
+        DocumentKeywordExtractor extractor = new DocumentKeywordExtractor(null);
+
+        Assertions.assertTrue(extractor.matchesWordPattern("test"));
+        Assertions.assertTrue(extractor.matchesWordPattern("1234567890abcde"));
+        Assertions.assertFalse(extractor.matchesWordPattern("1234567890abcdef"));
+
+        Assertions.assertTrue(extractor.matchesWordPattern("test-test-test-test-test"));
+        Assertions.assertFalse(extractor.matchesWordPattern("test-test-test-test-test-test"));
+        Assertions.assertTrue(extractor.matchesWordPattern("192.168.1.100/24"));
+        Assertions.assertTrue(extractor.matchesWordPattern("std::vector"));
+        Assertions.assertTrue(extractor.matchesWordPattern("c++"));
+        Assertions.assertTrue(extractor.matchesWordPattern("m*a*s*h"));
+        Assertions.assertFalse(extractor.matchesWordPattern("Stulpnagelstrasse"));
+    }
+}
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/SentenceExtractorTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/SentenceExtractorTest.java
@ -1,8 +1,7 @@
-package nu.marginalia.keyword_extraction;
+package nu.marginalia.keyword;

 import lombok.SneakyThrows;
 import nu.marginalia.LanguageModels;
-import nu.marginalia.language.WordPatterns;
 import nu.marginalia.language.model.WordRep;
 import nu.marginalia.language.model.WordSpan;
 import nu.marginalia.language.sentence.SentenceExtractor;
@ -106,10 +105,6 @@ class SentenceExtractorTest {

    }

-    @Test
-    public void testPattern() {
-        System.out.println(WordPatterns.singleWordAdditionalPattern.matcher("2.6.18164.el5pae").matches());
-    }

    @SneakyThrows
    @Test
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/ArtifactKeywordsTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/ArtifactKeywordsTest.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.test.util.TestLanguageModels;
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/NameLikeKeywordsTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/NameLikeKeywordsTest.java
@ -1,7 +1,7 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import com.google.common.collect.Sets;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.test.util.TestLanguageModels;
 import org.junit.jupiter.api.Test;
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/SubjectLikeKeywordsTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/SubjectLikeKeywordsTest.java
@ -1,7 +1,7 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import com.google.common.collect.Sets;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import nu.marginalia.test.util.TestLanguageModels;
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/TitleKeywordsTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/TitleKeywordsTest.java
@ -1,7 +1,7 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import com.google.common.collect.Sets;
-import nu.marginalia.keyword_extraction.KeywordExtractor;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.test.util.TestLanguageModels;
 import org.jsoup.Jsoup;
--- a/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/UrlKeywordsTest.java
+++ b/code/features-convert/keyword-extraction/src/test/java/nu/marginalia/keyword_extraction/extractors/UrlKeywordsTest.java
@ -1,4 +1,4 @@
-package nu.marginalia.keyword_extraction.extractors;
+package nu.marginalia.keyword.extractors;

 import ca.rmen.porterstemmer.PorterStemmer;
 import nu.marginalia.model.EdgeUrl;
--- a/code/processes/converting-process/src/test/java/nu/marginalia/converting/logic/pubdate/PubDateTest.java
+++ b/code/processes/converting-process/src/test/java/nu/marginalia/converting/logic/pubdate/PubDateTest.java
@ -1,4 +1,4 @@
-package nu.marginalia.converting.logic.pubdate;
+package nu.marginalia.pubdate;

 import nu.marginalia.model.crawl.PubDate;
 import org.junit.jupiter.api.Test;
--- a/code/features-convert/readme.md
+++ b/code/features-convert/readme.md
@ -9,3 +9,4 @@
 * [adblock](adblock/) - Simulates Adblock
 * [pubdate](pubdate/) - Determines when a document was published
 * [topic-detection](topic-detection/) - Tries to identify the topic of a website
+* [summary-extraction](summary-extraction/) 
--- a/code/features-convert/summary-extraction/build.gradle
+++ b/code/features-convert/summary-extraction/build.gradle
@ -1,7 +1,7 @@
 plugins {
    id 'java'
    id "io.freefair.lombok" version "5.3.3.3"
-
+    id 'application'
    id 'jvm-test-suite'
 }

@ -11,26 +11,28 @@ java {
    }
 }

+application {
+    mainClass = 'nu.marginalia.converting.ConverterMain'
+    applicationName = 'converter-process'
+}
+
+tasks.distZip.enabled = false
+
 dependencies {
-    implementation libs.notnull
    implementation libs.lombok
    annotationProcessor libs.lombok
-
-    implementation libs.bundles.gson
-    implementation libs.rxjava
    implementation libs.bundles.slf4j
-    testImplementation libs.bundles.slf4j.test

-    implementation libs.guava
-    implementation libs.guice
+    implementation libs.notnull

-    implementation libs.snakeyaml
    implementation libs.jsoup
-    implementation libs.zstd

-    implementation libs.commons.net
-
-    implementation libs.opencsv
+    implementation libs.guice
+    implementation libs.guava
+    implementation libs.bundles.gson
+    implementation libs.trove
+    implementation libs.fastutil
+    implementation libs.commons.lang3

    testImplementation libs.bundles.slf4j.test
    testImplementation libs.bundles.junit
@ -38,6 +40,7 @@ dependencies {
 }

 test {
+    maxHeapSize = "8G"
    useJUnitPlatform()
 }

--- a/code/features-convert/summary-extraction/readme.md
+++ b/code/features-convert/summary-extraction/readme.md
@ -0,0 +1,17 @@
+# Summary Extraction
+
+This feature attempts to find a descriptive passage of text that summarizes
+what a search result "is about". It's the text you see below a search result.
+
+It uses several naive heuristics to try to find something that makes sense,
+and there is probably room for improvement. 
+
+There are many good techniques for doing this, but they've sadly not proved 
+particularly fast. Whatever solution is used needs to be able to summarize of
+order of a 100,000,000 documents with a time budget of a couple of hours.
+
+## Central Classes
+
+* [SummaryExtractor](src/main/java/nu/marginalia/summary/SummaryExtractor.java)
+* [SummaryExtractionFilter](src/main/java/nu/marginalia/summary/SummaryExtractionFilter.java) - DOM pruning algo. 
+  Doesn't always work, but when it works it's pretty good.
--- a/code/processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractionFilter.java
+++ b/code/processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractionFilter.java
@ -1,4 +1,4 @@
-package nu.marginalia.converting.processor.logic.summary;
+package nu.marginalia.summary;

 import com.google.common.base.Strings;
 import org.apache.commons.lang3.StringUtils;
--- a/code/processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractor.java
+++ b/code/processes/converting-process/src/main/java/nu/marginalia/converting/processor/logic/summary/SummaryExtractor.java
@ -1,4 +1,4 @@
-package nu.marginalia.converting.processor.logic.summary;
+package nu.marginalia.summary;

 import com.google.inject.Inject;
 import com.google.inject.name.Named;
@ -19,9 +19,8 @@ public class SummaryExtractor {
    }

    public String extractSummary(Document parsed) {
-        String summaryString;
+        String summaryString = extractSummaryRaw(parsed);

-        summaryString = extractSummaryRaw(parsed);
        summaryString = truncatedCharacters.matcher(summaryString).replaceAll(" ");
        summaryString = StringUtils.abbreviate(summaryString, "", maxSummaryLength);

@ -81,7 +80,7 @@ public class SummaryExtractor {
        }

        if (content.length() > 32) {
-            // AAAA AAAA AAAA AAAA AAAA AAAA AAAA AAAA
+            // AAAABBBBCCCCDDDDEEEEFFFFGGGGHHHH
            return content.toString();
        }

--- a/code/processes/converting-process/src/test/java/nu/marginalia/converting/logic/SummaryExtractorTest.java
+++ b/code/processes/converting-process/src/test/java/nu/marginalia/converting/logic/SummaryExtractorTest.java
@ -1,17 +1,13 @@
-package nu.marginalia.converting.logic;
+package nu.marginalia.summary;

-import nu.marginalia.WmsaHome;
-import nu.marginalia.converting.processor.logic.summary.SummaryExtractionFilter;
-import nu.marginalia.converting.processor.logic.summary.SummaryExtractor;
+import nu.marginalia.summary.SummaryExtractionFilter;
+import nu.marginalia.summary.SummaryExtractor;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;

-import java.io.FileOutputStream;
 import java.io.IOException;
-import java.io.PrintWriter;
-import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.Comparator;
 import java.util.HashMap;
@ -43,47 +39,6 @@ class SummaryExtractorTest {
                    System.out.println(e.getValue().text());
                });
    }
-    @Test
-    public void testSummaryFilter3() throws IOException {
-        var data = WmsaHome.getHomePath().resolve("test-data/url-327999153");
-        String html = Files.readString(data);
-        var doc = Jsoup.parse(html);
-        var filter = new SummaryExtractionFilter();
-        doc.filter(filter);
-
-        filter.getSummary(255);
-    }
-
-    @Test
-    public void testSummaryFilter2() throws IOException {
-        var data = WmsaHome.getHomePath().resolve("test-data/");
-
-        System.out.println("Running");
-
-        var fos = new PrintWriter(new FileOutputStream("/tmp/summaryDiff.html"));
-        fos.println("<table>");
-
-        for (var file : Objects.requireNonNull(data.toFile().listFiles())) {
-
-            var doc = Jsoup.parse(Files.readString(file.toPath()));
-            fos.println("<tr><th colspan=2>" + file.getName() + "</th></tr>");
-            fos.println("<tr><td width=50%>");
-            var filter = new SummaryExtractionFilter();
-
-            doc.select("header,nav,#header,#nav,#navigation,.header,.nav,.navigation,ul,li").remove();
-            doc.filter(filter);
-            var ret = filter.getSummary(255);
-
-            fos.println(ret);
-            fos.println("</td><td width=50%>");
-            String summary = summaryExtractor.extractSummary(Jsoup.parse(Files.readString(file.toPath())));
-            fos.println(summary);
-            fos.println("</td></tr>");
-        }
-
-        fos.println("</table>");
-        fos.flush();
-    }

    @Test
    void extractSurrey() throws IOException {
--- a/code/features-convert/summary-extraction/src/test/resources/html/monadnock.html
+++ b/code/features-convert/summary-extraction/src/test/resources/html/monadnock.html
--- a/code/features-convert/summary-extraction/src/test/resources/html/readme.md
+++ b/code/features-convert/summary-extraction/src/test/resources/html/readme.md
--- a/code/features-convert/summary-extraction/src/test/resources/html/summarization/187.shtml
+++ b/code/features-convert/summary-extraction/src/test/resources/html/summarization/187.shtml
--- a/code/features-convert/summary-extraction/src/test/resources/html/summarization/surrey.html
+++ b/code/features-convert/summary-extraction/src/test/resources/html/summarization/surrey.html
--- a/code/features-convert/summary-extraction/src/test/resources/html/summarization/surrey.html.1
+++ b/code/features-convert/summary-extraction/src/test/resources/html/summarization/surrey.html.1
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/index
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/index
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1021546012
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1021546012
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1028592943
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1028592943
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1081293162
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1081293162
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1105046394
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1105046394
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1146923296
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1146923296
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1194694074
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1194694074
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1207898281
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1207898281
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1268145073
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1268145073
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1294876331
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1294876331
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1314767420
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1314767420
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1316269786
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1316269786
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1316766580
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1316766580
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1319968043
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1319968043
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1338576987
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1338576987
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1341909571
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1341909571
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1369578579
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1369578579
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1437315645
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1437315645
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1458954960
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1458954960
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1475681345
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1475681345
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1498328446
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1498328446
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1507779664
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1507779664
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1540303379
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1540303379
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--154898476
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--154898476
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1552059399
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1552059399
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1557688340
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1557688340
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1584145751
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1584145751
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1605151204
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1605151204
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--162269247
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--162269247
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1624294488
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1624294488
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--164108285
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--164108285
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1645688243
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1645688243
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1658004609
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1658004609
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1658558834
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1658558834
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1698664879
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1698664879
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--169975195
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--169975195
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1701203332
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1701203332
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--17281998
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--17281998
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1742070028
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1742070028
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1745376814
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1745376814
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1749889035
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1749889035
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--176177364
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--176177364
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--177014197
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--177014197
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1794527707
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1794527707
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1797740201
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1797740201
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1799098579
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1799098579
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1959637826
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1959637826
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1971916964
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1971916964
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1985840368
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--1985840368
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2012610859
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2012610859
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--202178680
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--202178680
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2043528727
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2043528727
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2081757477
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2081757477
--- a/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2103982576
+++ b/code/features-convert/summary-extraction/src/test/resources/html/work-set/url--2103982576
--- a/Show More
+++ b/Show More