From 0894822b68adc0a97e452a1acea4d342df5ed560 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 28 May 2024 14:18:03 +0200
Subject: [PATCH 001/216] (converter) Add position information to serialized
 document data

This is not hooked in yet, and the term metadata is still left intact.  It should probably shrink to a smaller representation (byte?) with the upcoming removal of the position mask.
---
 .../keyword-extraction/build.gradle           |  1 +
 .../keyword/model/DocumentKeywords.java       | 14 ++++------
 .../model/DocumentKeywordsBuilder.java        |  2 +-
 .../processed-data/build.gradle               |  1 +
 .../model/processed/DocumentRecord.java       | 28 ++++++++++++++++++-
 .../DocumentRecordKeywordsProjection.java     | 14 ++++++++++
 .../DocumentRecordParquetFileReaderTest.java  | 21 ++++++++++++--
 .../processes/converting-process/build.gradle |  1 +
 .../writer/ConverterBatchWriter.java          |  8 ++++--
 code/processes/loading-process/build.gradle   |  1 +
 .../documents/KeywordLoaderService.java       |  4 ++-
 .../loader/LoaderIndexJournalWriterTest.java  |  5 +++-
 12 files changed, 83 insertions(+), 17 deletions(-)

diff --git a/code/features-convert/keyword-extraction/build.gradle b/code/features-convert/keyword-extraction/build.gradle
index 67da01f4..e45bf9f6 100644
--- a/code/features-convert/keyword-extraction/build.gradle
+++ b/code/features-convert/keyword-extraction/build.gradle
@@ -24,6 +24,7 @@ dependencies {
     implementation libs.notnull
 
     implementation libs.jsoup
+    implementation libs.roaringbitmap
     implementation libs.commons.lang3
 
     implementation libs.guava
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index f8ad86d7..85e6e3f8 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,6 +1,7 @@
 package nu.marginalia.keyword.model;
 
 import nu.marginalia.model.idx.WordMetadata;
+import org.roaringbitmap.RoaringBitmap;
 
 import java.io.Serial;
 import java.io.Serializable;
@@ -12,22 +13,17 @@ public final class DocumentKeywords implements Serializable {
 
     public final String[] keywords;
     public final long[] metadata;
+    public final RoaringBitmap[] positions;
 
     public DocumentKeywords(String[] keywords,
-                            long[] metadata)
+                            long[] metadata,
+                            RoaringBitmap[] positions)
     {
         this.keywords = keywords;
         this.metadata = metadata;
+        this.positions = positions;
 
         assert keywords.length == metadata.length;
-
-        if (DocumentKeywords.class.desiredAssertionStatus()) {
-            for (int i = 0; i < metadata.length; i++) {
-                if (metadata[i] == 0) {
-                    System.err.println("Bad metadata for keyword " + keywords[i]);
-                }
-            }
-        }
     }
 
     @Override
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 49cf3914..4d2b6d79 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -36,7 +36,7 @@ public class DocumentKeywordsBuilder {
             wordArray[i] = entry.getKey();
         }
 
-        return new DocumentKeywords(wordArray, meta);
+        return new DocumentKeywords(wordArray, meta, null);
     }
 
     public DocumentKeywordsBuilder(int capacity) {
diff --git a/code/process-models/processed-data/build.gradle b/code/process-models/processed-data/build.gradle
index 04ee95de..99d3a949 100644
--- a/code/process-models/processed-data/build.gradle
+++ b/code/process-models/processed-data/build.gradle
@@ -18,6 +18,7 @@ dependencies {
     implementation project(':third-party:parquet-floor')
 
     implementation libs.notnull
+    implementation libs.roaringbitmap
     implementation libs.trove
     implementation libs.bundles.parquet
 
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
index c90df7ee..4f6a6c5e 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
@@ -3,14 +3,18 @@ package nu.marginalia.model.processed;
 import blue.strategic.parquet.Dehydrator;
 import blue.strategic.parquet.Hydrator;
 import blue.strategic.parquet.ValueWriter;
+import gnu.trove.list.TIntList;
 import gnu.trove.list.TLongList;
+import gnu.trove.list.array.TIntArrayList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.*;
 import org.apache.parquet.schema.MessageType;
 import org.apache.parquet.schema.Types;
 import org.jetbrains.annotations.NotNull;
 import org.jetbrains.annotations.Nullable;
+import org.roaringbitmap.RoaringBitmap;
 
+import java.nio.ByteBuffer;
 import java.util.ArrayList;
 import java.util.List;
 
@@ -57,6 +61,8 @@ public class DocumentRecord {
     public List<String> words;
     @Nullable
     public TLongList metas;
+    @Nullable
+    public List<RoaringBitmap> positions;
 
     public static Hydrator<DocumentRecord, DocumentRecord> newHydrator() {
         return new DocumentDataHydrator();
@@ -83,9 +89,11 @@ public class DocumentRecord {
             Types.optional(FLOAT).named("quality"),
             Types.optional(INT32).named("pubYear"),
             Types.repeated(INT64).named("wordMeta"),
+            Types.repeated(BINARY).named("positions"),
             Types.repeated(BINARY).as(stringType()).named("word")
     );
 
+    @SneakyThrows
     public DocumentRecord add(String heading, Object value) {
         switch (heading) {
             case "domain" -> domain = (String) value;
@@ -113,6 +121,16 @@ public class DocumentRecord {
                 }
                 this.metas.add((long) value);
             }
+            case "positions" -> {
+                if (this.positions == null) {
+                    this.positions = new ArrayList<>(100);
+                }
+                byte[] array = (byte[]) value;
+                ByteBuffer buffer = ByteBuffer.wrap(array);
+                var rb = new RoaringBitmap();
+                rb.deserialize(buffer);
+                this.positions.add(rb);
+            }
             default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
         }
         return this;
@@ -139,10 +157,18 @@ public class DocumentRecord {
         if (pubYear != null) {
             valueWriter.write("pubYear", pubYear);
         }
-
         if (metas != null) {
             valueWriter.writeList("wordMeta", metas);
         }
+        if (positions != null) {
+            List<byte[]> pos = new ArrayList<>(positions.size());
+            for (RoaringBitmap bitmap : positions) {
+                ByteBuffer baos = ByteBuffer.allocate(bitmap.serializedSizeInBytes());
+                bitmap.serialize(baos);
+                pos.add(baos.array());
+            }
+            valueWriter.writeList("positions", pos);
+        }
 
         if (words != null) {
             valueWriter.writeList("word", words);
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
index 411fd13c..051fbd1d 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
@@ -5,7 +5,9 @@ import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.*;
 import org.jetbrains.annotations.NotNull;
+import org.roaringbitmap.RoaringBitmap;
 
+import java.nio.ByteBuffer;
 import java.util.ArrayList;
 import java.util.Collection;
 import java.util.List;
@@ -27,6 +29,7 @@ public class DocumentRecordKeywordsProjection {
 
     public List<String> words;
     public TLongList metas;
+    public List<RoaringBitmap> positions;
 
     public boolean hasKeywords() {
         return words != null && metas != null;
@@ -40,6 +43,7 @@ public class DocumentRecordKeywordsProjection {
         return List.of("domain", "ordinal", "htmlFeatures", "word", "wordMeta", "documentMetadata");
     }
 
+    @SneakyThrows
     public DocumentRecordKeywordsProjection add(String heading, Object value) {
         switch (heading) {
             case "domain" -> domain = (String) value;
@@ -57,6 +61,16 @@ public class DocumentRecordKeywordsProjection {
                 }
                 this.metas.add((long) value);
             }
+            case "position" -> {
+                if (this.positions == null) {
+                    this.positions = new ArrayList<>(100);
+                }
+                byte[] array = (byte[]) value;
+                ByteBuffer buffer = ByteBuffer.wrap(array);
+                var rb = new RoaringBitmap();
+                rb.deserialize(buffer);
+                this.positions.add(rb);
+            }
             default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
         }
         return this;
diff --git a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
index a358325a..d7c78852 100644
--- a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
+++ b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
@@ -1,10 +1,12 @@
 package nu.marginalia.io.processed;
 
+import gnu.trove.list.array.TIntArrayList;
 import gnu.trove.list.array.TLongArrayList;
 import nu.marginalia.model.processed.DocumentRecord;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
+import org.roaringbitmap.RoaringBitmap;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -12,6 +14,7 @@ import java.nio.file.Path;
 import java.util.List;
 import java.util.stream.IntStream;
 import java.util.stream.LongStream;
+import java.util.stream.Stream;
 
 import static org.junit.jupiter.api.Assertions.*;
 
@@ -30,6 +33,16 @@ class DocumentRecordParquetFileReaderTest {
 
     @Test
     public void test() throws IOException {
+
+        var rb1 = new RoaringBitmap();
+        rb1.add(1);
+        rb1.add(2);
+        rb1.add(3);
+        var rb2 = new RoaringBitmap();
+        rb2.add(1);
+        rb2.add(4);
+        rb2.add(5);
+
         var doc = new DocumentRecord(
                 "www.marginalia.nu",
                 "https://www.marginalia.nu/",
@@ -46,7 +59,8 @@ class DocumentRecordParquetFileReaderTest {
                 4L,
                 null,
                 List.of("Hello", "world"),
-                new TLongArrayList(new long[] { 2, 3})
+                new TLongArrayList(new long[] { 2L, 3L}),
+                List.of(rb1, rb2)
         );
 
         try (var writer = new DocumentRecordParquetFileWriter(parquetFile)) {
@@ -62,6 +76,8 @@ class DocumentRecordParquetFileReaderTest {
         List<String> words = IntStream.range(0, 100000).mapToObj(Integer::toString).toList();
         TLongArrayList metas = new TLongArrayList(LongStream.range(0, 100000).toArray());
 
+        List<RoaringBitmap> poses = Stream.generate(RoaringBitmap::new).limit(100000).toList();
+
         var doc = new DocumentRecord(
                 "www.marginalia.nu",
                 "https://www.marginalia.nu/",
@@ -78,7 +94,8 @@ class DocumentRecordParquetFileReaderTest {
                 5L,
                 null,
                 words,
-                metas
+                metas,
+                poses
         );
 
         try (var writer = new DocumentRecordParquetFileWriter(parquetFile)) {
diff --git a/code/processes/converting-process/build.gradle b/code/processes/converting-process/build.gradle
index 65ca316a..1429db5e 100644
--- a/code/processes/converting-process/build.gradle
+++ b/code/processes/converting-process/build.gradle
@@ -80,6 +80,7 @@ dependencies {
     implementation libs.bundles.mariadb
     implementation libs.bundles.nlp
 
+    implementation libs.roaringbitmap
     implementation libs.trove
     implementation libs.fastutil
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index 14972693..58fdf2d5 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -17,6 +17,7 @@ import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.processed.DocumentRecord;
 import nu.marginalia.model.processed.DomainLinkRecord;
 import nu.marginalia.model.processed.DomainRecord;
+import org.roaringbitmap.RoaringBitmap;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -120,12 +121,14 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                         0L,
                         null,
                         null,
+                        null,
                         null);
             }
             else {
                 var wb = document.words.build();
                 List<String> words = Arrays.asList(wb.keywords);
-                TLongList metas = new TLongArrayList(wb.metadata);
+                TLongArrayList metas = new TLongArrayList(wb.metadata);
+                List<RoaringBitmap> positions = Arrays.asList(wb.positions);
 
                 documentWriter.write(new DocumentRecord(
                         domainName,
@@ -143,7 +146,8 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                         document.details.metadata.encode(),
                         document.details.pubYear,
                         words,
-                        metas
+                        metas,
+                        positions
                 ));
 
             }
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 7131d4ea..709795e6 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -50,6 +50,7 @@ dependencies {
     implementation libs.gson
     implementation libs.commons.lang3
     implementation libs.zstd
+    implementation libs.roaringbitmap
     implementation libs.trove
     implementation libs.bundles.mariadb
 
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index 516eb189..259c1fa7 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -10,6 +10,7 @@ import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.processed.DocumentRecordKeywordsProjection;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import org.roaringbitmap.RoaringBitmap;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -66,7 +67,8 @@ public class KeywordLoaderService {
 
         var words = new DocumentKeywords(
                 projection.words.toArray(String[]::new),
-                projection.metas.toArray()
+                projection.metas.toArray(),
+                projection.positions.toArray(RoaringBitmap[]::new)
         );
 
         writer.putWords(combinedId,
diff --git a/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java b/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
index 568981c6..28e4dddb 100644
--- a/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
+++ b/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
@@ -12,6 +12,7 @@ import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 import org.mockito.Mockito;
+import org.roaringbitmap.RoaringBitmap;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -51,11 +52,13 @@ class LoaderIndexJournalWriterTest {
     public void testBreakup() throws Exception {
         String[] keywords = new String[2000];
         long[] metadata = new long[2000];
+        RoaringBitmap[] positions = new RoaringBitmap[2000];
         for (int i = 0; i < 2000; i++) {
             keywords[i] = Integer.toString(i);
             metadata[i] = i+1;
+            positions[i] = new RoaringBitmap();
         }
-        DocumentKeywords words = new DocumentKeywords(keywords, metadata);
+        DocumentKeywords words = new DocumentKeywords(keywords, metadata, positions);
         writer.putWords(1, 0, new DocumentMetadata(0),
                 words);
 

From 619392edf9a07a43a4199f439972843e1f444a3f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 28 May 2024 16:54:53 +0200
Subject: [PATCH 002/216] (keywords) Add position information to keywords

---
 .../keyword/DocumentKeywordExtractor.java     |  57 +++++-----
 .../marginalia/keyword/KeywordMetadata.java   |  46 ++++----
 .../extractors/KeywordPositionBitmask.java    | 105 ------------------
 .../model/DocumentKeywordsBuilder.java        |  59 +++++-----
 .../model/DocumentKeywordsPointer.java        |   7 ++
 .../keyword/DocumentKeywordExtractorTest.java |  47 +++-----
 .../keyword/SentenceExtractorTest.java        |   3 +-
 .../summary/SummaryExtractorTest.java         |   4 +-
 .../sideload/SideloaderProcessing.java        |   2 +-
 .../sideload/reddit/RedditSideloader.java     |   2 +-
 .../SentenceStatisticsExperiment.java         |   4 +-
 11 files changed, 109 insertions(+), 227 deletions(-)
 delete mode 100644 code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/KeywordPositionBitmask.java

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index aaad9800..84395d0f 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -1,6 +1,6 @@
 package nu.marginalia.keyword;
 
-import nu.marginalia.segmentation.NgramLexicon;
+import nu.marginalia.WmsaHome;
 import nu.marginalia.keyword.extractors.*;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.model.DocumentLanguageData;
@@ -9,27 +9,32 @@ import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import nu.marginalia.model.EdgeUrl;
 
 import com.google.inject.Inject;
+
 import java.util.*;
 import java.util.stream.Stream;
 
+
 public class DocumentKeywordExtractor {
 
     private final KeywordExtractor keywordExtractor;
     private final TermFrequencyDict dict;
-    private final NgramLexicon ngramLexicon;
 
 
     @Inject
-    public DocumentKeywordExtractor(TermFrequencyDict dict, NgramLexicon ngramLexicon) {
+    public DocumentKeywordExtractor(TermFrequencyDict dict) {
         this.dict = dict;
-        this.ngramLexicon = ngramLexicon;
+        this.keywordExtractor = new KeywordExtractor();
+    }
+
+    // for tests
+    public DocumentKeywordExtractor() {
+        this.dict = new TermFrequencyDict(WmsaHome.getLanguageModels());
         this.keywordExtractor = new KeywordExtractor();
     }
 
 
     public DocumentKeywordsBuilder extractKeywords(DocumentLanguageData dld, EdgeUrl url) {
 
-        var bitmask = new KeywordPositionBitmask(keywordExtractor, dld);
         var tfIdfCounts = new WordsTfIdfCounts(dict, keywordExtractor, dld);
 
         var titleKeywords = new TitleKeywords(keywordExtractor, dld);
@@ -39,7 +44,6 @@ public class DocumentKeywordExtractor {
         var urlKeywords = new UrlKeywords(url);
 
         var keywordMetadata = KeywordMetadata.builder()
-                .bitmask(bitmask)
                 .tfIdfCounts(tfIdfCounts)
                 .titleKeywords(titleKeywords)
                 .nameLikeKeywords(nameLikeKeywords)
@@ -51,14 +55,14 @@ public class DocumentKeywordExtractor {
 
         createSimpleWords(wordsBuilder, keywordMetadata, dld);
 
-        createWordsFromSet(wordsBuilder, keywordMetadata, tfIdfCounts);
-        createWordsFromSet(wordsBuilder, keywordMetadata, titleKeywords);
-        createWordsFromSet(wordsBuilder, keywordMetadata, subjectLikeKeywords);
-        createWordsFromSet(wordsBuilder, keywordMetadata, nameLikeKeywords);
+        createNGramTermsFromSet(wordsBuilder, keywordMetadata, tfIdfCounts);
+        createNGramTermsFromSet(wordsBuilder, keywordMetadata, titleKeywords);
+        createNGramTermsFromSet(wordsBuilder, keywordMetadata, subjectLikeKeywords);
+        createNGramTermsFromSet(wordsBuilder, keywordMetadata, nameLikeKeywords);
 
         var importantWords = getImportantWords(tfIdfCounts, nameLikeKeywords, subjectLikeKeywords, wordsBuilder);
-        wordsBuilder.addImportantWords(importantWords);
 
+        wordsBuilder.addImportantWords(importantWords);
         wordsBuilder.addAllSyntheticTerms(artifactKeywords.getWords());
 
         return wordsBuilder;
@@ -77,36 +81,30 @@ public class DocumentKeywordExtractor {
                 .sorted(tfIdfCounts.reversed())
                 .limit(16)
                 .filter(w -> tfIdfCounts.termFrequencyDictValue(w) > 100)
-                .sorted(Comparator.comparing(w -> tfIdfCounts.termFrequencyDictValue(w)))
+                .sorted(Comparator.comparing(tfIdfCounts::termFrequencyDictValue))
                 .limit(6)
                 .map(w -> w.word)
                 .toList();
     }
 
-    private void createWordsFromSet(DocumentKeywordsBuilder wordsBuilder,
-                                   KeywordMetadata metadata,
-                                   WordReps words) {
-
+    private void createNGramTermsFromSet(DocumentKeywordsBuilder wordsBuilder,
+                                         KeywordMetadata metadata,
+                                         WordReps words) {
         for (var rep : words.getReps()) {
-
             var word = rep.word;
 
             if (!word.isBlank()) {
                 long meta = metadata.getMetadataForWord(rep.stemmed);
-
-                assert meta != 0L : "Missing meta for " + rep.word;
-
-                wordsBuilder.add(word, meta);
+                wordsBuilder.addMeta(word, meta);
             }
         }
     }
 
-
-
     private void createSimpleWords(DocumentKeywordsBuilder wordsBuilder,
                                   KeywordMetadata metadata,
                                   DocumentLanguageData documentLanguageData)
     {
+        int pos = 0;
         for (var sent : documentLanguageData.sentences) {
 
             if (wordsBuilder.size() > 1500)
@@ -119,10 +117,11 @@ public class DocumentKeywordExtractor {
 
                 String w = word.wordLowerCase();
                 if (matchesWordPattern(w)) {
-                    long meta = metadata.getMetadataForWord(word.stemmed());
-                    assert meta != 0L : "Missing meta for " + word.word();
+                    /* Add information about term positions */
+                    wordsBuilder.addPos(word.wordLowerCase(), pos++);
 
-                    wordsBuilder.add(w, meta);
+                    /* Add metadata for word */
+                    wordsBuilder.addMeta(w, metadata.getMetadataForWord(word.stemmed()));
                 }
             }
 
@@ -130,9 +129,8 @@ public class DocumentKeywordExtractor {
                 var rep = new WordRep(sent, names);
 
                 long meta = metadata.getMetadataForWord(rep.stemmed);
-                assert meta != 0L : "Missing meta for " + rep.word;
 
-                wordsBuilder.add(rep.word, meta);
+                wordsBuilder.addMeta(rep.word, meta);
             }
 
             for (int i = 0; i < sent.ngrams.length; i++) {
@@ -140,9 +138,8 @@ public class DocumentKeywordExtractor {
                 var ngramStemmed = sent.ngramStemmed[i];
 
                 long meta = metadata.getMetadataForWord(ngramStemmed);
-                assert meta != 0L : "Missing meta for " + ngram;
 
-                wordsBuilder.add(ngram, meta);
+                wordsBuilder.addMeta(ngram, meta);
             }
 
         }
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
index 7160eb04..4394936b 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
@@ -2,14 +2,10 @@ package nu.marginalia.keyword;
 
 import lombok.Builder;
 import nu.marginalia.keyword.extractors.*;
-import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.model.idx.WordFlags;
 
-import java.util.EnumSet;
-
 class KeywordMetadata {
 
-    private final KeywordPositionBitmask bitmask;
     private final TitleKeywords titleKeywords;
     private final NameLikeKeywords nameLikeKeywords;
     private final SubjectLikeKeywords subjectLikeKeywords;
@@ -18,14 +14,12 @@ class KeywordMetadata {
 
     @Builder
     public KeywordMetadata(
-            KeywordPositionBitmask bitmask,
             TitleKeywords titleKeywords,
             NameLikeKeywords nameLikeKeywords,
             SubjectLikeKeywords subjectLikeKeywords,
             UrlKeywords urlKeywords,
-            WordsTfIdfCounts tfIdfCounts) {
-
-        this.bitmask = bitmask;
+            WordsTfIdfCounts tfIdfCounts)
+    {
         this.titleKeywords = titleKeywords;
         this.nameLikeKeywords = nameLikeKeywords;
         this.subjectLikeKeywords = subjectLikeKeywords;
@@ -36,29 +30,33 @@ class KeywordMetadata {
     public long getMetadataForWord(String stemmed) {
 
         int tfidf = tfIdfCounts.getTfIdf(stemmed);
-        EnumSet<WordFlags> flags = EnumSet.noneOf(WordFlags.class);
+        long flags = 0;
 
-        if (tfidf > 100)
-            flags.add(WordFlags.TfIdfHigh);
+        if (tfidf > 100) {
+            flags |= WordFlags.TfIdfHigh.asBit();
+        }
 
-        if (subjectLikeKeywords.contains(stemmed))
-            flags.add(WordFlags.Subjects);
+        if (subjectLikeKeywords.contains(stemmed)) {
+            flags |= WordFlags.Subjects.asBit();
+        }
 
-        if (nameLikeKeywords.contains(stemmed))
-            flags.add(WordFlags.NamesWords);
+        if (nameLikeKeywords.contains(stemmed)) {
+            flags |= WordFlags.NamesWords.asBit();
+        }
 
-        if (titleKeywords.contains(stemmed))
-            flags.add(WordFlags.Title);
+        if (titleKeywords.contains(stemmed)) {
+            flags |= WordFlags.Title.asBit();
+        }
 
-        if (urlKeywords.containsUrl(stemmed))
-            flags.add(WordFlags.UrlPath);
+        if (urlKeywords.containsUrl(stemmed)) {
+            flags |= WordFlags.UrlPath.asBit();
+        }
 
-        if (urlKeywords.containsDomain(stemmed))
-            flags.add(WordFlags.UrlDomain);
+        if (urlKeywords.containsDomain(stemmed)) {
+            flags |= WordFlags.UrlDomain.asBit();
+        }
 
-        long positions = bitmask.get(stemmed);
-
-        return new WordMetadata(positions, flags).encode();
+        return flags;
     }
 
 }
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/KeywordPositionBitmask.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/KeywordPositionBitmask.java
deleted file mode 100644
index 230c895f..00000000
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/KeywordPositionBitmask.java
+++ /dev/null
@@ -1,105 +0,0 @@
-package nu.marginalia.keyword.extractors;
-
-import com.google.inject.Inject;
-import it.unimi.dsi.fastutil.objects.Object2LongOpenHashMap;
-import nu.marginalia.keyword.KeywordExtractor;
-import nu.marginalia.language.model.DocumentLanguageData;
-import nu.marginalia.model.idx.WordMetadata;
-
-/** Generates a position bitmask for each word in a document */
-public class KeywordPositionBitmask {
-    private final Object2LongOpenHashMap<String> positionMask = new Object2LongOpenHashMap<>(10_000, 0.7f);
-    private final static int positionWidth = WordMetadata.POSITIONS_COUNT;
-    private final static long positionBitmask = WordMetadata.POSITIONS_MASK;
-    private static final int unmodulatedPortion = 16;
-
-    @Inject
-    public KeywordPositionBitmask(KeywordExtractor keywordExtractor,
-                                  DocumentLanguageData dld)
-    {
-
-        // Mark the title words as position 0
-        for (var sent : dld.titleSentences) {
-            int posBit = 1;
-
-            for (var word : sent) {
-                positionMask.merge(word.stemmed(), posBit, this::bitwiseOr);
-            }
-
-            for (var ngram : sent.ngramStemmed) {
-                positionMask.merge(ngram, posBit, this::bitwiseOr);
-            }
-
-            for (var span : keywordExtractor.getKeywordsFromSentence(sent)) {
-                positionMask.merge(sent.constructStemmedWordFromSpan(span), posBit, this::bitwiseOr);
-            }
-
-            for (var span : keywordExtractor.getProperNames(sent)) {
-                positionMask.merge(sent.constructStemmedWordFromSpan(span), posBit, this::bitwiseOr);
-            }
-        }
-
-        // Mark subsequent sentences in subsequent positions, with increasing sentence step size
-        LinePosition linePos = new LinePosition();
-        for (var sent : dld.sentences) {
-
-            long posBit = (1L << linePos.pos()) & positionBitmask;
-
-            for (var word : sent) {
-                positionMask.merge(word.stemmed(), posBit, this::bitwiseOr);
-            }
-
-            for (var ngram : sent.ngramStemmed) {
-                positionMask.merge(ngram, posBit, this::bitwiseOr);
-            }
-
-            for (var span : keywordExtractor.getKeywordsFromSentence(sent)) {
-                positionMask.merge(sent.constructStemmedWordFromSpan(span), posBit, this::bitwiseOr);
-            }
-
-            for (var span : keywordExtractor.getProperNames(sent)) {
-                positionMask.merge(sent.constructStemmedWordFromSpan(span), posBit, this::bitwiseOr);
-            }
-
-            linePos.next(sent.length());
-        }
-    }
-
-    public long get(String stemmed) {
-        return positionMask.getOrDefault(stemmed, 0);
-    }
-
-    private long bitwiseOr(long a, long b) {
-        return a | b;
-    }
-
-    private static class LinePosition {
-        private int lineLengthCtr = 0;
-        private int bitMaskPos = 1;
-
-        public int pos() {
-            if (bitMaskPos < unmodulatedPortion) {
-                return bitMaskPos;
-            }
-            else {
-                return unmodulatedPortion + ((bitMaskPos - unmodulatedPortion) % (positionWidth - unmodulatedPortion));
-            }
-        }
-
-        public void next(int sentenceLength)
-        {
-            if (sentenceLength > 10) {
-                lineLengthCtr = 0;
-                ++bitMaskPos;
-            }
-
-            lineLengthCtr += sentenceLength;
-            if (lineLengthCtr > 15) {
-                lineLengthCtr = 0;
-                ++bitMaskPos;
-            }
-
-        }
-
-    }
-}
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 4d2b6d79..414813a8 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -4,12 +4,14 @@ import it.unimi.dsi.fastutil.objects.Object2LongLinkedOpenHashMap;
 import lombok.Getter;
 import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.idx.WordMetadata;
+import org.roaringbitmap.RoaringBitmap;
 
 import java.util.*;
 
 @Getter
 public class DocumentKeywordsBuilder {
-    public final Object2LongLinkedOpenHashMap<String> words;
+    public final Object2LongLinkedOpenHashMap<String> wordToMeta;
+    public final HashMap<String, RoaringBitmap> wordToPos;
 
     /** These ware keywords that had signals of high relevance */
     public final Set<String> importantWords = new HashSet<>();
@@ -24,46 +26,53 @@ public class DocumentKeywordsBuilder {
     }
 
     public DocumentKeywords build() {
-        final String[] wordArray = new String[words.size()];
-        final long[] meta = new long[words.size()];
+        final String[] wordArray = new String[wordToMeta.size()];
+        final long[] meta = new long[wordToMeta.size()];
+        final RoaringBitmap[] positions = new RoaringBitmap[wordToMeta.size()];
 
-        var iter = words.object2LongEntrySet().fastIterator();
+        var iter = wordToMeta.object2LongEntrySet().fastIterator();
 
         for (int i = 0; iter.hasNext(); i++) {
             var entry = iter.next();
 
             meta[i] = entry.getLongValue();
             wordArray[i] = entry.getKey();
+            positions[i] = wordToPos.get(entry.getKey());
+            if (positions[i] == null) {
+                positions[i] = new RoaringBitmap();
+            }
         }
 
-        return new DocumentKeywords(wordArray, meta, null);
+
+        return new DocumentKeywords(wordArray, meta, positions);
     }
 
     public DocumentKeywordsBuilder(int capacity) {
-        words  = new Object2LongLinkedOpenHashMap<>(capacity);
+        wordToMeta  = new Object2LongLinkedOpenHashMap<>(capacity);
+        wordToPos = new HashMap<>(capacity);
     }
 
-    public void add(String word, long meta) {
+    public void addMeta(String word, long meta) {
         if (word.length() > MAX_WORD_LENGTH)
             return;
 
-        words.put(word, meta);
+        wordToMeta.put(word, meta);
+    }
+
+    public void addPos(String word, int pos) {
+        if (word.length() > MAX_WORD_LENGTH)
+            return;
+
+        wordToPos.computeIfAbsent(word, k -> new RoaringBitmap()).add(pos);
     }
 
     public void addImportantWords(Collection<String> words) {
         importantWords.addAll(words);
     }
 
-    public void addJustNoMeta(String word) {
-        if (word.length() > MAX_WORD_LENGTH)
-            return;
-
-        words.putIfAbsent(word, 0);
-    }
-
     public void setFlagOnMetadataForWords(WordFlags flag, Collection<String> flagWords) {
         flagWords.forEach(word ->
-            words.mergeLong(word, flag.asBit(), (a, b) -> a|b)
+            wordToMeta.mergeLong(word, flag.asBit(), (a, b) -> a|b)
         );
     }
 
@@ -72,7 +81,7 @@ public class DocumentKeywordsBuilder {
 
         // Only add the synthetic flag if the words aren't already present
 
-        newWords.forEach(word -> words.putIfAbsent(word, meta));
+        newWords.forEach(word -> wordToMeta.putIfAbsent(word, meta));
     }
 
     public void addAnchorTerms(Map<String, Integer> keywords) {
@@ -82,11 +91,11 @@ public class DocumentKeywordsBuilder {
 
         keywords.forEach((word, count) -> {
             if (count > 5) {
-                words.mergeLong(word, flagC, (a, b) -> a|b);
+                wordToMeta.mergeLong(word, flagC, (a, b) -> a|b);
             } else if (count > 2) {
-                words.mergeLong(word, flagB, (a, b) -> a|b);
+                wordToMeta.mergeLong(word, flagB, (a, b) -> a|b);
             } else {
-                words.mergeLong(word, flagA, (a, b) -> a|b);
+                wordToMeta.mergeLong(word, flagA, (a, b) -> a|b);
             }
         });
     }
@@ -94,7 +103,7 @@ public class DocumentKeywordsBuilder {
     public List<String> getWordsWithAnyFlag(long flags) {
         List<String> ret = new ArrayList<>();
 
-        for (var iter = words.object2LongEntrySet().fastIterator(); iter.hasNext();) {
+        for (var iter = wordToMeta.object2LongEntrySet().fastIterator(); iter.hasNext();) {
             var entry = iter.next();
             if ((flags & entry.getLongValue()) != 0) {
                 ret.add(entry.getKey());
@@ -105,18 +114,18 @@ public class DocumentKeywordsBuilder {
     }
 
     public int size() {
-        return words.size();
+        return Math.max(wordToMeta.size(), wordToPos.size());
     }
 
     public WordMetadata getMetaForWord(String word) {
-        return new WordMetadata(words.getLong(word));
+        return new WordMetadata(wordToMeta.getLong(word));
     }
+
     @Override
     public String toString() {
         StringBuilder sb = new StringBuilder("[ ");
-        words.forEach((word, meta) -> sb.append(word).append("->").append(new WordMetadata(meta)).append(' '));
+        wordToMeta.forEach((word, meta) -> sb.append(word).append("->").append(new WordMetadata(meta)).append(' '));
         return sb.append(']').toString();
-
     }
 
 }
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
index 2bc068d9..181be165 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
@@ -1,5 +1,7 @@
 package nu.marginalia.keyword.model;
 
+import org.roaringbitmap.RoaringBitmap;
+
 /** Pointer into a {@see DocumentKeywords}.  It starts out before the first position,
  * forward with advancePointer().
  * */
@@ -27,6 +29,11 @@ public class DocumentKeywordsPointer {
         return keywords.metadata[pos];
     }
 
+    /** Return the positions associated with the current position */
+    public RoaringBitmap getPositions() {
+        return keywords.positions[pos];
+    }
+
     /** Advance the current position,
      * returns false if this was the
      * last position */
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index 54577f80..fe60a0f1 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -10,6 +10,7 @@ import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.Test;
+import org.roaringbitmap.RoaringBitmap;
 
 import java.io.IOException;
 import java.net.URISyntaxException;
@@ -21,10 +22,8 @@ import java.util.Set;
 
 class DocumentKeywordExtractorTest {
 
-    DocumentKeywordExtractor extractor = new DocumentKeywordExtractor(
-            new TermFrequencyDict(WmsaHome.getLanguageModels()),
-            new NgramLexicon(WmsaHome.getLanguageModels()));
-    SentenceExtractor se = new SentenceExtractor(WmsaHome.getLanguageModels());
+    static DocumentKeywordExtractor extractor = new DocumentKeywordExtractor();
+    static SentenceExtractor se = new SentenceExtractor(WmsaHome.getLanguageModels());
 
     @Test
     public void testWordPattern() {
@@ -41,24 +40,6 @@ class DocumentKeywordExtractorTest {
         Assertions.assertFalse(extractor.matchesWordPattern("Stulpnagelstrasse"));
     }
 
-
-    @Test
-    public void testEmptyMetadata() throws URISyntaxException {
-        var dld = se.extractSentences("""
-                Some sample text, I'm not sure what even triggers this
-                """, "A title perhaps?");
-        var keywordBuilder = extractor.extractKeywords(dld, new EdgeUrl("https://www.example.com/invalid"));
-        var keywords = keywordBuilder.build();
-
-        var pointer = keywords.newPointer();
-        while (pointer.advancePointer()) {
-            if (pointer.getMetadata() == 0L) {
-                System.out.println("Aha! " + pointer.getKeyword());
-            }
-        }
-
-    }
-
     @Test
     public void testKeyboards2() throws IOException, URISyntaxException {
         var resource = Objects.requireNonNull(ClassLoader.getSystemResourceAsStream("test-data/keyboards.html"),
@@ -69,7 +50,7 @@ class DocumentKeywordExtractorTest {
 
         var keywords = extractor.extractKeywords(se.extractSentences(doc), new EdgeUrl("https://pmortensen.eu/world2/2021/12/24/rapoo-mechanical-keyboards-gotchas-and-setup/"));
 
-        keywords.getWords().forEach((k, v) -> {
+        keywords.getWordToMeta().forEach((k, v) -> {
             if (k.contains("_")) {
                 System.out.println(k + " " + new WordMetadata(v));
             }
@@ -112,21 +93,22 @@ class DocumentKeywordExtractorTest {
         var keywordsBuilt = keywords.build();
         var ptr = keywordsBuilt.newPointer();
 
-        Map<String, WordMetadata> dirtyAndBlues = new HashMap<>();
+        Map<String, WordMetadata> flags = new HashMap<>();
+        Map<String, RoaringBitmap> positions = new HashMap<>();
 
         while (ptr.advancePointer()) {
+            System.out.println(ptr.getKeyword() + " " + ptr.getMetadata() + " " + ptr.getPositions());
             if (Set.of("dirty", "blues").contains(ptr.getKeyword())) {
-                Assertions.assertNull(
-                        dirtyAndBlues.put(ptr.getKeyword(), new WordMetadata(ptr.getMetadata()))
-                );
+                flags.put(ptr.getKeyword(), new WordMetadata(ptr.getMetadata()));
+                positions.put(ptr.getKeyword(), ptr.getPositions());
             }
         }
 
-        Assertions.assertTrue(dirtyAndBlues.containsKey("dirty"));
-        Assertions.assertTrue(dirtyAndBlues.containsKey("blues"));
+        Assertions.assertTrue(flags.containsKey("dirty"));
+        Assertions.assertTrue(flags.containsKey("blues"));
         Assertions.assertNotEquals(
-                dirtyAndBlues.get("dirty"),
-                dirtyAndBlues.get("blues")
+                positions.get("dirty"),
+                positions.get("blues")
                 );
     }
 
@@ -139,8 +121,7 @@ class DocumentKeywordExtractorTest {
         doc.filter(new DomPruningFilter(0.5));
 
         DocumentKeywordExtractor extractor = new DocumentKeywordExtractor(
-                new TermFrequencyDict(WmsaHome.getLanguageModels()),
-                new NgramLexicon(WmsaHome.getLanguageModels()));
+                new TermFrequencyDict(WmsaHome.getLanguageModels()));
         SentenceExtractor se = new SentenceExtractor(WmsaHome.getLanguageModels());
 
         var keywords = extractor.extractKeywords(se.extractSentences(doc), new EdgeUrl("https://math.byu.edu/wiki/index.php/All_You_Need_To_Know_About_Earning_Money_Online"));
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
index bfc78a9c..34b1b7af 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
@@ -23,7 +23,6 @@ import static org.junit.jupiter.api.Assertions.assertEquals;
 class SentenceExtractorTest {
     static final LanguageModels lm = TestLanguageModels.getLanguageModels();
 
-    static NgramLexicon ngramLexicon = new NgramLexicon(lm);
     static SentenceExtractor se = new SentenceExtractor(lm);
 
     @SneakyThrows
@@ -36,7 +35,7 @@ class SentenceExtractorTest {
 
         var dict = new TermFrequencyDict(lm);
         var url = new EdgeUrl("https://memex.marginalia.nu/");
-        DocumentKeywordExtractor documentKeywordExtractor = new DocumentKeywordExtractor(dict, ngramLexicon);
+        DocumentKeywordExtractor documentKeywordExtractor = new DocumentKeywordExtractor(dict);
 
         for (;;) {
             long total = 0;
diff --git a/code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java b/code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java
index cabe558f..f11eb304 100644
--- a/code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java
+++ b/code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java
@@ -26,9 +26,7 @@ class SummaryExtractorTest {
 
     @BeforeEach
     public void setUp() {
-        keywordExtractor = new DocumentKeywordExtractor(
-                new TermFrequencyDict(WmsaHome.getLanguageModels()),
-                new NgramLexicon(WmsaHome.getLanguageModels()));
+        keywordExtractor = new DocumentKeywordExtractor();
         setenceExtractor = new SentenceExtractor(WmsaHome.getLanguageModels());
 
         summaryExtractor = new SummaryExtractor(255,
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
index 32a0ec62..43ae0d81 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
@@ -69,7 +69,7 @@ public class SideloaderProcessing {
             ret.words = details.words();
 
             for (String keyword : extraKeywords)
-                ret.words.add(keyword, WordFlags.Subjects.asBit());
+                ret.words.addMeta(keyword, WordFlags.Subjects.asBit());
 
             if (type == GeneratorType.WIKI) {
                 ret.words.addAllSyntheticTerms(List.of("generator:wiki"));
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java
index d564b308..7f5c8b4b 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java
@@ -166,7 +166,7 @@ public class RedditSideloader implements SideloadSource {
             }
 
             for (var keyword : extraKeywords) {
-                doc.words.add(keyword, WordFlags.Subjects.asBit());
+                doc.words.addMeta(keyword, WordFlags.Subjects.asBit());
             }
 
             // Insert topology information
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
index dde7a106..639bb4bf 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
@@ -22,10 +22,8 @@ import java.nio.file.Path;
 
 public class SentenceStatisticsExperiment extends LegacyExperiment {
 
-    NgramLexicon lexicon = new NgramLexicon(WmsaHome.getLanguageModels());
     SentenceExtractor se = new SentenceExtractor(WmsaHome.getLanguageModels());
-    DocumentKeywordExtractor documentKeywordExtractor = new DocumentKeywordExtractor(
-            new TermFrequencyDict(WmsaHome.getLanguageModels()), lexicon);
+    DocumentKeywordExtractor documentKeywordExtractor = new DocumentKeywordExtractor(new TermFrequencyDict(WmsaHome.getLanguageModels()));
     Path filename;
     PrintWriter writer;
 

From 0112ae725c3136f5ed03f4479582009e995bc032 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 30 May 2024 14:17:23 +0200
Subject: [PATCH 003/216] (gamma) Implement a small library for Elias gamma
 coding an integer sequence

---
 code/libraries/coded-sequence/build.gradle    |  26 ++
 .../marginalia/sequence/EliasGammaCodec.java  |  91 ++++++
 .../sequence/GammaCodedSequence.java          |  97 ++++++
 .../nu/marginalia/sequence/io/BitReader.java  | 134 ++++++++
 .../nu/marginalia/sequence/io/BitWriter.java  | 112 +++++++
 .../nu/marginalia/sequence/BitReaderTest.java | 130 ++++++++
 .../nu/marginalia/sequence/BitWriterTest.java | 297 ++++++++++++++++++
 .../sequence/EliasGammaCodecTest.java         |  78 +++++
 settings.gradle                               |   1 +
 .../strategic/parquet/BinarySerializable.java |   5 +
 10 files changed, 971 insertions(+)
 create mode 100644 code/libraries/coded-sequence/build.gradle
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
 create mode 100644 code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
 create mode 100644 code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
 create mode 100644 code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
 create mode 100644 third-party/parquet-floor/src/main/java/blue/strategic/parquet/BinarySerializable.java

diff --git a/code/libraries/coded-sequence/build.gradle b/code/libraries/coded-sequence/build.gradle
new file mode 100644
index 00000000..1eccc142
--- /dev/null
+++ b/code/libraries/coded-sequence/build.gradle
@@ -0,0 +1,26 @@
+plugins {
+    id 'java'
+}
+
+java {
+    toolchain {
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
+    }
+}
+
+apply from: "$rootProject.projectDir/srcsets.gradle"
+
+dependencies {
+    implementation libs.bundles.slf4j
+
+    implementation project(':third-party:parquet-floor')
+    implementation libs.fastutil
+
+    testImplementation libs.bundles.slf4j.test
+    testImplementation libs.bundles.junit
+    testImplementation libs.mockito
+}
+
+test {
+    useJUnitPlatform()
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
new file mode 100644
index 00000000..7ee85495
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
@@ -0,0 +1,91 @@
+package nu.marginalia.sequence;
+
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.sequence.io.BitReader;
+import nu.marginalia.sequence.io.BitWriter;
+
+import java.nio.ByteBuffer;
+
+/** Implement coding and decoding of sequences of integers using the Elias Gamma code
+ *
+ * https://en.wikipedia.org/wiki/Elias_gamma_coding
+ * */
+public class EliasGammaCodec implements IntIterator {
+
+    private final BitReader reader;
+    private int last = 0;
+    private int next = 0;
+
+    private EliasGammaCodec(ByteBuffer buffer) {
+        reader = new BitReader(buffer);
+    }
+
+    /** Decode a sequence of integers from a ByteBuffer using the Elias Gamma code */
+    public static IntIterator decode(ByteBuffer buffer) {
+        return new EliasGammaCodec(buffer);
+    }
+
+    /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
+     * The sequence must be strictly increasing and may not contain values less than
+     * or equal to zero.
+     */
+    public static ByteBuffer encode(ByteBuffer workArea, IntList sequence) {
+        var writer = new BitWriter(workArea);
+        int last = 0;
+
+        for (var iter = sequence.iterator(); iter.hasNext(); ) {
+            int i = iter.nextInt();
+            int delta = i - last;
+            last = i;
+
+            // can't encode zeroes
+            assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values";
+
+            int bits = Integer.numberOfTrailingZeros(Integer.highestOneBit(delta));
+            writer.put(0, bits + 1);
+            writer.put(delta, bits + 1);
+        }
+
+        return writer.finish();
+    }
+
+    /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
+     * The sequence must be strictly increasing and may not contain values less than
+     * or equal to zero.
+     */
+    public static ByteBuffer encode(ByteBuffer workArea, int[] sequence) {
+        return encode(workArea, IntList.of(sequence));
+    }
+
+    @Override
+    public boolean hasNext() {
+        if (next > 0)
+            return true;
+        if (!reader.hasMore())
+            return false;
+
+        int bits = reader.takeWhileZero();
+
+        if (!reader.hasMore()) {
+            return false;
+        }
+        int delta = reader.get(bits);
+        last += delta;
+        next = last;
+
+        return true;
+    }
+
+    @Override
+    public int nextInt() {
+        if (hasNext()) {
+            int ret = next;
+            next = -1;
+            return ret;
+        }
+        throw new ArrayIndexOutOfBoundsException("No more data to read");
+    }
+
+
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
new file mode 100644
index 00000000..2207921d
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -0,0 +1,97 @@
+package nu.marginalia.sequence;
+
+import blue.strategic.parquet.BinarySerializable;
+import it.unimi.dsi.fastutil.ints.IntArrayList;
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
+
+import java.nio.ByteBuffer;
+import java.util.Arrays;
+import java.util.StringJoiner;
+
+/** A sequence of integers encoded using the Elias Gamma code,
+ * the class wraps a ByteBuffer containing the encoded sequence,
+ * and offers convenience methods for decoding and iterating
+ * over the data.
+ * */
+public class GammaCodedSequence implements BinarySerializable, Iterable<Integer> {
+    private final ByteBuffer raw;
+
+    /** Create a new GammaCodedSequence from a sequence of integers.
+     *
+     * The sequence must be strictly increasing and may not contain
+     * values less than or equal to zero.
+     * */
+    public static GammaCodedSequence generate(ByteBuffer workArea, int... values) {
+        return new GammaCodedSequence(EliasGammaCodec.encode(workArea, values));
+    }
+
+    /** Create a new GammaCodedSequence from a sequence of integers.
+     *
+     * The sequence must be strictly increasing and may not contain
+     * values less than or equal to zero.
+     * */
+    public static GammaCodedSequence generate(ByteBuffer workArea, IntList values) {
+        return new GammaCodedSequence(EliasGammaCodec.encode(workArea, values));
+    }
+
+    public GammaCodedSequence(ByteBuffer bytes) {
+        this.raw = bytes;
+    }
+
+    public GammaCodedSequence(byte[] bytes) {
+        raw = ByteBuffer.allocate(bytes.length);
+        raw.put(bytes);
+        raw.clear();
+    }
+
+    /** Return the raw bytes of the sequence. */
+    @Override
+    public byte[] bytes() {
+        if (raw.hasArray()) {
+            return raw.array();
+        }
+        else {
+            raw.clear();
+
+            byte[] bytes = new byte[raw.capacity()];
+            raw.get(bytes, 0, bytes.length);
+            return bytes;
+        }
+    }
+
+    @Override
+    public IntIterator iterator() {
+        raw.clear();
+
+        return EliasGammaCodec.decode(raw);
+    }
+
+    /** Decode the sequence into an IntList;
+     * this is a somewhat slow operation,
+     * iterating over the data directly more performant */
+    public IntList decode() {
+        IntArrayList ret = new IntArrayList(8);
+        var iter = iterator();
+        while (iter.hasNext()) {
+            ret.add(iter.nextInt());
+        }
+        return ret;
+    }
+
+    public int hashCode() {
+        return raw.hashCode();
+    }
+
+    public boolean equals(Object obj) {
+        return obj instanceof GammaCodedSequence other && Arrays.equals(bytes(), other.bytes());
+    }
+
+    public String toString() {
+        StringJoiner sj = new StringJoiner(", ", "[", "]");
+        for (Integer i : this) {
+            sj.add(i.toString());
+        }
+        return sj.toString();
+    }
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
new file mode 100644
index 00000000..2d7d79db
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -0,0 +1,134 @@
+package nu.marginalia.sequence.io;
+
+import java.nio.ByteBuffer;
+
+/** A utility class for reading bits from a ByteBuffer
+ * out of alignment with octet boundaries
+ */
+public class BitReader {
+    private final ByteBuffer underlying;
+
+    /** The current value being decoded */
+    private long currentValue;
+
+    /** Bit index in the current value */
+    private int bitPosition;
+
+    public BitReader(ByteBuffer buffer) {
+        this.underlying = buffer;
+        this.bitPosition = 0;
+        this.currentValue = 0;
+    }
+
+    /** Read the next bit from the buffer */
+    public boolean getBit() {
+        if (bitPosition <= 0) {
+            readNext();
+        }
+
+        // Return the bit at the current position, then decrement the position
+        return (currentValue & (1L << (--bitPosition))) != 0;
+    }
+
+    /** Read the next width bits from the buffer */
+    public int get(int width) {
+        if (width == 0)
+            return 0;
+
+        if (bitPosition <= 0) {
+            readNext();
+        }
+
+        int result = 0;
+
+        while (width > 0) {
+            int dw = bitPosition - width;
+
+            if (dw >= 0) { // We have enough bits in the current value to satisfy the request
+                result |= ((int)(currentValue >>> dw)) & ~-(1<<width);
+
+                // Update the bit position
+                bitPosition -= width;
+
+                // We've read all the bits we need
+                width = 0;
+            } else { // We need to split the value between two successive integers
+
+                // Extract the remaining bits from the current value to the result
+                // and shift them to the left to leave room for the bits still to be read
+                result |= (int)((currentValue & ~-(1L<<bitPosition)) << -dw);
+
+                // Decrement the number of bits left to read by the number of bits read
+                // so that we read the remainder as we loop around
+                width -= bitPosition;
+
+                // Read the next integer
+                readNext(); // implicitly: bitPosition = 0 here
+            }
+        }
+
+        return result;
+    }
+
+    /** Read bits until a 1 is encountered */
+    public int takeWhileZero() {
+        if (bitPosition <= 0) {
+            readNext();
+        }
+
+        int result = 0;
+
+        for (;;) {
+            // Ensure we have bits to read
+            if (bitPosition <= 0) {
+                if (underlying.hasRemaining())
+                    readNext();
+                else break;
+            }
+
+            // Count the number of leading zeroes in the current value
+            int zeroes = Long.numberOfLeadingZeros(currentValue << (64 - bitPosition));
+
+            // Add the number of zeroes to the result, but cap it at the
+            // current bit position to avoid counting padding bits as zeroes
+            result += Math.min(bitPosition, zeroes);
+
+            // Subtract the number of bits read from the current position
+            bitPosition -= zeroes;
+
+            // If bitPosition isn't zero, we've found a 1 and can stop
+            if (bitPosition > 0)
+                break;
+        }
+
+        return result;
+    }
+
+    public boolean hasMore() {
+        return bitPosition > 0 || underlying.hasRemaining();
+    }
+
+    private void readNext() {
+        int remainingCapacity = underlying.remaining();
+
+        if (remainingCapacity >= 8) {
+            currentValue = underlying.getLong();
+            bitPosition = 64;
+        }
+        else if (remainingCapacity >= 4) {
+            currentValue = underlying.getInt() & 0xFFFFFFFFL;
+            bitPosition = 32;
+        }
+        else if (remainingCapacity >= 2) {
+            currentValue = underlying.getShort() & 0xFFFF;
+            bitPosition = 16;
+        }
+        else if (remainingCapacity == 1) {
+            currentValue = underlying.get() & 0xFF;
+            bitPosition = 8;
+        }
+        else { // There's no more data to read!
+            throw new ArrayIndexOutOfBoundsException("No more data to read");
+        }
+    }
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
new file mode 100644
index 00000000..92f6abc6
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -0,0 +1,112 @@
+package nu.marginalia.sequence.io;
+
+import java.nio.ByteBuffer;
+
+/** A utility class for writing bits to a ByteBuffer
+ * out of alignment with octet boundaries
+ */
+public class BitWriter {
+    private final ByteBuffer underlying;
+
+    /** The current value being encoded */
+    private long currentValue;
+    /** Bit index in the current value */
+    private int bitPosition;
+
+    /** The total number of significant bytes that have been written to the buffer,
+     * the actual number of bytes may be larger than this value, but the trailing
+     * values should be ignored */
+    private int totalMeaningfulBytes;
+
+    public BitWriter(ByteBuffer workBuffer) {
+        this.underlying = workBuffer;
+        this.bitPosition = 0;
+        this.currentValue = 0;
+        this.totalMeaningfulBytes = 0;
+
+        underlying.clear();
+    }
+
+    public void putBit(boolean value) {
+        if (value) {
+            currentValue = 1 | (currentValue << 1);
+        }
+        else {
+            currentValue <<= 1;
+        }
+
+        // If we've exceeded the integer size, write it to the buffer
+        // and start over with the next integer
+
+        if (++bitPosition == 64) {
+            underlying.putLong(currentValue);
+            totalMeaningfulBytes+=8;
+
+            bitPosition = 0;
+            currentValue = 0;
+        }
+    }
+
+    /** Write the lowest width bits of the value to the buffer */
+    public void put(int value, int width) {
+        assert width <= 32 : "Attempting to write more than 32 bits from a single integer";
+
+        int rem = (64 - bitPosition);
+
+        if (rem < width) { // The value is split between two integers
+            // write the first part of the byte
+            currentValue = (currentValue << rem) | (value >>> (width - rem));
+
+            // switch to the next integer
+            underlying.putLong(currentValue);
+            totalMeaningfulBytes+=8;
+
+            // write the remaining part to currentValue
+            currentValue = value & ((1L << (width - rem)) - 1);
+            bitPosition = width - rem;
+        }
+        else { // The entire value fits in the current integer
+            currentValue <<= width;
+            currentValue |= (value & ((1L << width) - 1));
+            bitPosition += width;
+        }
+    }
+
+    public ByteBuffer finish() {
+        finishLastByte();
+
+        var outBuffer = ByteBuffer.allocate(totalMeaningfulBytes);
+
+        outBuffer.put(underlying.array(), 0, totalMeaningfulBytes);
+
+        outBuffer.position(0);
+        outBuffer.limit(totalMeaningfulBytes);
+
+        return outBuffer;
+    }
+
+    public ByteBuffer finish(ByteBuffer outBuffer) {
+        finishLastByte();
+
+        outBuffer.put(underlying.array(), 0, totalMeaningfulBytes);
+
+        outBuffer.position(0);
+        outBuffer.limit(totalMeaningfulBytes);
+
+        return outBuffer;
+    }
+
+    private void finishLastByte() {
+        // It's possible we have a few bits left over that have yet to be written
+        // to the underlying buffer. We need to write them out now.
+
+        if (bitPosition > 0) {
+            totalMeaningfulBytes += bitPosition / 8 + ((bitPosition % 8 == 0) ? 0 : 1);
+            underlying.putLong(currentValue << (64 - bitPosition));
+        }
+
+        // Reset the bit position to reflect that we've written the last byte
+        bitPosition = 0;
+    }
+
+}
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
new file mode 100644
index 00000000..579653a2
--- /dev/null
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
@@ -0,0 +1,130 @@
+package nu.marginalia.sequence;
+
+import nu.marginalia.sequence.io.BitReader;
+import nu.marginalia.sequence.io.BitWriter;
+import org.junit.jupiter.api.Test;
+
+import java.nio.ByteBuffer;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class BitReaderTest {
+
+    @Test
+    void getBit() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+        writer.putBit(true);
+        writer.putBit(false);
+        writer.put(0, 32);
+        writer.putBit(true);
+        writer.putBit(false);
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+        assertTrue(reader.getBit());
+        assertFalse(reader.getBit());
+        for (int i = 0; i < 32; i++) {
+            assertFalse(reader.getBit());
+        }
+        assertTrue(reader.getBit());
+        assertFalse(reader.getBit());
+    }
+
+    @Test
+    void getInByte() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+
+        writer.putBit(true);
+        writer.putBit(false);
+
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+        int val = reader.get(2);
+        assertEquals(0b10, val);
+    }
+
+    @Test
+    void get() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+        writer.putBit(true);
+        writer.putBit(false);
+        writer.put(0, 32);
+        writer.putBit(true);
+        writer.putBit(false);
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+        int val = reader.get(4);
+        assertEquals(0b1000, val);
+
+        val = reader.get(30);
+        assertEquals(0b000, val);
+
+        val = reader.get(2);
+        assertEquals(0b10, val);
+    }
+
+    @Test
+    void getSevens() {
+        // Fuzz test that probes int32 misalignments
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+
+        for (int i = 0; i < 729; i++) {
+            writer.putBit(true);
+            writer.putBit(false);
+            writer.putBit(false);
+            writer.putBit(true);
+            writer.putBit(false);
+            writer.putBit(false);
+            writer.putBit(true);
+        }
+
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+
+        for (int i = 0; i < 729; i++) {
+            int val = reader.get(7);
+            assertEquals(0b1001001, val);
+        }
+    }
+
+    @Test
+    public void testTakeWhileZero() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+        writer.put(0, 4);
+        writer.putBit(true);
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+        int val = reader.takeWhileZero();
+        assertEquals(4, val);
+        assertTrue(reader.getBit());
+    }
+
+    @Test
+    public void testTakeWhileZeroAllZero() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+        writer.put(0, 8);
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+        int val = reader.takeWhileZero();
+        assertEquals(8, val);
+    }
+
+    @Test
+    public void testTakeWhileZeroOverInt32() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+        writer.put(0, 32);
+        writer.put(0, 2);
+        writer.putBit(true);
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+        int val = reader.takeWhileZero();
+        assertEquals(34, val);
+        assertTrue(reader.getBit());
+    }
+}
\ No newline at end of file
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
new file mode 100644
index 00000000..0fb3d2bf
--- /dev/null
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
@@ -0,0 +1,297 @@
+package nu.marginalia.sequence;
+
+import nu.marginalia.sequence.io.BitReader;
+import nu.marginalia.sequence.io.BitWriter;
+import org.junit.jupiter.api.Test;
+
+import java.nio.ByteBuffer;
+import java.util.Random;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class BitWriterTest {
+
+    @Test
+    public void testPutBitsFullByte() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.putBit(false);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(false);
+
+        var out = writer.finish();
+
+        byte actual = out.get(0);
+        byte expected = (byte) 0b0111_1110;
+
+        assertEquals(expected, actual);
+        assertEquals(1, out.capacity());
+    }
+
+    @Test
+    public void testPutBitsPartialByte() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.putBit(true);
+        writer.putBit(false);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+
+        var out = writer.finish();
+
+        byte actual = out.get(0);
+        byte expected = (byte) 0b1011_1110;
+
+        assertEquals(expected, actual, STR."was \{Integer.toBinaryString(actual & 0xFF)}");
+        assertEquals(1, out.capacity());
+    }
+
+
+    @Test
+    public void testPutBitsOneAndAHalfByte() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.putBit(true);
+        writer.putBit(false);
+        writer.putBit(true);
+        writer.putBit(true);
+
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(true);
+        writer.putBit(false);
+
+        writer.putBit(true);
+        writer.putBit(true);
+
+        var out = writer.finish();
+
+        assertEquals(2, out.capacity());
+
+        byte actual1 = out.get(0);
+        byte actual2 = out.get(1);
+        byte expected1 = (byte) 0b1011_1110;
+        byte expected2 = (byte) 0b1100_0000;
+
+        assertEquals(expected1, actual1, STR."was \{Integer.toBinaryString(actual1 & 0xFF)}");
+        assertEquals(expected2, actual2, STR."was \{Integer.toBinaryString(actual2 & 0xFF)}");
+
+    }
+
+
+    @Test
+    public void testPutBitsIntOverflow() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        for (int i = 0; i < 4; i++) {
+            writer.putBit(true);
+            writer.putBit(false);
+            writer.putBit(true);
+            writer.putBit(true);
+
+            writer.putBit(true);
+            writer.putBit(true);
+            writer.putBit(true);
+            writer.putBit(false);
+        }
+        writer.putBit(true);
+        writer.putBit(true);
+
+
+        var out = writer.finish();
+
+        assertEquals(5, out.capacity());
+
+        for (int i = 0; i < 4; i++) {
+            byte actual1 = out.get(i);
+            byte expected1 = (byte) 0b1011_1110;
+
+            assertEquals(expected1, actual1, STR."was \{Integer.toBinaryString(actual1 & 0xFF)}");
+        }
+
+        byte actual2 = out.get(4);
+        byte expected2 = (byte) 0b1100_0000;
+
+        assertEquals(expected2, actual2, STR."was \{Integer.toBinaryString(actual2 & 0xFF)}");
+
+    }
+
+    @Test
+    public void testPut1() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(1, 1);
+        var ret = writer.finish();
+        assertEquals(1, ret.capacity());
+        assertEquals((byte)0b1000_0000, ret.get(0));
+    }
+
+    @Test
+    public void testPut4() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(1, 4);
+        var ret = writer.finish();
+        assertEquals(1, ret.capacity());
+        assertEquals((byte)0b0001_0000, ret.get(0));
+    }
+
+    @Test
+    public void testPut8() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(3, 8);
+        var ret = writer.finish();
+        assertEquals(1, ret.capacity());
+        assertEquals((byte)0b0000_0011, ret.get(0));
+    }
+
+    @Test
+    public void testPut8_2() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(~0, 8);
+        var ret = writer.finish();
+        assertEquals(1, ret.capacity());
+        assertEquals((byte)0b1111_1111, ret.get(0));
+    }
+
+    @Test
+    public void testPut8_3() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(~0, 8);
+        writer.put(0, 8);
+        writer.put(~0, 8);
+        writer.put(1, 1);
+
+        var ret = writer.finish();
+
+        assertEquals(4, ret.capacity());
+        assertEquals((byte)0b1111_1111, ret.get(0));
+        assertEquals((byte)0, ret.get(1));
+        assertEquals((byte)0b1111_1111, ret.get(2));
+        assertEquals((byte)0b1000_0000, ret.get(3));
+    }
+
+    @Test
+    public void testIntOverflow() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(~0, 24);
+        writer.put(0, 16);
+        writer.put(1, 1);
+
+        var ret = writer.finish();
+
+        assertEquals(6, ret.capacity());
+        assertEquals((byte)0b1111_1111, ret.get(0));
+        assertEquals((byte)0b1111_1111, ret.get(1));
+        assertEquals((byte)0b1111_1111, ret.get(2));
+        assertEquals((byte)0, ret.get(3));
+        assertEquals((byte)0, ret.get(4));
+        assertEquals((byte)0b1000_0000, ret.get(5));
+    }
+
+    @Test
+    public void testIntOverflowMisaligned() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(0, 2);
+        writer.put(~0, 24);
+        writer.put(0, 16);
+        writer.put(1, 1);
+
+        var ret = writer.finish();
+
+        assertEquals(6, ret.capacity());
+        assertEquals((byte)0b0011_1111, ret.get(0));
+        assertEquals((byte)0b1111_1111, ret.get(1));
+        assertEquals((byte)0b1111_1111, ret.get(2));
+        assertEquals((byte)0b1100_0000, ret.get(3));
+        assertEquals((byte)0, ret.get(4));
+        assertEquals((byte)0b0010_0000, ret.get(5));
+    }
+
+    @Test
+    public void testFuzzCase1() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(1, 6);
+        writer.put(702, 11);
+
+        var ret = writer.finish();
+
+        var reader = new BitReader(ret);
+        int a = reader.get(6);
+        int b = reader.get(11);
+        assertEquals(a, 1);
+        assertEquals(b, 702);
+    }
+
+    @Test
+    public void testFuzzCase2() {
+        var buffer = ByteBuffer.allocate(1024);
+        var writer = new BitWriter(buffer);
+
+        writer.put(0, 6);
+        writer.put(0, 2);
+
+        var ret = writer.finish();
+
+        assertEquals(1, ret.capacity());
+        assertEquals(0, ret.get(0));
+
+        var reader = new BitReader(ret);
+        int a = reader.get(6);
+        int b = reader.get(2);
+        assertEquals(a, 0);
+        assertEquals(b, 0);
+    }
+
+    @Test
+    void fuzz() {
+        Random r = new Random();
+
+        for (int i = 0; i < 1000; i++) {
+            var buffer = ByteBuffer.allocate(32);
+            var writer = new BitWriter(buffer);
+            int aw = r.nextInt(1, 31);
+            int bw = r.nextInt(1, 31);
+            int a = r.nextInt(0, 1<<aw - 1);
+            int b = r.nextInt(0, 1<<bw - 1);
+            System.out.println(a + "/" + aw + "," + b + "/" + bw);
+            writer.put(a, aw);
+            writer.put(b, bw);
+            var ret = writer.finish();
+
+            var reader = new BitReader(ret);
+            int ra = reader.get(aw);
+            int rb = reader.get(bw);
+
+            assertEquals(a, ra);
+            assertEquals(b, rb);
+            System.out.println(a + "," + b);
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
new file mode 100644
index 00000000..914c8329
--- /dev/null
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
@@ -0,0 +1,78 @@
+package nu.marginalia.sequence;
+
+import org.junit.jupiter.api.Test;
+
+import java.nio.ByteBuffer;
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.List;
+import java.util.Random;
+import java.util.stream.IntStream;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class EliasGammaCodecTest {
+
+    ByteBuffer work = ByteBuffer.allocate(65536);
+
+    @Test
+    public void testCodec() {
+        var ret = EliasGammaCodec.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });
+
+        List<Integer> decoded = new ArrayList<>();
+        List<Integer> expected = List.of(1, 3, 5, 16, 32, 64);
+
+        var sequence = EliasGammaCodec.decode(ret);
+        while (sequence.hasNext()) {
+            decoded.add(sequence.nextInt());
+        }
+
+        assertEquals(expected, decoded);
+    }
+
+    @Test
+    public void testCodec2() {
+        var ret = EliasGammaCodec.encode(work, new int[] { 1, 256 });
+
+        List<Integer> decoded = new ArrayList<>();
+        List<Integer> expected = List.of(1, 256);
+
+        var sequence = EliasGammaCodec.decode(ret);
+        while (sequence.hasNext()) {
+            decoded.add(sequence.nextInt());
+        }
+
+
+        assertEquals(expected, decoded);
+    }
+
+    @Test
+    public void fuzzTestCodec() {
+        Random r = new Random();
+        for (int i = 0; i < 1000; i++) {
+            int[] sequence = new int[2];
+            sequence[0] = 1;
+            sequence[1] = 1 + r.nextInt(1, 512);
+
+            var ret = EliasGammaCodec.encode(work, sequence);
+
+            List<Integer> decoded = new ArrayList<>();
+            List<Integer> expected = IntStream.of(sequence).boxed().toList();
+
+            try {
+                var codedData = EliasGammaCodec.decode(ret);
+                while (codedData.hasNext()) {
+                    decoded.add(codedData.nextInt());
+                }
+            }
+            catch (Exception e) {
+                fail("Exception thrown for " + Arrays.toString(sequence));
+            }
+
+            assertEquals(expected, decoded, "Expected " + expected + " but got " + decoded + " for " + Arrays.toString(sequence));
+
+            System.out.println(Arrays.toString(sequence) + " ok");
+        }
+    }
+
+}
\ No newline at end of file
diff --git a/settings.gradle b/settings.gradle
index b2f795f9..79c04ee6 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -37,6 +37,7 @@ include 'code:index:index-reverse'
 
 include 'code:libraries:array'
 include 'code:libraries:array:cpp'
+include 'code:libraries:coded-sequence'
 include 'code:libraries:geo-ip'
 include 'code:libraries:btree'
 include 'code:libraries:easy-lsh'
diff --git a/third-party/parquet-floor/src/main/java/blue/strategic/parquet/BinarySerializable.java b/third-party/parquet-floor/src/main/java/blue/strategic/parquet/BinarySerializable.java
new file mode 100644
index 00000000..0040b57c
--- /dev/null
+++ b/third-party/parquet-floor/src/main/java/blue/strategic/parquet/BinarySerializable.java
@@ -0,0 +1,5 @@
+package blue.strategic.parquet;
+
+public interface BinarySerializable {
+    byte[] bytes();
+}

From 9b922af075ec7863d807a31c5e0ecb9c65f28561 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 30 May 2024 14:20:36 +0200
Subject: [PATCH 004/216] (converter) Amend existing modifications to use gamma
 coded positions lists

 ... instead of serialized RoaringBitmaps as was the initial take on the problem.
---
 .../keyword-extraction/build.gradle           |  2 ++
 .../keyword/DocumentKeywordExtractor.java     |  5 ++++-
 .../keyword/model/DocumentKeywords.java       |  6 +++---
 .../model/DocumentKeywordsBuilder.java        | 18 ++++++++--------
 .../model/DocumentKeywordsPointer.java        |  4 ++--
 .../keyword/DocumentKeywordExtractorTest.java | 18 +++++++++++++---
 .../processed-data/build.gradle               |  1 +
 .../DocumentRecordParquetFileWriter.java      |  4 ++--
 .../model/processed/DocumentRecord.java       | 21 ++++---------------
 .../DocumentRecordKeywordsProjection.java     | 11 +++-------
 .../DocumentRecordParquetFileReaderTest.java  | 21 ++++++++-----------
 .../processes/converting-process/build.gradle |  2 ++
 .../writer/ConverterBatchWriter.java          |  7 +++++--
 code/processes/loading-process/build.gradle   |  2 ++
 .../documents/KeywordLoaderService.java       |  3 ++-
 .../loader/LoaderIndexJournalWriterTest.java  |  8 ++++---
 .../blue/strategic/parquet/ParquetWriter.java | 21 +++++++++++++++++++
 .../blue/strategic/parquet/ValueWriter.java   |  1 +
 18 files changed, 92 insertions(+), 63 deletions(-)

diff --git a/code/features-convert/keyword-extraction/build.gradle b/code/features-convert/keyword-extraction/build.gradle
index e45bf9f6..384d415b 100644
--- a/code/features-convert/keyword-extraction/build.gradle
+++ b/code/features-convert/keyword-extraction/build.gradle
@@ -14,9 +14,11 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
     implementation project(':third-party:porterstemmer')
+    implementation project(':third-party:parquet-floor')
     implementation project(':code:common:model')
     implementation project(':code:common:config')
     implementation project(':code:libraries:language-processing')
+    implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:term-frequency-dict')
 
     implementation libs.bundles.slf4j
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index 84395d0f..61fbc0dd 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -104,7 +104,10 @@ public class DocumentKeywordExtractor {
                                   KeywordMetadata metadata,
                                   DocumentLanguageData documentLanguageData)
     {
-        int pos = 0;
+        // we use 1-based indexing since the data
+        // will be gamma encoded, and it can't represent 0
+        int pos = 1;
+
         for (var sent : documentLanguageData.sentences) {
 
             if (wordsBuilder.size() > 1500)
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index 85e6e3f8..ab50fef5 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,7 +1,7 @@
 package nu.marginalia.keyword.model;
 
 import nu.marginalia.model.idx.WordMetadata;
-import org.roaringbitmap.RoaringBitmap;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.Serial;
 import java.io.Serializable;
@@ -13,11 +13,11 @@ public final class DocumentKeywords implements Serializable {
 
     public final String[] keywords;
     public final long[] metadata;
-    public final RoaringBitmap[] positions;
+    public final GammaCodedSequence[] positions;
 
     public DocumentKeywords(String[] keywords,
                             long[] metadata,
-                            RoaringBitmap[] positions)
+                            GammaCodedSequence[] positions)
     {
         this.keywords = keywords;
         this.metadata = metadata;
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 414813a8..46bc2c15 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -1,17 +1,20 @@
 package nu.marginalia.keyword.model;
 
+import it.unimi.dsi.fastutil.ints.IntArrayList;
+import it.unimi.dsi.fastutil.ints.IntList;
 import it.unimi.dsi.fastutil.objects.Object2LongLinkedOpenHashMap;
 import lombok.Getter;
 import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.idx.WordMetadata;
-import org.roaringbitmap.RoaringBitmap;
+import nu.marginalia.sequence.GammaCodedSequence;
 
+import java.nio.ByteBuffer;
 import java.util.*;
 
 @Getter
 public class DocumentKeywordsBuilder {
     public final Object2LongLinkedOpenHashMap<String> wordToMeta;
-    public final HashMap<String, RoaringBitmap> wordToPos;
+    public final HashMap<String, IntList> wordToPos;
 
     /** These ware keywords that had signals of high relevance */
     public final Set<String> importantWords = new HashSet<>();
@@ -28,22 +31,19 @@ public class DocumentKeywordsBuilder {
     public DocumentKeywords build() {
         final String[] wordArray = new String[wordToMeta.size()];
         final long[] meta = new long[wordToMeta.size()];
-        final RoaringBitmap[] positions = new RoaringBitmap[wordToMeta.size()];
+        final GammaCodedSequence[] positions = new GammaCodedSequence[wordToMeta.size()];
 
         var iter = wordToMeta.object2LongEntrySet().fastIterator();
 
+        ByteBuffer workArea = ByteBuffer.allocate(1024);
         for (int i = 0; iter.hasNext(); i++) {
             var entry = iter.next();
 
             meta[i] = entry.getLongValue();
             wordArray[i] = entry.getKey();
-            positions[i] = wordToPos.get(entry.getKey());
-            if (positions[i] == null) {
-                positions[i] = new RoaringBitmap();
-            }
+            positions[i] = GammaCodedSequence.generate(workArea, wordToPos.get(entry.getKey()));
         }
 
-
         return new DocumentKeywords(wordArray, meta, positions);
     }
 
@@ -63,7 +63,7 @@ public class DocumentKeywordsBuilder {
         if (word.length() > MAX_WORD_LENGTH)
             return;
 
-        wordToPos.computeIfAbsent(word, k -> new RoaringBitmap()).add(pos);
+        wordToPos.computeIfAbsent(word, k -> new IntArrayList()).add(pos);
     }
 
     public void addImportantWords(Collection<String> words) {
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
index 181be165..960fff07 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
@@ -1,6 +1,6 @@
 package nu.marginalia.keyword.model;
 
-import org.roaringbitmap.RoaringBitmap;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 /** Pointer into a {@see DocumentKeywords}.  It starts out before the first position,
  * forward with advancePointer().
@@ -30,7 +30,7 @@ public class DocumentKeywordsPointer {
     }
 
     /** Return the positions associated with the current position */
-    public RoaringBitmap getPositions() {
+    public GammaCodedSequence getPositions() {
         return keywords.positions[pos];
     }
 
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index fe60a0f1..ff064a21 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -5,15 +5,16 @@ import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.idx.WordMetadata;
-import nu.marginalia.segmentation.NgramLexicon;
+import nu.marginalia.sequence.EliasGammaCodec;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.Test;
-import org.roaringbitmap.RoaringBitmap;
 
 import java.io.IOException;
 import java.net.URISyntaxException;
+import java.nio.ByteBuffer;
 import java.nio.charset.Charset;
 import java.util.HashMap;
 import java.util.Map;
@@ -94,13 +95,24 @@ class DocumentKeywordExtractorTest {
         var ptr = keywordsBuilt.newPointer();
 
         Map<String, WordMetadata> flags = new HashMap<>();
-        Map<String, RoaringBitmap> positions = new HashMap<>();
+        Map<String, GammaCodedSequence> positions = new HashMap<>();
+
+        ByteBuffer work = ByteBuffer.allocate(1024);
 
         while (ptr.advancePointer()) {
             System.out.println(ptr.getKeyword() + " " + ptr.getMetadata() + " " + ptr.getPositions());
+
+            int[] vals = ptr.getPositions().decode().toIntArray();
+            for (int i = 0; i < vals.length; i++) {
+                vals[i] = vals[i] + 1;
+            }
+            var out = EliasGammaCodec.encode(work, vals);
+            System.out.println(out.capacity() + "/" + vals.length * 4);
+
             if (Set.of("dirty", "blues").contains(ptr.getKeyword())) {
                 flags.put(ptr.getKeyword(), new WordMetadata(ptr.getMetadata()));
                 positions.put(ptr.getKeyword(), ptr.getPositions());
+
             }
         }
 
diff --git a/code/process-models/processed-data/build.gradle b/code/process-models/processed-data/build.gradle
index 99d3a949..21ccf221 100644
--- a/code/process-models/processed-data/build.gradle
+++ b/code/process-models/processed-data/build.gradle
@@ -16,6 +16,7 @@ dependencies {
     implementation libs.bundles.slf4j
 
     implementation project(':third-party:parquet-floor')
+    implementation project(':code:libraries:coded-sequence')
 
     implementation libs.notnull
     implementation libs.roaringbitmap
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java
index 62eec879..8e9b9657 100644
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java
+++ b/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java
@@ -14,8 +14,8 @@ public class DocumentRecordParquetFileWriter implements AutoCloseable {
                 file.toFile(), DocumentRecord.newDehydrator());
     }
 
-    public void write(DocumentRecord domainData) throws IOException {
-        writer.write(domainData);
+    public void write(DocumentRecord documentRecord) throws IOException {
+        writer.write(documentRecord);
     }
 
     public void close() throws IOException {
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
index 4f6a6c5e..b7be75d8 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
@@ -3,18 +3,15 @@ package nu.marginalia.model.processed;
 import blue.strategic.parquet.Dehydrator;
 import blue.strategic.parquet.Hydrator;
 import blue.strategic.parquet.ValueWriter;
-import gnu.trove.list.TIntList;
 import gnu.trove.list.TLongList;
-import gnu.trove.list.array.TIntArrayList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.*;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.apache.parquet.schema.MessageType;
 import org.apache.parquet.schema.Types;
 import org.jetbrains.annotations.NotNull;
 import org.jetbrains.annotations.Nullable;
-import org.roaringbitmap.RoaringBitmap;
 
-import java.nio.ByteBuffer;
 import java.util.ArrayList;
 import java.util.List;
 
@@ -62,7 +59,7 @@ public class DocumentRecord {
     @Nullable
     public TLongList metas;
     @Nullable
-    public List<RoaringBitmap> positions;
+    public List<GammaCodedSequence> positions;
 
     public static Hydrator<DocumentRecord, DocumentRecord> newHydrator() {
         return new DocumentDataHydrator();
@@ -125,11 +122,7 @@ public class DocumentRecord {
                 if (this.positions == null) {
                     this.positions = new ArrayList<>(100);
                 }
-                byte[] array = (byte[]) value;
-                ByteBuffer buffer = ByteBuffer.wrap(array);
-                var rb = new RoaringBitmap();
-                rb.deserialize(buffer);
-                this.positions.add(rb);
+                this.positions.add(new GammaCodedSequence((byte[]) value));
             }
             default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
         }
@@ -161,13 +154,7 @@ public class DocumentRecord {
             valueWriter.writeList("wordMeta", metas);
         }
         if (positions != null) {
-            List<byte[]> pos = new ArrayList<>(positions.size());
-            for (RoaringBitmap bitmap : positions) {
-                ByteBuffer baos = ByteBuffer.allocate(bitmap.serializedSizeInBytes());
-                bitmap.serialize(baos);
-                pos.add(baos.array());
-            }
-            valueWriter.writeList("positions", pos);
+            valueWriter.writeBinarySerializableList("positions", positions);
         }
 
         if (words != null) {
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
index 051fbd1d..c981f0da 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
@@ -4,10 +4,9 @@ import blue.strategic.parquet.Hydrator;
 import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.*;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.jetbrains.annotations.NotNull;
-import org.roaringbitmap.RoaringBitmap;
 
-import java.nio.ByteBuffer;
 import java.util.ArrayList;
 import java.util.Collection;
 import java.util.List;
@@ -29,7 +28,7 @@ public class DocumentRecordKeywordsProjection {
 
     public List<String> words;
     public TLongList metas;
-    public List<RoaringBitmap> positions;
+    public List<GammaCodedSequence> positions;
 
     public boolean hasKeywords() {
         return words != null && metas != null;
@@ -65,11 +64,7 @@ public class DocumentRecordKeywordsProjection {
                 if (this.positions == null) {
                     this.positions = new ArrayList<>(100);
                 }
-                byte[] array = (byte[]) value;
-                ByteBuffer buffer = ByteBuffer.wrap(array);
-                var rb = new RoaringBitmap();
-                rb.deserialize(buffer);
-                this.positions.add(rb);
+                this.positions.add(new GammaCodedSequence((byte[]) value));
             }
             default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
         }
diff --git a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
index d7c78852..62a36fe4 100644
--- a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
+++ b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
@@ -1,14 +1,14 @@
 package nu.marginalia.io.processed;
 
-import gnu.trove.list.array.TIntArrayList;
 import gnu.trove.list.array.TLongArrayList;
 import nu.marginalia.model.processed.DocumentRecord;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
-import org.roaringbitmap.RoaringBitmap;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.List;
@@ -34,14 +34,7 @@ class DocumentRecordParquetFileReaderTest {
     @Test
     public void test() throws IOException {
 
-        var rb1 = new RoaringBitmap();
-        rb1.add(1);
-        rb1.add(2);
-        rb1.add(3);
-        var rb2 = new RoaringBitmap();
-        rb2.add(1);
-        rb2.add(4);
-        rb2.add(5);
+        ByteBuffer workArea = ByteBuffer.allocate(1024);
 
         var doc = new DocumentRecord(
                 "www.marginalia.nu",
@@ -60,7 +53,10 @@ class DocumentRecordParquetFileReaderTest {
                 null,
                 List.of("Hello", "world"),
                 new TLongArrayList(new long[] { 2L, 3L}),
-                List.of(rb1, rb2)
+                List.of(
+                        GammaCodedSequence.generate(workArea, 1, 2, 3),
+                        GammaCodedSequence.generate(workArea, 1, 4, 5)
+                        )
         );
 
         try (var writer = new DocumentRecordParquetFileWriter(parquetFile)) {
@@ -76,7 +72,8 @@ class DocumentRecordParquetFileReaderTest {
         List<String> words = IntStream.range(0, 100000).mapToObj(Integer::toString).toList();
         TLongArrayList metas = new TLongArrayList(LongStream.range(0, 100000).toArray());
 
-        List<RoaringBitmap> poses = Stream.generate(RoaringBitmap::new).limit(100000).toList();
+        ByteBuffer workArea = ByteBuffer.allocate(1024);
+        List<GammaCodedSequence> poses = Stream.generate(() -> GammaCodedSequence.generate(workArea, 3, 4)).limit(100000).toList();
 
         var doc = new DocumentRecord(
                 "www.marginalia.nu",
diff --git a/code/processes/converting-process/build.gradle b/code/processes/converting-process/build.gradle
index 1429db5e..f3e7ae1d 100644
--- a/code/processes/converting-process/build.gradle
+++ b/code/processes/converting-process/build.gradle
@@ -25,6 +25,7 @@ dependencies {
 
     implementation project(':third-party:porterstemmer')
     implementation project(':third-party:count-min-sketch')
+    implementation project(':third-party:parquet-floor')
 
     implementation project(':code:index:api')
     implementation project(':code:process-mqapi')
@@ -38,6 +39,7 @@ dependencies {
 
     implementation project(':code:libraries:guarded-regex')
     implementation project(':code:libraries:easy-lsh')
+    implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:geo-ip')
     implementation project(':code:libraries:language-processing')
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index 58fdf2d5..5a3ff435 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -17,11 +17,12 @@ import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.processed.DocumentRecord;
 import nu.marginalia.model.processed.DomainLinkRecord;
 import nu.marginalia.model.processed.DomainRecord;
-import org.roaringbitmap.RoaringBitmap;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.file.Path;
 import java.util.*;
 import java.util.concurrent.Callable;
@@ -102,6 +103,8 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
 
         String domainName = domain.toString();
 
+        ByteBuffer workArea = ByteBuffer.allocate(1024);
+
         while (documentIterator.hasNext()) {
             var document = documentIterator.next();
             if (document.details == null) {
@@ -128,7 +131,7 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                 var wb = document.words.build();
                 List<String> words = Arrays.asList(wb.keywords);
                 TLongArrayList metas = new TLongArrayList(wb.metadata);
-                List<RoaringBitmap> positions = Arrays.asList(wb.positions);
+                List<GammaCodedSequence> positions = Arrays.asList(wb.positions);
 
                 documentWriter.write(new DocumentRecord(
                         domainName,
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 709795e6..90b00d87 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -31,7 +31,9 @@ dependencies {
     implementation project(':code:index:index-journal')
     implementation project(':code:libraries:message-queue')
     implementation project(':code:libraries:language-processing')
+    implementation project(':code:libraries:coded-sequence')
     implementation project(':third-party:commons-codec')
+    implementation project(':third-party:parquet-floor')
     testImplementation project(':code:services-application:search-service')
 
     implementation project(':code:process-models:crawling-model')
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index 259c1fa7..f69a891d 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -10,6 +10,7 @@ import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.processed.DocumentRecordKeywordsProjection;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.roaringbitmap.RoaringBitmap;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -68,7 +69,7 @@ public class KeywordLoaderService {
         var words = new DocumentKeywords(
                 projection.words.toArray(String[]::new),
                 projection.metas.toArray(),
-                projection.positions.toArray(RoaringBitmap[]::new)
+                projection.positions.toArray(GammaCodedSequence[]::new)
         );
 
         writer.putWords(combinedId,
diff --git a/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java b/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
index 28e4dddb..0f1afebe 100644
--- a/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
+++ b/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
@@ -1,5 +1,6 @@
 package nu.marginalia.loading.loader;
 
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorageBase;
 import nu.marginalia.storage.model.FileStorageBaseType;
@@ -12,9 +13,9 @@ import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 import org.mockito.Mockito;
-import org.roaringbitmap.RoaringBitmap;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.sql.SQLException;
@@ -52,11 +53,12 @@ class LoaderIndexJournalWriterTest {
     public void testBreakup() throws Exception {
         String[] keywords = new String[2000];
         long[] metadata = new long[2000];
-        RoaringBitmap[] positions = new RoaringBitmap[2000];
+        GammaCodedSequence[] positions = new GammaCodedSequence[2000];
+        ByteBuffer workArea = ByteBuffer.allocate(1024);
         for (int i = 0; i < 2000; i++) {
             keywords[i] = Integer.toString(i);
             metadata[i] = i+1;
-            positions[i] = new RoaringBitmap();
+            positions[i] = GammaCodedSequence.generate(workArea, 1, 2, 3);
         }
         DocumentKeywords words = new DocumentKeywords(keywords, metadata, positions);
         writer.putWords(1, 0, new DocumentMetadata(0),
diff --git a/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ParquetWriter.java b/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ParquetWriter.java
index 6d9b5734..53de4682 100644
--- a/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ParquetWriter.java
+++ b/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ParquetWriter.java
@@ -138,6 +138,15 @@ public final class ParquetWriter<T> implements Closeable {
                 SimpleWriteSupport.this.writeList(name, value);
             }
 
+            @Override
+            public void writeBinarySerializableList(String name, List<? extends BinarySerializable> value) {
+                if (value.isEmpty()) {
+                    return;
+                }
+
+                SimpleWriteSupport.this.writeBinarySerializableList(name, value);
+            }
+
             @Override
             public void writeList(String name, TIntList value) {
                 if (value.isEmpty()) {
@@ -209,6 +218,18 @@ public final class ParquetWriter<T> implements Closeable {
             recordConsumer.endField(name, fieldIndex);
         }
 
+        private void writeBinarySerializableList(String name, List<? extends BinarySerializable> values) {
+            int fieldIndex = schema.getFieldIndex(name);
+            PrimitiveType type = schema.getType(fieldIndex).asPrimitiveType();
+            recordConsumer.startField(name, fieldIndex);
+
+            for (var value : values) {
+                writeValue(type, value.bytes());
+            }
+
+            recordConsumer.endField(name, fieldIndex);
+        }
+
         private void writeList(String name, TIntList values) {
             int fieldIndex = schema.getFieldIndex(name);
             PrimitiveType type = schema.getType(fieldIndex).asPrimitiveType();
diff --git a/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ValueWriter.java b/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ValueWriter.java
index 962f3b50..aa07ba71 100644
--- a/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ValueWriter.java
+++ b/third-party/parquet-floor/src/main/java/blue/strategic/parquet/ValueWriter.java
@@ -9,5 +9,6 @@ public interface ValueWriter {
     void write(String name, Object value);
     void writeList(String name, List<?> value);
     void writeList(String name, TLongList value);
+    void writeBinarySerializableList(String name, List<? extends BinarySerializable> value);
     void writeList(String name, TIntList value);
 }

From 4a8afa6b9fce794a89c4b924998b892a018bf67b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 6 Jun 2024 12:54:52 +0200
Subject: [PATCH 005/216] (index, WIP) Position data partially integrated with
 forward and reverse indexes.

There's no graceful way of doing this in small commits, pushing to avoid the risk of data loss.
---
 .../keyword/model/DocumentKeywords.java       |  26 --
 .../model/DocumentKeywordsBuilder.java        |   2 +-
 .../model/DocumentKeywordsPointer.java        |  48 ---
 .../keyword/DocumentKeywordExtractorTest.java |  21 +-
 code/index/build.gradle                       |   2 +
 code/index/index-forward/build.gradle         |   1 +
 .../forward/ForwardIndexConverterTest.java    |  36 +-
 code/index/index-journal/build.gradle         |   4 +
 .../journal/model/IndexJournalEntry.java      |  27 --
 .../model/IndexJournalEntryBuilder.java       |  37 --
 .../journal/model/IndexJournalEntryData.java  |  81 +---
 .../model/IndexJournalEntryTermData.java      |  20 +
 .../journal/reader/IndexJournalReadEntry.java |  80 ++--
 .../journal/reader/IndexJournalReader.java    |  18 +-
 .../reader/IndexJournalReaderPagingImpl.java  |   9 +-
 .../reader/IndexJournalReaderSingleFile.java  |  49 +--
 .../reader/pointer/IndexJournalPointer.java   | 116 +++---
 .../journal/writer/IndexJournalWriter.java    |  15 +-
 .../writer/IndexJournalWriterPagingImpl.java  |   5 +-
 .../IndexJournalWriterSingleFileImpl.java     |  41 +-
 .../index/journal/IndexJournalTest.java       |  95 +++--
 .../index/journal/IndexJournalWriterTest.java | 367 ++++++++++++++++++
 .../pointer/IndexJournalPointerTest.java      | 242 ++++++------
 code/index/index-reverse/build.gradle         |   4 +
 .../PositionsFileConstructor.java             |  51 +++
 .../construction/ReverseIndexConstructor.java |  13 +-
 .../index/construction/ReversePreindex.java   |   3 +-
 .../ReversePreindexDocuments.java             |  13 +-
 .../ReversePreindexWordSegments.java          |   6 +-
 .../index/ReverseIndexReaderTest.java         |   6 +-
 .../construction/ReversePreindexDocsTest.java |   3 +-
 .../construction/TestJournalFactory.java      |  27 +-
 ...IndexQueryServiceIntegrationSmokeTest.java |  36 +-
 .../IndexQueryServiceIntegrationTest.java     |  18 +-
 .../marginalia/sequence/EliasGammaCodec.java  |  39 +-
 .../sequence/GammaCodedSequence.java          |  33 +-
 .../nu/marginalia/sequence/io/BitReader.java  |   8 +-
 .../nu/marginalia/sequence/io/BitWriter.java  |  11 +
 .../nu/marginalia/sequence/BitReaderTest.java |   5 +-
 .../loading/LoaderIndexJournalWriter.java     |  31 +-
 .../loader/LoaderIndexJournalWriterTest.java  |  87 -----
 .../java/nu/marginalia/search/SearchMain.java |   1 +
 42 files changed, 1019 insertions(+), 718 deletions(-)
 delete mode 100644 code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntry.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryBuilder.java
 create mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
 create mode 100644 code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
 delete mode 100644 code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index ab50fef5..e4916e31 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,6 +1,5 @@
 package nu.marginalia.keyword.model;
 
-import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.Serial;
@@ -26,26 +25,6 @@ public final class DocumentKeywords implements Serializable {
         assert keywords.length == metadata.length;
     }
 
-    @Override
-    public String toString() {
-        StringBuilder sb = new StringBuilder();
-        sb.append(getClass().getSimpleName());
-        sb.append('[');
-        var pointer = newPointer();
-        while (pointer.advancePointer()) {
-            sb.append("\n\t ");
-
-            long metadata = pointer.getMetadata();
-            String keyword = pointer.getKeyword();
-            sb.append(keyword);
-
-            if (metadata != 0) {
-                sb.append("/").append(new WordMetadata(metadata));
-            }
-        }
-        return sb.append("\n]").toString();
-    }
-
     public boolean isEmpty() {
         return keywords.length == 0;
     }
@@ -54,11 +33,6 @@ public final class DocumentKeywords implements Serializable {
         return keywords.length;
     }
 
-    /** Return a pointer for traversing this structure */
-    public DocumentKeywordsPointer newPointer() {
-        return new DocumentKeywordsPointer(this);
-    }
-
 }
 
 
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 46bc2c15..a88dca0e 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -41,7 +41,7 @@ public class DocumentKeywordsBuilder {
 
             meta[i] = entry.getLongValue();
             wordArray[i] = entry.getKey();
-            positions[i] = GammaCodedSequence.generate(workArea, wordToPos.get(entry.getKey()));
+            positions[i] = GammaCodedSequence.generate(workArea, wordToPos.getOrDefault(entry.getKey(), IntList.of()));
         }
 
         return new DocumentKeywords(wordArray, meta, positions);
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
deleted file mode 100644
index 960fff07..00000000
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsPointer.java
+++ /dev/null
@@ -1,48 +0,0 @@
-package nu.marginalia.keyword.model;
-
-import nu.marginalia.sequence.GammaCodedSequence;
-
-/** Pointer into a {@see DocumentKeywords}.  It starts out before the first position,
- * forward with advancePointer().
- * */
-public class DocumentKeywordsPointer {
-    private int pos = -1;
-
-    private final DocumentKeywords keywords;
-
-    DocumentKeywordsPointer(DocumentKeywords keywords) {
-        this.keywords = keywords;
-    }
-
-    /** Number of positions remaining */
-    public int remaining() {
-        return keywords.size() - Math.max(0, pos);
-    }
-
-    /** Return the keyword associated with the current position */
-    public String getKeyword() {
-        return keywords.keywords[pos];
-    }
-
-    /** Return the metadata associated with the current position */
-    public long getMetadata() {
-        return keywords.metadata[pos];
-    }
-
-    /** Return the positions associated with the current position */
-    public GammaCodedSequence getPositions() {
-        return keywords.positions[pos];
-    }
-
-    /** Advance the current position,
-     * returns false if this was the
-     * last position */
-    public boolean advancePointer() {
-        return ++pos < keywords.size();
-    }
-
-    /** Returns true unless the pointer is beyond the last position in the keyword set */
-    public boolean hasMore() {
-        return pos + 1 < keywords.size();
-    }
-}
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index ff064a21..2aafdc00 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -92,26 +92,17 @@ class DocumentKeywordExtractorTest {
         );
 
         var keywordsBuilt = keywords.build();
-        var ptr = keywordsBuilt.newPointer();
 
         Map<String, WordMetadata> flags = new HashMap<>();
         Map<String, GammaCodedSequence> positions = new HashMap<>();
 
-        ByteBuffer work = ByteBuffer.allocate(1024);
+        for (int i = 0; i < keywordsBuilt.size(); i++) {
+            String keyword = keywordsBuilt.keywords[i];
+            long metadata = keywordsBuilt.metadata[i];
 
-        while (ptr.advancePointer()) {
-            System.out.println(ptr.getKeyword() + " " + ptr.getMetadata() + " " + ptr.getPositions());
-
-            int[] vals = ptr.getPositions().decode().toIntArray();
-            for (int i = 0; i < vals.length; i++) {
-                vals[i] = vals[i] + 1;
-            }
-            var out = EliasGammaCodec.encode(work, vals);
-            System.out.println(out.capacity() + "/" + vals.length * 4);
-
-            if (Set.of("dirty", "blues").contains(ptr.getKeyword())) {
-                flags.put(ptr.getKeyword(), new WordMetadata(ptr.getMetadata()));
-                positions.put(ptr.getKeyword(), ptr.getPositions());
+            if (Set.of("dirty", "blues").contains(keyword)) {
+                flags.put(keyword, new WordMetadata(metadata));
+                positions.put(keyword, keywordsBuilt.positions[i]);
 
             }
         }
diff --git a/code/index/build.gradle b/code/index/build.gradle
index 574c27d8..2f1cde13 100644
--- a/code/index/build.gradle
+++ b/code/index/build.gradle
@@ -15,12 +15,14 @@ dependencies {
     implementation 'org.jgrapht:jgrapht-core:1.5.2'
 
     implementation project(':third-party:commons-codec')
+    implementation project(':third-party:parquet-floor')
 
     implementation project(':code:index:api')
     implementation project(':code:functions:link-graph:api')
 
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
+    implementation project(':code:libraries:coded-sequence')
 
     implementation project(':code:common:db')
     implementation project(':code:common:config')
diff --git a/code/index/index-forward/build.gradle b/code/index/index-forward/build.gradle
index cf453e73..83e0cdc2 100644
--- a/code/index/index-forward/build.gradle
+++ b/code/index/index-forward/build.gradle
@@ -15,6 +15,7 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
+    implementation project(':code:libraries:coded-sequence')
     implementation project(':code:index:query')
     implementation project(':code:index:index-journal')
     implementation project(':code:common:model')
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
index de571664..b30f549f 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
@@ -2,12 +2,14 @@ package nu.marginalia.index.forward;
 
 import lombok.SneakyThrows;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.journal.model.IndexJournalEntry;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
 import nu.marginalia.index.journal.writer.IndexJournalWriter;
 import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
@@ -69,40 +71,40 @@ class ForwardIndexConverterTest {
         TestUtil.clearTempDir(dataDir);
     }
 
-    public int[] getFactorsI(int id) {
-        return IntStream.rangeClosed(1, id).filter(v -> (id % v) == 0).toArray();
-    }
-
     long createId(long url, long domain) {
         return UrlIdCodec.encodeId((int) domain, (int) url);
     }
 
     public void createEntry(IndexJournalWriter writer, int id) {
-        int[] factors = getFactorsI(id);
-
-        var entryBuilder = IndexJournalEntry.builder(createId(id, id/20), id%5);
-
-        for (int i = 0; i+1 < factors.length; i+=2) {
-            entryBuilder.add(factors[i], -factors[i+1]);
-        }
-
-        writer.put(entryBuilder.build());
+        writer.put(
+                new IndexJournalEntryHeader(createId(id, id/20),
+                        id%3,
+                        (id % 5)),
+                new IndexJournalEntryData(
+                    new String[]{},
+                    new long[]{},
+                    new GammaCodedSequence[]{}
+                )
+        );
     }
 
     @Test
     void testForwardIndex() throws IOException {
 
-        new ForwardIndexConverter(new FakeProcessHeartbeat(), new IndexJournalReaderSingleFile(indexFile), docsFileId, docsFileData, new DomainRankings()).convert();
+        new ForwardIndexConverter(new FakeProcessHeartbeat(),
+                new IndexJournalReaderSingleFile(indexFile),
+                docsFileId,
+                docsFileData,
+                new DomainRankings()).convert();
 
         var forwardReader = new ForwardIndexReader(docsFileId, docsFileData);
 
         for (int i = 36; i < workSetSize; i++) {
             long docId = createId(i, i/20);
             assertEquals(0x00FF000000000000L | (i % 5), forwardReader.getDocMeta(docId));
+            assertEquals((i % 3), forwardReader.getHtmlFeatures(docId));
             assertEquals(i/20, UrlIdCodec.getDomainId(docId));
         }
-
     }
 
-
 }
\ No newline at end of file
diff --git a/code/index/index-journal/build.gradle b/code/index/index-journal/build.gradle
index 5380c0be..7274b8b2 100644
--- a/code/index/index-journal/build.gradle
+++ b/code/index/index-journal/build.gradle
@@ -13,8 +13,11 @@ java {
 apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
+    implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:array')
     implementation project(':code:common:model')
+    implementation project(':third-party:parquet-floor')
+    implementation project(':third-party:commons-codec')
 
     implementation libs.bundles.slf4j
 
@@ -23,6 +26,7 @@ dependencies {
     implementation libs.guava
     implementation libs.trove
     implementation libs.zstd
+    implementation libs.fastutil
     implementation libs.commons.lang3
     implementation libs.roaringbitmap
 
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntry.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntry.java
deleted file mode 100644
index 7d4944ac..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntry.java
+++ /dev/null
@@ -1,27 +0,0 @@
-package nu.marginalia.index.journal.model;
-
-import nu.marginalia.model.id.UrlIdCodec;
-
-/** An entry in the index journal.
- *
- * @param header the header of the entry, containing document level data
- * @param data the data of the entry, containing keyword level data
- *
- * @see IndexJournalEntryHeader
- * @see IndexJournalEntryData
- */
-public record IndexJournalEntry(IndexJournalEntryHeader header, IndexJournalEntryData data) {
-
-    public static IndexJournalEntryBuilder builder(long documentId, long documentMeta) {
-        return new IndexJournalEntryBuilder(0, documentId, documentMeta);
-    }
-
-    public static IndexJournalEntryBuilder builder(int domainId,
-                                                   int urlId,
-                                                   long documentMeta) {
-
-
-        return builder(UrlIdCodec.encodeId(domainId, urlId), documentMeta);
-    }
-
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryBuilder.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryBuilder.java
deleted file mode 100644
index 6bfa19ea..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryBuilder.java
+++ /dev/null
@@ -1,37 +0,0 @@
-package nu.marginalia.index.journal.model;
-
-import gnu.trove.list.array.TLongArrayList;
-
-public class IndexJournalEntryBuilder {
-    private final long documentId;
-    private final int documentFeatures;
-    private final long documentMeta;
-    private final TLongArrayList items = new TLongArrayList();
-
-    public IndexJournalEntryBuilder(
-            int documentFeatures,
-            long documentId,
-            long documentMeta) {
-        this.documentFeatures = documentFeatures;
-        this.documentId = documentId;
-        this.documentMeta = documentMeta;
-    }
-
-    public IndexJournalEntryBuilder add(long wordId, long metadata) {
-
-        items.add(wordId);
-        items.add(metadata);
-
-        return this;
-    }
-
-    public IndexJournalEntry build() {
-        return new IndexJournalEntry(
-                new IndexJournalEntryHeader(items.size(),
-                        documentFeatures,
-                        documentId,
-                        documentMeta),
-                new IndexJournalEntryData(items.toArray())
-        );
-    }
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
index 26c10c2a..71ef1d2a 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
@@ -1,77 +1,36 @@
 package nu.marginalia.index.journal.model;
 
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.sequence.GammaCodedSequence;
 
-import java.util.Arrays;
-import java.util.Iterator;
+public record IndexJournalEntryData(long[] termIds,
+                                    long[] metadata,
+                                    GammaCodedSequence[] positions) {
 
-/** The keyword data of an index journal entry.
- *  The data itself is an interleaved array of
- *  word ids and metadata.
- * <p>
- *  Odd entries are term ids, even entries are encoded WordMetadata records.
- *  </p>
- *  <p>The civilized way of reading the journal data is to use an IndexJournalReader</p>
- *
- * @see WordMetadata
- * @see IndexJournalReader
- */
-public class IndexJournalEntryData implements Iterable<IndexJournalEntryData.Record> {
-    private final int size;
-    public final long[] underlyingArray;
-
-    public static final int MAX_LENGTH = 1000;
-    public static final int ENTRY_SIZE = 2;
-
-    public IndexJournalEntryData(long[] underlyingArray) {
-        this.size = underlyingArray.length;
-        this.underlyingArray = underlyingArray;
+    public IndexJournalEntryData {
+        assert termIds.length == metadata.length;
+        assert termIds.length == positions.length;
     }
 
-    public IndexJournalEntryData(int size, long[] underlyingArray) {
-        this.size = size;
-        this.underlyingArray = underlyingArray;
+    public IndexJournalEntryData(String[] keywords,
+                                 long[] metadata,
+                                 GammaCodedSequence[] positions)
+    {
+        this(termIds(keywords), metadata, positions);
     }
 
-    public long get(int idx) {
-        if (idx >= size)
-            throw new ArrayIndexOutOfBoundsException(idx + " vs " + size);
-        return underlyingArray[idx];
-    }
+    private static final MurmurHash3_128 hash = new MurmurHash3_128();
 
     public int size() {
-        return size;
-    }
-    public long[] toArray() {
-        if (size == underlyingArray.length)
-            return underlyingArray;
-        else
-            return Arrays.copyOf(underlyingArray, size);
+        return termIds.length;
     }
 
-    public String toString() {
-        return String.format("%s[%s]", getClass().getSimpleName(), Arrays.toString(toArray()));
-    }
 
-    public Iterator<Record> iterator() {
-        return new EntryIterator();
-    }
-
-    private class EntryIterator implements Iterator<Record> {
-        int pos = -ENTRY_SIZE;
-
-        public boolean hasNext() {
-            return pos + 2*ENTRY_SIZE - 1 < size;
-        }
-
-        @Override
-        public Record next() {
-            pos+=ENTRY_SIZE;
-
-            return new Record(underlyingArray[pos], underlyingArray[pos+1]);
+    private static long[] termIds(String[] keywords) {
+        long[] termIds = new long[keywords.length];
+        for (int i = 0; i < keywords.length; i++) {
+            termIds[i] = hash.hashKeyword(keywords[i]);
         }
+        return termIds;
     }
-
-    public record Record(long wordId, long metadata) {}
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
new file mode 100644
index 00000000..c9de3da1
--- /dev/null
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
@@ -0,0 +1,20 @@
+package nu.marginalia.index.journal.model;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+
+/** Data corresponding to a term in a document in the index journal.
+ *
+ * @param termId the id of the term
+ * @param metadata the metadata of the term
+ * @param positions the positions of the word in the document, gamma coded
+ *
+ * @see GammaCodedSequence
+ */
+public record IndexJournalEntryTermData(
+        long termId,
+        long metadata,
+        GammaCodedSequence positions)
+{
+
+
+}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
index 625267d1..0f3a6ff2 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
@@ -1,35 +1,29 @@
 package nu.marginalia.index.journal.reader;
 
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
+import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.DataInputStream;
 import java.io.IOException;
 import java.nio.ByteBuffer;
-import java.nio.LongBuffer;
+import java.util.Iterator;
 
-public class IndexJournalReadEntry {
+public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData> {
     public final IndexJournalEntryHeader header;
 
-    private final long[] buffer;
+    private final ByteBuffer buffer;
+    private final int initialPos;
 
-    public IndexJournalReadEntry(IndexJournalEntryHeader header, long[] buffer) {
+    public IndexJournalReadEntry(IndexJournalEntryHeader header, ByteBuffer buffer) {
         this.header = header;
         this.buffer = buffer;
+        this.initialPos = buffer.position();
     }
 
 
-    record WorkArea(byte[] bytes, LongBuffer buffer) {
-        WorkArea(byte[] bytes) {
-            this(bytes, ByteBuffer.wrap(bytes).asLongBuffer());
-        }
-        WorkArea() {
-            this(new byte[8*65536]);
-        }
-    }
-
-    static ThreadLocal<WorkArea> pool = ThreadLocal.withInitial(WorkArea::new);
+    static ThreadLocal<ByteBuffer> pool = ThreadLocal.withInitial(() -> ByteBuffer.allocate(8*65536));
 
     public static IndexJournalReadEntry read(DataInputStream inputStream) throws IOException {
 
@@ -44,13 +38,11 @@ public class IndexJournalReadEntry {
                 meta);
 
         var workArea = pool.get();
-        inputStream.readFully(workArea.bytes, 0, 8 * header.entrySize());
-
-        long[] out = new long[header.entrySize()];
-        workArea.buffer.get(0, out, 0, out.length);
-
-        return new IndexJournalReadEntry(header, out);
+        inputStream.readFully(workArea.array(), 0, header.entrySize());
+        workArea.position(0);
+        workArea.limit(header.entrySize());
 
+        return new IndexJournalReadEntry(header, workArea);
     }
 
     public long docId() {
@@ -61,12 +53,54 @@ public class IndexJournalReadEntry {
         return header.documentMeta();
     }
 
+    public int documentFeatures() {
+        return header.documentFeatures();
+    }
+
     public int domainId() {
         return UrlIdCodec.getDomainId(docId());
     }
 
-    public IndexJournalEntryData readEntry() {
-        return new IndexJournalEntryData(header.entrySize(), buffer);
+    public void reset() {
+        buffer.position(initialPos);
+    }
+
+    public Iterator<IndexJournalEntryTermData> iterator() {
+        return new TermDataIterator(buffer, initialPos);
     }
 
 }
+
+class TermDataIterator implements Iterator<IndexJournalEntryTermData> {
+    private final ByteBuffer buffer;
+
+    TermDataIterator(ByteBuffer buffer, int initialPos) {
+        this.buffer = buffer;
+        this.buffer.position(initialPos);
+    }
+
+    @Override
+    public boolean hasNext() {
+        return buffer.position() < buffer.limit();
+    }
+
+    @Override
+    public IndexJournalEntryTermData next() {
+        // read the metadata for the term
+        long termId = buffer.getLong();
+        long meta = buffer.getLong();
+
+        // read the size of the sequence data
+        int size = buffer.get() & 0xFF;
+
+        // slice the buffer to get the sequence data
+        var slice = buffer.slice(buffer.position(), size);
+        var sequence = new GammaCodedSequence(slice);
+
+        // advance the buffer position to the next term
+        buffer.position(buffer.position() + size);
+
+        return new IndexJournalEntryTermData(termId, meta, sequence);
+    }
+
+}
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
index 14e686b3..2f57da61 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
@@ -12,6 +12,9 @@ public interface IndexJournalReader {
     int FILE_HEADER_SIZE_LONGS = 2;
     int FILE_HEADER_SIZE_BYTES = 8 * FILE_HEADER_SIZE_LONGS;
 
+    int DOCUMENT_HEADER_SIZE_BYTES = 24;
+    int TERM_HEADER_SIZE_BYTES = 17;
+
     /** Create a reader for a single file. */
     static IndexJournalReader singleFile(Path fileName) throws IOException {
         return new IndexJournalReaderSingleFile(fileName);
@@ -25,22 +28,23 @@ public interface IndexJournalReader {
     default void forEachWordId(LongConsumer consumer) {
         var ptr = this.newPointer();
         while (ptr.nextDocument()) {
-            while (ptr.nextRecord()) {
-                consumer.accept(ptr.wordId());
+            for (var termData : ptr) {
+                consumer.accept(termData.termId());
             }
         }
     }
 
-    default void forEachDocId(LongConsumer consumer) {
-        var ptr = this.newPointer();
-        while (ptr.nextDocument()) {
-            consumer.accept(ptr.documentId());
+    default void forEachDocId(LongConsumer consumer) throws IOException {
+        try (var ptr = this.newPointer()) {
+            while (ptr.nextDocument()) {
+                consumer.accept(ptr.documentId());
+            }
         }
     }
 
     /** Create a new pointer to the journal.  The IndexJournalPointer is
      * a two-tiered iterator that allows both iteration over document records
-     * and their keywords
+     * and the terms within each document.
      */
     IndexJournalPointer newPointer();
 
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java
index d5ba23b8..8a4361fa 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java
@@ -16,12 +16,15 @@ public class IndexJournalReaderPagingImpl implements IndexJournalReader {
     private final List<IndexJournalReader> readers;
 
     public IndexJournalReaderPagingImpl(Path baseDir) throws IOException {
-        var inputFiles = IndexJournalFileNames.findJournalFiles(baseDir);
-        if (inputFiles.isEmpty())
+        this(IndexJournalFileNames.findJournalFiles(baseDir));
+
+        if (readers.isEmpty())
             logger.warn("Creating paging index journal file in {}, found no inputs!", baseDir);
         else
-            logger.info("Creating paging index journal reader for {} inputs", inputFiles.size());
+            logger.info("Creating paging index journal reader for {} inputs", readers.size());
+    }
 
+    public IndexJournalReaderPagingImpl(List<Path> inputFiles) throws IOException {
         this.readers = new ArrayList<>(inputFiles.size());
 
         for (var inputFile : inputFiles) {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
index a131a788..488d0dc6 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
@@ -2,18 +2,20 @@ package nu.marginalia.index.journal.reader;
 
 import com.github.luben.zstd.ZstdInputStream;
 import lombok.SneakyThrows;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 import nu.marginalia.index.journal.model.IndexJournalFileHeader;
 import nu.marginalia.index.journal.reader.pointer.IndexJournalPointer;
+import org.jetbrains.annotations.NotNull;
 
 import java.io.*;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
+import java.util.Iterator;
 
 public class IndexJournalReaderSingleFile implements IndexJournalReader {
 
-    private Path journalFile;
+    private final Path journalFile;
     public final IndexJournalFileHeader fileHeader;
 
     @Override
@@ -58,8 +60,6 @@ class SingleFileJournalPointer implements IndexJournalPointer {
     private final IndexJournalFileHeader fileHeader;
     private final DataInputStream dataInputStream;
     private IndexJournalReadEntry entry;
-    private IndexJournalEntryData entryData;
-    private int recordIdx = -2;
     private int docIdx = -1;
 
     public SingleFileJournalPointer(
@@ -73,9 +73,6 @@ class SingleFileJournalPointer implements IndexJournalPointer {
     @SneakyThrows
     @Override
     public boolean nextDocument() {
-        recordIdx = -2;
-        entryData = null;
-
         if (++docIdx < fileHeader.fileSizeRecords()) {
             entry = IndexJournalReadEntry.read(dataInputStream);
             return true;
@@ -86,19 +83,6 @@ class SingleFileJournalPointer implements IndexJournalPointer {
         return false;
     }
 
-    @Override
-    public boolean nextRecord() {
-        if (entryData == null) {
-            entryData = entry.readEntry();
-        }
-
-        recordIdx += 2;
-        if (recordIdx < entryData.size()) {
-            return true;
-        }
-        return false;
-    }
-
     @Override
     public long documentId() {
         return entry.docId();
@@ -109,22 +93,21 @@ class SingleFileJournalPointer implements IndexJournalPointer {
         return entry.docMeta();
     }
 
+
     @Override
-    public long wordId() {
-        return entryData.get(recordIdx);
+    public int documentFeatures() { return entry.documentFeatures(); }
+
+    /** Return an iterator over the terms in the current document.
+     *  This iterator is not valid after calling nextDocument().
+     */
+    @NotNull
+    @Override
+    public Iterator<IndexJournalEntryTermData> iterator() {
+        return entry.iterator();
     }
 
     @Override
-    public long wordMeta() {
-        return entryData.get(recordIdx + 1);
-    }
-
-    @Override
-    public int documentFeatures() {
-        if (entryData == null) {
-            entryData = entry.readEntry();
-        }
-
-        return entry.header.documentFeatures();
+    public void close() throws IOException {
+        dataInputStream.close();
     }
 }
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
index 37100335..59e65e27 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
@@ -1,5 +1,10 @@
 package nu.marginalia.index.journal.reader.pointer;
 
+import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
+import org.jetbrains.annotations.NotNull;
+
+import java.io.IOException;
+import java.util.Iterator;
 import java.util.function.LongPredicate;
 
 /**
@@ -13,7 +18,7 @@ import java.util.function.LongPredicate;
  * nextDocument() will move the pointer from doc1 to doc2;<br>
  * nextRecord() will move the pointer from word1 to word2...<br>
  */
-public interface IndexJournalPointer {
+public interface IndexJournalPointer extends Iterable<IndexJournalEntryTermData>, AutoCloseable {
     /**
      * Advance to the next document in the journal,
      * returning true if such a document exists.
@@ -22,11 +27,6 @@ public interface IndexJournalPointer {
      */
     boolean nextDocument();
 
-    /**
-     * Advance to the next record in the journal
-     */
-    boolean nextRecord();
-
     /**
      * Get the id associated with the current document
      */
@@ -37,16 +37,6 @@ public interface IndexJournalPointer {
      */
     long documentMeta();
 
-    /**
-     * Get the wordId associated with the current record
-     */
-    long wordId();
-
-    /**
-     * Get the termMeta associated with the current record
-     */
-    long wordMeta();
-
     /**
      * Get the documentFeatures associated with the current record
      */
@@ -64,6 +54,8 @@ public interface IndexJournalPointer {
     default IndexJournalPointer filterWordMeta(LongPredicate filter) {
         return new FilteringJournalPointer(this, filter);
     }
+
+    void close() throws IOException;
 }
 
 class JoiningJournalPointer implements IndexJournalPointer {
@@ -86,11 +78,6 @@ class JoiningJournalPointer implements IndexJournalPointer {
         return false;
     }
 
-    @Override
-    public boolean nextRecord() {
-        return pointers[pIndex].nextRecord();
-    }
-
     @Override
     public long documentId() {
         return pointers[pIndex].documentId();
@@ -101,20 +88,28 @@ class JoiningJournalPointer implements IndexJournalPointer {
         return pointers[pIndex].documentMeta();
     }
 
-    @Override
-    public long wordId() {
-        return pointers[pIndex].wordId();
-    }
-
-    @Override
-    public long wordMeta() {
-        return pointers[pIndex].wordMeta();
-    }
 
     @Override
     public int documentFeatures() {
         return pointers[pIndex].documentFeatures();
     }
+
+    @NotNull
+    @Override
+    public Iterator<IndexJournalEntryTermData> iterator() {
+        return pointers[pIndex].iterator();
+    }
+
+    public void close() {
+        for (var p : pointers) {
+            try {
+                p.close();
+            } catch (Exception e) {
+                e.printStackTrace();
+            }
+        }
+
+    }
 }
 
 class FilteringJournalPointer implements IndexJournalPointer {
@@ -128,14 +123,10 @@ class FilteringJournalPointer implements IndexJournalPointer {
 
     @Override
     public boolean nextDocument() {
-        return base.nextDocument();
-    }
-
-    @Override
-    public boolean nextRecord() {
-        while (base.nextRecord()) {
-            if (filter.test(wordMeta()))
+        while (base.nextDocument()) {
+            if (iterator().hasNext()) {
                 return true;
+            }
         }
         return false;
     }
@@ -150,18 +141,49 @@ class FilteringJournalPointer implements IndexJournalPointer {
         return base.documentMeta();
     }
 
-    @Override
-    public long wordId() {
-        return base.wordId();
-    }
-
-    @Override
-    public long wordMeta() {
-        return base.wordMeta();
-    }
-
     @Override
     public int documentFeatures() {
         return base.documentFeatures();
     }
+
+    @NotNull
+    @Override
+    public Iterator<IndexJournalEntryTermData> iterator() {
+
+        return new Iterator<>() {
+            private final Iterator<IndexJournalEntryTermData> baseIter = base.iterator();
+            private IndexJournalEntryTermData value = null;
+
+            @Override
+            public boolean hasNext() {
+                if (value != null) {
+                    return true;
+                }
+                while (baseIter.hasNext()) {
+                    value = baseIter.next();
+                    if (filter.test(value.metadata())) {
+                        return true;
+                    }
+                }
+                value = null;
+                return false;
+            }
+
+            @Override
+            public IndexJournalEntryTermData next() {
+                if (hasNext()) {
+                    var ret = value;
+                    value = null;
+                    return ret;
+                } else {
+                    throw new IllegalStateException("No more elements");
+                }
+            }
+        };
+    }
+
+    @Override
+    public void close() throws IOException {
+        base.close();
+    }
 }
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
index 9d6966ef..df9b6836 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
@@ -1,8 +1,8 @@
 package nu.marginalia.index.journal.writer;
 
-import nu.marginalia.index.journal.model.IndexJournalEntry;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
+import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 
 import java.io.IOException;
 
@@ -12,18 +12,7 @@ import java.io.IOException;
  * @see IndexJournalWriterPagingImpl
  */
 public interface IndexJournalWriter extends AutoCloseable {
-    /** Write an entry to the journal.
-     *
-     * @param header the header of the entry
-     * @param entry the data of the entry
-     *
-     * @return the number of bytes written
-     */
-    int put(IndexJournalEntryHeader header, IndexJournalEntryData entry);
-    default int put(IndexJournalEntry entry) {
-        return put(entry.header(), entry.data());
-    }
-
     void close() throws IOException;
 
+    int put(IndexJournalEntryHeader header, IndexJournalEntryData data);
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java
index 81d9de1e..919a8326 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java
@@ -49,13 +49,14 @@ public class IndexJournalWriterPagingImpl implements IndexJournalWriter {
 
     @Override
     @SneakyThrows
-    public int put(IndexJournalEntryHeader header, IndexJournalEntryData entry) {
+    public int put(IndexJournalEntryHeader header, IndexJournalEntryData data)
+    {
         if (bytesWritten >= sizeLimitBytes) {
             bytesWritten = 0;
             switchToNextWriter();
         }
 
-        int writtenNow = currentWriter.put(header, entry);
+        int writtenNow = currentWriter.put(header, data);
         bytesWritten += writtenNow;
 
         return writtenNow;
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
index beadb30a..59999138 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
@@ -2,8 +2,9 @@ package nu.marginalia.index.journal.writer;
 
 import com.github.luben.zstd.ZstdDirectBufferCompressingStream;
 import lombok.SneakyThrows;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -22,6 +23,8 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
     private static final int ZSTD_BUFFER_SIZE = 8192;
     private static final int DATA_BUFFER_SIZE = 8192;
 
+    private final MurmurHash3_128 hasher = new MurmurHash3_128();
+
     private final ByteBuffer dataBuffer = ByteBuffer.allocateDirect(DATA_BUFFER_SIZE);
 
     private final ZstdDirectBufferCompressingStream compressingStream;
@@ -75,36 +78,48 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
 
     @Override
     @SneakyThrows
-    public int put(IndexJournalEntryHeader header, IndexJournalEntryData entry) {
+    public int put(IndexJournalEntryHeader header,
+                   IndexJournalEntryData data)
+    {
         if (dataBuffer.capacity() - dataBuffer.position() < 3*8) {
             dataBuffer.flip();
             compressingStream.compress(dataBuffer);
             dataBuffer.clear();
         }
 
-        dataBuffer.putInt(entry.size());
+        final long[] keywords = data.termIds();
+        final long[] metadata = data.metadata();
+        final var positions = data.positions();
+
+        int recordSize = 0; // document header size is 3 longs
+        for (int i = 0; i < keywords.length; i++) {
+            // term header size is 2 longs
+            recordSize += IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].size();
+        }
+
+        dataBuffer.putInt(recordSize);
         dataBuffer.putInt(header.documentFeatures());
         dataBuffer.putLong(header.combinedId());
         dataBuffer.putLong(header.documentMeta());
 
-        for (int i = 0; i < entry.size(); ) {
-            int remaining = (dataBuffer.capacity() - dataBuffer.position()) / 8;
-            if (remaining <= 0) {
+        for (int i = 0; i < keywords.length; i++) {
+            int requiredSize = IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].size();
+
+            if (dataBuffer.capacity() - dataBuffer.position() < requiredSize) {
                 dataBuffer.flip();
                 compressingStream.compress(dataBuffer);
                 dataBuffer.clear();
             }
-            else while (remaining-- > 0 && i < entry.size()) {
 
-                dataBuffer.putLong(entry.underlyingArray[i++]);
-            }
+            dataBuffer.putLong(keywords[i]);
+            dataBuffer.putLong(metadata[i]);
+            dataBuffer.put((byte) positions[i].size());
+            dataBuffer.put(positions[i].buffer());
         }
 
         numEntries++;
 
-        final int bytesWritten = 8 * ( /*header = 3 longs */ 3 + entry.size());
-
-        return bytesWritten;
+        return recordSize;
     }
 
     public void close() throws IOException {
@@ -121,7 +136,7 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
 
 
         // Finalize the file by writing a header in the beginning
-        ByteBuffer header = ByteBuffer.allocate(16);
+        ByteBuffer header = ByteBuffer.allocate(IndexJournalReader.FILE_HEADER_SIZE_BYTES);
         header.putLong(numEntries);
         header.putLong(0);  // reserved for future use
         header.flip();
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java
index 47e8ac7f..67a60ed4 100644
--- a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java
+++ b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java
@@ -1,6 +1,5 @@
 package nu.marginalia.index.journal;
 
-import nu.marginalia.index.journal.model.IndexJournalEntry;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
 import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
@@ -18,52 +17,52 @@ import java.util.List;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 
 public class IndexJournalTest {
-    Path tempFile;
-    IndexJournalReader reader;
-
-    long firstDocId = UrlIdCodec.encodeId(44, 10);
-    long secondDocId = UrlIdCodec.encodeId(43, 15);
-
-    @BeforeEach
-    public void setUp() throws IOException {
-        tempFile = Files.createTempFile(getClass().getSimpleName(), ".dat");
-
-        var journalWriter = new IndexJournalWriterSingleFileImpl( tempFile);
-        journalWriter.put(IndexJournalEntry.builder(44, 10, 55)
-                .add(1, 2)
-                .add(2, 3)
-                .add(3, 4)
-                .add(5, 6).build());
-
-        journalWriter.put(IndexJournalEntry.builder(43, 15, 10)
-                .add(5, 5)
-                .add(6, 6)
-                .build());
-        journalWriter.close();
-
-        reader = new IndexJournalReaderSingleFile(tempFile);
-    }
-    @AfterEach
-    public void tearDown() throws IOException {
-        Files.delete(tempFile);
-    }
-
-    @Test
-    public void forEachDocId() {
-        List<Long> expected = List.of(firstDocId, secondDocId);
-        List<Long> actual = new ArrayList<>();
-
-        reader.forEachDocId(actual::add);
-        assertEquals(expected, actual);
-    }
-
-    @Test
-    public void forEachWordId() {
-        List<Integer> expected = List.of(1, 2, 3, 5, 5 ,6);
-        List<Integer> actual = new ArrayList<>();
-
-        reader.forEachWordId(i -> actual.add((int) i));
-        assertEquals(expected, actual);
-    }
+//    Path tempFile;
+//    IndexJournalReader reader;
+//
+//    long firstDocId = UrlIdCodec.encodeId(44, 10);
+//    long secondDocId = UrlIdCodec.encodeId(43, 15);
+//
+//    @BeforeEach
+//    public void setUp() throws IOException {
+//        tempFile = Files.createTempFile(getClass().getSimpleName(), ".dat");
+//
+//        var journalWriter = new IndexJournalWriterSingleFileImpl( tempFile);
+//        journalWriter.put(IndexJournalEntry.builder(44, 10, 55)
+//                .add(1, 2)
+//                .add(2, 3)
+//                .add(3, 4)
+//                .add(5, 6).build());
+//
+//        journalWriter.put(IndexJournalEntry.builder(43, 15, 10)
+//                .add(5, 5)
+//                .add(6, 6)
+//                .build());
+//        journalWriter.close();
+//
+//        reader = new IndexJournalReaderSingleFile(tempFile);
+//    }
+//    @AfterEach
+//    public void tearDown() throws IOException {
+//        Files.delete(tempFile);
+//    }
+//
+//    @Test
+//    public void forEachDocId() {
+//        List<Long> expected = List.of(firstDocId, secondDocId);
+//        List<Long> actual = new ArrayList<>();
+//
+//        reader.forEachDocId(actual::add);
+//        assertEquals(expected, actual);
+//    }
+//
+//    @Test
+//    public void forEachWordId() {
+//        List<Integer> expected = List.of(1, 2, 3, 5, 5 ,6);
+//        List<Integer> actual = new ArrayList<>();
+//
+//        reader.forEachWordId(i -> actual.add((int) i));
+//        assertEquals(expected, actual);
+//    }
 
 }
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
new file mode 100644
index 00000000..b9cd49c1
--- /dev/null
+++ b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
@@ -0,0 +1,367 @@
+package nu.marginalia.index.journal;
+
+import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
+import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
+import nu.marginalia.index.journal.reader.IndexJournalReaderPagingImpl;
+import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
+import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
+import nu.marginalia.sequence.GammaCodedSequence;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.Iterator;
+import java.util.List;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+public class IndexJournalWriterTest {
+    Path tempFile;
+    Path tempFile2;
+    ByteBuffer workArea = ByteBuffer.allocate(1024);
+
+    @BeforeEach
+    public void setUp() throws IOException {
+        tempFile = Files.createTempFile(getClass().getSimpleName(), ".dat");
+        tempFile2 = Files.createTempFile(getClass().getSimpleName(), ".dat");
+    }
+    @AfterEach
+    public void tearDown() throws IOException {
+        Files.delete(tempFile);
+        Files.delete(tempFile2);
+    }
+
+    private GammaCodedSequence gcs(int... values) {
+        return GammaCodedSequence.generate(workArea, values);
+    }
+
+    static MurmurHash3_128 hasher = new MurmurHash3_128();
+    static long wordId(String str) {
+        return hasher.hashKeyword(str);
+    }
+
+    @Test
+    public void testSingleFile() {
+        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
+            // Write two documents with two terms each
+            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+                    new IndexJournalEntryData(
+                        new String[]{"word1", "word2"},
+                        new long[]{44, 55},
+                        new GammaCodedSequence[]{
+                                gcs(1, 3, 5),
+                                gcs(2, 4, 6),
+                        })
+                    );
+            writer.put(new IndexJournalEntryHeader(12, 23, 34),
+                    new IndexJournalEntryData(
+                        new String[]{"word1", "word2"},
+                        new long[]{45, 56},
+                        new GammaCodedSequence[]{
+                                gcs(2, 4, 6),
+                                gcs(3, 5, 7),
+                        })
+                    );
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+
+        // Read the journal back
+
+        try {
+            var reader = new IndexJournalReaderSingleFile(tempFile);
+
+            Iterator<IndexJournalEntryTermData> iter;
+            IndexJournalEntryTermData termData;
+
+            try (var ptr = reader.newPointer()) {
+
+                /** DOCUMENT 1 */
+                assertTrue(ptr.nextDocument());
+                assertEquals(11, ptr.documentId());
+                assertEquals(22, ptr.documentFeatures());
+                assertEquals(33, ptr.documentMeta());
+
+                iter = ptr.iterator();
+
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(44, termData.metadata());
+                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
+
+                // Term 2
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word2"), termData.termId());
+                assertEquals(55, termData.metadata());
+                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
+
+                // No more terms
+
+                assertFalse(iter.hasNext());
+
+                /** DOCUMENT 2 */
+                assertTrue(ptr.nextDocument());
+                assertEquals(12, ptr.documentId());
+                assertEquals(23, ptr.documentFeatures());
+                assertEquals(34, ptr.documentMeta());
+
+                iter = ptr.iterator();
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(45, termData.metadata());
+                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
+
+                // Term 2
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word2"), termData.termId());
+                assertEquals(56, termData.metadata());
+                assertEquals(IntList.of(3, 5, 7), termData.positions().values());
+
+                // No more terms
+                assertFalse(iter.hasNext());
+
+                // No more documents
+                assertFalse(ptr.nextDocument());
+            }
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+    }
+
+    @Test
+    public void testMultiFile() {
+        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
+            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+                    new IndexJournalEntryData(
+                        new String[]{"word1", "word2"},
+                        new long[]{44, 55},
+                        new GammaCodedSequence[]{
+                                gcs(1, 3, 5),
+                                gcs(2, 4, 6),
+                        })
+                    );
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+
+        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile2)) {
+            writer.put(new IndexJournalEntryHeader(12, 23, 34),
+                    new IndexJournalEntryData(
+                        new String[]{"word1", "word2"},
+                        new long[]{45, 56},
+                        new GammaCodedSequence[]{
+                                gcs(2, 4, 6),
+                                gcs(3, 5, 7),
+                        })
+                    );
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+
+        // Read the journal back
+
+        try {
+            var reader = new IndexJournalReaderPagingImpl(List.of(tempFile, tempFile2));
+
+            Iterator<IndexJournalEntryTermData> iter;
+            IndexJournalEntryTermData termData;
+
+            try (var ptr = reader.newPointer()) {
+
+                /** DOCUMENT 1 */
+                assertTrue(ptr.nextDocument());
+                assertEquals(11, ptr.documentId());
+                assertEquals(22, ptr.documentFeatures());
+                assertEquals(33, ptr.documentMeta());
+
+                iter = ptr.iterator();
+
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(44, termData.metadata());
+                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
+
+                // Term 2
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word2"), termData.termId());
+                assertEquals(55, termData.metadata());
+                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
+
+                // No more terms
+
+                assertFalse(iter.hasNext());
+
+                /** DOCUMENT 2 */
+                assertTrue(ptr.nextDocument());
+                assertEquals(12, ptr.documentId());
+                assertEquals(23, ptr.documentFeatures());
+                assertEquals(34, ptr.documentMeta());
+
+                iter = ptr.iterator();
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(45, termData.metadata());
+                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
+
+                // Term 2
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word2"), termData.termId());
+                assertEquals(56, termData.metadata());
+                assertEquals(IntList.of(3, 5, 7), termData.positions().values());
+
+                // No more terms
+                assertFalse(iter.hasNext());
+
+                // No more documents
+                assertFalse(ptr.nextDocument());
+            }
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+    }
+
+    @Test
+    public void testSingleFileIterTwice() {
+        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
+            // Write two documents with two terms each
+            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+                    new IndexJournalEntryData(
+                        new String[]{"word1", "word2"},
+                        new long[]{44, 55},
+                        new GammaCodedSequence[]{
+                                gcs(1, 3, 5),
+                                gcs(2, 4, 6),
+                        })
+                    );
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+
+        // Read the journal back
+
+        try {
+            var reader = new IndexJournalReaderSingleFile(tempFile);
+
+            Iterator<IndexJournalEntryTermData> iter;
+            IndexJournalEntryTermData termData;
+
+            try (var ptr = reader.newPointer()) {
+
+                /** DOCUMENT 1 */
+                assertTrue(ptr.nextDocument());
+                assertEquals(11, ptr.documentId());
+                assertEquals(22, ptr.documentFeatures());
+                assertEquals(33, ptr.documentMeta());
+
+                iter = ptr.iterator();
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(44, termData.metadata());
+                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
+
+                // Ensure we can iterate again over the same document without persisting state or closing the pointer
+
+                iter = ptr.iterator();
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(44, termData.metadata());
+                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
+            }
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+    }
+
+    @Test
+    public void testFiltered() {
+        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
+            // Write two documents with two terms each
+            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+                    new IndexJournalEntryData(
+                        new String[]{"word1", "word2"},
+                        new long[]{44, 55},
+                        new GammaCodedSequence[]{
+                                gcs(1, 3, 5),
+                                gcs(2, 4, 6),
+                        })
+                    );
+            writer.put(new IndexJournalEntryHeader(12, 23, 34),
+                    new IndexJournalEntryData(
+                            new String[]{"word1", "word2"},
+                        new long[]{45, 56},
+                        new GammaCodedSequence[]{
+                                gcs(2, 4, 6),
+                                gcs(3, 5, 7),
+                        }
+                    ));
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+
+        // Read the journal back
+
+        try {
+            var reader = new IndexJournalReaderSingleFile(tempFile).filtering(meta -> meta == 45);
+
+            Iterator<IndexJournalEntryTermData> iter;
+            IndexJournalEntryTermData termData;
+
+            try (var ptr = reader.newPointer()) {
+                /** DOCUMENT 2 */
+                assertTrue(ptr.nextDocument());
+                assertEquals(12, ptr.documentId());
+                assertEquals(23, ptr.documentFeatures());
+                assertEquals(34, ptr.documentMeta());
+
+                iter = ptr.iterator();
+                // Term 1
+                assertTrue(iter.hasNext());
+                termData = iter.next();
+                assertEquals(wordId("word1"), termData.termId());
+                assertEquals(45, termData.metadata());
+                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
+
+                // No more terms
+                assertFalse(iter.hasNext());
+                // No more documents
+                assertFalse(ptr.nextDocument());
+            }
+        }
+        catch (IOException ex) {
+            Assertions.fail(ex);
+        }
+    }
+
+}
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java
index 202a229c..fe468a87 100644
--- a/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java
+++ b/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java
@@ -9,125 +9,125 @@ import java.util.ArrayList;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 
 class IndexJournalPointerTest {
-
-    @Test
-    public void concatenate() {
-        MockPointer left = new MockPointer(
-                List.of(new MockDocument(1,  2, 3, List.of(
-                                new MockRecord(4, 5),
-                                new MockRecord(6, 7))
-                ))
-        );
-
-        MockPointer right = new MockPointer(
-                List.of(new MockDocument(8,  9, 10, List.of(
-                        new MockRecord(11, 12),
-                        new MockRecord(13, 14))
-                ))
-        );
-
-        IndexJournalPointer concatenated = IndexJournalPointer.concatenate(left, right);
-        List<Long> docIdsSeq = new ArrayList<>();
-        List<Long> wordIdsSeq = new ArrayList<>();
-        while (concatenated.nextDocument()) {
-            docIdsSeq.add(concatenated.documentId());
-            while (concatenated.nextRecord()) {
-                wordIdsSeq.add(concatenated.wordId());
-            }
-        }
-
-        assertEquals(docIdsSeq, List.of(1L, 8L));
-        assertEquals(wordIdsSeq, List.of(4L, 6L, 11L, 13L));
-    }
-
-    @Test
-    public void filter() {
-        MockPointer left = new MockPointer(
-                List.of(new MockDocument(1,  2, 3, List.of(
-                        new MockRecord(1, 1),
-                        new MockRecord(2, 2),
-                        new MockRecord(3, 3),
-                        new MockRecord(4, 4),
-                        new MockRecord(5, 5)
-                        )
-                ), new MockDocument(2,  2, 3, List.of(
-                        new MockRecord(1, 1),
-                        new MockRecord(3, 3),
-                        new MockRecord(5, 5)
-                        )
-                ))
-
-        );
-        var filtered = left.filterWordMeta(meta -> (meta % 2) == 0);
-
-        List<Long> docIdsSeq = new ArrayList<>();
-        List<Long> wordIdsSeq = new ArrayList<>();
-        while (filtered.nextDocument()) {
-            docIdsSeq.add(filtered.documentId());
-            while (filtered.nextRecord()) {
-                wordIdsSeq.add(filtered.wordId());
-            }
-        }
-
-        assertEquals(docIdsSeq, List.of(1L, 2L));
-        assertEquals(wordIdsSeq, List.of(2L, 4L));
-    }
-
-    class MockPointer implements IndexJournalPointer {
-        private final List<MockDocument> documents;
-
-        int di = -1;
-        int ri;
-
-        public MockPointer(Collection<MockDocument> documents) {
-            this.documents = new ArrayList<>(documents);
-        }
-
-        @Override
-        public boolean nextDocument() {
-            if (++di < documents.size()) {
-                ri = -1;
-                return true;
-            }
-
-            return false;
-        }
-
-        @Override
-        public boolean nextRecord() {
-            if (++ri < documents.get(di).records.size()) {
-                return true;
-            }
-
-            return false;
-        }
-
-        @Override
-        public long documentId() {
-            return documents.get(di).docId;
-        }
-
-        @Override
-        public long documentMeta() {
-            return documents.get(di).docMeta;
-        }
-
-        @Override
-        public long wordId() {
-            return documents.get(di).records.get(ri).wordId;
-        }
-
-        @Override
-        public long wordMeta() {
-            return documents.get(di).records.get(ri).wordMeta;
-        }
-
-        @Override
-        public int documentFeatures() {
-            return documents.get(di).docFeatures;
-        }
-    }
-
-    record MockDocument(long docId, long docMeta, int docFeatures, List<MockRecord> records) {}
-    record MockRecord(long wordId, long wordMeta) {}
+//
+//    @Test
+//    public void concatenate() {
+//        MockPointer left = new MockPointer(
+//                List.of(new MockDocument(1,  2, 3, List.of(
+//                                new MockRecord(4, 5),
+//                                new MockRecord(6, 7))
+//                ))
+//        );
+//
+//        MockPointer right = new MockPointer(
+//                List.of(new MockDocument(8,  9, 10, List.of(
+//                        new MockRecord(11, 12),
+//                        new MockRecord(13, 14))
+//                ))
+//        );
+//
+//        IndexJournalPointer concatenated = IndexJournalPointer.concatenate(left, right);
+//        List<Long> docIdsSeq = new ArrayList<>();
+//        List<Long> wordIdsSeq = new ArrayList<>();
+//        while (concatenated.nextDocument()) {
+//            docIdsSeq.add(concatenated.documentId());
+//            while (concatenated.nextRecord()) {
+//                wordIdsSeq.add(concatenated.termId());
+//            }
+//        }
+//
+//        assertEquals(docIdsSeq, List.of(1L, 8L));
+//        assertEquals(wordIdsSeq, List.of(4L, 6L, 11L, 13L));
+//    }
+//
+//    @Test
+//    public void filter() {
+//        MockPointer left = new MockPointer(
+//                List.of(new MockDocument(1,  2, 3, List.of(
+//                        new MockRecord(1, 1),
+//                        new MockRecord(2, 2),
+//                        new MockRecord(3, 3),
+//                        new MockRecord(4, 4),
+//                        new MockRecord(5, 5)
+//                        )
+//                ), new MockDocument(2,  2, 3, List.of(
+//                        new MockRecord(1, 1),
+//                        new MockRecord(3, 3),
+//                        new MockRecord(5, 5)
+//                        )
+//                ))
+//
+//        );
+//        var filtered = left.filterWordMeta(meta -> (meta % 2) == 0);
+//
+//        List<Long> docIdsSeq = new ArrayList<>();
+//        List<Long> wordIdsSeq = new ArrayList<>();
+//        while (filtered.nextDocument()) {
+//            docIdsSeq.add(filtered.documentId());
+//            while (filtered.nextRecord()) {
+//                wordIdsSeq.add(filtered.termId());
+//            }
+//        }
+//
+//        assertEquals(docIdsSeq, List.of(1L, 2L));
+//        assertEquals(wordIdsSeq, List.of(2L, 4L));
+//    }
+//
+//    class MockPointer implements IndexJournalPointer {
+//        private final List<MockDocument> documents;
+//
+//        int di = -1;
+//        int ri;
+//
+//        public MockPointer(Collection<MockDocument> documents) {
+//            this.documents = new ArrayList<>(documents);
+//        }
+//
+//        @Override
+//        public boolean nextDocument() {
+//            if (++di < documents.size()) {
+//                ri = -1;
+//                return true;
+//            }
+//
+//            return false;
+//        }
+//
+//        @Override
+//        public boolean nextRecord() {
+//            if (++ri < documents.get(di).records.size()) {
+//                return true;
+//            }
+//
+//            return false;
+//        }
+//
+//        @Override
+//        public long documentId() {
+//            return documents.get(di).docId;
+//        }
+//
+//        @Override
+//        public long documentMeta() {
+//            return documents.get(di).docMeta;
+//        }
+//
+//        @Override
+//        public long termId() {
+//            return documents.get(di).records.get(ri).termId;
+//        }
+//
+//        @Override
+//        public long wordMeta() {
+//            return documents.get(di).records.get(ri).wordMeta;
+//        }
+//
+//        @Override
+//        public int documentFeatures() {
+//            return documents.get(di).docFeatures;
+//        }
+//    }
+//
+//    record MockDocument(long docId, long docMeta, int docFeatures, List<MockRecord> records) {}
+//    record MockRecord(long termId, long wordMeta) {}
 }
\ No newline at end of file
diff --git a/code/index/index-reverse/build.gradle b/code/index/index-reverse/build.gradle
index bd46b3a0..1ba91c19 100644
--- a/code/index/index-reverse/build.gradle
+++ b/code/index/index-reverse/build.gradle
@@ -16,12 +16,16 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
+    implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:random-write-funnel')
     implementation project(':code:index:query')
     implementation project(':code:index:index-journal')
     implementation project(':code:common:model')
     implementation project(':code:common:process')
 
+    implementation project(':third-party:parquet-floor')
+    implementation project(':third-party:commons-codec')
+
 
     implementation libs.bundles.slf4j
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
new file mode 100644
index 00000000..180976e1
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
@@ -0,0 +1,51 @@
+package nu.marginalia.index.construction;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.channels.FileChannel;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+public class PositionsFileConstructor implements AutoCloseable {
+    private final Path file;
+    private final FileChannel channel;
+
+    private long offset;
+    private final ByteBuffer workBuffer = ByteBuffer.allocate(8192);
+
+    public PositionsFileConstructor(Path file) throws IOException {
+        this.file = file;
+
+        channel = FileChannel.open(file, StandardOpenOption.CREATE, StandardOpenOption.WRITE);
+    }
+
+    /** Add a term to the positions file
+     * @param termMeta the term metadata
+     * @param positions the positions of the term
+     * @return the offset of the term in the file
+     */
+    public long add(byte termMeta, GammaCodedSequence positions) throws IOException {
+        synchronized (file) {
+            var positionBuffer = positions.buffer();
+            int size = 1 + positionBuffer.remaining();
+
+            if (workBuffer.remaining() < size) {
+                workBuffer.flip();
+                channel.write(workBuffer);
+                workBuffer.clear();
+            }
+            workBuffer.put(termMeta);
+            workBuffer.put(positionBuffer);
+
+            offset += size;
+            return offset;
+        }
+    }
+
+    public void close() throws IOException {
+        channel.force(false);
+        channel.close();
+    }
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
index 7a925679..d7227758 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
@@ -7,6 +7,7 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.concurrent.atomic.AtomicInteger;
 
@@ -48,18 +49,22 @@ public class ReverseIndexConstructor {
             return;
         }
 
+        Path positionsFile = tmpDir.resolve("positions.dat");
+        Files.deleteIfExists(positionsFile);
         try (var heartbeat = processHeartbeat.createProcessTaskHeartbeat(CreateReverseIndexSteps.class, processName)) {
 
             heartbeat.progress(CreateReverseIndexSteps.CONSTRUCT);
 
-            try (var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes")) {
+            try (var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes");
+                 PositionsFileConstructor posConstructor = new PositionsFileConstructor(positionsFile);
+            ) {
 
                 AtomicInteger progress = new AtomicInteger(0);
                 inputs
                     .parallelStream()
                     .map(in -> {
                         preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
-                        return construct(in);
+                        return construct(in, posConstructor);
                     })
                     .reduce(this::merge)
                     .ifPresent((index) -> {
@@ -73,9 +78,9 @@ public class ReverseIndexConstructor {
     }
 
     @SneakyThrows
-    private ReversePreindexReference construct(Path input) {
+    private ReversePreindexReference construct(Path input, PositionsFileConstructor positionsFileConstructor) {
         return ReversePreindex
-                .constructPreindex(readerSource.construct(input), docIdRewriter, tmpDir)
+                .constructPreindex(readerSource.construct(input), positionsFileConstructor, docIdRewriter, tmpDir)
                 .closeToReference();
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java
index ac39e817..3abe8171 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java
@@ -40,6 +40,7 @@ public class ReversePreindex {
      * will have randomly assigned names.
      */
     public static ReversePreindex constructPreindex(IndexJournalReader reader,
+                                                    PositionsFileConstructor positionsFileConstructor,
                                                     DocIdRewriter docIdRewriter,
                                                     Path workDir) throws IOException
     {
@@ -48,7 +49,7 @@ public class ReversePreindex {
         Path docsFile = Files.createTempFile(workDir, "docs", ".dat");
 
         var segments = ReversePreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, segments);
+        var docs = ReversePreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, positionsFileConstructor, segments);
         return new ReversePreindex(segments, docs);
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
index 0f232577..aa4fc98e 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
@@ -21,6 +21,7 @@ import java.util.concurrent.TimeUnit;
  * the associated ReversePreindexWordSegments data
  */
 public class ReversePreindexDocuments {
+    private static PositionsFileConstructor positionsFileConstructor;
     final Path file;
     public  final LongArray documents;
     private static final int RECORD_SIZE_LONGS = 2;
@@ -36,7 +37,9 @@ public class ReversePreindexDocuments {
             Path workDir,
             IndexJournalReader reader,
             DocIdRewriter docIdRewriter,
+            PositionsFileConstructor positionsFileConstructor,
             ReversePreindexWordSegments segments) throws IOException {
+        ReversePreindexDocuments.positionsFileConstructor = positionsFileConstructor;
 
         createUnsortedDocsFile(docsFile, workDir, reader, segments, docIdRewriter);
 
@@ -75,14 +78,14 @@ public class ReversePreindexDocuments {
             var pointer = reader.newPointer();
             while (pointer.nextDocument()) {
                 long rankEncodedId = docIdRewriter.rewriteDocId(pointer.documentId());
-                while (pointer.nextRecord()) {
-                    long wordId = pointer.wordId();
-                    long wordMeta = pointer.wordMeta();
+                for (var termData : pointer) {
+                    long termId = termData.termId();
 
-                    long offset = offsetMap.addTo(wordId, RECORD_SIZE_LONGS);
+                    long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
+                    long posOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positions());
 
                     assembly.put(offset + 0, rankEncodedId);
-                    assembly.put(offset + 1, wordMeta);
+                    assembly.put(offset + 1, posOffset);
                 }
             }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java
index 0e6c32fb..0351ed45 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java
@@ -12,7 +12,7 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 
 /** A pair of file-backed arrays of sorted wordIds
- * and the count of documents associated with each wordId.
+ * and the count of documents associated with each termId.
  */
 public class ReversePreindexWordSegments {
     public final LongArray wordIds;
@@ -34,7 +34,7 @@ public class ReversePreindexWordSegments {
         this.countsFile = countsFile;
     }
 
-    /** Returns a long-long hash map where each key is a wordId,
+    /** Returns a long-long hash map where each key is a termId,
      * and each value is the start offset of the data.
      */
     public Long2LongOpenHashMap asMap(int recordSize) {
@@ -188,7 +188,7 @@ public class ReversePreindexWordSegments {
 
             if (i == fileSize) {
                 // We've reached the end of the iteration and there is no
-                // "next" wordId to fetch
+                // "next" termId to fetch
                 wordId = Long.MIN_VALUE;
                 return false;
             }
diff --git a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
index 265864c4..981136ad 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
@@ -2,12 +2,14 @@ package nu.marginalia.index;
 
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.construction.ReversePreindex;
 import nu.marginalia.index.construction.TestJournalFactory;
 import nu.marginalia.index.construction.TestJournalFactory.EntryDataWithWordMeta;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
+import org.mockito.Mockito;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -89,7 +91,9 @@ class ReverseIndexReaderTest {
 
     private ReverseIndexReader createIndex(EntryDataWithWordMeta... scenario) throws IOException {
         var reader = journalFactory.createReader(scenario);
-        var preindex = ReversePreindex.constructPreindex(reader, DocIdRewriter.identity(), tempDir);
+        var preindex = ReversePreindex.constructPreindex(reader,
+                Mockito.mock(PositionsFileConstructor.class),
+                DocIdRewriter.identity(), tempDir);
 
 
         Path docsFile = tempDir.resolve("docs.dat");
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
index d6d81818..ca3b49a3 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
@@ -100,6 +100,7 @@ class ReversePreindexDocsTest {
 
         assertEquals(expected, actual);
     }
+
     @Test
     public void testDocs2() throws IOException {
         var reader = journalFactory.createReader(
@@ -108,7 +109,7 @@ class ReversePreindexDocsTest {
         );
 
         var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), segments);
+        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), segme.nts);
 
         List<TestSegmentData> expected = List.of(
                 new TestSegmentData(-100, 0, 4, new long[] { -0xF00BA3L, 0, 0xF00BA4L, 0 }),
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java b/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
index b122921b..db262d9f 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
@@ -5,6 +5,7 @@ import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
 import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -60,12 +61,18 @@ public class TestJournalFactory {
 
         var writer = new IndexJournalWriterSingleFileImpl(jf);
         for (var entry : entries) {
-            long[] data = new long[entry.wordIds.length * 2];
-            for (int i = 0; i < entry.wordIds.length; i++)
-                data[i*2] = entry.wordIds[i];
+            long[] termIds = new long[entry.wordIds.length];
+            long[] meta = new long[entry.wordIds.length];
+
+            GammaCodedSequence[] positions = new GammaCodedSequence[entry.wordIds.length];
+            for (int i = 0; i < entry.wordIds.length; i++) {
+                termIds[i] = entry.wordIds[i];
+                meta[i] = 0;
+                positions[i] = new GammaCodedSequence(new byte[1]);
+            }
 
             writer.put(new IndexJournalEntryHeader(entries.length, 0, entry.docId, entry.docMeta),
-                    new IndexJournalEntryData(data));
+                    new IndexJournalEntryData(termIds, meta, positions));
         }
         writer.close();
         var ret = new IndexJournalReaderSingleFile(jf);
@@ -77,14 +84,18 @@ public class TestJournalFactory {
 
         var writer = new IndexJournalWriterSingleFileImpl(jf);
         for (var entry : entries) {
-            long[] data = new long[entry.wordIds.length * 2];
+
+            long[] termIds = new long[entry.wordIds.length];
+            long[] meta = new long[entry.wordIds.length];
+            GammaCodedSequence[] positions = new GammaCodedSequence[entry.wordIds.length];
             for (int i = 0; i < entry.wordIds.length; i++) {
-                data[i * 2] = entry.wordIds[i].wordId;
-                data[i * 2 + 1] = entry.wordIds[i].meta;
+                termIds[i] = entry.wordIds[i].wordId;
+                meta[i] = entry.wordIds[i].meta;
+                positions[i] = new GammaCodedSequence(new byte[1]);
             }
 
             writer.put(new IndexJournalEntryHeader(entries.length, 0, entry.docId, entry.docMeta),
-                    new IndexJournalEntryData(data));
+                    new IndexJournalEntryData(termIds, meta, positions));
         }
         writer.close();
         var ret = new IndexJournalReaderSingleFile(jf);
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 7b0a6a24..4a976265 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -8,15 +8,16 @@ import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.ReverseIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.index.journal.writer.IndexJournalWriter;
@@ -41,6 +42,7 @@ import org.junit.jupiter.api.Test;
 import org.junit.jupiter.api.parallel.Execution;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.sql.SQLException;
@@ -300,7 +302,18 @@ public class IndexQueryServiceIntegrationSmokeTest {
                 "test", "test", 0., "HTML5", 0, null, 0, 10
         ));
 
-        indexJournalWriter.put(header, new IndexJournalEntryData(data));
+        String[] keywords = IntStream.range(0, factors.length).mapToObj(Integer::toString).toArray(String[]::new);
+        long[] metadata = new long[factors.length];
+        for (int i = 0; i < factors.length; i++) {
+            metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
+        }
+        GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
+        ByteBuffer wa = ByteBuffer.allocate(16);
+        for (int i = 0; i < factors.length; i++) {
+            positions[i] = GammaCodedSequence.generate(wa, i + 1);
+        }
+
+        indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
     }
 
     @SneakyThrows
@@ -309,19 +322,24 @@ public class IndexQueryServiceIntegrationSmokeTest {
         long fullId = UrlIdCodec.encodeId(domain, id);
         var header = new IndexJournalEntryHeader(factors.length, 0, fullId, DocumentMetadata.defaultValue());
 
-        long[] data = new long[factors.length*2];
-        for (int i = 0; i < factors.length; i++) {
-            data[2*i] = hasher.hashNearlyASCII(Integer.toString(factors[i]));
-            data[2*i + 1] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
-        }
-
         ldbw.add(new DocdbUrlDetail(
                 fullId, new EdgeUrl("https://www.example.com/"+id),
                 "test", "test", 0., "HTML5", 0, null, 0, 10
         ));
 
 
-        indexJournalWriter.put(header, new IndexJournalEntryData(data));
+        String[] keywords = IntStream.range(0, factors.length).mapToObj(Integer::toString).toArray(String[]::new);
+        long[] metadata = new long[factors.length];
+        for (int i = 0; i < factors.length; i++) {
+            metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
+        }
+        GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
+        ByteBuffer wa = ByteBuffer.allocate(16);
+        for (int i = 0; i < factors.length; i++) {
+            positions[i] = GammaCodedSequence.generate(wa, i);
+        }
+
+        indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
     }
 
 }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index e29f8751..861923dd 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -7,13 +7,14 @@ import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.ReverseIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.index.journal.writer.IndexJournalWriter;
@@ -44,6 +45,7 @@ import org.junit.jupiter.api.parallel.Execution;
 import javax.annotation.CheckReturnValue;
 import java.io.IOException;
 import java.net.URISyntaxException;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.sql.SQLException;
@@ -549,13 +551,13 @@ public class IndexQueryServiceIntegrationTest {
                         meta.documentMetadata.encode()
                 );
 
-                long[] dataArray = new long[words.size() * 2];
-                for (int i = 0; i < words.size(); i++) {
-                    dataArray[2*i] = hasher.hashNearlyASCII(words.get(i).keyword);
-                    dataArray[2*i+1] = words.get(i).termMetadata;
-                }
-                var entry = new IndexJournalEntryData(dataArray);
-                indexJournalWriter.put(header, entry);
+                String[] keywords = words.stream().map(w -> w.keyword).toArray(String[]::new);
+                long[] metadata = words.stream().map(w -> w.termMetadata).mapToLong(Long::longValue).toArray();
+                GammaCodedSequence[] positions = new GammaCodedSequence[words.size()]; // FIXME: positions?
+                Arrays.setAll(positions, i -> new GammaCodedSequence(ByteBuffer.allocate(1)));
+
+                indexJournalWriter.put(header,
+                        new IndexJournalEntryData(keywords, metadata, positions));
             });
 
             var linkdbWriter = new DocumentDbWriter(
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
index 7ee85495..335d57d8 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
@@ -7,18 +7,30 @@ import nu.marginalia.sequence.io.BitWriter;
 
 import java.nio.ByteBuffer;
 
-/** Implement coding and decoding of sequences of integers using the Elias Gamma code
- *
- * https://en.wikipedia.org/wiki/Elias_gamma_coding
+/** Implement coding and decoding of sequences of integers using the Elias Gamma code.
+ *  The sequence is prefixed by the number of integers in the sequence, then the delta between
+ *  each integer in the sequence is encoded using the Elias Gamma code.
+ * <p></p>
+ * <a href="https://en.wikipedia.org/wiki/Elias_gamma_coding">https://en.wikipedia.org/wiki/Elias_gamma_coding</a>
  * */
 public class EliasGammaCodec implements IntIterator {
 
     private final BitReader reader;
+    int rem = 0;
     private int last = 0;
     private int next = 0;
 
     private EliasGammaCodec(ByteBuffer buffer) {
         reader = new BitReader(buffer);
+
+        int bits = reader.takeWhileZero();
+
+        if (!reader.hasMore()) {
+            rem = 0;
+        }
+        else {
+            rem = reader.get(bits);
+        }
     }
 
     /** Decode a sequence of integers from a ByteBuffer using the Elias Gamma code */
@@ -31,7 +43,13 @@ public class EliasGammaCodec implements IntIterator {
      * or equal to zero.
      */
     public static ByteBuffer encode(ByteBuffer workArea, IntList sequence) {
+        if (sequence.isEmpty())
+            return ByteBuffer.allocate(0);
+
         var writer = new BitWriter(workArea);
+
+        writer.putGammaCoded(sequence.size());
+
         int last = 0;
 
         for (var iter = sequence.iterator(); iter.hasNext(); ) {
@@ -42,9 +60,7 @@ public class EliasGammaCodec implements IntIterator {
             // can't encode zeroes
             assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values";
 
-            int bits = Integer.numberOfTrailingZeros(Integer.highestOneBit(delta));
-            writer.put(0, bits + 1);
-            writer.put(delta, bits + 1);
+            writer.putGammaCoded(delta);
         }
 
         return writer.finish();
@@ -60,16 +76,13 @@ public class EliasGammaCodec implements IntIterator {
 
     @Override
     public boolean hasNext() {
-        if (next > 0)
-            return true;
-        if (!reader.hasMore())
-            return false;
+        if (next > 0) return true;
+        if (!reader.hasMore() || --rem < 0) return false;
 
         int bits = reader.takeWhileZero();
 
-        if (!reader.hasMore()) {
-            return false;
-        }
+        if (!reader.hasMore()) return false;
+        
         int delta = reader.get(bits);
         last += delta;
         next = last;
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 2207921d..58ff30d2 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -16,6 +16,8 @@ import java.util.StringJoiner;
  * */
 public class GammaCodedSequence implements BinarySerializable, Iterable<Integer> {
     private final ByteBuffer raw;
+    int startPos = 0;
+    int startLimit = 0;
 
     /** Create a new GammaCodedSequence from a sequence of integers.
      *
@@ -37,12 +39,16 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
 
     public GammaCodedSequence(ByteBuffer bytes) {
         this.raw = bytes;
+        startPos = bytes.position();
+        startLimit = bytes.limit();
     }
 
     public GammaCodedSequence(byte[] bytes) {
         raw = ByteBuffer.allocate(bytes.length);
         raw.put(bytes);
         raw.clear();
+        startPos = 0;
+        startLimit = bytes.length;
     }
 
     /** Return the raw bytes of the sequence. */
@@ -52,21 +58,29 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
             return raw.array();
         }
         else {
-            raw.clear();
-
             byte[] bytes = new byte[raw.capacity()];
-            raw.get(bytes, 0, bytes.length);
+            raw.get(0, bytes, 0, bytes.length);
             return bytes;
         }
     }
 
     @Override
     public IntIterator iterator() {
-        raw.clear();
+        raw.position(startPos);
+        raw.limit(startLimit);
 
         return EliasGammaCodec.decode(raw);
     }
 
+    public IntList values() {
+        var intItr = iterator();
+        IntArrayList ret = new IntArrayList(8);
+        while (intItr.hasNext()) {
+            ret.add(intItr.nextInt());
+        }
+        return ret;
+    }
+
     /** Decode the sequence into an IntList;
      * this is a somewhat slow operation,
      * iterating over the data directly more performant */
@@ -94,4 +108,15 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         }
         return sj.toString();
     }
+
+    public ByteBuffer buffer() {
+        raw.position(startPos);
+        raw.limit(startLimit);
+
+        return raw;
+    }
+
+    public int size() {
+        return raw.capacity();
+    }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 2d7d79db..08979f0d 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -78,7 +78,7 @@ public class BitReader {
 
         int result = 0;
 
-        for (;;) {
+        do {
             // Ensure we have bits to read
             if (bitPosition <= 0) {
                 if (underlying.hasRemaining())
@@ -96,10 +96,8 @@ public class BitReader {
             // Subtract the number of bits read from the current position
             bitPosition -= zeroes;
 
-            // If bitPosition isn't zero, we've found a 1 and can stop
-            if (bitPosition > 0)
-                break;
-        }
+            // If bit position is not positive, we've found a 1 and can stop
+        } while (bitPosition <= 0);
 
         return result;
     }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
index 92f6abc6..e5636064 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -72,6 +72,17 @@ public class BitWriter {
         }
     }
 
+    /** Write the provided value in a gamma-coded format,
+     * e.g. by first finding the number of significant bits,
+     * then writing that many zeroes, then the bits themselves
+     */
+    public void putGammaCoded(int value) {
+        int bits = 1 + Integer.numberOfTrailingZeros(Integer.highestOneBit(value));
+
+        put(0, bits);
+        put(value, bits);
+    }
+
     public ByteBuffer finish() {
         finishLastByte();
 
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
index 579653a2..0c6e0e8b 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
@@ -115,16 +115,17 @@ class BitReaderTest {
     }
 
     @Test
-    public void testTakeWhileZeroOverInt32() {
+    public void testTakeWhileZeroOverInt64() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
         writer.put(0, 32);
+        writer.put(0, 32);
         writer.put(0, 2);
         writer.putBit(true);
         var buffer = writer.finish();
 
         var reader = new BitReader(buffer);
         int val = reader.takeWhileZero();
-        assertEquals(34, val);
+        assertEquals(66, val);
         assertTrue(reader.getBit());
     }
 }
\ No newline at end of file
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
index 2dee50fa..9c87bab7 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
@@ -4,9 +4,9 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import lombok.SneakyThrows;
 import nu.marginalia.IndexLocations;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.hash.MurmurHash3_128;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.writer.IndexJournalWriterPagingImpl;
 import nu.marginalia.index.journal.writer.IndexJournalWriter;
@@ -18,9 +18,7 @@ import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
 import java.nio.file.Files;
-import java.sql.SQLException;
 
-import static nu.marginalia.index.journal.model.IndexJournalEntryData.MAX_LENGTH;
 
 @Singleton
 public class LoaderIndexJournalWriter {
@@ -28,12 +26,11 @@ public class LoaderIndexJournalWriter {
     private final IndexJournalWriter indexWriter;
     private static final Logger logger = LoggerFactory.getLogger(LoaderIndexJournalWriter.class);
 
-    private final MurmurHash3_128 hasher = new MurmurHash3_128();
-    private final long[] buffer = new long[MAX_LENGTH * 2];
+    private final long[] buffer = new long[65536];
 
 
     @Inject
-    public LoaderIndexJournalWriter(FileStorageService fileStorageService) throws IOException, SQLException {
+    public LoaderIndexJournalWriter(FileStorageService fileStorageService) throws IOException {
         var indexArea = IndexLocations.getIndexConstructionArea(fileStorageService);
 
         var existingIndexFiles = IndexJournalFileNames.findJournalFiles(indexArea);
@@ -68,26 +65,10 @@ public class LoaderIndexJournalWriter {
             return;
         }
 
-        var pointer = wordSet.newPointer();
-
-        while (pointer.hasMore()) {
-            int i = 0;
-
-            while (i < buffer.length
-                && pointer.advancePointer())
-            {
-                final long hashedKeyword = hasher.hashKeyword(pointer.getKeyword());
-
-                buffer[i++] = hashedKeyword;
-                buffer[i++] = pointer.getMetadata();
-            }
-
-            var entry = new IndexJournalEntryData(i, buffer);
-            var header = new IndexJournalEntryHeader(combinedId, features, metadata);
-
-            indexWriter.put(header, entry);
-        }
+        var header = new IndexJournalEntryHeader(combinedId, features, metadata);
+        var data = new IndexJournalEntryData(wordSet.keywords, wordSet.metadata, wordSet.positions);
 
+        indexWriter.put(header, data);
     }
 
     public void close() throws Exception {
diff --git a/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java b/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
deleted file mode 100644
index 0f1afebe..00000000
--- a/code/processes/loading-process/test/nu/marginalia/loading/loader/LoaderIndexJournalWriterTest.java
+++ /dev/null
@@ -1,87 +0,0 @@
-package nu.marginalia.loading.loader;
-
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.storage.model.FileStorageBase;
-import nu.marginalia.storage.model.FileStorageBaseType;
-import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
-import nu.marginalia.keyword.model.DocumentKeywords;
-import nu.marginalia.loading.LoaderIndexJournalWriter;
-import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.index.journal.IndexJournalFileNames;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-import org.mockito.Mockito;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.sql.SQLException;
-import java.util.ArrayList;
-import java.util.List;
-import java.util.stream.LongStream;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class LoaderIndexJournalWriterTest {
-
-    Path tempDir;
-    LoaderIndexJournalWriter writer;
-    @BeforeEach
-    public void setUp() throws IOException, SQLException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-        FileStorageService storageService = Mockito.mock(FileStorageService.class);
-
-        Mockito.when(storageService.getStorageBase(FileStorageBaseType.CURRENT)).thenReturn(new FileStorageBase(null, null,  1,null, tempDir.toString()));
-
-        writer = new LoaderIndexJournalWriter(storageService);
-    }
-
-    @AfterEach
-    public void tearDown() throws Exception {
-        writer.close();
-        List<Path> junk = Files.list(tempDir.resolve("iw")).toList();
-        for (var item : junk)
-            Files.delete(item);
-        Files.delete(tempDir.resolve("iw"));
-        Files.delete(tempDir);
-    }
-
-    @Test
-    public void testBreakup() throws Exception {
-        String[] keywords = new String[2000];
-        long[] metadata = new long[2000];
-        GammaCodedSequence[] positions = new GammaCodedSequence[2000];
-        ByteBuffer workArea = ByteBuffer.allocate(1024);
-        for (int i = 0; i < 2000; i++) {
-            keywords[i] = Integer.toString(i);
-            metadata[i] = i+1;
-            positions[i] = GammaCodedSequence.generate(workArea, 1, 2, 3);
-        }
-        DocumentKeywords words = new DocumentKeywords(keywords, metadata, positions);
-        writer.putWords(1, 0, new DocumentMetadata(0),
-                words);
-
-        writer.close();
-
-        List<Path> journalFiles = IndexJournalFileNames.findJournalFiles(tempDir.resolve("iw"));
-        assertEquals(1, journalFiles.size());
-
-        var reader = new IndexJournalReaderSingleFile(journalFiles.get(0));
-        List<Long> docIds = new ArrayList<>();
-        reader.forEachDocId(docIds::add);
-        assertEquals(List.of(1L, 1L), docIds);
-
-        List<Long> metas = new ArrayList<Long>();
-        var ptr = reader.newPointer();
-        while (ptr.nextDocument()) {
-            while (ptr.nextRecord()) {
-                metas.add(ptr.wordMeta());
-            }
-        }
-
-        assertEquals(LongStream.of(metadata).boxed().toList(), metas);
-    }
-}
\ No newline at end of file
diff --git a/code/services-application/search-service/java/nu/marginalia/search/SearchMain.java b/code/services-application/search-service/java/nu/marginalia/search/SearchMain.java
index fe283471..37b9893d 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/SearchMain.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/SearchMain.java
@@ -33,6 +33,7 @@ public class SearchMain extends MainClass {
                 new ServiceDiscoveryModule(),
                 new DatabaseModule(false)
         );
+        
 
         // Orchestrate the boot order for the services
         var registry = injector.getInstance(ServiceRegistryIf.class);

From dcbec9414f3f4e49ddc3fe75156b13414fea647f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 6 Jun 2024 16:35:09 +0200
Subject: [PATCH 006/216] (index) Fix non-compiling tests

---
 .../construction/PositionsFileConstructor.java    | 14 ++++++++++++++
 .../construction/ReversePreindexDocsTest.java     | 15 ++++++++++++---
 .../construction/ReversePreindexFinalizeTest.java | 11 ++++++++---
 .../construction/ReversePreindexMergeTest.java    |  6 ++++--
 4 files changed, 38 insertions(+), 8 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
index 180976e1..80225e06 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
@@ -8,6 +8,20 @@ import java.nio.channels.FileChannel;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
 
+/** A class for constructing a positions file.  This class is thread-safe.
+ *
+ * <p></p>
+ *
+ * The positions data is concatenated in the file, with each term's metadata
+ * followed by its positions.  The metadata is a single byte, and the positions
+ * are encoded using the Elias Gamma code, with zero padded bits at the end to
+ * get octet alignment.
+ *
+ * <p></p>
+ *
+ * It is the responsibility of the caller to keep track of the byte offset of
+ * each posting in the file.
+ */
 public class PositionsFileConstructor implements AutoCloseable {
     private final Path file;
     private final FileChannel channel;
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
index ca3b49a3..e12dbad6 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
@@ -19,6 +19,7 @@ class ReversePreindexDocsTest {
     Path wordsIdFile;
     Path docsFile;
     Path tempDir;
+    Path positionsFile;
 
     TestJournalFactory journalFactory;
 
@@ -30,6 +31,7 @@ class ReversePreindexDocsTest {
         wordsIdFile = Files.createTempFile("words", ".dat");
         docsFile = Files.createTempFile("docs", ".dat");
         tempDir = Files.createTempDirectory("sort");
+        positionsFile = tempDir.resolve("positions.dat");
     }
 
     @AfterEach
@@ -38,6 +40,9 @@ class ReversePreindexDocsTest {
 
         Files.deleteIfExists(countsFile);
         Files.deleteIfExists(wordsIdFile);
+        Files.deleteIfExists(positionsFile);
+        Files.deleteIfExists(docsFile);
+
         List<Path> contents = new ArrayList<>();
         Files.list(tempDir).forEach(contents::add);
         for (var tempFile : contents) {
@@ -53,7 +58,7 @@ class ReversePreindexDocsTest {
         );
 
         var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), segments);
+        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), new PositionsFileConstructor(positionsFile), segments);
 
         List<TestSegmentData> expected = List.of(
                 new TestSegmentData(-100, 0, 2, new long[] { -0xF00BA3L, 0 }),
@@ -82,7 +87,9 @@ class ReversePreindexDocsTest {
         );
 
         var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), segments);
+        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(),
+                new PositionsFileConstructor(positionsFile),
+                segments);
 
         List<TestSegmentData> expected = List.of(
                 new TestSegmentData(4, 0, 4, new long[] { -0xF00BA3L, 0, -0xF00BA3L, 0 })
@@ -109,7 +116,9 @@ class ReversePreindexDocsTest {
         );
 
         var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), segme.nts);
+        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(),
+                new PositionsFileConstructor(positionsFile),
+                segments);
 
         List<TestSegmentData> expected = List.of(
                 new TestSegmentData(-100, 0, 4, new long[] { -0xF00BA3L, 0, 0xF00BA4L, 0 }),
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
index 1ef2df4e..d9f3cddc 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
@@ -2,7 +2,6 @@
 package nu.marginalia.index.construction;
 
 import nu.marginalia.array.LongArrayFactory;
-import nu.marginalia.btree.BTreeReader;
 import nu.marginalia.btree.model.BTreeHeader;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
@@ -19,6 +18,7 @@ import static org.junit.jupiter.api.Assertions.assertTrue;
 
 class ReversePreindexFinalizeTest {
     TestJournalFactory journalFactory;
+    Path positionsFile;
     Path countsFile;
     Path wordsIdFile;
     Path docsFile;
@@ -28,6 +28,7 @@ class ReversePreindexFinalizeTest {
     public void setUp() throws IOException  {
         journalFactory = new TestJournalFactory();
 
+        positionsFile = Files.createTempFile("positions", ".dat");
         countsFile = Files.createTempFile("counts", ".dat");
         wordsIdFile = Files.createTempFile("words", ".dat");
         docsFile = Files.createTempFile("docs", ".dat");
@@ -51,7 +52,9 @@ class ReversePreindexFinalizeTest {
     @Test
     public void testFinalizeSimple() throws IOException {
         var reader = journalFactory.createReader(new EntryDataWithWordMeta(100, 101, wm(50, 51)));
-        var preindex = ReversePreindex.constructPreindex(reader, DocIdRewriter.identity(), tempDir);
+        var preindex = ReversePreindex.constructPreindex(reader,
+                new PositionsFileConstructor(positionsFile),
+                DocIdRewriter.identity(), tempDir);
 
 
         preindex.finalizeIndex(tempDir.resolve( "docs.dat"), tempDir.resolve("words.dat"));
@@ -89,7 +92,9 @@ class ReversePreindexFinalizeTest {
                 new EntryDataWithWordMeta(101, 101, wm(51, 52))
                 );
 
-        var preindex = ReversePreindex.constructPreindex(reader, DocIdRewriter.identity(), tempDir);
+        var preindex = ReversePreindex.constructPreindex(reader,
+                new PositionsFileConstructor(positionsFile),
+                DocIdRewriter.identity(), tempDir);
 
         preindex.finalizeIndex(tempDir.resolve( "docs.dat"), tempDir.resolve("words.dat"));
         preindex.delete();
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java
index 1a173d9a..2bfa6556 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java
@@ -19,11 +19,13 @@ class ReversePreindexMergeTest {
     Path wordsIdFile;
     Path docsFile;
     Path tempDir;
+    Path positionsFile;
 
     @BeforeEach
     public void setUp() throws IOException  {
         journalFactory = new TestJournalFactory();
 
+        positionsFile = Files.createTempFile("positions", ".dat");
         countsFile = Files.createTempFile("counts", ".dat");
         wordsIdFile = Files.createTempFile("words", ".dat");
         docsFile = Files.createTempFile("docs", ".dat");
@@ -51,8 +53,8 @@ class ReversePreindexMergeTest {
         var reader1 = journalFactory.createReader(leftData.toArray(EntryDataWithWordMeta[]::new));
         var reader2 = journalFactory.createReader(rightData.toArray(EntryDataWithWordMeta[]::new));
 
-        var left = ReversePreindex.constructPreindex(reader1, DocIdRewriter.identity(), tempDir);
-        var right = ReversePreindex.constructPreindex(reader2, DocIdRewriter.identity(), tempDir);
+        var left = ReversePreindex.constructPreindex(reader1, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
+        var right = ReversePreindex.constructPreindex(reader2, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
         return ReversePreindex.merge(tempDir, left, right);
     }
 

From 9f982a0c3df8b988aa83b881ef3249b600aefdf9 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 6 Jun 2024 16:45:42 +0200
Subject: [PATCH 007/216] (index) Integrate positions file properly

---
 .../index/ReverseIndexFullFileNames.java      |  9 +++-
 .../index/ReverseIndexPrioFileNames.java      |  7 +++-
 .../construction/ReverseIndexConstructor.java | 42 +++++++++----------
 ...IndexQueryServiceIntegrationSmokeTest.java | 26 ++++++++++--
 .../IndexQueryServiceIntegrationTest.java     | 25 +++++++++--
 .../index/IndexConstructorMain.java           | 35 ++++++++++------
 6 files changed, 99 insertions(+), 45 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexFullFileNames.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexFullFileNames.java
index 3d0f2499..f7daff13 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexFullFileNames.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexFullFileNames.java
@@ -13,16 +13,21 @@ public class ReverseIndexFullFileNames {
                 case NEXT -> basePath.resolve("rev-docs.dat.next");
                 case CURRENT -> basePath.resolve("rev-docs.dat");
             };
+            case POSITIONS -> switch (version) {
+                case NEXT -> basePath.resolve("rev-positions.dat.next");
+                case CURRENT -> basePath.resolve("rev-positions.dat");
+            };
         };
     }
 
     public enum FileVersion {
         CURRENT,
-        NEXT
+        NEXT,
     }
 
     public enum FileIdentifier {
         WORDS,
-        DOCS
+        DOCS,
+        POSITIONS,
     }
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java
index e99841d4..ecc570ba 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java
@@ -13,6 +13,10 @@ public class ReverseIndexPrioFileNames {
                 case NEXT -> basePath.resolve("rev-prio-docs.dat.next");
                 case CURRENT -> basePath.resolve("rev-prio-docs.dat");
             };
+            case POSITIONS -> switch (version) {
+                case NEXT -> basePath.resolve("rev-prio-positions.dat.next");
+                case CURRENT -> basePath.resolve("rev-prio-positions.dat");
+            };
         };
     }
 
@@ -23,6 +27,7 @@ public class ReverseIndexPrioFileNames {
 
     public enum FileIdentifier {
         WORDS,
-        DOCS
+        DOCS,
+        POSITIONS,
     }
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
index d7227758..8ea5b491 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
@@ -23,17 +23,20 @@ public class ReverseIndexConstructor {
 
     private final Path outputFileDocs;
     private final Path outputFileWords;
+    private final Path outputFilePositions;
     private final JournalReaderSource readerSource;
     private final DocIdRewriter docIdRewriter;
     private final Path tmpDir;
 
     public ReverseIndexConstructor(Path outputFileDocs,
                                    Path outputFileWords,
+                                   Path outputFilePositions,
                                    JournalReaderSource readerSource,
                                    DocIdRewriter docIdRewriter,
                                    Path tmpDir) {
         this.outputFileDocs = outputFileDocs;
         this.outputFileWords = outputFileWords;
+        this.outputFilePositions = outputFilePositions;
         this.readerSource = readerSource;
         this.docIdRewriter = docIdRewriter;
         this.tmpDir = tmpDir;
@@ -49,30 +52,27 @@ public class ReverseIndexConstructor {
             return;
         }
 
-        Path positionsFile = tmpDir.resolve("positions.dat");
-        Files.deleteIfExists(positionsFile);
-        try (var heartbeat = processHeartbeat.createProcessTaskHeartbeat(CreateReverseIndexSteps.class, processName)) {
-
+        try (var heartbeat = processHeartbeat.createProcessTaskHeartbeat(CreateReverseIndexSteps.class, processName);
+             var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes");
+             var posConstructor = new PositionsFileConstructor(outputFilePositions)
+        ) {
             heartbeat.progress(CreateReverseIndexSteps.CONSTRUCT);
 
-            try (var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes");
-                 PositionsFileConstructor posConstructor = new PositionsFileConstructor(positionsFile);
-            ) {
+            AtomicInteger progress = new AtomicInteger(0);
+
+            inputs
+                .parallelStream()
+                .map(in -> {
+                    preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
+                    return construct(in, posConstructor);
+                })
+                .reduce(this::merge)
+                .ifPresent((index) -> {
+                    heartbeat.progress(CreateReverseIndexSteps.FINALIZE);
+                    finalizeIndex(index);
+                    heartbeat.progress(CreateReverseIndexSteps.FINISHED);
+                });
 
-                AtomicInteger progress = new AtomicInteger(0);
-                inputs
-                    .parallelStream()
-                    .map(in -> {
-                        preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
-                        return construct(in, posConstructor);
-                    })
-                    .reduce(this::merge)
-                    .ifPresent((index) -> {
-                        heartbeat.progress(CreateReverseIndexSteps.FINALIZE);
-                        finalizeIndex(index);
-                        heartbeat.progress(CreateReverseIndexSteps.FINISHED);
-                    });
-            }
             heartbeat.progress(CreateReverseIndexSteps.FINISHED);
         }
     }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 4a976265..1af355f6 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -237,26 +237,44 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         Path outputFileDocs = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.NEXT);
+
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        new ReverseIndexConstructor(outputFileDocs, outputFileWords, IndexJournalReader::singleFile, DocIdRewriter.identity(), tmpDir)
-                .createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
+        var constructor = new ReverseIndexConstructor(
+                    outputFileDocs,
+                    outputFileWords,
+                    outputFilePositions,
+                    IndexJournalReader::singleFile,
+                    DocIdRewriter.identity(),
+                    tmpDir);
+
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
     }
 
     private void createPrioReverseIndex() throws SQLException, IOException {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        new ReverseIndexConstructor(outputFileDocs, outputFileWords, IndexJournalReader::singleFile, DocIdRewriter.identity(), tmpDir)
-                .createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
+        var constructor = new ReverseIndexConstructor(
+                    outputFileDocs,
+                    outputFileWords,
+                    outputFilePositions,
+                    IndexJournalReader::singleFile,
+                    DocIdRewriter.identity(),
+                    tmpDir);
+
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
     }
 
     private void createForwardIndex() throws SQLException, IOException {
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 861923dd..9e9c3873 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -484,26 +484,43 @@ public class IndexQueryServiceIntegrationTest {
 
         Path outputFileDocs = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.NEXT);
+
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        new ReverseIndexConstructor(outputFileDocs, outputFileWords, IndexJournalReader::singleFile, DocIdRewriter.identity(), tmpDir)
-                .createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
+        var constructor =
+                new ReverseIndexConstructor(
+                    outputFileDocs,
+                    outputFileWords,
+                    outputFilePositions,
+                    IndexJournalReader::singleFile,
+                    DocIdRewriter.identity(),
+                    tmpDir);
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
     }
 
     private void createPrioReverseIndex() throws SQLException, IOException {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        new ReverseIndexConstructor(outputFileDocs, outputFileWords, IndexJournalReader::singleFile, DocIdRewriter.identity(), tmpDir)
-                .createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
+        var constructor = new ReverseIndexConstructor(
+                outputFileDocs,
+                outputFileWords,
+                outputFilePositions,
+                IndexJournalReader::singleFile,
+                DocIdRewriter.identity(),
+                tmpDir);
+
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
     }
 
     private void createForwardIndex() throws SQLException, IOException {
diff --git a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
index 47d3fba2..eac907eb 100644
--- a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
+++ b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
@@ -106,29 +106,35 @@ public class IndexConstructorMain extends ProcessMainClass {
         heartbeat.shutDown();
     }
 
-    private void createFullReverseIndex() throws SQLException, IOException {
+    private void createFullReverseIndex() throws IOException {
 
         Path outputFileDocs = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.NEXT);
+
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-
-        new ReverseIndexConstructor(outputFileDocs, outputFileWords,
+        var constructor = new ReverseIndexConstructor(
+                outputFileDocs,
+                outputFileWords,
+                outputFilePositions,
                 IndexJournalReader::singleFile,
-                this::addRankToIdEncoding, tmpDir)
-                    .createReverseIndex(heartbeat,
-                            "createReverseIndexFull",
-                            workDir);
+                this::addRankToIdEncoding,
+                tmpDir);
+
+        constructor.createReverseIndex(heartbeat, "createReverseIndexFull", workDir);
 
     }
 
-    private void createPrioReverseIndex() throws SQLException, IOException {
+    private void createPrioReverseIndex() throws IOException {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
@@ -136,12 +142,15 @@ public class IndexConstructorMain extends ProcessMainClass {
         // important to the document.  This filter will act on the encoded {@see WordMetadata}
         LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
 
-        new ReverseIndexConstructor(outputFileDocs, outputFileWords,
+        var constructor = new ReverseIndexConstructor(
+                outputFileDocs,
+                outputFileWords,
+                outputFilePositions,
                 (path) -> IndexJournalReader.singleFile(path).filtering(wordMetaFilter),
-                this::addRankToIdEncoding, tmpDir)
-                .createReverseIndex(heartbeat,
-                        "createReverseIndexPrio",
-                        workDir);
+                this::addRankToIdEncoding,
+                tmpDir);
+
+        constructor.createReverseIndex(heartbeat, "createReverseIndexPrio", workDir);
     }
 
     private static LongPredicate getPriorityIndexWordMetaFilter() {

From 36160988e29ec0fb05ef6dfe4c34243718719f60 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 10 Jun 2024 15:09:06 +0200
Subject: [PATCH 008/216] (index) Integrate positions data with indexes WIP

This change integrates the new positions data with the forward and reverse indexes.

The ranking code is still only partially re-written.
---
 .../model/compiled/CompiledQueryInt.java      |   6 +-
 .../model/compiled/CompiledQueryParser.java   |   3 +-
 .../model/compiled/CqExpression.java          |  12 +
 .../aggregate/CompiledQueryAggregates.java    |   6 +-
 .../aggregate/CqIntMaxMinOperator.java        |   5 +-
 .../searchquery/model/query/SearchQuery.java  |  44 ++
 .../model/results/SearchResultItem.java       |   4 +-
 .../index/forward/ForwardIndexConverter.java  |   4 +-
 .../index/forward/ForwardIndexReader.java     |  12 +-
 .../forward/ForwardIndexConverterTest.java    |   1 +
 .../model/IndexJournalEntryHeader.java        |   3 +
 .../journal/reader/IndexJournalReadEntry.java |  15 +-
 .../journal/reader/IndexJournalReader.java    |   2 +-
 .../reader/IndexJournalReaderSingleFile.java  |   3 +
 .../reader/pointer/IndexJournalPointer.java   |  13 +
 .../journal/writer/IndexJournalWriter.java    |   1 -
 .../IndexJournalWriterSingleFileImpl.java     |  30 +-
 .../index/journal/IndexJournalWriterTest.java | 100 ++++-
 .../marginalia/index/ReverseIndexReader.java  |  48 ++-
 .../PositionsFileConstructor.java             |  13 +-
 .../construction/ReverseIndexConstructor.java |   1 -
 .../ReversePreindexDocuments.java             |  17 +-
 .../index/positions/PositionCodec.java        |  25 ++
 .../index/positions/PositionsFileReader.java  |  39 ++
 .../marginalia/index/positions/TermData.java  |  21 +
 .../index/PositionsFileReaderTest.java        |  63 +++
 .../index/ReverseIndexReaderTest.java         |  36 +-
 .../construction/ReversePreindexDocsTest.java |  10 +-
 .../ReversePreindexFinalizeTest.java          |   6 -
 .../construction/TestJournalFactory.java      |  14 +-
 .../nu/marginalia/index/IndexFactory.java     |  10 +-
 .../nu/marginalia/index/IndexGrpcService.java |   5 +-
 .../index/index/CombinedIndexReader.java      |  14 +-
 .../index/results/IndexMetadataService.java   |  18 +-
 .../results/IndexResultValuationContext.java  | 140 ++++---
 .../results/IndexResultValuatorService.java   | 104 +++--
 .../TermMetadataForCombinedDocumentIds.java   |  47 ++-
 .../results/model/ids/CombinedDocIdList.java  |   4 +
 .../results/model/ids/DocMetadataList.java    |  45 ---
 .../index/results/model/ids/TermIdList.java   |  10 +
 .../results/model/ids/TermMetadataList.java   |  55 +++
 .../ranking/results/ResultValuator.java       |  28 +-
 .../results/factors/Bm25FullGraphVisitor.java |  27 +-
 .../results/factors/TermCoherenceFactor.java  |  55 +--
 .../index/CombinedIndexReaderTest.java        | 382 ++++++++++++++++++
 ...IndexQueryServiceIntegrationSmokeTest.java | 113 ++++--
 .../IndexQueryServiceIntegrationTest.java     |   1 +
 .../ranking/results/ResultValuatorTest.java   | 100 -----
 .../factors/TermCoherenceFactorTest.java      | 107 -----
 .../marginalia/sequence/EliasGammaCodec.java  |  22 +-
 .../sequence/GammaCodedSequence.java          |  37 +-
 .../sequence/SequenceOperations.java          |  86 ++++
 .../nu/marginalia/sequence/io/BitReader.java  |   4 +
 .../sequence/SequenceOperationsTest.java      |  75 ++++
 .../DocumentRecordKeywordsProjection.java     |   5 +-
 .../loading/LoaderIndexJournalWriter.java     |  13 +-
 .../documents/KeywordLoaderService.java       |   1 +
 .../paperdoll/SearchServicePaperDoll.java     |   2 +-
 58 files changed, 1417 insertions(+), 650 deletions(-)
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/positions/PositionCodec.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
 create mode 100644 code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
 delete mode 100644 code/index/java/nu/marginalia/index/results/model/ids/DocMetadataList.java
 create mode 100644 code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java
 create mode 100644 code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
 delete mode 100644 code/index/test/nu/marginalia/ranking/results/ResultValuatorTest.java
 delete mode 100644 code/index/test/nu/marginalia/ranking/results/factors/TermCoherenceFactorTest.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
 create mode 100644 code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryInt.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryInt.java
index 9e26c35c..0f80d479 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryInt.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryInt.java
@@ -5,8 +5,8 @@ import java.util.stream.IntStream;
 
 /** A compiled index service query */
 public class CompiledQueryInt {
-    private final CqExpression root;
-    private final CqDataInt data;
+    public final CqExpression root;
+    public final CqDataInt data;
 
     public CompiledQueryInt(CqExpression root, CqDataInt data) {
         this.root = root;
@@ -26,7 +26,7 @@ public class CompiledQueryInt {
         return IntStream.range(0, data.size());
     }
 
-    public long at(int index) {
+    public int at(int index) {
         return data.get(index);
     }
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParser.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParser.java
index ae197fb9..ef379e5a 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParser.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParser.java
@@ -61,7 +61,8 @@ public class CompiledQueryParser {
 
         String[] cqData = new String[wordIds.size()];
         wordIds.forEach((w, i) -> cqData[i] = w);
-        return new CompiledQuery<>(root, new CqData<>(cqData));
+
+        return root.newQuery(cqData);
 
     }
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqExpression.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqExpression.java
index e9972526..3f0cca50 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqExpression.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqExpression.java
@@ -8,6 +8,18 @@ import java.util.stream.Stream;
  *
  */
 public sealed interface CqExpression {
+    /**  Create a new query for the provided data using this expression as the root */
+    default <T> CompiledQuery<T> newQuery(T[] data) {
+        return new CompiledQuery<>(this, data);
+    }
+    /**  Create a new query for the provided data using this expression as the root */
+    default CompiledQueryInt newQuery(int[] data) {
+        return new CompiledQueryInt(this, new CqDataInt(data));
+    }
+    /**  Create a new query for the provided data using this expression as the root */
+    default CompiledQueryLong newQuery(long[] data) {
+        return new CompiledQueryLong(this, new CqDataLong(data));
+    }
 
     Stream<Word> stream();
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java
index 7e8ca8ec..2ca45dca 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java
@@ -2,6 +2,7 @@ package nu.marginalia.api.searchquery.model.compiled.aggregate;
 
 import it.unimi.dsi.fastutil.longs.LongSet;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 
 import java.util.ArrayList;
@@ -36,7 +37,10 @@ public class CompiledQueryAggregates {
     public static <T> int intMaxMinAggregate(CompiledQuery<T> query, ToIntFunction<T> operator) {
         return query.root.visit(new CqIntMaxMinOperator(query, operator));
     }
-
+    /** Apply the operator to each leaf node, then return the highest minimum value found along any path */
+    public static <T> int intMaxMinAggregate(CompiledQueryInt query, IntUnaryOperator operator) {
+        return query.root.visit(new CqIntMaxMinOperator(query, operator));
+    }
     /** Apply the operator to each leaf node, then return the highest minimum value found along any path */
     public static int intMaxMinAggregate(CompiledQueryLong query, LongToIntFunction operator) {
         return query.root.visit(new CqIntMaxMinOperator(query, operator));
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqIntMaxMinOperator.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqIntMaxMinOperator.java
index 621dff73..c9712ed4 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqIntMaxMinOperator.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqIntMaxMinOperator.java
@@ -1,6 +1,7 @@
 package nu.marginalia.api.searchquery.model.compiled.aggregate;
 
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.compiled.CqExpression;
 
@@ -21,7 +22,9 @@ public class CqIntMaxMinOperator implements CqExpression.IntVisitor {
     public CqIntMaxMinOperator(CompiledQueryLong query, LongToIntFunction operator) {
         this.operator = idx -> operator.applyAsInt(query.at(idx));
     }
-
+    public CqIntMaxMinOperator(CompiledQueryInt query, IntUnaryOperator operator) {
+        this.operator = idx -> operator.applyAsInt(query.at(idx));
+    }
     @Override
     public int onAnd(List<? extends CqExpression> parts) {
         int value = parts.getFirst().visit(this);
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
index ffe02868..e33972c3 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
@@ -36,6 +36,10 @@ public class SearchQuery {
     @Deprecated // why does this exist?
     private double value = 0;
 
+    public static SearchQueryBuilder builder(String compiledQuery) {
+        return new SearchQueryBuilder(compiledQuery);
+    }
+
     public SearchQuery() {
         this.compiledQuery = "";
         this.searchTermsInclude = new ArrayList<>();
@@ -81,5 +85,45 @@ public class SearchQuery {
         return sb.toString();
     }
 
+    public static class SearchQueryBuilder {
+        private final String compiledQuery;
+        private List<String> searchTermsInclude = new ArrayList<>();
+        private List<String> searchTermsExclude = new ArrayList<>();
+        private List<String> searchTermsAdvice = new ArrayList<>();
+        private List<String> searchTermsPriority = new ArrayList<>();
+        private List<List<String>> searchTermCoherences = new ArrayList<>();
 
+        private SearchQueryBuilder(String compiledQuery) {
+            this.compiledQuery = compiledQuery;
+        }
+
+        public SearchQueryBuilder include(String... terms) {
+            searchTermsInclude.addAll(List.of(terms));
+            return this;
+        }
+
+        public SearchQueryBuilder exclude(String... terms) {
+            searchTermsExclude.addAll(List.of(terms));
+            return this;
+        }
+
+        public SearchQueryBuilder advice(String... terms) {
+            searchTermsAdvice.addAll(List.of(terms));
+            return this;
+        }
+
+        public SearchQueryBuilder priority(String... terms) {
+            searchTermsPriority.addAll(List.of(terms));
+            return this;
+        }
+
+        public SearchQueryBuilder coherences(String... coherences) {
+            searchTermCoherences.add(List.of(coherences));
+            return this;
+        }
+
+        public SearchQuery build() {
+            return new SearchQuery(compiledQuery, searchTermsInclude, searchTermsExclude, searchTermsAdvice, searchTermsPriority, searchTermCoherences);
+        }
+    }
 }
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
index ad8b8cb1..f676a954 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
@@ -32,13 +32,11 @@ public class SearchResultItem implements Comparable<SearchResultItem> {
 
     public SearchResultItem(long combinedId,
                             long encodedDocMetadata,
-                            int htmlFeatures,
-                            boolean hasPrioTerm) {
+                            int htmlFeatures) {
         this.combinedId = combinedId;
         this.encodedDocMetadata = encodedDocMetadata;
         this.keywordScores = new ArrayList<>();
         this.htmlFeatures = htmlFeatures;
-        this.hasPrioTerm = hasPrioTerm;
     }
 
 
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
index 80cf502b..7c3704ba 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
@@ -83,8 +83,10 @@ public class ForwardIndexConverter {
                 int ranking = domainRankings.getRanking(domainId);
                 long meta = DocumentMetadata.encodeRank(pointer.documentMeta(), ranking);
 
+                long features = pointer.documentFeatures() | ((long) pointer.documentSize() << 32L);
+
                 docFileData.set(entryOffset + ForwardIndexParameters.METADATA_OFFSET, meta);
-                docFileData.set(entryOffset + ForwardIndexParameters.FEATURES_OFFSET, pointer.documentFeatures());
+                docFileData.set(entryOffset + ForwardIndexParameters.FEATURES_OFFSET, features);
             }
 
             progress.progress(TaskSteps.FORCE);
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
index 5d26de82..f9393b45 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
@@ -82,9 +82,19 @@ public class ForwardIndexReader {
         long offset = idxForDoc(docId);
         if (offset < 0) return 0;
 
-        return (int) data.get(ENTRY_SIZE * offset + FEATURES_OFFSET);
+        return (int) (data.get(ENTRY_SIZE * offset + FEATURES_OFFSET) & 0xFFFF_FFFFL);
     }
 
+    public int getDocumentSize(long docId) {
+        assert UrlIdCodec.getRank(docId) == 0 : "Forward Index Reader fed dirty reverse index id";
+
+        long offset = idxForDoc(docId);
+        if (offset < 0) return 0;
+
+        return (int) (data.get(ENTRY_SIZE * offset + FEATURES_OFFSET) >>> 32L);
+    }
+
+
     private int idxForDoc(long docId) {
         assert UrlIdCodec.getRank(docId) == 0 : "Forward Index Reader fed dirty reverse index id";
 
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
index b30f549f..5c02f648 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
@@ -79,6 +79,7 @@ class ForwardIndexConverterTest {
         writer.put(
                 new IndexJournalEntryHeader(createId(id, id/20),
                         id%3,
+                        15,
                         (id % 5)),
                 new IndexJournalEntryData(
                     new String[]{},
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java
index b0f3d41e..82dc904a 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java
@@ -17,14 +17,17 @@ import nu.marginalia.model.idx.DocumentMetadata;
  */
 public record IndexJournalEntryHeader(int entrySize,
                                       int documentFeatures,
+                                      int documentSize,
                                       long combinedId,
                                       long documentMeta) {
 
     public IndexJournalEntryHeader(long combinedId,
                                    int documentFeatures,
+                                   int documentSize,
                                    long documentMeta) {
         this(-1,
                 documentFeatures,
+                documentSize,
                 combinedId,
                 documentMeta);
     }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
index 0f3a6ff2..aae65e81 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
@@ -28,12 +28,17 @@ public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData
     public static IndexJournalReadEntry read(DataInputStream inputStream) throws IOException {
 
         final long sizeBlock = inputStream.readLong();
+        final int entrySize = (int) (sizeBlock >>> 48L);
+        final int docSize = (int) ((sizeBlock >>> 32L) & 0xFFFFL);
+        final int docFeatures = (int) (sizeBlock & 0xFFFF_FFFFL);
         final long docId = inputStream.readLong();
         final long meta = inputStream.readLong();
 
+
         var header = new IndexJournalEntryHeader(
-                (int) (sizeBlock >>> 32L),
-                (int) (sizeBlock & 0xFFFF_FFFFL),
+                entrySize,
+                docFeatures,
+                docSize,
                 docId,
                 meta);
 
@@ -57,6 +62,10 @@ public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData
         return header.documentFeatures();
     }
 
+    public int documentSize() {
+        return header.documentSize();
+    }
+
     public int domainId() {
         return UrlIdCodec.getDomainId(docId());
     }
@@ -88,7 +97,7 @@ class TermDataIterator implements Iterator<IndexJournalEntryTermData> {
     public IndexJournalEntryTermData next() {
         // read the metadata for the term
         long termId = buffer.getLong();
-        long meta = buffer.getLong();
+        long meta = buffer.getShort();
 
         // read the size of the sequence data
         int size = buffer.get() & 0xFF;
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
index 2f57da61..2dd8d0e9 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
@@ -13,7 +13,7 @@ public interface IndexJournalReader {
     int FILE_HEADER_SIZE_BYTES = 8 * FILE_HEADER_SIZE_LONGS;
 
     int DOCUMENT_HEADER_SIZE_BYTES = 24;
-    int TERM_HEADER_SIZE_BYTES = 17;
+    int TERM_HEADER_SIZE_BYTES = 11;
 
     /** Create a reader for a single file. */
     static IndexJournalReader singleFile(Path fileName) throws IOException {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
index 488d0dc6..d820f1e0 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
@@ -97,6 +97,9 @@ class SingleFileJournalPointer implements IndexJournalPointer {
     @Override
     public int documentFeatures() { return entry.documentFeatures(); }
 
+    @Override
+    public int documentSize() { return entry.documentSize(); }
+
     /** Return an iterator over the terms in the current document.
      *  This iterator is not valid after calling nextDocument().
      */
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
index 59e65e27..68d21360 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
@@ -42,6 +42,8 @@ public interface IndexJournalPointer extends Iterable<IndexJournalEntryTermData>
      */
     int documentFeatures();
 
+    int documentSize();
+
     /** Concatenate a number of journal pointers */
     static IndexJournalPointer concatenate(IndexJournalPointer... pointers) {
         if (pointers.length == 1)
@@ -94,6 +96,11 @@ class JoiningJournalPointer implements IndexJournalPointer {
         return pointers[pIndex].documentFeatures();
     }
 
+    @Override
+    public int documentSize() {
+        return pointers[pIndex].documentSize();
+    }
+
     @NotNull
     @Override
     public Iterator<IndexJournalEntryTermData> iterator() {
@@ -146,6 +153,12 @@ class FilteringJournalPointer implements IndexJournalPointer {
         return base.documentFeatures();
     }
 
+
+    @Override
+    public int documentSize() {
+        return base.documentSize();
+    }
+
     @NotNull
     @Override
     public Iterator<IndexJournalEntryTermData> iterator() {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
index df9b6836..916cf7a6 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
@@ -2,7 +2,6 @@ package nu.marginalia.index.journal.writer;
 
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 
 import java.io.IOException;
 
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
index 59999138..e5ddac52 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
@@ -81,12 +81,6 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
     public int put(IndexJournalEntryHeader header,
                    IndexJournalEntryData data)
     {
-        if (dataBuffer.capacity() - dataBuffer.position() < 3*8) {
-            dataBuffer.flip();
-            compressingStream.compress(dataBuffer);
-            dataBuffer.clear();
-        }
-
         final long[] keywords = data.termIds();
         final long[] metadata = data.metadata();
         final var positions = data.positions();
@@ -94,16 +88,30 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
         int recordSize = 0; // document header size is 3 longs
         for (int i = 0; i < keywords.length; i++) {
             // term header size is 2 longs
-            recordSize += IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].size();
+            recordSize += IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].bufferSize();
         }
 
-        dataBuffer.putInt(recordSize);
+        if (recordSize > Short.MAX_VALUE) {
+            // This should never happen, but if it does, we should log it and deal with it in a way that doesn't corrupt the file
+            // (32 KB is *a lot* of data for a single document, larger than the uncompressed HTML of most documents)
+            logger.error("Omitting entry: Record size {} exceeds maximum representable size of {}", recordSize, Short.MAX_VALUE);
+            return 0;
+        }
+
+        if (dataBuffer.capacity() - dataBuffer.position() < 3*8) {
+            dataBuffer.flip();
+            compressingStream.compress(dataBuffer);
+            dataBuffer.clear();
+        }
+
+        dataBuffer.putShort((short) recordSize);
+        dataBuffer.putShort((short) Math.clamp(0, header.documentSize(), Short.MAX_VALUE));
         dataBuffer.putInt(header.documentFeatures());
         dataBuffer.putLong(header.combinedId());
         dataBuffer.putLong(header.documentMeta());
 
         for (int i = 0; i < keywords.length; i++) {
-            int requiredSize = IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].size();
+            int requiredSize = IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].bufferSize();
 
             if (dataBuffer.capacity() - dataBuffer.position() < requiredSize) {
                 dataBuffer.flip();
@@ -112,8 +120,8 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
             }
 
             dataBuffer.putLong(keywords[i]);
-            dataBuffer.putLong(metadata[i]);
-            dataBuffer.put((byte) positions[i].size());
+            dataBuffer.putShort((short) metadata[i]);
+            dataBuffer.put((byte) positions[i].bufferSize());
             dataBuffer.put(positions[i].buffer());
         }
 
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
index b9cd49c1..84d72af3 100644
--- a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
+++ b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
@@ -1,6 +1,8 @@
 package nu.marginalia.index.journal;
 
 import it.unimi.dsi.fastutil.ints.IntList;
+import it.unimi.dsi.fastutil.longs.LongArrayList;
+import it.unimi.dsi.fastutil.longs.LongList;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
@@ -8,6 +10,11 @@ import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 import nu.marginalia.index.journal.reader.IndexJournalReaderPagingImpl;
 import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
 import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
+import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.model.idx.DocumentMetadata;
+import nu.marginalia.model.idx.WordFlags;
+import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.Assertions;
@@ -18,8 +25,9 @@ import java.io.IOException;
 import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
-import java.util.Iterator;
-import java.util.List;
+import java.util.*;
+import java.util.stream.Collectors;
+import java.util.stream.IntStream;
 
 import static org.junit.jupiter.api.Assertions.*;
 
@@ -52,7 +60,7 @@ public class IndexJournalWriterTest {
     public void testSingleFile() {
         try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
             // Write two documents with two terms each
-            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
                     new IndexJournalEntryData(
                         new String[]{"word1", "word2"},
                         new long[]{44, 55},
@@ -61,7 +69,7 @@ public class IndexJournalWriterTest {
                                 gcs(2, 4, 6),
                         })
                     );
-            writer.put(new IndexJournalEntryHeader(12, 23, 34),
+            writer.put(new IndexJournalEntryHeader(12, 23, 11, 34),
                     new IndexJournalEntryData(
                         new String[]{"word1", "word2"},
                         new long[]{45, 56},
@@ -90,6 +98,7 @@ public class IndexJournalWriterTest {
                 assertEquals(11, ptr.documentId());
                 assertEquals(22, ptr.documentFeatures());
                 assertEquals(33, ptr.documentMeta());
+                assertEquals(10, ptr.documentSize());
 
                 iter = ptr.iterator();
 
@@ -116,6 +125,7 @@ public class IndexJournalWriterTest {
                 assertEquals(12, ptr.documentId());
                 assertEquals(23, ptr.documentFeatures());
                 assertEquals(34, ptr.documentMeta());
+                assertEquals(11, ptr.documentSize());
 
                 iter = ptr.iterator();
                 // Term 1
@@ -147,7 +157,7 @@ public class IndexJournalWriterTest {
     @Test
     public void testMultiFile() {
         try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
-            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
                     new IndexJournalEntryData(
                         new String[]{"word1", "word2"},
                         new long[]{44, 55},
@@ -162,7 +172,7 @@ public class IndexJournalWriterTest {
         }
 
         try (var writer = new IndexJournalWriterSingleFileImpl(tempFile2)) {
-            writer.put(new IndexJournalEntryHeader(12, 23, 34),
+            writer.put(new IndexJournalEntryHeader(12, 23, 11, 34),
                     new IndexJournalEntryData(
                         new String[]{"word1", "word2"},
                         new long[]{45, 56},
@@ -191,6 +201,7 @@ public class IndexJournalWriterTest {
                 assertEquals(11, ptr.documentId());
                 assertEquals(22, ptr.documentFeatures());
                 assertEquals(33, ptr.documentMeta());
+                assertEquals(10, ptr.documentSize());
 
                 iter = ptr.iterator();
 
@@ -217,6 +228,7 @@ public class IndexJournalWriterTest {
                 assertEquals(12, ptr.documentId());
                 assertEquals(23, ptr.documentFeatures());
                 assertEquals(34, ptr.documentMeta());
+                assertEquals(11, ptr.documentSize());
 
                 iter = ptr.iterator();
                 // Term 1
@@ -249,7 +261,7 @@ public class IndexJournalWriterTest {
     public void testSingleFileIterTwice() {
         try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
             // Write two documents with two terms each
-            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
                     new IndexJournalEntryData(
                         new String[]{"word1", "word2"},
                         new long[]{44, 55},
@@ -277,6 +289,7 @@ public class IndexJournalWriterTest {
                 assertTrue(ptr.nextDocument());
                 assertEquals(11, ptr.documentId());
                 assertEquals(22, ptr.documentFeatures());
+                assertEquals(10, ptr.documentSize());
                 assertEquals(33, ptr.documentMeta());
 
                 iter = ptr.iterator();
@@ -307,7 +320,7 @@ public class IndexJournalWriterTest {
     public void testFiltered() {
         try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
             // Write two documents with two terms each
-            writer.put(new IndexJournalEntryHeader(11, 22, 33),
+            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
                     new IndexJournalEntryData(
                         new String[]{"word1", "word2"},
                         new long[]{44, 55},
@@ -316,7 +329,7 @@ public class IndexJournalWriterTest {
                                 gcs(2, 4, 6),
                         })
                     );
-            writer.put(new IndexJournalEntryHeader(12, 23, 34),
+            writer.put(new IndexJournalEntryHeader(12, 23, 11, 34),
                     new IndexJournalEntryData(
                             new String[]{"word1", "word2"},
                         new long[]{45, 56},
@@ -344,6 +357,7 @@ public class IndexJournalWriterTest {
                 assertEquals(12, ptr.documentId());
                 assertEquals(23, ptr.documentFeatures());
                 assertEquals(34, ptr.documentMeta());
+                assertEquals(11, ptr.documentSize());
 
                 iter = ptr.iterator();
                 // Term 1
@@ -364,4 +378,72 @@ public class IndexJournalWriterTest {
         }
     }
 
+    @Test
+    public void testIntegrationScenario() throws IOException {
+        Map<Long, Integer> wordMap = new HashMap<>();
+        for (int i = 0; i < 512; i++) {
+            wordMap.put(hasher.hashKeyword(Integer.toString(i)), i);
+        }
+        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
+            for (int idc = 1; idc < 512; idc++) {
+                int id = idc;
+                int[] factors = IntStream
+                        .rangeClosed(1, id)
+                        .filter(v -> (id % v) == 0)
+                        .toArray();
+
+                System.out.println("id:" + id + " factors: " + Arrays.toString(factors));
+
+                long fullId = UrlIdCodec.encodeId((32 - (id % 32)), id);
+
+                var header = new IndexJournalEntryHeader(factors.length, 0, 100, fullId, new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode());
+
+                String[] keywords = IntStream.of(factors).mapToObj(Integer::toString).toArray(String[]::new);
+                long[] metadata = new long[factors.length];
+                for (int i = 0; i < factors.length; i++) {
+                    metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
+                }
+                GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
+                ByteBuffer wa = ByteBuffer.allocate(16);
+                for (int i = 0; i < factors.length; i++) {
+                    positions[i] = GammaCodedSequence.generate(wa, i + 1);
+                }
+
+                writer.put(header, new IndexJournalEntryData(keywords, metadata, positions));
+            }
+        }
+
+        try (var ptr = new IndexJournalReaderSingleFile(tempFile).newPointer()) {
+            while (ptr.nextDocument()) {
+                int ordinal = UrlIdCodec.getDocumentOrdinal(ptr.documentId());
+                System.out.println(ordinal);
+
+                var expectedFactors =
+                        new LongArrayList(IntStream
+                        .rangeClosed(1, ordinal)
+                        .filter(v -> (ordinal % v) == 0)
+                        .mapToObj(Integer::toString)
+                        .mapToLong(hasher::hashKeyword)
+                        .toArray());
+
+                LongList foundIds = new LongArrayList();
+
+                var iter = ptr.iterator();
+                while (iter.hasNext()) {
+                    var termData = iter.next();
+                    foundIds.add(termData.termId());
+                }
+
+                if (!expectedFactors.equals(foundIds)) {
+                    System.out.println("Found: ");
+                    System.out.println(foundIds.stream().map(fac -> wordMap.getOrDefault(fac, -1)).map(Objects::toString).collect(Collectors.joining(",")));
+                    System.out.println("Expected: ");
+                    System.out.println(expectedFactors.stream().map(fac -> wordMap.getOrDefault(fac, -1)).map(Objects::toString).collect(Collectors.joining(",")));
+                    fail();
+                }
+                assertEquals(expectedFactors, foundIds);
+            }
+        }
+    }
+
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
index 72feb7fd..c7621427 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
@@ -3,6 +3,8 @@ package nu.marginalia.index;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.btree.BTreeReader;
+import nu.marginalia.index.positions.TermData;
+import nu.marginalia.index.positions.PositionsFileReader;
 import nu.marginalia.index.query.EmptyEntrySource;
 import nu.marginalia.index.query.EntrySource;
 import nu.marginalia.index.query.ReverseIndexRejectFilter;
@@ -14,9 +16,9 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.lang.foreign.Arena;
 import java.nio.file.Files;
 import java.nio.file.Path;
-import java.util.Arrays;
 import java.util.concurrent.Executors;
 
 public class ReverseIndexReader {
@@ -27,9 +29,16 @@ public class ReverseIndexReader {
     private final BTreeReader wordsBTreeReader;
     private final String name;
 
-    public ReverseIndexReader(String name, Path words, Path documents) throws IOException {
+    private final PositionsFileReader positionsFileReader;
+
+    public ReverseIndexReader(String name,
+                              Path words,
+                              Path documents,
+                              PositionsFileReader positionsFileReader) throws IOException {
         this.name = name;
 
+        this.positionsFileReader = positionsFileReader;
+
         if (!Files.exists(words) || !Files.exists(documents)) {
             this.words = null;
             this.documents = null;
@@ -133,31 +142,29 @@ public class ReverseIndexReader {
                 offset);
     }
 
-    public long[] getTermMeta(long termId, long[] docIds) {
+    public TermData[] getTermData(Arena arena,
+                                  long termId,
+                                  long[] docIds)
+    {
+        var ret = new TermData[docIds.length];
+
         long offset = wordOffset(termId);
 
         if (offset < 0) {
             // This is likely a bug in the code, but we can't throw an exception here
             logger.debug("Missing offset for word {}", termId);
-            return new long[docIds.length];
+            return ret;
         }
 
-        assert isUniqueAndSorted(docIds) : "The input array docIds is assumed to be unique and sorted, was " + Arrays.toString(docIds);
-
         var reader = createReaderNew(offset);
-        return reader.queryData(docIds, 1);
-    }
 
-    private boolean isUniqueAndSorted(long[] ids) {
-        if (ids.length == 0)
-            return true;
+        // Read the size and offset of the position data
+        var offsets = reader.queryData(docIds, 1);
 
-        for (int i = 1; i < ids.length; i++) {
-            if(ids[i] <= ids[i-1])
-                return false;
+        for (int i = 0; i < docIds.length; i++) {
+            ret[i] = positionsFileReader.getTermData(arena, offsets[i]);
         }
-
-        return true;
+        return ret;
     }
 
     public void close() {
@@ -166,5 +173,14 @@ public class ReverseIndexReader {
 
         if (words != null)
             words.close();
+
+        if (positionsFileReader != null) {
+            try {
+                positionsFileReader.close();
+            } catch (IOException e) {
+                logger.error("Failed to close positions file reader", e);
+            }
+        }
     }
+
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
index 80225e06..9cbd6b14 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.construction;
 
+import nu.marginalia.index.positions.PositionCodec;
 import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.IOException;
@@ -38,7 +39,7 @@ public class PositionsFileConstructor implements AutoCloseable {
     /** Add a term to the positions file
      * @param termMeta the term metadata
      * @param positions the positions of the term
-     * @return the offset of the term in the file
+     * @return the offset of the term in the file, with the size of the data in the highest byte
      */
     public long add(byte termMeta, GammaCodedSequence positions) throws IOException {
         synchronized (file) {
@@ -53,12 +54,20 @@ public class PositionsFileConstructor implements AutoCloseable {
             workBuffer.put(termMeta);
             workBuffer.put(positionBuffer);
 
+            long ret = PositionCodec.encode(size, offset);
+
             offset += size;
-            return offset;
+
+            return ret;
         }
     }
 
     public void close() throws IOException {
+        while (workBuffer.position() < workBuffer.limit()) {
+            workBuffer.flip();
+            channel.write(workBuffer);
+        }
+
         channel.force(false);
         channel.close();
     }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
index 8ea5b491..9fa3ed93 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
@@ -7,7 +7,6 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
-import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.concurrent.atomic.AtomicInteger;
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
index aa4fc98e..3f97061a 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
@@ -21,12 +21,14 @@ import java.util.concurrent.TimeUnit;
  * the associated ReversePreindexWordSegments data
  */
 public class ReversePreindexDocuments {
+    public final LongArray documents;
+
     private static PositionsFileConstructor positionsFileConstructor;
-    final Path file;
-    public  final LongArray documents;
     private static final int RECORD_SIZE_LONGS = 2;
     private static final Logger logger = LoggerFactory.getLogger(ReversePreindexDocuments.class);
 
+    public final Path file;
+
     public ReversePreindexDocuments(LongArray documents, Path file) {
         this.documents = documents;
         this.file = file;
@@ -70,22 +72,25 @@ public class ReversePreindexDocuments {
 
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
-        try (RandomFileAssembler assembly = RandomFileAssembler.create(workDir, fileSizeLongs)) {
+        try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
+             var pointer = reader.newPointer())
+        {
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
 
-            var pointer = reader.newPointer();
             while (pointer.nextDocument()) {
                 long rankEncodedId = docIdRewriter.rewriteDocId(pointer.documentId());
                 for (var termData : pointer) {
                     long termId = termData.termId();
 
                     long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
-                    long posOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positions());
+
+                    // write position data to the positions file and get the offset
+                    long encodedPosOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positions());
 
                     assembly.put(offset + 0, rankEncodedId);
-                    assembly.put(offset + 1, posOffset);
+                    assembly.put(offset + 1, encodedPosOffset);
                 }
             }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/positions/PositionCodec.java b/code/index/index-reverse/java/nu/marginalia/index/positions/PositionCodec.java
new file mode 100644
index 00000000..9df63eec
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/positions/PositionCodec.java
@@ -0,0 +1,25 @@
+package nu.marginalia.index.positions;
+
+/** A utility class for encoding and decoding position data offsets,
+ * the data is encoded by using the highest 16 bits to store the offset,
+ * and the remaining 48 bits to store the size of the data.
+ * <p></p>
+ * This lets us address 256 TB of data, with up to 64 KB of position data for each term,
+ * which is ample headroom for both the size of the data and the number of positions.
+ * */
+public class PositionCodec {
+
+    public static long encode(int length, long offset) {
+        assert decodeSize(offset) == 0 : "Offset must be less than 2^48";
+
+        return (long) length << 48 | offset;
+    }
+
+    public static int decodeSize(long sizeEncodedOffset) {
+        return (int) ((sizeEncodedOffset & 0xFFFF_0000_0000_0000L) >>> 48);
+    }
+    public static long decodeOffset(long sizeEncodedOffset) {
+        return sizeEncodedOffset & 0x0000_FFFF_FFFF_FFFFL;
+    }
+
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java b/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java
new file mode 100644
index 00000000..647b205e
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java
@@ -0,0 +1,39 @@
+package nu.marginalia.index.positions;
+
+import java.io.IOException;
+import java.lang.foreign.Arena;
+import java.nio.channels.FileChannel;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+public class PositionsFileReader implements AutoCloseable {
+    private final FileChannel positions;
+
+    public PositionsFileReader(Path positionsFile) throws IOException {
+        this.positions = FileChannel.open(positionsFile, StandardOpenOption.READ);
+    }
+
+    /** Get the positions for a term in the index, as pointed out by the encoded offset;
+     * intermediate buffers are allocated from the provided arena allocator. */
+    public TermData getTermData(Arena arena, long sizeEncodedOffset) {
+        int length = PositionCodec.decodeSize(sizeEncodedOffset);
+        long offset = PositionCodec.decodeOffset(sizeEncodedOffset);
+
+        var segment = arena.allocate(length);
+        var buffer = segment.asByteBuffer();
+
+        try {
+            positions.read(buffer, offset);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+
+        return new TermData(buffer);
+    }
+
+    @Override
+    public void close() throws IOException {
+        positions.close();
+    }
+
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java b/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
new file mode 100644
index 00000000..55458342
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
@@ -0,0 +1,21 @@
+package nu.marginalia.index.positions;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+
+import java.nio.ByteBuffer;
+
+public class TermData {
+    private final ByteBuffer buffer;
+
+    public TermData(ByteBuffer buffer) {
+        this.buffer = buffer;
+    }
+
+    public byte flags() {
+        return buffer.get(0);
+    }
+
+    public GammaCodedSequence positions() {
+        return new GammaCodedSequence(buffer, 1, buffer.capacity());
+    }
+}
diff --git a/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
new file mode 100644
index 00000000..5dd2be3a
--- /dev/null
+++ b/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
@@ -0,0 +1,63 @@
+package nu.marginalia.index;
+
+import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.index.construction.PositionsFileConstructor;
+import nu.marginalia.index.positions.TermData;
+import nu.marginalia.index.positions.PositionsFileReader;
+import nu.marginalia.sequence.GammaCodedSequence;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.lang.foreign.Arena;
+import java.nio.ByteBuffer;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class PositionsFileReaderTest {
+
+    Path file;
+
+    @BeforeEach
+    void setUp() throws IOException {
+        file = Files.createTempFile("positions", "dat");
+    }
+    @AfterEach
+    void tearDown() throws IOException {
+        Files.delete(file);
+    }
+
+    @Test
+    void getTermData() throws IOException {
+        ByteBuffer workArea = ByteBuffer.allocate(8192);
+        long key1, key2, key3;
+        try (PositionsFileConstructor constructor = new PositionsFileConstructor(file)) {
+            key1 = constructor.add((byte) 43, GammaCodedSequence.generate(workArea, 1, 2, 3));
+            key2 = constructor.add((byte) 51, GammaCodedSequence.generate(workArea, 2, 3, 5, 1000, 5000, 20241));
+            key3 = constructor.add((byte) 61, GammaCodedSequence.generate(workArea, 3, 5, 7));
+        }
+
+        System.out.println("key1: " + Long.toHexString(key1));
+        System.out.println("key2: " + Long.toHexString(key2));
+        System.out.println("key3: " + Long.toHexString(key3));
+
+        try (Arena arena = Arena.ofConfined();
+            PositionsFileReader reader = new PositionsFileReader(file))
+        {
+            TermData data1 = reader.getTermData(arena, key1);
+            assertEquals(43, data1.flags());
+            assertEquals(IntList.of( 1, 2, 3), data1.positions().values());
+
+            TermData data2 = reader.getTermData(arena, key2);
+            assertEquals(51, data2.flags());
+            assertEquals(IntList.of(2, 3, 5, 1000, 5000, 20241), data2.positions().values());
+
+            TermData data3 = reader.getTermData(arena, key3);
+            assertEquals(61, data3.flags());
+            assertEquals(IntList.of(3, 5, 7), data3.positions().values());
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
index 981136ad..2d53dd2e 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
@@ -1,17 +1,19 @@
 package nu.marginalia.index;
 
+import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.construction.ReversePreindex;
 import nu.marginalia.index.construction.TestJournalFactory;
 import nu.marginalia.index.construction.TestJournalFactory.EntryDataWithWordMeta;
+import nu.marginalia.index.positions.PositionsFileReader;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
-import org.mockito.Mockito;
 
 import java.io.IOException;
+import java.lang.foreign.Arena;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.ArrayList;
@@ -47,13 +49,18 @@ class ReverseIndexReaderTest {
     public void testSimple() throws IOException {
 
         var indexReader = createIndex(
-                new EntryDataWithWordMeta(100, 101, wm(50, 51))
+                new EntryDataWithWordMeta(100, 101, wm(50, 51, 1, 3, 5))
         );
 
         assertEquals(1, indexReader.numDocuments(50));
 
-        long[] meta = indexReader.getTermMeta(50, new long[] { 100 });
-        assertArrayEquals(new long[] { 51 }, meta);
+        var positions = indexReader.getTermData(Arena.global(), 50, new long[] { 100 });
+
+        assertEquals(1, positions.length);
+        assertNotNull(positions[0]);
+        assertEquals((byte) 51, positions[0].flags());
+        assertEquals(IntList.of(1, 3, 5), positions[0].positions().values());
+
         assertArrayEquals(new long[] { 100 }, readEntries(indexReader, 50));
     }
 
@@ -69,13 +76,8 @@ class ReverseIndexReaderTest {
         assertEquals(2, indexReader.numDocuments(51));
         assertEquals(1, indexReader.numDocuments(52));
 
-        assertArrayEquals(new long[] { 51 }, indexReader.getTermMeta(50, new long[] { 100 }));
         assertArrayEquals(new long[] { 100 }, readEntries(indexReader, 50));
-
-        assertArrayEquals(new long[] { 52, 53 }, indexReader.getTermMeta(51, new long[] { 100, 101 }));
         assertArrayEquals(new long[] { 100, 101 }, readEntries(indexReader, 51));
-
-        assertArrayEquals(new long[] { 54 }, indexReader.getTermMeta(52, new long[] { 101 }));
         assertArrayEquals(new long[] { 101 }, readEntries(indexReader, 52));
 
     }
@@ -91,18 +93,20 @@ class ReverseIndexReaderTest {
 
     private ReverseIndexReader createIndex(EntryDataWithWordMeta... scenario) throws IOException {
         var reader = journalFactory.createReader(scenario);
-        var preindex = ReversePreindex.constructPreindex(reader,
-                Mockito.mock(PositionsFileConstructor.class),
-                DocIdRewriter.identity(), tempDir);
-
 
+        Path posFile = tempDir.resolve("positions.dat");
         Path docsFile = tempDir.resolve("docs.dat");
         Path wordsFile = tempDir.resolve("words.dat");
 
-        preindex.finalizeIndex(docsFile, wordsFile);
-        preindex.delete();
+        try (var positionsFileConstructor = new PositionsFileConstructor(posFile)) {
+            var preindex = ReversePreindex.constructPreindex(reader,
+                    positionsFileConstructor,
+                    DocIdRewriter.identity(), tempDir);
+            preindex.finalizeIndex(docsFile, wordsFile);
+            preindex.delete();
+        }
 
-        return new ReverseIndexReader("test", wordsFile, docsFile);
+        return new ReverseIndexReader("test", wordsFile, docsFile, new PositionsFileReader(posFile));
 
     }
 }
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
index e12dbad6..df378228 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
@@ -155,15 +155,15 @@ class ReversePreindexDocsTest {
             if (wordId != that.wordId) return false;
             if (start != that.start) return false;
             if (end != that.end) return false;
-            return Arrays.equals(data, that.data);
+            return data[0] == that.data[0]; //Arrays.equals(data, that.data);
         }
 
         @Override
         public int hashCode() {
-            int result = (int) (wordId ^ (wordId >>> 32));
-            result = 31 * result + (int) (start ^ (start >>> 32));
-            result = 31 * result + (int) (end ^ (end >>> 32));
-            result = 31 * result + Arrays.hashCode(data);
+            int result = Long.hashCode(wordId);
+            result = 31 * result + Long.hashCode(start);
+            result = 31 * result + Long.hashCode(end);
+            result = 31 * result + Long.hashCode(data[0]);
             return result;
         }
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
index d9f3cddc..e10c2c27 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
@@ -79,9 +79,7 @@ class ReversePreindexFinalizeTest {
         assertEquals(1, wordsHeader.numEntries());
 
         assertEquals(100, docsArray.get(docsHeader.dataOffsetLongs() + 0));
-        assertEquals(51, docsArray.get(docsHeader.dataOffsetLongs() + 1));
         assertEquals(50, wordsArray.get(wordsHeader.dataOffsetLongs()));
-        assertEquals(0, wordsArray.get(wordsHeader.dataOffsetLongs() + 1));
     }
 
 
@@ -122,9 +120,7 @@ class ReversePreindexFinalizeTest {
         long offset2 = wordsArray.get(wordsHeader.dataOffsetLongs() + 3);
 
         assertEquals(50, wordsArray.get(wordsHeader.dataOffsetLongs()));
-        assertEquals(0, wordsArray.get(wordsHeader.dataOffsetLongs() + 1));
         assertEquals(50, wordsArray.get(wordsHeader.dataOffsetLongs()));
-        assertEquals(0, wordsArray.get(wordsHeader.dataOffsetLongs() + 1));
 
         BTreeHeader docsHeader;
 
@@ -133,13 +129,11 @@ class ReversePreindexFinalizeTest {
         assertEquals(1, docsHeader.numEntries());
 
         assertEquals(100, docsArray.get(docsHeader.dataOffsetLongs() + 0));
-        assertEquals(51, docsArray.get(docsHeader.dataOffsetLongs() + 1));
 
         docsHeader = new BTreeHeader(docsArray, offset2);
         System.out.println(docsHeader);
         assertEquals(1, docsHeader.numEntries());
 
         assertEquals(101, docsArray.get(docsHeader.dataOffsetLongs() + 0));
-        assertEquals(52, docsArray.get(docsHeader.dataOffsetLongs() + 1));
     }
 }
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java b/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
index db262d9f..a4c15305 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
@@ -8,11 +8,13 @@ import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
 import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.List;
+import java.util.Objects;
 
 public class TestJournalFactory {
     Path tempDir = Files.createTempDirectory("journal");
@@ -50,10 +52,10 @@ public class TestJournalFactory {
                     '}';
         }
     }
-    public record WordWithMeta(long wordId, long meta) {}
+    public record WordWithMeta(long wordId, long meta, GammaCodedSequence gcs) {}
 
-    public static WordWithMeta wm(long wordId, long meta) {
-        return new WordWithMeta(wordId, meta);
+    public static WordWithMeta wm(long wordId, long meta, int... positions) {
+        return new WordWithMeta(wordId, meta, GammaCodedSequence.generate(ByteBuffer.allocate(128), positions));
     }
 
     IndexJournalReader createReader(EntryData... entries) throws IOException {
@@ -71,7 +73,7 @@ public class TestJournalFactory {
                 positions[i] = new GammaCodedSequence(new byte[1]);
             }
 
-            writer.put(new IndexJournalEntryHeader(entries.length, 0, entry.docId, entry.docMeta),
+            writer.put(new IndexJournalEntryHeader(entries.length, 0, 15, entry.docId, entry.docMeta),
                     new IndexJournalEntryData(termIds, meta, positions));
         }
         writer.close();
@@ -91,10 +93,10 @@ public class TestJournalFactory {
             for (int i = 0; i < entry.wordIds.length; i++) {
                 termIds[i] = entry.wordIds[i].wordId;
                 meta[i] = entry.wordIds[i].meta;
-                positions[i] = new GammaCodedSequence(new byte[1]);
+                positions[i] = Objects.requireNonNullElseGet(entry.wordIds[i].gcs, () -> new GammaCodedSequence(new byte[1]));
             }
 
-            writer.put(new IndexJournalEntryHeader(entries.length, 0, entry.docId, entry.docMeta),
+            writer.put(new IndexJournalEntryHeader(entries.length, 0, 15, entry.docId, entry.docMeta),
                     new IndexJournalEntryData(termIds, meta, positions));
         }
         writer.close();
diff --git a/code/index/java/nu/marginalia/index/IndexFactory.java b/code/index/java/nu/marginalia/index/IndexFactory.java
index a1d2f5a5..38fed31e 100644
--- a/code/index/java/nu/marginalia/index/IndexFactory.java
+++ b/code/index/java/nu/marginalia/index/IndexFactory.java
@@ -4,11 +4,10 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.index.index.CombinedIndexReader;
+import nu.marginalia.index.positions.PositionsFileReader;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.forward.ForwardIndexReader;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -40,17 +39,18 @@ public class IndexFactory {
     }
 
     public ReverseIndexReader getReverseIndexReader() throws IOException {
-
         return new ReverseIndexReader("full",
                 ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.CURRENT),
-                ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.CURRENT)
+                ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.CURRENT),
+                new PositionsFileReader(ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.CURRENT))
         );
     }
 
     public ReverseIndexReader getReverseIndexPrioReader() throws IOException {
         return new ReverseIndexReader("prio",
                 ReverseIndexPrioFileNames.resolve(liveStorage, ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.CURRENT),
-                ReverseIndexPrioFileNames.resolve(liveStorage, ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.CURRENT)
+                ReverseIndexPrioFileNames.resolve(liveStorage, ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.CURRENT),
+                null
         );
     }
 
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index 1c430014..ec78890c 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -281,10 +281,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
             awaitCompletion();
 
             // Return the best results
-            return new SearchResultSet(
-                    resultValuator.selectBestResults(parameters,
-                            resultRankingContext,
-                            resultHeap));
+            return new SearchResultSet(resultValuator.selectBestResults(parameters, resultHeap));
         }
 
         /** Wait for all tasks to complete */
diff --git a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
index afc52094..5779b526 100644
--- a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
+++ b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
@@ -14,12 +14,13 @@ import nu.marginalia.index.query.IndexQueryBuilder;
 import nu.marginalia.index.query.filter.QueryFilterStepIf;
 import nu.marginalia.index.query.limit.SpecificationLimitType;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
-import nu.marginalia.index.results.model.ids.DocMetadataList;
+import nu.marginalia.index.results.model.ids.TermMetadataList;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentMetadata;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
+import java.lang.foreign.Arena;
 import java.time.Duration;
 import java.util.ArrayList;
 import java.util.Collections;
@@ -169,8 +170,11 @@ public class CombinedIndexReader {
     }
 
     /** Retrieves the term metadata for the specified word for the provided documents */
-    public DocMetadataList getMetadata(long wordId, CombinedDocIdList docIds) {
-        return new DocMetadataList(reverseIndexFullReader.getTermMeta(wordId, docIds.array()));
+    public TermMetadataList getTermMetadata(Arena arena,
+                                            long wordId,
+                                            CombinedDocIdList docIds)
+    {
+        return new TermMetadataList(reverseIndexFullReader.getTermData(arena, wordId, docIds.array()));
     }
 
     /** Retrieves the document metadata for the specified document */
@@ -186,8 +190,12 @@ public class CombinedIndexReader {
     /** Retrieves the HTML features for the specified document */
     public int getHtmlFeatures(long docId) {
         return forwardIndexReader.getHtmlFeatures(docId);
+    }    /** Retrieves the HTML features for the specified document */
+    public int getDocumentSize(long docId) {
+        return forwardIndexReader.getDocumentSize(docId);
     }
 
+
     /** Close the indexes (this is not done immediately)
      * */
     public void close() throws InterruptedException {
diff --git a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
index d068c0f4..4ee34b42 100644
--- a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
@@ -10,12 +10,13 @@ import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.SearchTermsUtil;
 import nu.marginalia.index.results.model.QuerySearchTerms;
 import nu.marginalia.index.results.model.TermCoherenceGroupList;
-import nu.marginalia.index.results.model.TermMetadataForCombinedDocumentIds;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
+import nu.marginalia.index.results.model.ids.TermMetadataList;
 import nu.marginalia.index.results.model.ids.TermIdList;
 
+import java.lang.foreign.Arena;
+
 import static nu.marginalia.index.results.model.TermCoherenceGroupList.TermCoherenceGroup;
-import static nu.marginalia.index.results.model.TermMetadataForCombinedDocumentIds.DocumentsWithMetadata;
 
 public class IndexMetadataService {
     private final StatefulIndex statefulIndex;
@@ -25,22 +26,19 @@ public class IndexMetadataService {
         this.statefulIndex = index;
     }
 
-    public TermMetadataForCombinedDocumentIds getTermMetadataForDocuments(CombinedDocIdList combinedIdsAll,
-                                                                          TermIdList termIdsList)
+    public Long2ObjectArrayMap<TermMetadataList>
+        getTermMetadataForDocuments(Arena arena, CombinedDocIdList combinedIdsAll, TermIdList termIdsList)
     {
         var currentIndex = statefulIndex.get();
 
-        Long2ObjectArrayMap<DocumentsWithMetadata> termdocToMeta =
+        Long2ObjectArrayMap<TermMetadataList> termdocToMeta =
                 new Long2ObjectArrayMap<>(termIdsList.size());
 
         for (long termId : termIdsList.array()) {
-            var metadata = currentIndex.getMetadata(termId, combinedIdsAll);
-
-            termdocToMeta.put(termId,
-                    new DocumentsWithMetadata(combinedIdsAll, metadata));
+            termdocToMeta.put(termId, currentIndex.getTermMetadata(arena, termId, combinedIdsAll));
         }
 
-        return new TermMetadataForCombinedDocumentIds(termdocToMeta);
+        return termdocToMeta;
     }
 
     public QuerySearchTerms getSearchTerms(CompiledQuery<String> compiledQuery, SearchQuery searchQuery) {
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
index 0fc4bdc1..3972c272 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
@@ -1,25 +1,22 @@
 package nu.marginalia.index.results;
 
 import nu.marginalia.api.searchquery.model.compiled.*;
-import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
-import nu.marginalia.api.searchquery.model.results.SearchResultKeywordScore;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.SearchParameters;
-import nu.marginalia.index.results.model.ids.CombinedDocIdList;
 import nu.marginalia.index.model.QueryParams;
 import nu.marginalia.index.results.model.QuerySearchTerms;
-import nu.marginalia.index.results.model.TermMetadataForCombinedDocumentIds;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.ranking.results.ResultValuator;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 import javax.annotation.Nullable;
-import java.util.List;
+
+import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.*;
 
 /** This class is responsible for calculating the score of a search result.
  * It holds the data required to perform the scoring, as there is strong
@@ -28,94 +25,74 @@ public class IndexResultValuationContext {
     private final CombinedIndexReader index;
     private final QueryParams queryParams;
 
-    private final TermMetadataForCombinedDocumentIds termMetadataForCombinedDocumentIds;
-    private final QuerySearchTerms searchTerms;
-
     private final ResultRankingContext rankingContext;
     private final ResultValuator searchResultValuator;
     private final CompiledQuery<String> compiledQuery;
-    private final CompiledQueryLong compiledQueryIds;
 
-    public IndexResultValuationContext(IndexMetadataService metadataService,
-                                       ResultValuator searchResultValuator,
-                                       CombinedDocIdList ids,
+    public IndexResultValuationContext(ResultValuator searchResultValuator,
                                        StatefulIndex statefulIndex,
                                        ResultRankingContext rankingContext,
-                                       SearchParameters params
-                               ) {
+                                       SearchParameters params)
+    {
         this.index = statefulIndex.get();
         this.rankingContext = rankingContext;
         this.searchResultValuator = searchResultValuator;
 
         this.queryParams = params.queryParams;
         this.compiledQuery = params.compiledQuery;
-        this.compiledQueryIds = params.compiledQueryIds;
-
-        this.searchTerms = metadataService.getSearchTerms(params.compiledQuery, params.query);
-
-        this.termMetadataForCombinedDocumentIds = metadataService.getTermMetadataForDocuments(ids,
-                searchTerms.termIdsAll);
     }
 
-    private final long flagsFilterMask =
-            WordFlags.Title.asBit() | WordFlags.Subjects.asBit() | WordFlags.UrlDomain.asBit() | WordFlags.UrlPath.asBit() | WordFlags.ExternalLink.asBit();
+    private final long flagsFilterMask = WordFlags.Title.asBit() | WordFlags.Subjects.asBit() | WordFlags.UrlDomain.asBit() | WordFlags.UrlPath.asBit() | WordFlags.ExternalLink.asBit();
 
     @Nullable
-    public SearchResultItem calculatePreliminaryScore(long combinedId) {
+    public SearchResultItem calculatePreliminaryScore(long combinedId,
+                                                      QuerySearchTerms searchTerms,
+                                                      long[] wordFlags,
+                                                      GammaCodedSequence[] positions)
+    {
+
+
+        // FIXME: Reconsider coherence logic with the new position data
+//        if (!searchTerms.coherences.test(termMetadataForCombinedDocumentIds, combinedId))
+//            return null;
+
+        CompiledQuery<GammaCodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
+        CompiledQueryLong wordFlagsQuery = compiledQuery.root.newQuery(wordFlags);
+        int[] counts = new int[compiledQuery.size()];
+        for (int i = 0; i < counts.length; i++) {
+            if (positions[i] != null) {
+                counts[i] = positions[i].valueCount();
+            }
+        }
+        CompiledQueryInt positionsCountQuery = compiledQuery.root.newQuery(counts);
+
+        // If the document is not relevant to the query, abort early to reduce allocations and
+        // avoid unnecessary calculations
+        if (testRelevance(wordFlagsQuery, positionsCountQuery)) {
+            return null;
+        }
+
 
         long docId = UrlIdCodec.removeRank(combinedId);
-
-        if (!searchTerms.coherences.test(termMetadataForCombinedDocumentIds, combinedId))
-            return null;
-
         long docMetadata = index.getDocumentMetadata(docId);
         int htmlFeatures = index.getHtmlFeatures(docId);
-
-        SearchResultItem searchResult = new SearchResultItem(docId,
-                docMetadata,
-                htmlFeatures,
-                hasPrioTerm(combinedId));
-
-        long[] wordMetas = new long[compiledQuery.size()];
-        SearchResultKeywordScore[] scores = new SearchResultKeywordScore[compiledQuery.size()];
-
-        for (int i = 0; i < wordMetas.length; i++) {
-            final long termId = compiledQueryIds.at(i);
-            final String term = compiledQuery.at(i);
-
-            wordMetas[i] = termMetadataForCombinedDocumentIds.getTermMetadata(termId, combinedId);
-            scores[i] = new SearchResultKeywordScore(term, termId, wordMetas[i]);
-        }
-
-
-        // DANGER: IndexResultValuatorService assumes that searchResult.keywordScores has this specific order, as it needs
-        // to be able to re-construct its own CompiledQuery<SearchResultKeywordScore> for re-ranking the results.  This is
-        // a very flimsy assumption.
-        searchResult.keywordScores.addAll(List.of(scores));
-
-        CompiledQueryLong wordMetasQuery = new CompiledQueryLong(compiledQuery.root, new CqDataLong(wordMetas));
-
-
-        boolean allSynthetic = CompiledQueryAggregates.booleanAggregate(wordMetasQuery, WordFlags.Synthetic::isPresent);
-        int flagsCount = CompiledQueryAggregates.intMaxMinAggregate(wordMetasQuery, wordMeta -> Long.bitCount(wordMeta & flagsFilterMask));
-        int positionsCount = CompiledQueryAggregates.intMaxMinAggregate(wordMetasQuery, wordMeta -> Long.bitCount(WordMetadata.decodePositions(wordMeta)));
-
-        if (!meetsQueryStrategyRequirements(wordMetasQuery, queryParams.queryStrategy())) {
-            return null;
-        }
-
-        if (flagsCount == 0 && !allSynthetic && positionsCount == 0)
-            return null;
+        int docSize = index.getDocumentSize(docId);
 
         double score = searchResultValuator.calculateSearchResultValue(
-                wordMetasQuery,
+                wordFlagsQuery,
+                positionsCountQuery,
+                positionsQuery,
                 docMetadata,
                 htmlFeatures,
-                5000, // use a dummy value here as it's not present in the index
+                docSize,
                 rankingContext,
                 null);
 
-        if (searchResult.hasPrioTerm) {
+        SearchResultItem searchResult = new SearchResultItem(docId,
+                docMetadata,
+                htmlFeatures);
+
+        if (hasPrioTerm(searchTerms, positions)) {
             score = 0.75 * score;
         }
 
@@ -124,13 +101,32 @@ public class IndexResultValuationContext {
         return searchResult;
     }
 
-    private boolean hasPrioTerm(long combinedId) {
-        for (var term : searchTerms.termIdsPrio.array()) {
-            if (termMetadataForCombinedDocumentIds.hasTermMeta(term, combinedId)) {
+    private boolean testRelevance(CompiledQueryLong wordFlagsQuery, CompiledQueryInt countsQuery) {
+        boolean allSynthetic = booleanAggregate(wordFlagsQuery, WordFlags.Synthetic::isPresent);
+        int flagsCount = intMaxMinAggregate(wordFlagsQuery, flags ->  Long.bitCount(flags & flagsFilterMask));
+        int positionsCount = intMaxMinAggregate(countsQuery, p -> p);
+
+        if (!meetsQueryStrategyRequirements(wordFlagsQuery, queryParams.queryStrategy())) {
+            return true;
+        }
+        if (flagsCount == 0 && !allSynthetic && positionsCount == 0) {
+            return true;
+        }
+
+        return false;
+    }
+
+    private boolean hasPrioTerm(QuerySearchTerms searchTerms, GammaCodedSequence[] positions) {
+        var allTerms = searchTerms.termIdsAll;
+        var prioTerms = searchTerms.termIdsPrio;
+
+        for (int i = 0; i < allTerms.size(); i++) {
+            if (positions[i] != null && prioTerms.contains(allTerms.at(i))) {
                 return true;
             }
         }
-        return  false;
+
+        return false;
     }
 
     private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
@@ -142,7 +138,7 @@ public class IndexResultValuationContext {
             return true;
         }
 
-        return CompiledQueryAggregates.booleanAggregate(queryGraphScores,
+        return booleanAggregate(queryGraphScores,
                 docs -> meetsQueryStrategyRequirements(docs, queryParams.queryStrategy()));
     }
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java b/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java
index baecb564..fbe99cb1 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java
@@ -7,8 +7,6 @@ import gnu.trove.list.array.TLongArrayList;
 import it.unimi.dsi.fastutil.longs.LongSet;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
-import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
 import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
@@ -21,12 +19,13 @@ import nu.marginalia.linkdb.docs.DocumentDbReader;
 import nu.marginalia.linkdb.model.DocdbUrlDetail;
 import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.ranking.results.ResultValuator;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
+import java.lang.foreign.Arena;
 import java.sql.SQLException;
 import java.util.*;
-import java.util.function.Consumer;
 
 @Singleton
 public class IndexResultValuatorService {
@@ -53,35 +52,53 @@ public class IndexResultValuatorService {
                                               ResultRankingContext rankingContext,
                                               CombinedDocIdList resultIds)
     {
-        final var evaluator = createValuationContext(params, rankingContext, resultIds);
+        IndexResultValuationContext evaluator =
+                new IndexResultValuationContext(resultValuator, statefulIndex, rankingContext, params);
 
         List<SearchResultItem> results = new ArrayList<>(resultIds.size());
 
-        for (long id : resultIds.array()) {
-            var score = evaluator.calculatePreliminaryScore(id);
-            if (score != null) {
-                results.add(score);
+        try (var arena = Arena.ofConfined()) {
+            // Batch-fetch the word metadata for the documents
+
+            var searchTerms = metadataService.getSearchTerms(params.compiledQuery, params.query);
+            var termsForDocs = metadataService.getTermMetadataForDocuments(arena, resultIds, searchTerms.termIdsAll);
+
+            // Prepare data for the document.  We do this outside of the calculation function to avoid
+            // hash lookups in the inner loop, as it's very hot code and we don't want thrashing in there;
+            // out here we can rely on implicit array ordering to match up the data.
+
+            var ra = resultIds.array();
+            long[] flags = new long[searchTerms.termIdsAll.size()];
+            GammaCodedSequence[] positions = new GammaCodedSequence[searchTerms.termIdsAll.size()];
+
+            for (int i = 0; i < ra.length; i++) {
+                long id = ra[i];
+
+                // Prepare term-level data for the document
+                for (int ti = 0; ti < flags.length; ti++) {
+                    long tid = searchTerms.termIdsAll.at(ti);
+                    var tfd = termsForDocs.get(tid);
+
+                    assert tfd != null : "No term data for term " + ti;
+
+                    flags[ti] = tfd.flag(i);
+                    positions[ti] = tfd.position(i);
+                }
+
+                // Calculate the preliminary score
+
+                var score = evaluator.calculatePreliminaryScore(id, searchTerms, flags, positions);
+                if (score != null) {
+                    results.add(score);
+                }
             }
+
+            return results;
         }
-
-        return results;
-    }
-
-    private IndexResultValuationContext createValuationContext(SearchParameters params,
-                                                               ResultRankingContext rankingContext,
-                                                               CombinedDocIdList resultIds)
-    {
-        return new IndexResultValuationContext(metadataService,
-                resultValuator,
-                resultIds,
-                statefulIndex,
-                rankingContext,
-                params);
     }
 
 
     public List<DecoratedSearchResultItem> selectBestResults(SearchParameters params,
-                                                     ResultRankingContext rankingContext,
                                                      Collection<SearchResultItem> results) throws SQLException {
 
         var domainCountFilter = new IndexResultDomainDeduplicator(params.limitByDomain);
@@ -101,14 +118,13 @@ public class IndexResultValuatorService {
             item.resultsFromDomain = domainCountFilter.getCount(item);
         }
 
-        return decorateAndRerank(resultsList, params.compiledQuery, rankingContext);
+        return decorateResults(resultsList, params.compiledQuery);
     }
 
     /** Decorate the result items with additional information from the link database
      * and calculate an updated ranking with the additional information */
-    public List<DecoratedSearchResultItem> decorateAndRerank(List<SearchResultItem> rawResults,
-                                                             CompiledQuery<String> compiledQuery,
-                                                             ResultRankingContext rankingContext)
+    public List<DecoratedSearchResultItem> decorateResults(List<SearchResultItem> rawResults,
+                                                           CompiledQuery<String> compiledQuery)
             throws SQLException
     {
         TLongList idsList = new TLongArrayList(rawResults.size());
@@ -131,42 +147,18 @@ public class IndexResultValuatorService {
                 continue;
             }
 
-            // Reconstruct the compiledquery for re-valuation
-            //
-            // CAVEAT:  This hinges on a very fragile that IndexResultValuationContext puts them in the same
-            // order as the data for the CompiledQuery<String>.
-            long[] wordMetas = new long[compiledQuery.size()];
-
-            for (int i = 0; i < compiledQuery.size(); i++) {
-                var score = result.keywordScores.get(i);
-                wordMetas[i] = score.encodedWordMetadata();
-            }
-
-            CompiledQueryLong metaQuery = new CompiledQueryLong(compiledQuery.root, new CqDataLong(wordMetas));
-
             resultItems.add(createCombinedItem(
                     result,
-                    docData,
-                    metaQuery,
-                    rankingContext));
+                    docData));
         }
         return resultItems;
     }
 
     private DecoratedSearchResultItem createCombinedItem(SearchResultItem result,
-                                                         DocdbUrlDetail docData,
-                                                         CompiledQueryLong wordMetas,
-                                                         ResultRankingContext rankingContext) {
+                                                         DocdbUrlDetail docData) {
 
         ResultRankingDetailsExtractor detailsExtractor = new ResultRankingDetailsExtractor();
-        Consumer<ResultRankingDetails> detailConsumer = rankingContext.params.exportDebugData ? detailsExtractor::set : null;
-
-        double score = resultValuator.calculateSearchResultValue(wordMetas,
-                result.encodedDocMetadata,
-                result.htmlFeatures,
-                docData.wordsTotal(),
-                rankingContext,
-                detailConsumer);
+       //  Consumer<ResultRankingDetails> detailConsumer = rankingContext.params.exportDebugData ? detailsExtractor::set : null;
 
         return new DecoratedSearchResultItem(
                 result,
@@ -179,8 +171,8 @@ public class IndexResultValuatorService {
                 docData.pubYear(),
                 docData.dataHash(),
                 docData.wordsTotal(),
-                bestPositions(wordMetas),
-                score,
+                0L, //bestPositions(wordMetas),
+                result.getScore(),
                 detailsExtractor.get()
         );
     }
diff --git a/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java b/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java
index 3ef2f7ab..20069a55 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java
@@ -1,26 +1,38 @@
 package nu.marginalia.index.results.model;
 
-import it.unimi.dsi.fastutil.longs.Long2LongOpenHashMap;
 import it.unimi.dsi.fastutil.longs.Long2ObjectArrayMap;
+import it.unimi.dsi.fastutil.longs.Long2ObjectOpenHashMap;
+import nu.marginalia.index.positions.TermData;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
-import nu.marginalia.index.results.model.ids.DocMetadataList;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
+import nu.marginalia.index.results.model.ids.TermMetadataList;
+import nu.marginalia.sequence.GammaCodedSequence;
+
+import javax.annotation.Nullable;
 
 public class TermMetadataForCombinedDocumentIds {
-    private static final Logger logger = LoggerFactory.getLogger(TermMetadataForCombinedDocumentIds.class);
     private final Long2ObjectArrayMap<DocumentsWithMetadata> termdocToMeta;
 
     public TermMetadataForCombinedDocumentIds(Long2ObjectArrayMap<DocumentsWithMetadata> termdocToMeta) {
         this.termdocToMeta = termdocToMeta;
     }
 
-    public long getTermMetadata(long termId, long combinedId) {
+    public byte getTermMetadata(long termId, long combinedId) {
         var metaByCombinedId = termdocToMeta.get(termId);
         if (metaByCombinedId == null) {
             return 0;
         }
-        return metaByCombinedId.get(combinedId);
+        return metaByCombinedId.get(combinedId).flags();
+    }
+
+    @Nullable
+    public GammaCodedSequence getPositions(long termId, long combinedId) {
+        var metaByCombinedId = termdocToMeta.get(termId);
+
+        if (metaByCombinedId == null) {
+            return null;
+        }
+
+        return metaByCombinedId.get(combinedId).positions();
     }
 
     public boolean hasTermMeta(long termId, long combinedId) {
@@ -30,16 +42,25 @@ public class TermMetadataForCombinedDocumentIds {
             return false;
         }
 
-        return metaByCombinedId.get(combinedId) != 0;
+        return metaByCombinedId.data().containsKey(combinedId);
     }
 
-    public record DocumentsWithMetadata(Long2LongOpenHashMap data) {
-        public DocumentsWithMetadata(CombinedDocIdList combinedDocIdsAll, DocMetadataList metadata) {
-            this(new Long2LongOpenHashMap(combinedDocIdsAll.array(), metadata.array()));
+    public record DocumentsWithMetadata(Long2ObjectOpenHashMap<TermData> data) {
+        public DocumentsWithMetadata(CombinedDocIdList combinedDocIdsAll, TermMetadataList metadata) {
+            this(new Long2ObjectOpenHashMap<>(combinedDocIdsAll.size()));
+
+            long[] ids = combinedDocIdsAll.array();
+            TermData[] data = metadata.array();
+
+            for (int i = 0; i < combinedDocIdsAll.size(); i++) {
+                if (data[i] != null) {
+                    this.data.put(ids[i], data[i]);
+                }
+            }
         }
 
-        public long get(long combinedId) {
-            return data.getOrDefault(combinedId, 0);
+        public TermData get(long combinedId) {
+            return data.get(combinedId);
         }
     }
 }
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java b/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java
index 17bd17a1..7845f14f 100644
--- a/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java
+++ b/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java
@@ -15,6 +15,10 @@ import java.util.stream.LongStream;
 public final class CombinedDocIdList {
     private final long[] data;
 
+    public CombinedDocIdList(long... data) {
+        this.data = Arrays.copyOf(data, data.length);
+    }
+
     public CombinedDocIdList(LongArrayList data) {
         this.data = data.toLongArray();
     }
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/DocMetadataList.java b/code/index/java/nu/marginalia/index/results/model/ids/DocMetadataList.java
deleted file mode 100644
index 0104f89c..00000000
--- a/code/index/java/nu/marginalia/index/results/model/ids/DocMetadataList.java
+++ /dev/null
@@ -1,45 +0,0 @@
-package nu.marginalia.index.results.model.ids;
-
-import it.unimi.dsi.fastutil.longs.LongArrayList;
-
-import java.util.Arrays;
-import java.util.Objects;
-import java.util.stream.LongStream;
-
-public final class DocMetadataList {
-    private final long[] array;
-
-    public DocMetadataList(long[] array) {
-        this.array = array;
-    }
-
-    public DocMetadataList(LongArrayList list) {
-        this(list.toLongArray());
-    }
-
-    public int size() {
-        return array.length;
-    }
-
-    public LongStream stream() {
-        return LongStream.of(array);
-    }
-
-    public long[] array() {
-        return array;
-    }
-
-    @Override
-    public boolean equals(Object obj) {
-        if (obj == this) return true;
-        if (obj == null || obj.getClass() != this.getClass()) return false;
-        var that = (DocMetadataList) obj;
-        return Arrays.equals(this.array, that.array);
-    }
-
-    @Override
-    public int hashCode() {
-        return Arrays.hashCode(array);
-    }
-
-}
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java b/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
index f25ab1b9..903fef9f 100644
--- a/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
+++ b/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
@@ -11,6 +11,7 @@ public final class TermIdList {
 
     public TermIdList(long[] array) {
         this.array = array;
+        Arrays.sort(this.array);
     }
 
     public TermIdList(LongArrayList list) {
@@ -29,6 +30,15 @@ public final class TermIdList {
         return array;
     }
 
+    public long at(int i) {
+        return array[i];
+    }
+
+    public boolean contains(long id) {
+        // Implicitly sorted
+        return Arrays.binarySearch(array, id) >= 0;
+    }
+
     @Override
     public boolean equals(Object obj) {
         if (obj == this) return true;
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java b/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java
new file mode 100644
index 00000000..dd7ebbcb
--- /dev/null
+++ b/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java
@@ -0,0 +1,55 @@
+package nu.marginalia.index.results.model.ids;
+
+import nu.marginalia.index.positions.TermData;
+import nu.marginalia.sequence.GammaCodedSequence;
+
+import javax.annotation.Nullable;
+import java.util.Arrays;
+
+public final class TermMetadataList {
+    private final TermData[] array;
+
+    public TermMetadataList(TermData[] array) {
+        this.array = array;
+    }
+
+    public int size() {
+        return array.length;
+    }
+
+    public long flag(int i) {
+        if (array[i] == null)
+            return 0;
+
+        return array[i].flags();
+    }
+
+    /** Returns the position data for the given document index,
+     * may be null if the term is not in the document
+     */
+    @Nullable
+    public GammaCodedSequence position(int i) {
+        if (array[i] == null)
+            return null;
+
+        return array[i].positions();
+    }
+
+    public TermData[] array() {
+        return array;
+    }
+
+    @Override
+    public boolean equals(Object obj) {
+        if (obj == this) return true;
+        if (obj == null || obj.getClass() != this.getClass()) return false;
+        var that = (TermMetadataList) obj;
+        return Arrays.equals(this.array, that.array);
+    }
+
+    @Override
+    public int hashCode() {
+        return Arrays.hashCode(array);
+    }
+
+}
diff --git a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
index 1e026b40..ae84a11e 100644
--- a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
+++ b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
@@ -1,5 +1,7 @@
 package nu.marginalia.ranking.results;
 
+import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -14,6 +16,7 @@ import nu.marginalia.ranking.results.factors.*;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -33,15 +36,15 @@ public class ResultValuator {
         this.termCoherenceFactor = termCoherenceFactor;
     }
 
-    public double calculateSearchResultValue(CompiledQueryLong wordMeta,
-                                             long documentMetadata,
+    public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
+                                             CompiledQueryInt positionsCountQuery, CompiledQuery<GammaCodedSequence> positionsQuery, long documentMetadata,
                                              int features,
                                              int length,
                                              ResultRankingContext ctx,
                                              @Nullable Consumer<ResultRankingDetails> detailsConsumer
                                              )
     {
-        if (wordMeta.isEmpty())
+        if (wordFlagsQuery.isEmpty())
             return Double.MAX_VALUE;
 
         if (length < 0) {
@@ -82,12 +85,11 @@ public class ResultValuator {
                            + temporalBias
                            + flagsPenalty;
 
-        double tcfOverlap = rankingParams.tcfOverlapWeight * termCoherenceFactor.calculateOverlap(wordMeta);
-        double tcfJaccard = rankingParams.tcfJaccardWeight * termCoherenceFactor.calculateAvgMutualJaccard(wordMeta, ctx);
+        // FIXME: need a weighting factor here
+        double tcfAvgDist = 25. / termCoherenceFactor.calculateAvgMinDistance(positionsQuery, ctx);
 
-        double bM25F = rankingParams.bm25FullWeight * wordMeta.root.visit(Bm25FullGraphVisitor.forRegular(rankingParams.fullParams, wordMeta.data, length, ctx));
-        double bM25N = rankingParams.bm25NgramWeight * wordMeta.root.visit(Bm25FullGraphVisitor.forNgrams(rankingParams.fullParams, wordMeta.data, length, ctx));
-        double bM25P = rankingParams.bm25PrioWeight * wordMeta.root.visit(new Bm25PrioGraphVisitor(rankingParams.prioParams, wordMeta.data, ctx));
+        double bM25F = rankingParams.bm25FullWeight * wordFlagsQuery.root.visit(new Bm25FullGraphVisitor(rankingParams.fullParams, positionsCountQuery.data, length, ctx));
+        double bM25P = rankingParams.bm25PrioWeight * wordFlagsQuery.root.visit(new Bm25PrioGraphVisitor(rankingParams.prioParams, wordFlagsQuery.data, ctx));
 
         double overallPartPositive = Math.max(0, overallPart);
         double overallPartNegative = -Math.min(0, overallPart);
@@ -112,10 +114,10 @@ public class ResultValuator {
                             temporalBias,
                             flagsPenalty,
                             overallPart,
-                            tcfOverlap,
-                            tcfJaccard,
+                            0,
+                            0,
                             bM25F,
-                            bM25N,
+                            0, // FIXME: Remove from model
                             bM25P)
             );
 
@@ -125,8 +127,8 @@ public class ResultValuator {
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
-                      tcfOverlap + tcfJaccard
-                      + bM25F + bM25P + bM25N
+                      tcfAvgDist
+                      + bM25F + bM25P
                       + overallPartPositive,
                 overallPartNegative);
 
diff --git a/code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java b/code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java
index 4105ed6b..88a592bb 100644
--- a/code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java
+++ b/code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java
@@ -13,7 +13,7 @@ import java.util.List;
 public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
     private static final long AVG_LENGTH = 5000;
 
-    private final CqDataLong wordMetaData;
+    private final CqDataInt counts;
     private final CqDataInt frequencies;
     private final Bm25Parameters bm25Parameters;
 
@@ -22,31 +22,16 @@ public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
 
     private final BitSet mask;
 
-    private Bm25FullGraphVisitor(Bm25Parameters bm25Parameters,
-                                CqDataLong wordMetaData,
+    public Bm25FullGraphVisitor(Bm25Parameters bm25Parameters,
+                                CqDataInt counts,
                                 int length,
-                                BitSet mask,
                                 ResultRankingContext ctx) {
         this.length = length;
         this.bm25Parameters = bm25Parameters;
         this.docCount = ctx.termFreqDocCount();
-        this.wordMetaData = wordMetaData;
+        this.counts = counts;
         this.frequencies = ctx.fullCounts;
-        this.mask = mask;
-    }
-
-    public static Bm25FullGraphVisitor forRegular(Bm25Parameters bm25Parameters,
-                                                  CqDataLong wordMetaData,
-                                                  int length,
-                                                  ResultRankingContext ctx) {
-        return new Bm25FullGraphVisitor(bm25Parameters, wordMetaData, length, ctx.regularMask, ctx);
-    }
-
-    public static Bm25FullGraphVisitor forNgrams(Bm25Parameters bm25Parameters,
-                                                 CqDataLong wordMetaData,
-                                                 int length,
-                                                 ResultRankingContext ctx) {
-        return new Bm25FullGraphVisitor(bm25Parameters, wordMetaData, length, ctx.ngramsMask, ctx);
+        this.mask = ctx.regularMask;
     }
 
     @Override
@@ -73,7 +58,7 @@ public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
             return 0;
         }
 
-        double count = Long.bitCount(WordMetadata.decodePositions(wordMetaData.get(idx)));
+        double count = counts.get(idx);
 
         int freq = frequencies.get(idx);
 
diff --git a/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java b/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java
index 3bda0580..2ebef7cd 100644
--- a/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java
+++ b/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java
@@ -1,66 +1,44 @@
 package nu.marginalia.ranking.results.factors;
 
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.SequenceOperations;
 
 /** Rewards documents where terms appear frequently within the same sentences
  */
 public class TermCoherenceFactor {
 
-    /** Calculate a factor that rewards the best total position overlap
-     * between the terms in the query.  This is high when all the terms
-     * found in the same sentences.
-     */
-    public double calculateOverlap(CompiledQueryLong wordMetadataQuery) {
-        if (wordMetadataQuery.size() < 2)
-            return 0;
-
-        long mask = CompiledQueryAggregates.longBitmaskAggregate(wordMetadataQuery,
-                score -> score >>> WordMetadata.POSITIONS_SHIFT);
-
-        return bitsSetFactor(mask);
-    }
-
-    /** Calculate a factor that rewards the best average mutual Jaccard index
-     * between the terms in the query.  This is high when the several terms are frequently
-     * found in the same sentences.
-     */
-    public double calculateAvgMutualJaccard(CompiledQueryLong wordMetadataQuery, ResultRankingContext ctx) {
+    public double calculateAvgMinDistance(CompiledQuery<GammaCodedSequence> positions, ResultRankingContext ctx) {
         double sum = 0;
         int cnt = 0;
 
-        for (int i = 0; i < wordMetadataQuery.size(); i++) {
+        for (int i = 0; i < positions.size(); i++) {
 
             // Skip terms that are not in the regular mask
             if (!ctx.regularMask.get(i))
                 continue;
 
-            long imask = WordMetadata.decodePositions(wordMetadataQuery.at(i));
+            var posi = positions.at(i);
 
             // Skip terms that are not in the document
-            if (imask == 0L)
+            if (posi == null)
                 continue;
 
-            for (int j = i + 1; j < wordMetadataQuery.size(); j++) {
+            for (int j = i + 1; j < positions.size(); j++) {
 
                 // Skip terms that are not in the regular mask
                 if (!ctx.regularMask.get(j))
                     continue;
 
-                long jmask = WordMetadata.decodePositions(wordMetadataQuery.at(j));
+                var posj = positions.at(j);
 
                 // Skip terms that are not in the document
-                if (jmask == 0L)
+                if (posj == null)
                     continue;
 
-                long quot = Long.bitCount(imask & jmask);
-                long rem = Long.bitCount(imask | jmask);
-
-                // rem is always > 0 because imask and jmask are not both 0
-
-                sum += quot/(double) rem;
+                int distance = SequenceOperations.minDistance(posi.iterator(), posj.iterator());
+                sum += distance;
                 cnt++;
             }
         }
@@ -68,15 +46,8 @@ public class TermCoherenceFactor {
         if (cnt > 0) {
             return sum / cnt;
         } else {
-            return 0;
+            return 1000.;
         }
     }
 
-    double bitsSetFactor(long mask) {
-        final int bitsSetInMask = Long.bitCount(mask);
-
-        return Math.pow(bitsSetInMask/(double) WordMetadata.POSITIONS_COUNT, 0.25);
-    }
-
-
 }
\ No newline at end of file
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
new file mode 100644
index 00000000..cd23261e
--- /dev/null
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -0,0 +1,382 @@
+package nu.marginalia.index;
+
+import com.google.inject.Guice;
+import com.google.inject.Inject;
+import it.unimi.dsi.fastutil.ints.IntList;
+import it.unimi.dsi.fastutil.longs.LongArrayList;
+import it.unimi.dsi.fastutil.longs.LongList;
+import nu.marginalia.IndexLocations;
+import nu.marginalia.array.page.LongQueryBuffer;
+import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.ReverseIndexConstructor;
+import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.index.forward.ForwardIndexConverter;
+import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.index.CombinedIndexReader;
+import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
+import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.writer.IndexJournalWriter;
+import nu.marginalia.index.positions.TermData;
+import nu.marginalia.index.results.model.ids.CombinedDocIdList;
+import nu.marginalia.linkdb.docs.DocumentDbReader;
+import nu.marginalia.linkdb.docs.DocumentDbWriter;
+import nu.marginalia.linkdb.model.DocdbUrlDetail;
+import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.model.idx.DocumentFlags;
+import nu.marginalia.model.idx.DocumentMetadata;
+import nu.marginalia.model.idx.WordFlags;
+import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.process.control.FakeProcessHeartbeat;
+import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.service.control.ServiceHeartbeat;
+import nu.marginalia.service.server.Initialization;
+import nu.marginalia.storage.FileStorageService;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+import org.junit.jupiter.api.parallel.Execution;
+
+import java.io.IOException;
+import java.lang.foreign.Arena;
+import java.net.URISyntaxException;
+import java.nio.ByteBuffer;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.sql.SQLException;
+import java.util.*;
+
+import static nu.marginalia.linkdb.LinkdbFileNames.DOCDB_FILE_NAME;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.parallel.ExecutionMode.SAME_THREAD;
+
+@Execution(SAME_THREAD)
+public class CombinedIndexReaderTest {
+
+    @Inject
+    Initialization initialization;
+
+    IndexQueryServiceIntegrationTestModule testModule;
+
+    @Inject
+    StatefulIndex statefulIndex;
+
+    @Inject
+    IndexJournalWriter indexJournalWriter;
+
+    @Inject
+    FileStorageService fileStorageService;
+
+    @Inject
+    DomainRankings domainRankings;
+
+    @Inject
+    ProcessHeartbeat processHeartbeat;
+    @Inject
+    DocumentDbReader documentDbReader;
+
+    @Inject
+    IndexFactory indexFactory;
+
+    @BeforeEach
+    public void setUp() throws IOException {
+
+        testModule = new IndexQueryServiceIntegrationTestModule();
+        Guice.createInjector(testModule).injectMembers(this);
+
+        initialization.setReady();
+    }
+
+    @AfterEach
+    public void tearDown() throws IOException {
+        testModule.cleanUp();
+    }
+
+    private final MockDocumentMeta anyMetadata = new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class)));
+
+    @Test
+    public void testSimpleRetrieval() throws Exception {
+        new MockData().add(
+                d(1, 1),
+                anyMetadata,
+                w("hello", WordFlags.Title, 33, 55),
+                w("world", WordFlags.Subjects, 34)
+        ).load();
+
+        var reader = indexFactory.getCombinedIndexReader();
+        var query = reader.findFullWord(kw("hello")).build();
+
+        var buffer = new LongQueryBuffer(32);
+        query.getMoreResults(buffer);
+
+        assertEquals(
+                List.of(d(1, 1)),
+                decode(buffer)
+        );
+
+        var helloMeta = td(reader, kw("hello"), d(1, 1));
+        assertEquals(helloMeta.flags(), WordFlags.Title.asBit());
+        assertEquals(IntList.of(33, 55), helloMeta.positions().values());
+
+        var worldMeta = td(reader, kw("world"), d(1, 1));
+        assertEquals(worldMeta.flags(), WordFlags.Subjects.asBit());
+        assertEquals(IntList.of(34), worldMeta.positions().values());
+    }
+
+    TermData td(CombinedIndexReader reader, long wordId, MockDataDocument docId) {
+        return (reader.getTermMetadata(Arena.global(), wordId, new CombinedDocIdList(docId.docId())).array())[0];
+    }
+
+
+    @Test
+    public void testUnionRetrieval() throws Exception {
+        new MockData()
+                .add(
+                        d(1, 1),
+                        anyMetadata,
+                        w("hello", WordFlags.Title),
+                        w("world", WordFlags.Title)
+                )
+                .add(
+                        d(1, 2),
+                        anyMetadata,
+                        w("world", WordFlags.Title)
+                )
+                .add(
+                        d(1, 3),
+                        anyMetadata,
+                        w("world", WordFlags.Title)
+                )
+                .add(
+                        d(2, 4),
+                        anyMetadata,
+                        w("hello", WordFlags.Title),
+                        w("world", WordFlags.Title)
+                )
+                .load();
+
+        var reader = indexFactory.getCombinedIndexReader();
+        var query = reader
+                .findFullWord(kw("hello"))
+                .also(kw("world"))
+                .build();
+
+        var buffer = new LongQueryBuffer(32);
+        query.getMoreResults(buffer);
+
+        assertEquals(
+                List.of(d(1, 1), d(2, 4)),
+                decode(buffer)
+        );
+    }
+
+    @Test
+    public void testNotFilterRetrieval() throws Exception {
+        new MockData()
+                .add(
+                        d(1, 1),
+                        anyMetadata,
+                        w("hello", WordFlags.Title),
+                        w("world", WordFlags.Title),
+                        w("goodbye", WordFlags.Title)
+                )
+                .add(
+                        d(1, 2),
+                        anyMetadata,
+                        w("world", WordFlags.Title)
+                )
+                .add(
+                        d(1, 3),
+                        anyMetadata,
+                        w("world", WordFlags.Title)
+                )
+                .add(
+                        d(2, 4),
+                        anyMetadata,
+                        w("hello", WordFlags.Title),
+                        w("world", WordFlags.Title)
+                )
+                .load();
+
+        var reader = indexFactory.getCombinedIndexReader();
+        var query = reader.findFullWord(kw("hello"))
+                .also(kw("world"))
+                .not(kw("goodbye"))
+                .build();
+
+        var buffer = new LongQueryBuffer(32);
+        query.getMoreResults(buffer);
+
+        assertEquals(
+                List.of(d(2, 4)),
+                decode(buffer)
+        );
+    }
+
+    List<MockDataDocument> decode(LongQueryBuffer buffer) {
+        List<MockDataDocument> result = new ArrayList<>();
+        for (int i = 0; i < buffer.size(); i++) {
+            result.add(new MockDataDocument(buffer.data.get(i)));
+        }
+        return result;
+    }
+
+    private MockDataDocument d(int domainId, int ordinal) {
+        return new MockDataDocument(domainId, ordinal);
+    }
+
+    private void constructIndex() throws IOException {
+        createForwardIndex();
+        createFullReverseIndex();
+        createPrioReverseIndex();
+    }
+
+    private void createFullReverseIndex() throws IOException {
+
+        Path outputFileDocs = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFileWords = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.NEXT);
+
+        Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+        Path tmpDir = workDir.resolve("tmp");
+
+        if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
+
+        var constructor =
+                new ReverseIndexConstructor(
+                    outputFileDocs,
+                    outputFileWords,
+                    outputFilePositions,
+                    IndexJournalReader::singleFile,
+                    DocIdRewriter.identity(),
+                    tmpDir);
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
+    }
+
+    private void createPrioReverseIndex() throws IOException {
+
+        Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+        Path tmpDir = workDir.resolve("tmp");
+
+        if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
+
+        var constructor = new ReverseIndexConstructor(
+                outputFileDocs,
+                outputFileWords,
+                outputFilePositions,
+                IndexJournalReader::singleFile,
+                DocIdRewriter.identity(),
+                tmpDir);
+
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
+    }
+
+    private void createForwardIndex() throws IOException {
+
+        Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+        Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
+
+        ForwardIndexConverter converter = new ForwardIndexConverter(processHeartbeat,
+                IndexJournalReader.paging(workDir),
+                outputFileDocsId,
+                outputFileDocsData,
+                domainRankings
+        );
+
+        converter.convert();
+    }
+
+    MurmurHash3_128 hasher = new MurmurHash3_128();
+
+    long kw(String s) {
+        return hasher.hashKeyword(s);
+    }
+
+    class MockData {
+        private final Map<Long, List<MockDataKeyword>> allData = new HashMap<>();
+        private final Map<Long, MockDocumentMeta> metaByDoc = new HashMap<>();
+
+        public MockData add(MockDataDocument document,
+                        MockDocumentMeta meta,
+                        MockDataKeyword... words)
+        {
+            long id = UrlIdCodec.encodeId(document.domainId, document.ordinal);
+
+            allData.computeIfAbsent(id, l -> new ArrayList<>()).addAll(List.of(words));
+            metaByDoc.put(id, meta);
+
+            return this;
+        }
+
+        void load() throws IOException, SQLException, URISyntaxException {
+            allData.forEach((doc, words) -> {
+
+                var meta = metaByDoc.get(doc);
+
+                var header = new IndexJournalEntryHeader(
+                        doc,
+                        meta.features,
+                        100,
+                        meta.documentMetadata.encode()
+                );
+
+                String[] keywords = words.stream().map(w -> w.keyword).toArray(String[]::new);
+                long[] metadata = words.stream().map(w -> w.termMetadata).mapToLong(Long::longValue).toArray();
+                var positions = words.stream().map(w -> w.positions).map(pos -> GammaCodedSequence.generate(ByteBuffer.allocate(1024), pos.toIntArray())).toArray(GammaCodedSequence[]::new);
+
+                indexJournalWriter.put(header,
+                        new IndexJournalEntryData(keywords, metadata, positions));
+            });
+
+            var linkdbWriter = new DocumentDbWriter(
+                    IndexLocations.getLinkdbLivePath(fileStorageService).resolve(DOCDB_FILE_NAME)
+            );
+            for (Long key : allData.keySet()) {
+                linkdbWriter.add(new DocdbUrlDetail(
+                        key,
+                        new EdgeUrl("https://www.example.com"),
+                        "test",
+                        "test",
+                        0.,
+                        "HTML5",
+                        0,
+                        null,
+                        0,
+                        5
+                ));
+            }
+            linkdbWriter.close();
+
+            indexJournalWriter.close();
+            constructIndex();
+            documentDbReader.reconnect();
+            statefulIndex.switchIndex();
+        }
+    }
+
+    record MockDataDocument(int domainId, int ordinal) {
+        public MockDataDocument(long encodedId) {
+            this(UrlIdCodec.getDomainId(encodedId), UrlIdCodec.getDocumentOrdinal(encodedId));
+        }
+
+        public long docId() {
+            return UrlIdCodec.encodeId(domainId, ordinal);
+        }
+
+    }
+    record MockDocumentMeta(int features, DocumentMetadata documentMetadata) {}
+    record MockDataKeyword(String keyword, long termMetadata, IntList positions) {}
+
+    MockDataKeyword w(String keyword, WordFlags flags, int... positions) {
+        return new MockDataKeyword(keyword, new WordMetadata(0L, EnumSet.of(flags)).encode(), IntList.of(positions));
+
+    }
+}
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 1af355f6..e5040157 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -13,7 +13,6 @@ import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.ReverseIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
@@ -142,6 +141,53 @@ public class IndexQueryServiceIntegrationSmokeTest {
         Assertions.assertArrayEquals(ids, actual);
     }
 
+    @Test
+    public void testSimple() throws Exception {
+        var linkdbWriter = new DocumentDbWriter(
+                IndexLocations.getLinkdbLivePath(fileStorageService)
+                        .resolve(DOCDB_FILE_NAME)
+        );
+        for (int i = 1; i < 512; i++) {
+            loadData(linkdbWriter, i);
+        }
+        linkdbWriter.close();
+        documentDbReader.reconnect();
+
+        indexJournalWriter.close();
+        constructIndex();
+        statefulIndex.switchIndex();
+
+        var rsp = queryService.justQuery(
+                SearchSpecification.builder()
+                        .queryLimits(new QueryLimits(10, 10, Integer.MAX_VALUE, 4000))
+                        .queryStrategy(QueryStrategy.SENTENCE)
+                        .year(SpecificationLimit.none())
+                        .quality(SpecificationLimit.none())
+                        .size(SpecificationLimit.none())
+                        .rank(SpecificationLimit.none())
+                        .rankingParams(ResultRankingParameters.sensibleDefaults())
+                        .domains(new ArrayList<>())
+                        .searchSetIdentifier("NONE")
+                        .query(
+                                SearchQuery.builder("2")
+                                .include("2")
+                                .build()
+                        ).build()
+        );
+
+        int[] idxes = new int[] { 62, 222, 382, 60, 124, 220, 284, 380, 444, 122 };
+        long[] ids = IntStream.of(idxes).mapToLong(Long::valueOf).toArray();
+        long[] actual = rsp.results
+                .stream()
+                .mapToLong(i -> i.rawIndexResult.getDocumentId())
+                .map(UrlIdCodec::getDocumentOrdinal)
+                .toArray();
+
+        System.out.println(Arrays.toString(actual));
+        System.out.println(Arrays.toString(ids));
+        Assertions.assertArrayEquals(ids, actual);
+    }
+
     @Test
     public void testDomainQuery() throws Exception {
 
@@ -297,7 +343,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
         return UrlIdCodec.encodeId((32 - (id % 32)), id);
     }
 
-    MurmurHash3_128 hasher = new MurmurHash3_128();
     @SneakyThrows
     public void loadData(DocumentDbWriter ldbw, int id) {
         int[] factors = IntStream
@@ -305,22 +350,44 @@ public class IndexQueryServiceIntegrationSmokeTest {
                 .filter(v -> (id % v) == 0)
                 .toArray();
 
+        System.out.println("id:" + id + " factors: " + Arrays.toString(factors));
+
         long fullId = fullId(id);
 
-        var header = new IndexJournalEntryHeader(factors.length, 0, fullId, new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode());
-
-        long[] data = new long[factors.length * 2];
-        for (int i = 0; i < factors.length; i++) {
-            data[2 * i] = hasher.hashNearlyASCII(Integer.toString(factors[i]));
-            data[2 * i + 1] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
-        }
+        var header = new IndexJournalEntryHeader(factors.length, 0, 100, fullId, new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode());
 
         ldbw.add(new DocdbUrlDetail(
                 fullId, new EdgeUrl("https://www.example.com/"+id),
                 "test", "test", 0., "HTML5", 0, null, 0, 10
         ));
 
-        String[] keywords = IntStream.range(0, factors.length).mapToObj(Integer::toString).toArray(String[]::new);
+        String[] keywords = IntStream.of(factors).mapToObj(Integer::toString).toArray(String[]::new);
+        long[] metadata = new long[factors.length];
+        for (int i = 0; i < factors.length; i++) {
+            metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
+        }
+        GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
+        ByteBuffer wa = ByteBuffer.allocate(32);
+        for (int i = 0; i < factors.length; i++) {
+            positions[i] = GammaCodedSequence.generate(wa, factors);
+        }
+
+        indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
+    }
+
+    @SneakyThrows
+    public void loadDataWithDomain(DocumentDbWriter ldbw, int domain, int id) {
+        int[] factors = IntStream.rangeClosed(1, id).filter(v -> (id % v) == 0).toArray();
+        long fullId = UrlIdCodec.encodeId(domain, id);
+        var header = new IndexJournalEntryHeader(factors.length, 0, 100, fullId, DocumentMetadata.defaultValue());
+
+        ldbw.add(new DocdbUrlDetail(
+                fullId, new EdgeUrl("https://www.example.com/"+id),
+                "test", "test", 0., "HTML5", 0, null, 0, 10
+        ));
+
+
+        String[] keywords = IntStream.of(factors).mapToObj(Integer::toString).toArray(String[]::new);
         long[] metadata = new long[factors.length];
         for (int i = 0; i < factors.length; i++) {
             metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
@@ -334,30 +401,4 @@ public class IndexQueryServiceIntegrationSmokeTest {
         indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
     }
 
-    @SneakyThrows
-    public void loadDataWithDomain(DocumentDbWriter ldbw, int domain, int id) {
-        int[] factors = IntStream.rangeClosed(1, id).filter(v -> (id % v) == 0).toArray();
-        long fullId = UrlIdCodec.encodeId(domain, id);
-        var header = new IndexJournalEntryHeader(factors.length, 0, fullId, DocumentMetadata.defaultValue());
-
-        ldbw.add(new DocdbUrlDetail(
-                fullId, new EdgeUrl("https://www.example.com/"+id),
-                "test", "test", 0., "HTML5", 0, null, 0, 10
-        ));
-
-
-        String[] keywords = IntStream.range(0, factors.length).mapToObj(Integer::toString).toArray(String[]::new);
-        long[] metadata = new long[factors.length];
-        for (int i = 0; i < factors.length; i++) {
-            metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
-        }
-        GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
-        ByteBuffer wa = ByteBuffer.allocate(16);
-        for (int i = 0; i < factors.length; i++) {
-            positions[i] = GammaCodedSequence.generate(wa, i);
-        }
-
-        indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
-    }
-
 }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 9e9c3873..0251a471 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -565,6 +565,7 @@ public class IndexQueryServiceIntegrationTest {
                 var header = new IndexJournalEntryHeader(
                         doc,
                         meta.features,
+                        100,
                         meta.documentMetadata.encode()
                 );
 
diff --git a/code/index/test/nu/marginalia/ranking/results/ResultValuatorTest.java b/code/index/test/nu/marginalia/ranking/results/ResultValuatorTest.java
deleted file mode 100644
index 41906904..00000000
--- a/code/index/test/nu/marginalia/ranking/results/ResultValuatorTest.java
+++ /dev/null
@@ -1,100 +0,0 @@
-package nu.marginalia.ranking.results;
-
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
-import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.api.searchquery.model.results.SearchResultKeywordScore;
-import nu.marginalia.model.idx.DocumentFlags;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.model.idx.WordMetadata;
-import nu.marginalia.ranking.results.factors.*;
-import nu.marginalia.term_frequency_dict.TermFrequencyDict;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-import org.mockito.Mockito;
-
-import java.util.*;
-
-import static org.mockito.Mockito.when;
-
-class ResultValuatorTest {
-
-    TermFrequencyDict dict;
-    ResultValuator valuator;
-
-    @BeforeEach
-    public void setUp() {
-
-        dict = Mockito.mock(TermFrequencyDict.class);
-        when(dict.docCount()).thenReturn(100_000);
-
-        valuator = new ResultValuator(
-                new TermCoherenceFactor()
-        );
-
-    }
-
-    CqDataInt frequencyData = new CqDataInt(new int[] { 10 });
-
-    CompiledQueryLong titleOnlyLowCountSet = CompiledQuery.just(
-            new SearchResultKeywordScore("bob", 1,
-                    wordMetadata(Set.of(1), EnumSet.of(WordFlags.Title)))
-    ).mapToLong(SearchResultKeywordScore::encodedWordMetadata);
-
-    CompiledQueryLong highCountNoTitleSet = CompiledQuery.just(
-            new SearchResultKeywordScore("bob", 1,
-                    wordMetadata(Set.of(1,3,4,6,7,9,10,11,12,14,15,16), EnumSet.of(WordFlags.TfIdfHigh)))
-    ).mapToLong(SearchResultKeywordScore::encodedWordMetadata);;
-
-    CompiledQueryLong highCountSubjectSet = CompiledQuery.just(
-            new SearchResultKeywordScore("bob", 1,
-                    wordMetadata(Set.of(1,3,4,6,7,9,10,11,12,14,15,16), EnumSet.of(WordFlags.TfIdfHigh, WordFlags.Subjects)))
-    ).mapToLong(SearchResultKeywordScore::encodedWordMetadata);;
-
-
-    @Test
-    void evaluateTerms() {
-
-        when(dict.getTermFreq("bob")).thenReturn(10);
-        ResultRankingContext context = new ResultRankingContext(100000,
-                ResultRankingParameters.sensibleDefaults(),
-                new BitSet(),
-                new BitSet(),
-                frequencyData,
-                frequencyData);
-
-        long docMeta = docMetadata(0, 2010, 5, EnumSet.noneOf(DocumentFlags.class));
-        int features = 0;
-
-        double titleOnlyLowCount = valuator.calculateSearchResultValue(titleOnlyLowCountSet, docMeta, features, 10_000, context, null);
-        double titleLongOnlyLowCount = valuator.calculateSearchResultValue(titleOnlyLowCountSet, docMeta, features, 10_000, context, null);
-        double highCountNoTitle = valuator.calculateSearchResultValue(highCountNoTitleSet,  docMeta, features, 10_000, context, null);
-        double highCountSubject = valuator.calculateSearchResultValue(highCountSubjectSet, docMeta, features, 10_000, context, null);
-
-        System.out.println(titleOnlyLowCount);
-        System.out.println(titleLongOnlyLowCount);
-        System.out.println(highCountNoTitle);
-        System.out.println(highCountSubject);
-    }
-
-    private long docMetadata(int topology,
-                             int year,
-                             int quality,
-                             EnumSet<DocumentFlags> flags) {
-        return new DocumentMetadata(topology, PubDate.toYearByte(year), quality, flags).encode();
-    }
-
-    private long wordMetadata(Set<Integer> positions, Set<WordFlags> wordFlags) {
-        long posBits = positions.stream()
-                .mapToLong(i -> ((1L << i) & 0xFF_FFFF_FFFF_FFFFL))
-                .reduce((a,b) -> a|b)
-                .orElse(0L);
-
-        return new WordMetadata(posBits, wordFlags).encode();
-    }
-
-}
\ No newline at end of file
diff --git a/code/index/test/nu/marginalia/ranking/results/factors/TermCoherenceFactorTest.java b/code/index/test/nu/marginalia/ranking/results/factors/TermCoherenceFactorTest.java
deleted file mode 100644
index 5d2b47c9..00000000
--- a/code/index/test/nu/marginalia/ranking/results/factors/TermCoherenceFactorTest.java
+++ /dev/null
@@ -1,107 +0,0 @@
-package nu.marginalia.ranking.results.factors;
-
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
-import nu.marginalia.api.searchquery.model.results.SearchResultKeywordScore;
-import nu.marginalia.bbpc.BrailleBlockPunchCards;
-import nu.marginalia.model.idx.WordMetadata;
-import org.junit.jupiter.api.Test;
-
-import java.util.ArrayList;
-import java.util.List;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class TermCoherenceFactorTest {
-
-    TermCoherenceFactor termCoherenceFactor = new TermCoherenceFactor();
-    @Test
-    public void testAllBitsSet() {
-        var allPositionsSet = createSet(
-                ~0L,
-                ~0L
-        );
-
-        long mask = CompiledQueryAggregates.longBitmaskAggregate(
-                allPositionsSet,
-                SearchResultKeywordScore::positions
-        );
-
-        assertEquals(1.0, termCoherenceFactor.bitsSetFactor(mask), 0.01);
-
-        assertEquals(1.0,
-                termCoherenceFactor.calculateOverlap(
-                        allPositionsSet.mapToLong(SearchResultKeywordScore::encodedWordMetadata)
-                )
-        );
-
-    }
-
-    @Test
-    public void testNoBitsSet() {
-        var allPositionsSet = createSet(
-                0, 0
-        );
-
-        long mask = CompiledQueryAggregates.longBitmaskAggregate(allPositionsSet, score -> score.positions() & WordMetadata.POSITIONS_MASK);
-
-        assertEquals(0, termCoherenceFactor.bitsSetFactor(mask), 0.01);
-
-        assertEquals(0, termCoherenceFactor.calculateOverlap(allPositionsSet.mapToLong(SearchResultKeywordScore::encodedWordMetadata)));
-    }
-
-    @Test @SuppressWarnings("unchecked")
-    public void testLowPosMatches() {
-        var positions = createSet(
-                List.of(0, 1, 2, 3), List.of(0, 1, 2, 3)
-        );
-
-        long mask = CompiledQueryAggregates.longBitmaskAggregate(positions, score -> score.positions() & WordMetadata.POSITIONS_MASK);
-        printMask(mask);
-
-    }
-
-    @Test @SuppressWarnings("unchecked")
-    public void testHiPosMatches() {
-        var positions = createSet(
-                List.of(55, 54, 53, 52), List.of(55, 54, 53, 52)
-        );
-
-        long mask = CompiledQueryAggregates.longBitmaskAggregate(positions, score -> score.positions() & WordMetadata.POSITIONS_MASK);
-        printMask(mask);
-    }
-
-    @Test
-    public void testBitMatchScaling() {
-        for (int i = 1; i < 48; i++) {
-            System.out.println(i + ":" + termCoherenceFactor.bitsSetFactor((1L << i) - 1));
-        }
-    }
-
-    void printMask(long mask) {
-        System.out.println(BrailleBlockPunchCards.printBits(mask, 48));
-    }
-
-    CompiledQuery<SearchResultKeywordScore> createSet(List<Integer>... maskPositions) {
-        long[] positions = new long[maskPositions.length];
-
-        for (int i = 0; i < maskPositions.length; i++) {
-            for (long pos : maskPositions[i]) {
-                positions[i] |= (1L<<pos);
-            }
-        }
-
-        return createSet(positions);
-    }
-
-    CompiledQuery<SearchResultKeywordScore> createSet(long... positionMasks) {
-        List<SearchResultKeywordScore> keywords = new ArrayList<>();
-
-        for (int i = 0; i < positionMasks.length; i++) {
-            keywords.add(new SearchResultKeywordScore("", 0,
-                    new WordMetadata(positionMasks[i] & WordMetadata.POSITIONS_MASK, (byte) 0).encode()));
-        }
-
-        return CompiledQuery.just(keywords.toArray(SearchResultKeywordScore[]::new));
-    }
-}
\ No newline at end of file
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
index 335d57d8..87b2abd5 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
@@ -17,12 +17,13 @@ public class EliasGammaCodec implements IntIterator {
 
     private final BitReader reader;
     int rem = 0;
-    private int last = 0;
+    private int last;
     private int next = 0;
 
-    private EliasGammaCodec(ByteBuffer buffer) {
+    private EliasGammaCodec(ByteBuffer buffer, int zero) {
         reader = new BitReader(buffer);
 
+        last = zero;
         int bits = reader.takeWhileZero();
 
         if (!reader.hasMore()) {
@@ -33,9 +34,24 @@ public class EliasGammaCodec implements IntIterator {
         }
     }
 
+    public static int readCount(ByteBuffer buffer) {
+        var reader = new BitReader(buffer);
+
+        if (reader.getCurrentValue() > 0) {
+            int bits = reader.takeWhileZero();
+            return reader.get(bits);
+        }
+        else {
+            return 0;
+        }
+    }
+
     /** Decode a sequence of integers from a ByteBuffer using the Elias Gamma code */
     public static IntIterator decode(ByteBuffer buffer) {
-        return new EliasGammaCodec(buffer);
+        return new EliasGammaCodec(buffer, 0);
+    }
+    public static IntIterator decodeWithOffset(ByteBuffer buffer, int offset) {
+        return new EliasGammaCodec(buffer, offset);
     }
 
     /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 58ff30d2..a2335fbf 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -16,6 +16,7 @@ import java.util.StringJoiner;
  * */
 public class GammaCodedSequence implements BinarySerializable, Iterable<Integer> {
     private final ByteBuffer raw;
+
     int startPos = 0;
     int startLimit = 0;
 
@@ -43,6 +44,12 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         startLimit = bytes.limit();
     }
 
+    public GammaCodedSequence(ByteBuffer bytes, int startPos, int startLimit) {
+        this.raw = bytes;
+        this.startPos = startPos;
+        this.startLimit = startLimit;
+    }
+
     public GammaCodedSequence(byte[] bytes) {
         raw = ByteBuffer.allocate(bytes.length);
         raw.put(bytes);
@@ -72,6 +79,18 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         return EliasGammaCodec.decode(raw);
     }
 
+    /** Return an iterator over the sequence with a constant offset applied to each value.
+     * This is useful for comparing sequences with different offsets, and adds zero
+     * extra cost to the decoding process which is already based on adding
+     * relative differences.
+     * */
+    public IntIterator offsetIterator(int offset) {
+        raw.position(startPos);
+        raw.limit(startLimit);
+
+        return EliasGammaCodec.decodeWithOffset(raw, offset);
+    }
+
     public IntList values() {
         var intItr = iterator();
         IntArrayList ret = new IntArrayList(8);
@@ -81,18 +100,6 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         return ret;
     }
 
-    /** Decode the sequence into an IntList;
-     * this is a somewhat slow operation,
-     * iterating over the data directly more performant */
-    public IntList decode() {
-        IntArrayList ret = new IntArrayList(8);
-        var iter = iterator();
-        while (iter.hasNext()) {
-            ret.add(iter.nextInt());
-        }
-        return ret;
-    }
-
     public int hashCode() {
         return raw.hashCode();
     }
@@ -116,7 +123,11 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         return raw;
     }
 
-    public int size() {
+    public int bufferSize() {
         return raw.capacity();
     }
+
+    public int valueCount() {
+        return EliasGammaCodec.readCount(buffer());
+    }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
new file mode 100644
index 00000000..7a026862
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -0,0 +1,86 @@
+package nu.marginalia.sequence;
+
+import it.unimi.dsi.fastutil.ints.IntIterator;
+
+public class SequenceOperations {
+
+    /** Return true if the sequences intersect, false otherwise.
+     * */
+    public static boolean intersectSequences(IntIterator... sequences) {
+
+        if (sequences.length <= 1)
+            return true;
+
+        // Initialize values and find the maximum value
+        int[] values = new int[sequences.length];
+
+        for (int i = 0; i < sequences.length; i++) {
+            if (sequences[i].hasNext())
+                values[i] = sequences[i].nextInt();
+            else
+                return false;
+        }
+
+        // Intersect the sequences by advancing all values smaller than the maximum seen so far
+        // until they are equal to the maximum value, or until the end of the sequence is reached
+        int max = Integer.MIN_VALUE;
+        int successes = 0;
+        for (int i = 0; successes < sequences.length; i = (i + 1) % sequences.length)
+        {
+            if (values[i] == max) {
+                successes++;
+            } else {
+                successes = 0;
+
+                // Discard values until we reach the maximum value seen so far,
+                // or until the end of the sequence is reached
+                while (values[i] < max) {
+                    if (sequences[i].hasNext())
+                        values[i] = sequences[i].nextInt();
+                    else
+                        return false;
+                }
+
+                // Update the maximum value, if necessary
+                max = Math.max(max, values[i]);
+            }
+        }
+
+        return true;
+    }
+
+    /** Return the minimum word distance between two sequences, or a negative value if either sequence is empty.
+     * */
+    public static int minDistance(IntIterator seqA, IntIterator seqB)
+    {
+        int minDistance = Integer.MAX_VALUE;
+
+        if (!seqA.hasNext() || !seqB.hasNext())
+            return -1;
+
+        int a = seqA.nextInt();
+        int b = seqB.nextInt();
+
+        while (true) {
+            int distance = Math.abs(a - b);
+            if (distance < minDistance)
+                minDistance = distance;
+
+            if (a <= b) {
+                if (seqA.hasNext()) {
+                    a = seqA.nextInt();
+                } else {
+                    break;
+                }
+            } else {
+                if (seqB.hasNext()) {
+                    b = seqB.nextInt();
+                } else {
+                    break;
+                }
+            }
+        }
+
+        return minDistance;
+    }
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 08979f0d..61125d2e 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -20,6 +20,10 @@ public class BitReader {
         this.currentValue = 0;
     }
 
+    public long getCurrentValue() {
+        return currentValue;
+    }
+
     /** Read the next bit from the buffer */
     public boolean getBit() {
         if (bitPosition <= 0) {
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
new file mode 100644
index 00000000..dbae6f29
--- /dev/null
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -0,0 +1,75 @@
+package nu.marginalia.sequence;
+
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import org.junit.jupiter.api.Test;
+
+import java.nio.ByteBuffer;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class SequenceOperationsTest {
+
+    @Test
+    void intersectSequencesSingle() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1);
+
+        assertTrue(SequenceOperations.intersectSequences(seq1.iterator()));
+    }
+
+    @Test
+    void intersectSequencesTrivialMatch() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 1);
+
+        assertTrue(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator()));
+    }
+
+    @Test
+    void intersectSequencesTrivialMismatch() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2);
+
+        assertFalse(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator()));
+    }
+
+    @Test
+    void intersectSequencesOffsetMatch() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 3);
+
+        assertTrue(SequenceOperations.intersectSequences(seq1.offsetIterator(0), seq2.offsetIterator(-2)));
+    }
+
+    @Test
+    void intersectSequencesDeepMatch() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1, 3, 4, 7, 8, 9, 11);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 8, 14);
+
+        assertTrue(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator()));
+    }
+
+    @Test
+    void intersectSequencesDeepMatch3() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1, 3, 4, 7, 8, 9, 11);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 8, 14);
+        GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 1, 5, 8, 9);
+
+        assertTrue(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator(), seq3.iterator()));
+    }
+
+    @Test
+    void intersectSequencesDeepMismatch() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1, 3, 4, 7, 8, 9, 11);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 14);
+
+        assertFalse(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator()));
+    }
+
+}
\ No newline at end of file
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
index c981f0da..5e98f96c 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
@@ -26,6 +26,8 @@ public class DocumentRecordKeywordsProjection {
     public int htmlFeatures;
     public long documentMetadata;
 
+    public int length;
+
     public List<String> words;
     public TLongList metas;
     public List<GammaCodedSequence> positions;
@@ -39,13 +41,14 @@ public class DocumentRecordKeywordsProjection {
     }
 
     public static Collection<String> requiredColumns() {
-        return List.of("domain", "ordinal", "htmlFeatures", "word", "wordMeta", "documentMetadata");
+        return List.of("domain", "ordinal", "htmlFeatures", "word", "wordMeta", "documentMetadata", "length");
     }
 
     @SneakyThrows
     public DocumentRecordKeywordsProjection add(String heading, Object value) {
         switch (heading) {
             case "domain" -> domain = (String) value;
+            case "length" -> length = (Integer) value;
             case "ordinal" -> ordinal = (Integer) value;
             case "htmlFeatures" -> htmlFeatures = (Integer) value;
             case "documentMetadata" -> documentMetadata = (Long) value;
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
index 9c87bab7..f523f8e7 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
@@ -6,12 +6,10 @@ import lombok.SneakyThrows;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.writer.IndexJournalWriterPagingImpl;
 import nu.marginalia.index.journal.writer.IndexJournalWriter;
 import nu.marginalia.keyword.model.DocumentKeywords;
-import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.index.journal.IndexJournalFileNames;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -41,18 +39,11 @@ public class LoaderIndexJournalWriter {
         indexWriter = new IndexJournalWriterPagingImpl(indexArea);
     }
 
-    public void putWords(long combinedId,
-                         int features,
-                         DocumentMetadata metadata,
-                         DocumentKeywords wordSet) {
-
-        putWords(combinedId, features, metadata.encode(), wordSet);
-    }
-
     @SneakyThrows
     public void putWords(long combinedId,
                          int features,
                          long metadata,
+                         int length,
                          DocumentKeywords wordSet) {
 
         if (wordSet.isEmpty()) {
@@ -65,7 +56,7 @@ public class LoaderIndexJournalWriter {
             return;
         }
 
-        var header = new IndexJournalEntryHeader(combinedId, features, metadata);
+        var header = new IndexJournalEntryHeader(combinedId, features, length, metadata);
         var data = new IndexJournalEntryData(wordSet.keywords, wordSet.metadata, wordSet.positions);
 
         indexWriter.put(header, data);
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index f69a891d..ab43bdd7 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -75,6 +75,7 @@ public class KeywordLoaderService {
         writer.putWords(combinedId,
                 projection.htmlFeatures,
                 projection.documentMetadata,
+                projection.length,
                 words);
     }
 }
\ No newline at end of file
diff --git a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
index 2a2cc003..be3fe0b7 100644
--- a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
+++ b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
@@ -91,7 +91,7 @@ public class SearchServicePaperDoll extends AbstractModule {
             long positions)
     {
         results.add(new DecoratedSearchResultItem(
-                new SearchResultItem(url.hashCode(), 2, 3, false),
+                new SearchResultItem(url.hashCode(), 2, 3),
                 new EdgeUrl(url),
                 title,
                 description,

From 55b2b7636b636b7f5f7e29c4a65c20eb97b8da5b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 10 Jun 2024 18:27:15 +0200
Subject: [PATCH 009/216] (loader) Correctly load the positions column in the
 keyword projection

---
 .../model/processed/DocumentRecordKeywordsProjection.java     | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
index 5e98f96c..9f332841 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
@@ -41,7 +41,7 @@ public class DocumentRecordKeywordsProjection {
     }
 
     public static Collection<String> requiredColumns() {
-        return List.of("domain", "ordinal", "htmlFeatures", "word", "wordMeta", "documentMetadata", "length");
+        return List.of("domain", "ordinal", "htmlFeatures", "word", "wordMeta", "documentMetadata", "length", "positions");
     }
 
     @SneakyThrows
@@ -63,7 +63,7 @@ public class DocumentRecordKeywordsProjection {
                 }
                 this.metas.add((long) value);
             }
-            case "position" -> {
+            case "positions" -> {
                 if (this.positions == null) {
                     this.positions = new ArrayList<>(100);
                 }

From 23759a72430a2eb4f09f70221d7719032b8258e0 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 10 Jun 2024 18:29:14 +0200
Subject: [PATCH 010/216] (loader) Correctly clamp document size

---
 .../index/journal/writer/IndexJournalWriterSingleFileImpl.java  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
index e5ddac52..b05210ae 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
@@ -105,7 +105,7 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
         }
 
         dataBuffer.putShort((short) recordSize);
-        dataBuffer.putShort((short) Math.clamp(0, header.documentSize(), Short.MAX_VALUE));
+        dataBuffer.putShort((short) Math.clamp(header.documentSize(), 0, Short.MAX_VALUE));
         dataBuffer.putInt(header.documentFeatures());
         dataBuffer.putLong(header.combinedId());
         dataBuffer.putLong(header.documentMeta());

From fff2ce5721ee2c9056e8ae042c07b35c33cc0bf3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 24 Jun 2024 13:10:56 +0200
Subject: [PATCH 011/216] (gamma) Correctly decode zero-length sequences

---
 .../java/nu/marginalia/sequence/io/BitReader.java      |  6 +-----
 .../test/nu/marginalia/sequence/BitReaderTest.java     | 10 ++++++++++
 2 files changed, 11 insertions(+), 5 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 61125d2e..d67163c9 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -76,10 +76,6 @@ public class BitReader {
 
     /** Read bits until a 1 is encountered */
     public int takeWhileZero() {
-        if (bitPosition <= 0) {
-            readNext();
-        }
-
         int result = 0;
 
         do {
@@ -118,7 +114,7 @@ public class BitReader {
             bitPosition = 64;
         }
         else if (remainingCapacity >= 4) {
-            currentValue = underlying.getInt() & 0xFFFFFFFFL;
+            currentValue = underlying.getInt() & 0xFFFF_FFFFL;
             bitPosition = 32;
         }
         else if (remainingCapacity >= 2) {
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
index 0c6e0e8b..6eef10f1 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
@@ -1,5 +1,6 @@
 package nu.marginalia.sequence;
 
+import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.io.BitReader;
 import nu.marginalia.sequence.io.BitWriter;
 import org.junit.jupiter.api.Test;
@@ -10,6 +11,15 @@ import static org.junit.jupiter.api.Assertions.*;
 
 class BitReaderTest {
 
+
+    @Test
+    void emptySequence() {
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+        var buffer = writer.finish();
+
+        assertEquals(IntList.of(), new GammaCodedSequence(buffer).values());
+    }
+
     @Test
     void getBit() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));

From b798f2844354e5b7c649751607e5bfcb2638c95e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 24 Jun 2024 13:56:27 +0200
Subject: [PATCH 012/216] (journal) Fixing journal encoding

Adjusting some bit widths for entry and record sizes to ensure these don't overflow, as this would corrupt the written journal.
---
 .../journal/reader/IndexJournalReadEntry.java |  22 +--
 .../journal/reader/IndexJournalReader.java    |   2 +-
 .../IndexJournalWriterSingleFileImpl.java     |  47 +++----
 .../index/journal/IndexJournalTest.java       |  68 ---------
 .../index/journal/IndexJournalWriterTest.java |   1 -
 .../pointer/IndexJournalPointerTest.java      | 133 ------------------
 6 files changed, 30 insertions(+), 243 deletions(-)
 delete mode 100644 code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java
 delete mode 100644 code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java

diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
index aae65e81..e39a1e4b 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
@@ -22,19 +22,14 @@ public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData
         this.initialPos = buffer.position();
     }
 
-
-    static ThreadLocal<ByteBuffer> pool = ThreadLocal.withInitial(() -> ByteBuffer.allocate(8*65536));
-
     public static IndexJournalReadEntry read(DataInputStream inputStream) throws IOException {
 
-        final long sizeBlock = inputStream.readLong();
-        final int entrySize = (int) (sizeBlock >>> 48L);
-        final int docSize = (int) ((sizeBlock >>> 32L) & 0xFFFFL);
-        final int docFeatures = (int) (sizeBlock & 0xFFFF_FFFFL);
+        final int entrySize = (inputStream.readShort() & 0xFFFF);
+        final int docSize = inputStream.readShort();
+        final int docFeatures = inputStream.readInt();
         final long docId = inputStream.readLong();
         final long meta = inputStream.readLong();
 
-
         var header = new IndexJournalEntryHeader(
                 entrySize,
                 docFeatures,
@@ -42,12 +37,9 @@ public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData
                 docId,
                 meta);
 
-        var workArea = pool.get();
-        inputStream.readFully(workArea.array(), 0, header.entrySize());
-        workArea.position(0);
-        workArea.limit(header.entrySize());
-
-        return new IndexJournalReadEntry(header, workArea);
+        byte[] buffer = new byte[entrySize];
+        inputStream.readFully(buffer);
+        return new IndexJournalReadEntry(header, ByteBuffer.wrap(buffer));
     }
 
     public long docId() {
@@ -100,7 +92,7 @@ class TermDataIterator implements Iterator<IndexJournalEntryTermData> {
         long meta = buffer.getShort();
 
         // read the size of the sequence data
-        int size = buffer.get() & 0xFF;
+        int size = buffer.getShort() & 0xFFFF;
 
         // slice the buffer to get the sequence data
         var slice = buffer.slice(buffer.position(), size);
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
index 2dd8d0e9..a0cbe2e0 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
@@ -13,7 +13,7 @@ public interface IndexJournalReader {
     int FILE_HEADER_SIZE_BYTES = 8 * FILE_HEADER_SIZE_LONGS;
 
     int DOCUMENT_HEADER_SIZE_BYTES = 24;
-    int TERM_HEADER_SIZE_BYTES = 11;
+    int TERM_HEADER_SIZE_BYTES = 12;
 
     /** Create a reader for a single file. */
     static IndexJournalReader singleFile(Path fileName) throws IOException {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
index b05210ae..aae7e6f3 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
@@ -2,10 +2,10 @@ package nu.marginalia.index.journal.writer;
 
 import com.github.luben.zstd.ZstdDirectBufferCompressingStream;
 import lombok.SneakyThrows;
-import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -20,10 +20,8 @@ import java.nio.file.attribute.PosixFilePermissions;
 /** IndexJournalWriter implementation that creates a single journal file */
 public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
 
-    private static final int ZSTD_BUFFER_SIZE = 8192;
-    private static final int DATA_BUFFER_SIZE = 8192;
-
-    private final MurmurHash3_128 hasher = new MurmurHash3_128();
+    private static final int ZSTD_BUFFER_SIZE = 1<<16;
+    private static final int DATA_BUFFER_SIZE = 1<<16;
 
     private final ByteBuffer dataBuffer = ByteBuffer.allocateDirect(DATA_BUFFER_SIZE);
 
@@ -83,51 +81,50 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
     {
         final long[] keywords = data.termIds();
         final long[] metadata = data.metadata();
-        final var positions = data.positions();
+        final GammaCodedSequence[] positions = data.positions();
 
-        int recordSize = 0; // document header size is 3 longs
-        for (int i = 0; i < keywords.length; i++) {
-            // term header size is 2 longs
-            recordSize += IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].bufferSize();
+        int entrySize = 0;
+        for (var position : positions) {
+            entrySize += IndexJournalReader.TERM_HEADER_SIZE_BYTES + position.bufferSize();
         }
+        int totalSize = IndexJournalReader.DOCUMENT_HEADER_SIZE_BYTES + entrySize;
 
-        if (recordSize > Short.MAX_VALUE) {
+        if (entrySize > DATA_BUFFER_SIZE) {
             // This should never happen, but if it does, we should log it and deal with it in a way that doesn't corrupt the file
-            // (32 KB is *a lot* of data for a single document, larger than the uncompressed HTML of most documents)
-            logger.error("Omitting entry: Record size {} exceeds maximum representable size of {}", recordSize, Short.MAX_VALUE);
+            // (64 KB is *a lot* of data for a single document, larger than the uncompressed HTML in like the 95%th percentile of web pages)
+            logger.error("Omitting entry: Record size {} exceeds maximum representable size of {}", entrySize, DATA_BUFFER_SIZE);
             return 0;
         }
 
-        if (dataBuffer.capacity() - dataBuffer.position() < 3*8) {
+        if (dataBuffer.remaining() < totalSize) {
             dataBuffer.flip();
             compressingStream.compress(dataBuffer);
             dataBuffer.clear();
         }
 
-        dataBuffer.putShort((short) recordSize);
+        if (dataBuffer.remaining() < totalSize) {
+            logger.error("Omitting entry: Record size {} exceeds buffer size of {}", totalSize, dataBuffer.capacity());
+            return 0;
+        }
+
+        assert entrySize < (1 << 16) : "Entry size must not exceed USHORT_MAX";
+
+        dataBuffer.putShort((short) entrySize);
         dataBuffer.putShort((short) Math.clamp(header.documentSize(), 0, Short.MAX_VALUE));
         dataBuffer.putInt(header.documentFeatures());
         dataBuffer.putLong(header.combinedId());
         dataBuffer.putLong(header.documentMeta());
 
         for (int i = 0; i < keywords.length; i++) {
-            int requiredSize = IndexJournalReader.TERM_HEADER_SIZE_BYTES + positions[i].bufferSize();
-
-            if (dataBuffer.capacity() - dataBuffer.position() < requiredSize) {
-                dataBuffer.flip();
-                compressingStream.compress(dataBuffer);
-                dataBuffer.clear();
-            }
-
             dataBuffer.putLong(keywords[i]);
             dataBuffer.putShort((short) metadata[i]);
-            dataBuffer.put((byte) positions[i].bufferSize());
+            dataBuffer.putShort((short) positions[i].bufferSize());
             dataBuffer.put(positions[i].buffer());
         }
 
         numEntries++;
 
-        return recordSize;
+        return totalSize;
     }
 
     public void close() throws IOException {
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java
deleted file mode 100644
index 67a60ed4..00000000
--- a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalTest.java
+++ /dev/null
@@ -1,68 +0,0 @@
-package nu.marginalia.index.journal;
-
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
-import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
-import nu.marginalia.model.id.UrlIdCodec;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-public class IndexJournalTest {
-//    Path tempFile;
-//    IndexJournalReader reader;
-//
-//    long firstDocId = UrlIdCodec.encodeId(44, 10);
-//    long secondDocId = UrlIdCodec.encodeId(43, 15);
-//
-//    @BeforeEach
-//    public void setUp() throws IOException {
-//        tempFile = Files.createTempFile(getClass().getSimpleName(), ".dat");
-//
-//        var journalWriter = new IndexJournalWriterSingleFileImpl( tempFile);
-//        journalWriter.put(IndexJournalEntry.builder(44, 10, 55)
-//                .add(1, 2)
-//                .add(2, 3)
-//                .add(3, 4)
-//                .add(5, 6).build());
-//
-//        journalWriter.put(IndexJournalEntry.builder(43, 15, 10)
-//                .add(5, 5)
-//                .add(6, 6)
-//                .build());
-//        journalWriter.close();
-//
-//        reader = new IndexJournalReaderSingleFile(tempFile);
-//    }
-//    @AfterEach
-//    public void tearDown() throws IOException {
-//        Files.delete(tempFile);
-//    }
-//
-//    @Test
-//    public void forEachDocId() {
-//        List<Long> expected = List.of(firstDocId, secondDocId);
-//        List<Long> actual = new ArrayList<>();
-//
-//        reader.forEachDocId(actual::add);
-//        assertEquals(expected, actual);
-//    }
-//
-//    @Test
-//    public void forEachWordId() {
-//        List<Integer> expected = List.of(1, 2, 3, 5, 5 ,6);
-//        List<Integer> actual = new ArrayList<>();
-//
-//        reader.forEachWordId(i -> actual.add((int) i));
-//        assertEquals(expected, actual);
-//    }
-
-}
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
index 84d72af3..5aa24ff7 100644
--- a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
+++ b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
@@ -10,7 +10,6 @@ import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 import nu.marginalia.index.journal.reader.IndexJournalReaderPagingImpl;
 import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
 import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
-import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.model.idx.WordFlags;
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java
deleted file mode 100644
index fe468a87..00000000
--- a/code/index/index-journal/test/nu/marginalia/index/journal/reader/pointer/IndexJournalPointerTest.java
+++ /dev/null
@@ -1,133 +0,0 @@
-package nu.marginalia.index.journal.reader.pointer;
-
-import org.junit.jupiter.api.Test;
-
-import java.util.Collection;
-import java.util.List;
-import java.util.ArrayList;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class IndexJournalPointerTest {
-//
-//    @Test
-//    public void concatenate() {
-//        MockPointer left = new MockPointer(
-//                List.of(new MockDocument(1,  2, 3, List.of(
-//                                new MockRecord(4, 5),
-//                                new MockRecord(6, 7))
-//                ))
-//        );
-//
-//        MockPointer right = new MockPointer(
-//                List.of(new MockDocument(8,  9, 10, List.of(
-//                        new MockRecord(11, 12),
-//                        new MockRecord(13, 14))
-//                ))
-//        );
-//
-//        IndexJournalPointer concatenated = IndexJournalPointer.concatenate(left, right);
-//        List<Long> docIdsSeq = new ArrayList<>();
-//        List<Long> wordIdsSeq = new ArrayList<>();
-//        while (concatenated.nextDocument()) {
-//            docIdsSeq.add(concatenated.documentId());
-//            while (concatenated.nextRecord()) {
-//                wordIdsSeq.add(concatenated.termId());
-//            }
-//        }
-//
-//        assertEquals(docIdsSeq, List.of(1L, 8L));
-//        assertEquals(wordIdsSeq, List.of(4L, 6L, 11L, 13L));
-//    }
-//
-//    @Test
-//    public void filter() {
-//        MockPointer left = new MockPointer(
-//                List.of(new MockDocument(1,  2, 3, List.of(
-//                        new MockRecord(1, 1),
-//                        new MockRecord(2, 2),
-//                        new MockRecord(3, 3),
-//                        new MockRecord(4, 4),
-//                        new MockRecord(5, 5)
-//                        )
-//                ), new MockDocument(2,  2, 3, List.of(
-//                        new MockRecord(1, 1),
-//                        new MockRecord(3, 3),
-//                        new MockRecord(5, 5)
-//                        )
-//                ))
-//
-//        );
-//        var filtered = left.filterWordMeta(meta -> (meta % 2) == 0);
-//
-//        List<Long> docIdsSeq = new ArrayList<>();
-//        List<Long> wordIdsSeq = new ArrayList<>();
-//        while (filtered.nextDocument()) {
-//            docIdsSeq.add(filtered.documentId());
-//            while (filtered.nextRecord()) {
-//                wordIdsSeq.add(filtered.termId());
-//            }
-//        }
-//
-//        assertEquals(docIdsSeq, List.of(1L, 2L));
-//        assertEquals(wordIdsSeq, List.of(2L, 4L));
-//    }
-//
-//    class MockPointer implements IndexJournalPointer {
-//        private final List<MockDocument> documents;
-//
-//        int di = -1;
-//        int ri;
-//
-//        public MockPointer(Collection<MockDocument> documents) {
-//            this.documents = new ArrayList<>(documents);
-//        }
-//
-//        @Override
-//        public boolean nextDocument() {
-//            if (++di < documents.size()) {
-//                ri = -1;
-//                return true;
-//            }
-//
-//            return false;
-//        }
-//
-//        @Override
-//        public boolean nextRecord() {
-//            if (++ri < documents.get(di).records.size()) {
-//                return true;
-//            }
-//
-//            return false;
-//        }
-//
-//        @Override
-//        public long documentId() {
-//            return documents.get(di).docId;
-//        }
-//
-//        @Override
-//        public long documentMeta() {
-//            return documents.get(di).docMeta;
-//        }
-//
-//        @Override
-//        public long termId() {
-//            return documents.get(di).records.get(ri).termId;
-//        }
-//
-//        @Override
-//        public long wordMeta() {
-//            return documents.get(di).records.get(ri).wordMeta;
-//        }
-//
-//        @Override
-//        public int documentFeatures() {
-//            return documents.get(di).docFeatures;
-//        }
-//    }
-//
-//    record MockDocument(long docId, long docMeta, int docFeatures, List<MockRecord> records) {}
-//    record MockRecord(long termId, long wordMeta) {}
-}
\ No newline at end of file

From 40bca93884b12c31a8abd9ab50b5e494a5e4d874 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 24 Jun 2024 13:56:43 +0200
Subject: [PATCH 013/216] (gamma) Minor clean-up

---
 .../marginalia/sequence/GammaCodedSequence.java   | 15 ++++++++++++---
 .../java/nu/marginalia/sequence/io/BitWriter.java |  2 +-
 2 files changed, 13 insertions(+), 4 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index a2335fbf..25caa2dc 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -17,8 +17,8 @@ import java.util.StringJoiner;
 public class GammaCodedSequence implements BinarySerializable, Iterable<Integer> {
     private final ByteBuffer raw;
 
-    int startPos = 0;
-    int startLimit = 0;
+    private final int startPos;
+    private final int startLimit;
 
     /** Create a new GammaCodedSequence from a sequence of integers.
      *
@@ -116,6 +116,9 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         return sj.toString();
     }
 
+    /** Return the backing ByteBuffer of the sequence, configured with a position and limit
+     * that is equal to the relevant data range
+     */
     public ByteBuffer buffer() {
         raw.position(startPos);
         raw.limit(startLimit);
@@ -123,11 +126,17 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         return raw;
     }
 
+    /** Return the number of bytes used by the sequence in the buffer */
     public int bufferSize() {
-        return raw.capacity();
+        return startLimit - startPos;
     }
 
+    /** Return the number of items in the sequence */
     public int valueCount() {
+        // if the first byte is zero, the sequence is empty and we can skip decoding
+        if (0 == raw.get(startPos))
+            return 0;
+
         return EliasGammaCodec.readCount(buffer());
     }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
index e5636064..f92876b1 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -88,7 +88,7 @@ public class BitWriter {
 
         var outBuffer = ByteBuffer.allocate(totalMeaningfulBytes);
 
-        outBuffer.put(underlying.array(), 0, totalMeaningfulBytes);
+        outBuffer.put(0, underlying, 0, totalMeaningfulBytes);
 
         outBuffer.position(0);
         outBuffer.limit(totalMeaningfulBytes);

From 5461634616df2907c18d126f619e0b7a557f2dbf Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 24 Jun 2024 14:28:51 +0200
Subject: [PATCH 014/216] (doc) Add readme.md for coded-sequence library

This commit introduces a readme.md file to document the functionality and usage of the coded-sequence library. It covers the Elias Gamma code support, how sequences are encoded, and methods the library offers to query sequences, iterate over values, access data, and decode sequences.
---
 code/libraries/coded-sequence/readme.md | 49 +++++++++++++++++++++++++
 1 file changed, 49 insertions(+)
 create mode 100644 code/libraries/coded-sequence/readme.md

diff --git a/code/libraries/coded-sequence/readme.md b/code/libraries/coded-sequence/readme.md
new file mode 100644
index 00000000..c08b4645
--- /dev/null
+++ b/code/libraries/coded-sequence/readme.md
@@ -0,0 +1,49 @@
+The coded-sequence library offers tools for encoding sequences 
+of integers with a variable-length encoding. 
+
+The Elias Gamma code is supported:
+https://en.wikipedia.org/wiki/Elias_gamma_coding
+
+The `GammaCodedSequence` class stores a sequence of ascending
+non-negative integers in a byte buffer.  The encoding also
+stores the length of the sequence (as a gamma-coded value), 
+which is used in decoding.
+
+Sequences are encoded with the `GammaCodedSequence.of()`-method,
+and require a temporary buffer to work in.
+```java
+// allocate a temporary buffer to work in, this is reused
+// for all operations and will not hold the final result
+ByteBuffer workArea = ByteBuffer.allocate(1024);
+
+// create a new GammaCodedSequence with the given values
+var gcs = GammaCodedSequence.of(workArea, 1, 3, 4, 7, 10);
+```
+
+The `GammaCodedSequence` class provides methods to query the
+sequence, iterate over the values, and access the underlying
+binary representation. 
+
+```java
+// query the sequence 
+int valueCount = gcs.valueCount();
+int bufferSize = gcs.bufferSize();
+
+// iterate over the values
+IntIterator iter = gcs.iterator();
+IntList values = gcs.values();
+
+// access the underlying data (e.g. for writing)
+byte[] bytes = gcs.bytes();
+ByteBuffer buffer = gcs.buffer();
+```
+
+The `GammaCodedSequence` class also provides methods to decode
+a sequence from a byte buffer or byte array.
+
+```java
+// decode the data
+var decodedGcs1 = new GammaCodedSequence(buffer);
+var decodedGcs2 = new GammaCodedSequence(buffer, start, end);
+var decodedGcs3 = new GammaCodedSequence(bytes);
+```
\ No newline at end of file

From 9d00243d7ff6d1fd2e259fd4223510896be71d8b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 24 Jun 2024 15:55:54 +0200
Subject: [PATCH 015/216] (index) Partial re-implementation of position
 constraints

---
 .../api/searchquery/IndexProtobufCodec.java   | 17 +++-
 .../query/SearchCoherenceConstraint.java      | 23 +++++
 .../searchquery/model/query/SearchQuery.java  | 12 +--
 .../api/src/main/protobuf/query-api.proto     |  6 ++
 .../index/client/IndexProtobufCodecTest.java  |  5 +-
 .../searchquery/svc/QueryFactory.java         | 16 ++--
 .../nu/marginalia/index/api/IndexClient.java  |  1 +
 .../marginalia/index/ReverseIndexReader.java  |  2 +
 .../index/positions/PositionsFileReader.java  |  4 +
 .../index/model/SearchParameters.java         |  2 +
 .../marginalia/index/model/SearchTerms.java   | 26 +++--
 .../index/results/IndexMetadataService.java   | 10 +-
 .../results/IndexResultValuationContext.java  |  8 +-
 .../results/model/TermCoherenceGroupList.java | 94 ++++++++++++++-----
 .../IndexQueryServiceIntegrationTest.java     |  5 +-
 .../sequence/GammaCodedSequence.java          |  3 +
 16 files changed, 173 insertions(+), 61 deletions(-)
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index af783a83..099dc573 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -1,5 +1,6 @@
 package nu.marginalia.api.searchquery;
 
+import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -48,11 +49,19 @@ public class IndexProtobufCodec {
     }
 
     public static SearchQuery convertRpcQuery(RpcQuery query) {
-        List<List<String>>  coherences = new ArrayList<>();
+        List<SearchCoherenceConstraint>  coherences = new ArrayList<>();
 
         for (int j = 0; j < query.getCoherencesCount(); j++) {
             var coh = query.getCoherences(j);
-            coherences.add(new ArrayList<>(coh.getCoherencesList()));
+            if (coh.getType() == RpcCoherences.TYPE.OPTIONAL) {
+                coherences.add(new SearchCoherenceConstraint(false, List.copyOf(coh.getCoherencesList())));
+            }
+            else if (coh.getType() == RpcCoherences.TYPE.MANDATORY) {
+                coherences.add(new SearchCoherenceConstraint(true, List.copyOf(coh.getCoherencesList())));
+            }
+            else {
+                throw new IllegalArgumentException("Unknown coherence type: " + coh.getType());
+            }
         }
 
         return new SearchQuery(
@@ -75,7 +84,9 @@ public class IndexProtobufCodec {
                         .addAllPriority(searchQuery.getSearchTermsPriority());
 
         for (var coherences : searchQuery.searchTermCoherences) {
-            subqueryBuilder.addCoherencesBuilder().addAllCoherences(coherences);
+            subqueryBuilder.addCoherencesBuilder()
+                    .addAllCoherences(coherences.terms())
+                    .setType(coherences.mandatory() ? RpcCoherences.TYPE.MANDATORY : RpcCoherences.TYPE.OPTIONAL);
         }
 
         return subqueryBuilder.build();
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
new file mode 100644
index 00000000..0089cc3a
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
@@ -0,0 +1,23 @@
+package nu.marginalia.api.searchquery.model.query;
+
+import java.util.List;
+
+public record SearchCoherenceConstraint(boolean mandatory, List<String> terms) {
+    public static SearchCoherenceConstraint mandatory(String... terms) {
+        return new SearchCoherenceConstraint(true, List.of(terms));
+    }
+    public static SearchCoherenceConstraint mandatory(List<String> terms) {
+        return new SearchCoherenceConstraint(true, List.copyOf(terms));
+    }
+
+    public static SearchCoherenceConstraint optional(String... terms) {
+        return new SearchCoherenceConstraint(false, List.of(terms));
+    }
+    public static SearchCoherenceConstraint optional(List<String> terms) {
+        return new SearchCoherenceConstraint(false, List.copyOf(terms));
+    }
+
+    public int size() {
+        return terms.size();
+    }
+}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
index e33972c3..a6abb1dd 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
@@ -31,7 +31,7 @@ public class SearchQuery {
     public final List<String> searchTermsPriority;
 
     /** Terms that we require to be in the same sentence */
-    public final List<List<String>> searchTermCoherences;
+    public final List<SearchCoherenceConstraint> searchTermCoherences;
 
     @Deprecated // why does this exist?
     private double value = 0;
@@ -54,7 +54,7 @@ public class SearchQuery {
                        List<String> searchTermsExclude,
                        List<String> searchTermsAdvice,
                        List<String> searchTermsPriority,
-                       List<List<String>> searchTermCoherences) {
+                       List<SearchCoherenceConstraint> searchTermCoherences) {
         this.compiledQuery = compiledQuery;
         this.searchTermsInclude = searchTermsInclude;
         this.searchTermsExclude = searchTermsExclude;
@@ -80,7 +80,7 @@ public class SearchQuery {
         if (!searchTermsExclude.isEmpty()) sb.append("exclude=").append(searchTermsExclude.stream().collect(Collectors.joining(",", "[", "] ")));
         if (!searchTermsAdvice.isEmpty()) sb.append("advice=").append(searchTermsAdvice.stream().collect(Collectors.joining(",", "[", "] ")));
         if (!searchTermsPriority.isEmpty()) sb.append("priority=").append(searchTermsPriority.stream().collect(Collectors.joining(",", "[", "] ")));
-        if (!searchTermCoherences.isEmpty()) sb.append("coherences=").append(searchTermCoherences.stream().map(coh->coh.stream().collect(Collectors.joining(",", "[", "] "))).collect(Collectors.joining(", ")));
+        if (!searchTermCoherences.isEmpty()) sb.append("coherences=").append(searchTermCoherences.stream().map(coh->coh.terms().stream().collect(Collectors.joining(",", "[", "] "))).collect(Collectors.joining(", ")));
 
         return sb.toString();
     }
@@ -91,7 +91,7 @@ public class SearchQuery {
         private List<String> searchTermsExclude = new ArrayList<>();
         private List<String> searchTermsAdvice = new ArrayList<>();
         private List<String> searchTermsPriority = new ArrayList<>();
-        private List<List<String>> searchTermCoherences = new ArrayList<>();
+        private List<SearchCoherenceConstraint> searchTermCoherences = new ArrayList<>();
 
         private SearchQueryBuilder(String compiledQuery) {
             this.compiledQuery = compiledQuery;
@@ -117,8 +117,8 @@ public class SearchQuery {
             return this;
         }
 
-        public SearchQueryBuilder coherences(String... coherences) {
-            searchTermCoherences.add(List.of(coherences));
+        public SearchQueryBuilder coherences(SearchCoherenceConstraint constraint) {
+            searchTermCoherences.add(constraint);
             return this;
         }
 
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index eb4e48ba..589c5143 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -184,4 +184,10 @@ message RpcQuery {
 /* Defines a group of search terms that must exist in close proximity within the document */
 message RpcCoherences {
   repeated string coherences = 1;
+  TYPE type = 2;
+
+  enum TYPE {
+    OPTIONAL = 0;
+    MANDATORY = 1;
+  };
 }
diff --git a/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java b/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java
index e93f715c..0c2b6041 100644
--- a/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java
+++ b/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java
@@ -1,6 +1,7 @@
 package nu.marginalia.index.client;
 
 import nu.marginalia.api.searchquery.IndexProtobufCodec;
+import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.index.query.limit.QueryLimits;
@@ -41,7 +42,9 @@ class IndexProtobufCodecTest {
                 List.of("c", "d"),
                 List.of("e", "f"),
                 List.of("g", "h"),
-                List.of(List.of("i", "j"), List.of("k"))
+                List.of(
+                        new SearchCoherenceConstraint(true, List.of("i", "j")),
+                        new SearchCoherenceConstraint(false,  List.of("k")))
                 ),
                 s -> IndexProtobufCodec.convertRpcQuery(IndexProtobufCodec.convertRpcQuery(s))
         );
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
index 908eb2e2..4b3e02dc 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
@@ -2,16 +2,13 @@ package nu.marginalia.functions.searchquery.svc;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import nu.marginalia.api.searchquery.model.query.SearchSpecification;
-import nu.marginalia.api.searchquery.model.query.SearchQuery;
+import nu.marginalia.api.searchquery.model.query.*;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.functions.searchquery.query_parser.QueryExpansion;
 import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.language.WordPatterns;
-import nu.marginalia.api.searchquery.model.query.QueryParams;
-import nu.marginalia.api.searchquery.model.query.ProcessedQuery;
 import nu.marginalia.functions.searchquery.query_parser.QueryParser;
 import org.apache.commons.lang3.StringUtils;
 import org.slf4j.Logger;
@@ -60,7 +57,7 @@ public class QueryFactory {
         List<String> searchTermsInclude = new ArrayList<>();
         List<String> searchTermsAdvice = new ArrayList<>();
         List<String> searchTermsPriority = new ArrayList<>();
-        List<List<String>> searchTermCoherences = new ArrayList<>();
+        List<SearchCoherenceConstraint> searchTermCoherences = new ArrayList<>();
 
         SpecificationLimit qualityLimit = SpecificationLimit.none();
         SpecificationLimit year = SpecificationLimit.none();
@@ -88,7 +85,7 @@ public class QueryFactory {
                         searchTermsAdvice.add(str);
 
                         // Require that the terms appear in the same sentence
-                        searchTermCoherences.add(Arrays.asList(parts));
+                        searchTermCoherences.add(SearchCoherenceConstraint.mandatory(parts));
 
                         // Require that each term exists in the document
                         // (needed for ranking)
@@ -140,7 +137,12 @@ public class QueryFactory {
         }
 
         var expansion = queryExpansion.expandQuery(searchTermsInclude);
-        searchTermCoherences.addAll(expansion.extraCoherences());
+
+        // Query expansion may produce suggestions for coherence constraints,
+        // add these to the query
+        for (var coh : expansion.extraCoherences()) {
+            searchTermCoherences.add(SearchCoherenceConstraint.optional(coh));
+        }
 
         var searchQuery = new SearchQuery(
                 expansion.compiledQuery(),
diff --git a/code/index/api/java/nu/marginalia/index/api/IndexClient.java b/code/index/api/java/nu/marginalia/index/api/IndexClient.java
index 3a83b5de..9dd14920 100644
--- a/code/index/api/java/nu/marginalia/index/api/IndexClient.java
+++ b/code/index/api/java/nu/marginalia/index/api/IndexClient.java
@@ -23,6 +23,7 @@ public class IndexClient {
     private static final Logger logger = LoggerFactory.getLogger(IndexClient.class);
     private final GrpcMultiNodeChannelPool<IndexApiGrpc.IndexApiBlockingStub> channelPool;
     private static final ExecutorService executor = Executors.newFixedThreadPool(32);
+
     @Inject
     public IndexClient(GrpcChannelPoolFactory channelPoolFactory) {
         this.channelPool = channelPoolFactory.createMulti(
diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
index c7621427..da3cb1fe 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
@@ -162,6 +162,8 @@ public class ReverseIndexReader {
         var offsets = reader.queryData(docIds, 1);
 
         for (int i = 0; i < docIds.length; i++) {
+            if (offsets[i] == 0)
+                continue;
             ret[i] = positionsFileReader.getTermData(arena, offsets[i]);
         }
         return ret;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java b/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java
index 647b205e..43418155 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/positions/PositionsFileReader.java
@@ -1,5 +1,8 @@
 package nu.marginalia.index.positions;
 
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
 import java.io.IOException;
 import java.lang.foreign.Arena;
 import java.nio.channels.FileChannel;
@@ -8,6 +11,7 @@ import java.nio.file.StandardOpenOption;
 
 public class PositionsFileReader implements AutoCloseable {
     private final FileChannel positions;
+    private static final Logger logger = LoggerFactory.getLogger(PositionsFileReader.class);
 
     public PositionsFileReader(Path positionsFile) throws IOException {
         this.positions = FileChannel.open(positionsFile, StandardOpenOption.READ);
diff --git a/code/index/java/nu/marginalia/index/model/SearchParameters.java b/code/index/java/nu/marginalia/index/model/SearchParameters.java
index f0e851e5..1c8295d1 100644
--- a/code/index/java/nu/marginalia/index/model/SearchParameters.java
+++ b/code/index/java/nu/marginalia/index/model/SearchParameters.java
@@ -71,6 +71,8 @@ public class SearchParameters {
         this.budget = new IndexSearchBudget(limits.timeoutMs() / 2);
         this.query = IndexProtobufCodec.convertRpcQuery(request.getQuery());
 
+        System.out.println(query);
+
         this.limitByDomain = limits.resultsByDomain();
         this.limitTotal = limits.resultsTotal();
 
diff --git a/code/index/java/nu/marginalia/index/model/SearchTerms.java b/code/index/java/nu/marginalia/index/model/SearchTerms.java
index 8115c109..832d22b7 100644
--- a/code/index/java/nu/marginalia/index/model/SearchTerms.java
+++ b/code/index/java/nu/marginalia/index/model/SearchTerms.java
@@ -15,7 +15,9 @@ public final class SearchTerms {
     private final LongList advice;
     private final LongList excludes;
     private final LongList priority;
-    private final List<LongList> coherences;
+
+    private final List<LongList> coherencesMandatory;
+    private final List<LongList> coherencesOptional;
 
     private final CompiledQueryLong compiledQueryIds;
 
@@ -24,7 +26,10 @@ public final class SearchTerms {
     {
         this.excludes = new LongArrayList();
         this.priority = new LongArrayList();
-        this.coherences = new ArrayList<>();
+
+        this.coherencesMandatory = new ArrayList<>();
+        this.coherencesOptional = new ArrayList<>();
+
         this.advice = new LongArrayList();
         this.compiledQueryIds = compiledQueryIds;
 
@@ -35,11 +40,16 @@ public final class SearchTerms {
         for (var coherence : query.searchTermCoherences) {
             LongList parts = new LongArrayList(coherence.size());
 
-            for (var word : coherence) {
+            for (var word : coherence.terms()) {
                 parts.add(getWordId(word));
             }
 
-            coherences.add(parts);
+            if (coherence.mandatory()) {
+                coherencesMandatory.add(parts);
+            }
+            else {
+                coherencesOptional.add(parts);
+            }
         }
 
         for (var word : query.searchTermsExclude) {
@@ -72,10 +82,12 @@ public final class SearchTerms {
         return priority;
     }
 
-    public List<LongList> coherences() {
-        return coherences;
+    public List<LongList> coherencesMandatory() {
+        return coherencesMandatory;
+    }
+    public List<LongList> coherencesOptional() {
+        return coherencesOptional;
     }
-
     public CompiledQueryLong compiledQuery() { return compiledQueryIds; }
 
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
index 4ee34b42..3ce28764 100644
--- a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
@@ -15,6 +15,7 @@ import nu.marginalia.index.results.model.ids.TermMetadataList;
 import nu.marginalia.index.results.model.ids.TermIdList;
 
 import java.lang.foreign.Arena;
+import java.util.ArrayList;
 
 import static nu.marginalia.index.results.model.TermCoherenceGroupList.TermCoherenceGroup;
 
@@ -77,12 +78,15 @@ public class IndexMetadataService {
             }
         }
 
+        var constraints = new ArrayList<TermCoherenceGroup>();
+        for (var coherence : searchQuery.searchTermCoherences) {
+            constraints.add(new TermCoherenceGroup(coherence, termIdsList));
+        }
+
         return new QuerySearchTerms(termToId,
                 new TermIdList(termIdsList),
                 new TermIdList(termIdsPrio),
-                new TermCoherenceGroupList(
-                        searchQuery.searchTermCoherences.stream().map(TermCoherenceGroup::new).toList()
-                )
+                new TermCoherenceGroupList(constraints)
         );
     }
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
index 3972c272..f886dc42 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
@@ -50,11 +50,8 @@ public class IndexResultValuationContext {
                                                       long[] wordFlags,
                                                       GammaCodedSequence[] positions)
     {
-
-
-        // FIXME: Reconsider coherence logic with the new position data
-//        if (!searchTerms.coherences.test(termMetadataForCombinedDocumentIds, combinedId))
-//            return null;
+        if (!searchTerms.coherences.testMandatory(positions))
+            return null;
 
         CompiledQuery<GammaCodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
         CompiledQueryLong wordFlagsQuery = compiledQuery.root.newQuery(wordFlags);
@@ -72,7 +69,6 @@ public class IndexResultValuationContext {
             return null;
         }
 
-
         long docId = UrlIdCodec.removeRank(combinedId);
         long docMetadata = index.getDocumentMetadata(docId);
         int htmlFeatures = index.getHtmlFeatures(docId);
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index 67b5fd60..d93dfd11 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -1,23 +1,36 @@
 package nu.marginalia.index.results.model;
 
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.longs.LongList;
+import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.index.model.SearchTermsUtil;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.SequenceOperations;
 
-import java.util.Collections;
+import java.util.ArrayList;
+import java.util.BitSet;
 import java.util.List;
 
 /**
  * wordIds that we require to be in the same sentence
  */
-public record TermCoherenceGroupList(List<TermCoherenceGroup> words) {
+public class TermCoherenceGroupList {
+    List<TermCoherenceGroup> mandatoryGroups = new ArrayList<>();
+    List<TermCoherenceGroup> optionalGroups = new ArrayList<>();
 
-    public TermCoherenceGroupList(List<TermCoherenceGroup> words) {
-        this.words = Collections.unmodifiableList(words);
+    public TermCoherenceGroupList(List<TermCoherenceGroup> groups) {
+        for (var group : groups) {
+            if (group.mandatory) {
+                mandatoryGroups.add(group);
+            } else {
+                optionalGroups.add(group);
+            }
+        }
     }
 
-    public boolean test(TermMetadataForCombinedDocumentIds documents, long combinedId) {
-        for (var coherenceSet : words()) {
-            if (!coherenceSet.test(documents, combinedId)) {
+    public boolean testMandatory(GammaCodedSequence[] positions) {
+        for (var coherenceSet : mandatoryGroups) {
+            if (!coherenceSet.test(positions)) {
                 return false;
             }
         }
@@ -25,30 +38,59 @@ public record TermCoherenceGroupList(List<TermCoherenceGroup> words) {
         return true;
     }
 
+    public int testOptional(GammaCodedSequence[] positions) {
+        int best = 0;
+        for (var coherenceSet : mandatoryGroups) {
+            if (coherenceSet.test(positions)) {
+                best = Math.max(coherenceSet.size, best);
+            }
+        }
+        return best;
+    }
+
+
     public static final class TermCoherenceGroup {
-        private final long[] words;
+        private final int[] offsets;
+        private final BitSet present;
 
-        public TermCoherenceGroup(long[] words) {
-            this.words = words;
-        }
+        public final int size;
+        public final boolean mandatory;
+        public TermCoherenceGroup(SearchCoherenceConstraint cons, LongList termIdsAll) {
+            offsets = new int[cons.size()];
+            present = new BitSet(cons.size());
+            mandatory = cons.mandatory();
+            size = cons.size();
 
-        public TermCoherenceGroup(List<String> coh) {
-            this(coh.stream().mapToLong(SearchTermsUtil::getWordId).toArray());
-        }
-
-        public boolean test(TermMetadataForCombinedDocumentIds documents, long combinedId) {
-            long overlap = 0xFF_FFFF_FFFF_FFFFL;
-
-            for (var word : words) {
-                long meta = documents.getTermMetadata(word, combinedId);
-
-                // if the word is not present in the document, we omit it from the coherence check
-                if (meta != 0L) {
-                    overlap &= meta;
+            int i = 0;
+            for (String term : cons.terms()) {
+                if (!term.isEmpty()) {
+                    present.set(i);
+                    long termId = SearchTermsUtil.getWordId(term);
+                    offsets[i++] = termIdsAll.indexOf(termId);
                 }
             }
+        }
 
-            return WordMetadata.decodePositions(overlap) != 0L;
+        public boolean test(GammaCodedSequence[] positions) {
+            IntIterator[] sequences = new IntIterator[present.cardinality()];
+
+            for (int oi = 0, si = 0; oi < offsets.length; oi++) {
+                if (!present.get(oi)) {
+                    continue;
+                }
+                int offset = offsets[oi];
+                if (offset < 0)
+                    return false;
+
+                // Create iterators that are offset by their relative position in the
+                // sequence.  This is done by subtracting the index from the offset,
+                // so that when we intersect them, an overlap means that the terms are
+                // in the correct order.  Note the offset is negative!
+
+                sequences[si++] = positions[oi].offsetIterator(-oi);
+            }
+
+            return SequenceOperations.intersectSequences(sequences);
         }
     }
 }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 0251a471..2662ed6b 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -3,6 +3,7 @@ package nu.marginalia.index;
 import com.google.inject.Guice;
 import com.google.inject.Inject;
 import nu.marginalia.IndexLocations;
+import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -174,7 +175,7 @@ public class IndexQueryServiceIntegrationTest {
                                 List.of(),
                                 List.of(),
                                 List.of(),
-                                List.of(List.of("missing", "hello"))
+                                List.of(SearchCoherenceConstraint.mandatory(List.of("missing", "hello")))
                         )));
 
         executeSearch(queryMissingCoherence)
@@ -466,7 +467,7 @@ public class IndexQueryServiceIntegrationTest {
                 List.of(),
                 List.of(),
                 List.of(),
-                List.of(List.of(includes))
+                List.of(SearchCoherenceConstraint.mandatory(List.of(includes)))
         );
     }
     private MockDataDocument d(int domainId, int ordinal) {
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 25caa2dc..fe82af51 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -133,6 +133,9 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
 
     /** Return the number of items in the sequence */
     public int valueCount() {
+        if (startPos == startLimit)
+            return 0;
+
         // if the first byte is zero, the sequence is empty and we can skip decoding
         if (0 == raw.get(startPos))
             return 0;

From dae22ccbe0beb04a67362ccd219fada1228bf647 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 25 Jun 2024 22:17:26 +0200
Subject: [PATCH 016/216] (test) Integration test from crawl->query

---
 .../process/control/FakeProcessHeartbeat.java |  13 +-
 .../model/DocumentKeywordsBuilder.java        |   4 +-
 .../query/svc/QueryFactoryTest.java           |  11 +-
 .../reader/IndexJournalReaderSingleFile.java  |   4 +-
 .../nu/marginalia/index/IndexGrpcService.java |   3 +-
 .../writer/ConverterBatchWriter.java          |   3 -
 .../nu/marginalia/loading/LoaderMain.java     |   5 +-
 .../documents/KeywordLoaderService.java       |  11 +-
 .../loading/domains/DomainLoaderService.java  |   3 +-
 code/tools/integration-test/build.gradle      |  47 +++
 .../test/nu/marginalia/IntegrationTest.java   | 316 ++++++++++++++++++
 .../nu/marginalia/IntegrationTestModule.java  | 161 +++++++++
 .../test/nu/marginalia/TestUtil.java          |  52 +++
 settings.gradle                               |   1 +
 14 files changed, 616 insertions(+), 18 deletions(-)
 create mode 100644 code/tools/integration-test/build.gradle
 create mode 100644 code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
 create mode 100644 code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java
 create mode 100644 code/tools/integration-test/test/nu/marginalia/TestUtil.java

diff --git a/code/common/process/java/nu/marginalia/process/control/FakeProcessHeartbeat.java b/code/common/process/java/nu/marginalia/process/control/FakeProcessHeartbeat.java
index 619dd101..95d4345b 100644
--- a/code/common/process/java/nu/marginalia/process/control/FakeProcessHeartbeat.java
+++ b/code/common/process/java/nu/marginalia/process/control/FakeProcessHeartbeat.java
@@ -1,13 +1,18 @@
 package nu.marginalia.process.control;
 
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
 /** Dummy implementation of ProcessHeartbeat that does nothing */
 public class FakeProcessHeartbeat implements ProcessHeartbeat {
-
+    private static final Logger logger = LoggerFactory.getLogger(FakeProcessHeartbeat.class);
     @Override
     public <T extends Enum<T>> ProcessTaskHeartbeat<T> createProcessTaskHeartbeat(Class<T> steps, String processName) {
         return new ProcessTaskHeartbeat<>() {
             @Override
-            public void progress(T step) {}
+            public void progress(T step) {
+                logger.info("Progress: {}", step);
+            }
 
             @Override
             public void shutDown() {}
@@ -21,7 +26,9 @@ public class FakeProcessHeartbeat implements ProcessHeartbeat {
     public ProcessAdHocTaskHeartbeat createAdHocTaskHeartbeat(String processName) {
         return new ProcessAdHocTaskHeartbeat() {
             @Override
-            public void progress(String step, int progress, int total) {}
+            public void progress(String step, int progress, int total) {
+                logger.info("Progress: {}, {}/{}", step, progress, total);
+            }
 
             @Override
             public void close() {}
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index a88dca0e..27176faf 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -124,7 +124,9 @@ public class DocumentKeywordsBuilder {
     @Override
     public String toString() {
         StringBuilder sb = new StringBuilder("[ ");
-        wordToMeta.forEach((word, meta) -> sb.append(word).append("->").append(new WordMetadata(meta)).append(' '));
+        wordToMeta.forEach((word, meta) -> {
+            sb.append(word).append("->").append(new WordMetadata(meta).flagSet()).append(',').append(wordToPos.getOrDefault(word, new IntArrayList())).append(' ');
+        });
         return sb.append(']').toString();
     }
 
diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index 1131db90..a6698dc7 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -212,12 +212,21 @@ public class QueryFactoryTest {
         var subquery = parseAndGetSpecs("The");
         System.out.println("Time: " + (System.currentTimeMillis() - start));
         System.out.println(subquery);
-    }    @Test
+    }
 
+    @Test
     public void testExpansion6() {
         long start = System.currentTimeMillis();
         var subquery = parseAndGetSpecs("burning the nerves in the neck");
         System.out.println("Time: " + (System.currentTimeMillis() - start));
         System.out.println(subquery);
     }
+
+    @Test
+    public void testExpansion7() {
+        long start = System.currentTimeMillis();
+        var subquery = parseAndGetSpecs("amazing work being done");
+        System.out.println("Time: " + (System.currentTimeMillis() - start));
+        System.out.println(subquery);
+    }
 }
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
index d820f1e0..4598a538 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
@@ -31,10 +31,10 @@ public class IndexJournalReaderSingleFile implements IndexJournalReader {
 
     private static IndexJournalFileHeader readHeader(Path file) throws IOException {
         try (var raf = new RandomAccessFile(file.toFile(), "r")) {
+            long recordCount = raf.readLong();
             long unused = raf.readLong();
-            long wordCount = raf.readLong();
 
-            return new IndexJournalFileHeader(unused, wordCount);
+            return new IndexJournalFileHeader(recordCount, unused);
         }
     }
 
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index ec78890c..1dc847b8 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -205,7 +205,8 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
         return searchSetsService.getSearchSetByName(request.getSearchSetIdentifier());
     }
 
-    private SearchResultSet executeSearch(SearchParameters params) throws SQLException, InterruptedException {
+    // accessible for tests
+    public SearchResultSet executeSearch(SearchParameters params) throws SQLException, InterruptedException {
 
         if (!statefulIndex.isLoaded()) {
             // Short-circuit if the index is not loaded, as we trivially know that there can be no results
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index 5a3ff435..cfd26fe7 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -1,6 +1,5 @@
 package nu.marginalia.converting.writer;
 
-import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.SneakyThrows;
 import nu.marginalia.converting.model.ProcessedDocument;
@@ -103,8 +102,6 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
 
         String domainName = domain.toString();
 
-        ByteBuffer workArea = ByteBuffer.allocate(1024);
-
         while (documentIterator.hasNext()) {
             var document = documentIterator.next();
             if (document.details == null) {
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java
index 617088de..43b22168 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java
@@ -45,7 +45,6 @@ public class LoaderMain extends ProcessMainClass {
     private final MessageQueueFactory messageQueueFactory;
     private final FileStorageService fileStorageService;
     private final DocumentDbWriter documentDbWriter;
-    private final LoaderIndexJournalWriter journalWriter;
     private final DomainLoaderService domainService;
     private final DomainLinksLoaderService linksService;
     private final KeywordLoaderService keywordLoaderService;
@@ -79,7 +78,6 @@ public class LoaderMain extends ProcessMainClass {
                       MessageQueueFactory messageQueueFactory,
                       FileStorageService fileStorageService,
                       DocumentDbWriter documentDbWriter,
-                      LoaderIndexJournalWriter journalWriter,
                       DomainLoaderService domainService,
                       DomainLinksLoaderService linksService,
                       KeywordLoaderService keywordLoaderService,
@@ -92,7 +90,6 @@ public class LoaderMain extends ProcessMainClass {
         this.messageQueueFactory = messageQueueFactory;
         this.fileStorageService = fileStorageService;
         this.documentDbWriter = documentDbWriter;
-        this.journalWriter = journalWriter;
         this.domainService = domainService;
         this.linksService = linksService;
         this.keywordLoaderService = keywordLoaderService;
@@ -132,7 +129,7 @@ public class LoaderMain extends ProcessMainClass {
             logger.error("Error", ex);
         }
         finally {
-            journalWriter.close();
+            keywordLoaderService.close();
             documentDbWriter.close();
             heartbeat.shutDown();
         }
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index ab43bdd7..ebceb480 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -11,7 +11,6 @@ import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.processed.DocumentRecordKeywordsProjection;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.sequence.GammaCodedSequence;
-import org.roaringbitmap.RoaringBitmap;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -55,7 +54,7 @@ public class KeywordLoaderService {
             logger.info("Loading keywords from {}", file);
 
             stream.filter(DocumentRecordKeywordsProjection::hasKeywords)
-                    .forEach(proj -> insertKeywords(domainIdRegistry, proj));
+                  .forEach(proj -> insertKeywords(domainIdRegistry, proj));
         }
     }
 
@@ -78,4 +77,12 @@ public class KeywordLoaderService {
                 projection.length,
                 words);
     }
+
+    public void close() {
+        try {
+            writer.close();
+        } catch (Exception e) {
+            logger.error("Failed to close writer", e);
+        }
+    }
 }
\ No newline at end of file
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
index 6739f8e7..8d72a50a 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
@@ -10,6 +10,7 @@ import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.processed.DomainRecord;
 import nu.marginalia.model.processed.DomainWithIp;
+import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -108,7 +109,7 @@ public class DomainLoaderService {
         return domainNamesAll;
     }
 
-    public boolean loadDomainMetadata(DomainIdRegistry domainIdRegistry, ProcessHeartbeatImpl heartbeat, LoaderInputData inputData) {
+    public boolean loadDomainMetadata(DomainIdRegistry domainIdRegistry, ProcessHeartbeat heartbeat, LoaderInputData inputData) {
 
         var files = inputData.listDomainFiles();
 
diff --git a/code/tools/integration-test/build.gradle b/code/tools/integration-test/build.gradle
new file mode 100644
index 00000000..818ca6af
--- /dev/null
+++ b/code/tools/integration-test/build.gradle
@@ -0,0 +1,47 @@
+plugins {
+    id 'java'
+
+
+    id 'jvm-test-suite'
+}
+
+java {
+    toolchain {
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
+    }
+}
+
+apply from: "$rootProject.projectDir/srcsets.gradle"
+
+dependencies {
+    implementation project(':code:processes:crawling-process')
+    implementation project(':code:processes:converting-process')
+    implementation project(':code:processes:loading-process')
+    implementation project(':code:process-models:crawling-model')
+    implementation project(':code:process-models:processed-data')
+    implementation project(':code:processes:index-constructor-process')
+    implementation project(':code:index')
+    implementation project(':code:functions:search-query:api')
+    implementation project(':code:index:index-reverse')
+    implementation project(':code:index:index-forward')
+    implementation project(':code:index:query')
+    implementation project(':code:index:index-journal')
+    implementation project(':code:functions:link-graph:partition')
+    implementation project(':code:libraries:array')
+    implementation project(':code:common:db')
+    implementation project(':code:common:config')
+    implementation project(':code:common:linkdb')
+    implementation project(':code:common:process')
+    implementation project(':code:common:service')
+    implementation project(':code:common:model')
+
+    implementation libs.bundles.slf4j
+    implementation libs.bundles.grpc
+    implementation libs.mockito
+    implementation libs.notnull
+    implementation libs.guice
+    implementation libs.fastutil
+    implementation libs.trove
+    testImplementation libs.bundles.junit
+}
+
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
new file mode 100644
index 00000000..074a0264
--- /dev/null
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -0,0 +1,316 @@
+package nu.marginalia;
+
+import com.google.inject.Guice;
+import com.google.inject.Inject;
+import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
+import nu.marginalia.api.searchquery.model.query.SearchQuery;
+import nu.marginalia.api.searchquery.model.query.SearchSpecification;
+import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
+import nu.marginalia.converting.processor.DomainProcessor;
+import nu.marginalia.converting.writer.ConverterBatchWriter;
+import nu.marginalia.crawl.retreival.DomainProber;
+import nu.marginalia.crawl.retreival.fetcher.ContentTags;
+import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
+import nu.marginalia.crawling.io.CrawledDomainReader;
+import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
+import nu.marginalia.index.IndexGrpcService;
+import nu.marginalia.index.ReverseIndexFullFileNames;
+import nu.marginalia.index.ReverseIndexPrioFileNames;
+import nu.marginalia.index.construction.ReverseIndexConstructor;
+import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.index.forward.ForwardIndexConverter;
+import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.query.limit.QueryStrategy;
+import nu.marginalia.index.model.SearchParameters;
+import nu.marginalia.index.query.limit.QueryLimits;
+import nu.marginalia.index.query.limit.SpecificationLimit;
+import nu.marginalia.index.searchset.SearchSetAny;
+import nu.marginalia.linkdb.docs.DocumentDbReader;
+import nu.marginalia.linkdb.docs.DocumentDbWriter;
+import nu.marginalia.loading.LoaderIndexJournalWriter;
+import nu.marginalia.loading.LoaderInputData;
+import nu.marginalia.loading.documents.DocumentLoaderService;
+import nu.marginalia.loading.documents.KeywordLoaderService;
+import nu.marginalia.loading.domains.DomainIdRegistry;
+import nu.marginalia.loading.links.DomainLinksLoaderService;
+import nu.marginalia.model.EdgeDomain;
+import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.model.idx.WordFlags;
+import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.process.control.FakeProcessHeartbeat;
+import nu.marginalia.storage.FileStorageService;
+import nu.marginalia.storage.model.FileStorageBaseType;
+import org.junit.jupiter.api.*;
+import org.mockito.Mockito;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+import java.util.List;
+import java.util.function.LongPredicate;
+
+import static nu.marginalia.index.journal.reader.IndexJournalReader.FILE_HEADER_SIZE_BYTES;
+import static nu.marginalia.linkdb.LinkdbFileNames.DOCDB_FILE_NAME;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+import static org.mockito.ArgumentMatchers.any;
+import static org.mockito.Mockito.when;
+
+public class IntegrationTest {
+    IntegrationTestModule testModule;
+    @Inject
+    DomainProcessor domainProcessor;
+
+    @Inject
+    DomainLinksLoaderService linksService;
+    @Inject
+    KeywordLoaderService keywordLoaderService;
+    @Inject
+    DocumentLoaderService documentLoaderService;
+
+    @Inject
+    FileStorageService fileStorageService;
+
+    @Inject
+    DomainRankings domainRankings;
+
+    @Inject
+    DocumentDbWriter documentDbWriter;
+    @Inject
+    LoaderIndexJournalWriter journalWriter;
+
+    Path warcData = null;
+    Path crawlDataParquet = null;
+    Path processedDataDir = null;
+
+    @Inject
+    StatefulIndex statefulIndex;
+    @Inject
+    IndexGrpcService indexGrpcService;
+    @Inject
+    DocumentDbReader documentDbReader;
+
+    @BeforeEach
+    public void setupTest() throws IOException {
+        testModule = new IntegrationTestModule();
+
+        Guice.createInjector(testModule).injectMembers(this);
+
+        warcData = Files.createTempFile("warc", ".warc.gz");
+        crawlDataParquet = Files.createTempFile("crawl", ".parquet");
+        processedDataDir = Files.createTempDirectory("processed");
+    }
+
+    @AfterEach
+    public void tearDownTest() throws IOException {
+        Files.deleteIfExists(warcData);
+        Files.deleteIfExists(crawlDataParquet);
+        TestUtil.clearTempDir(processedDataDir);
+
+        testModule.cleanUp();
+    }
+
+
+    @Test
+    public void run() throws Exception {
+
+        /** CREATE WARC */
+        try (WarcRecorder warcRecorder = new WarcRecorder(warcData)) {
+            warcRecorder.writeWarcinfoHeader("127.0.0.1", new EdgeDomain("www.example.com"),
+                    new DomainProber.ProbeResultOk(new EdgeUrl("https://www.example.com/")));
+
+            warcRecorder.writeReferenceCopy(new EdgeUrl("https://www.example.com/"),
+                    "text/html", 200,
+                    """
+                            <html>
+                            <h1>Hello World</h1>
+                            <body>
+                            <p>The best description of my problem solving process is the Feynman algorithm, which is sometimes presented as a joke where the hidden subtext is “be smart”, but I disagree. The “algorithm” is a surprisingly lucid description of how thinking works in the context of hard problems where the answer can’t simply be looked up or trivially broken down, iterated upon in a bottom-up fashion, or approached with similar methods.
+                               The trick is that there is no trick. This is how thinking works. It appears that when you feed your brain related information, without further active involvement, it starts to digest the information you’ve fed it.
+                               </p>
+                            </body>
+                            </html>
+                            """,
+                    ContentTags.empty()
+            );
+        }
+
+        /** CONVERT WARC */
+        CrawledDocumentParquetRecordFileWriter.convertWarc(
+                "www.example.com",
+                new UserAgent("search.marginalia.nu",
+                        "search.marginalia.nu"),
+                warcData,
+                crawlDataParquet);
+
+        /** PROCESS CRAWL DATA */
+
+        var processedDomain = domainProcessor.fullProcessing(CrawledDomainReader.createDataStream(crawlDataParquet));
+
+        System.out.println(processedDomain);
+
+        /** WRITE PROCESSED DATA */
+
+        try (ConverterBatchWriter cbw = new ConverterBatchWriter(processedDataDir, 0)) {
+            cbw.writeProcessedDomain(processedDomain);
+
+        }
+        // Write a single batch-switch marker in the process log so that the loader will read the data
+        Files.writeString(processedDataDir.resolve("processor.log"), "F\n", StandardOpenOption.CREATE_NEW);
+
+        /** LOAD PROCESSED DATA */
+
+        LoaderInputData inputData = new LoaderInputData(List.of(processedDataDir));
+
+        DomainIdRegistry domainIdRegistry = Mockito.mock(DomainIdRegistry.class);
+        when(domainIdRegistry.getDomainId(any())).thenReturn(1);
+
+        linksService.loadLinks(domainIdRegistry, new FakeProcessHeartbeat(), inputData);
+        keywordLoaderService.loadKeywords(domainIdRegistry, new FakeProcessHeartbeat(), inputData);
+        documentLoaderService.loadDocuments(domainIdRegistry, new FakeProcessHeartbeat(), inputData);
+
+        // These must be closed to finalize the associated files
+        documentDbWriter.close();
+        keywordLoaderService.close();
+
+        Path journalFile = fileStorageService
+                .getStorageBase(FileStorageBaseType.CURRENT)
+                .asPath()
+                .resolve("iw/page-index-0000.dat");
+
+        assertTrue(Files.exists(journalFile), "Journal file not found: " + journalFile);
+        assertTrue(Files.size(journalFile) > FILE_HEADER_SIZE_BYTES, "Journal file does not contain data");
+
+        /** CONSTRUCT INDEX */
+
+        createForwardIndex();
+        createFullReverseIndex();
+        createPrioReverseIndex();
+
+        /** SWITCH INDEX */
+
+        statefulIndex.switchIndex();
+
+        // Move the docdb file to the live location
+        Files.move(
+                IndexLocations.getLinkdbWritePath(fileStorageService).resolve(DOCDB_FILE_NAME),
+                IndexLocations.getLinkdbLivePath(fileStorageService).resolve(DOCDB_FILE_NAME)
+        );
+        // Reconnect the document reader to the new docdb file
+        documentDbReader.reconnect();
+
+        /** QUERY */
+        var rs = indexGrpcService.executeSearch(new SearchParameters(new SearchSpecification(
+                new SearchQuery("problem solving process",
+                        List.of("problem", "solving", "process"),
+                        List.of(),
+                        List.of(),
+                        List.of(),
+                        List.of(new SearchCoherenceConstraint(true, List.of("problem", "solving", "process")))
+                ),
+                null,
+                "NONE",
+                "feynman",
+                SpecificationLimit.none(),
+                SpecificationLimit.none(),
+                SpecificationLimit.none(),
+                SpecificationLimit.none(),
+                new QueryLimits(10, 10, 100, 100),
+                QueryStrategy.AUTO,
+                ResultRankingParameters.sensibleDefaults()
+        ), new SearchSetAny()));
+
+
+        System.out.println(rs);
+    }
+
+
+    private void createFullReverseIndex() throws IOException {
+
+        Path outputFileDocs = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFileWords = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.NEXT);
+
+        Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+        Path tmpDir = workDir.resolve("tmp");
+
+        if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
+
+        var constructor = new ReverseIndexConstructor(
+                outputFileDocs,
+                outputFileWords,
+                outputFilePositions,
+                IndexJournalReader::singleFile,
+                this::addRankToIdEncoding,
+                tmpDir);
+
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "createReverseIndexFull", workDir);
+
+    }
+
+    private void createPrioReverseIndex() throws IOException {
+
+        Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+
+        Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+        Path tmpDir = workDir.resolve("tmp");
+
+        // The priority index only includes words that have bits indicating they are
+        // important to the document.  This filter will act on the encoded {@see WordMetadata}
+        LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
+
+        var constructor = new ReverseIndexConstructor(
+                outputFileDocs,
+                outputFileWords,
+                outputFilePositions,
+                (path) -> IndexJournalReader.singleFile(path).filtering(wordMetaFilter),
+                this::addRankToIdEncoding,
+                tmpDir);
+
+        constructor.createReverseIndex(new FakeProcessHeartbeat(), "createReverseIndexPrio", workDir);
+    }
+
+    private static LongPredicate getPriorityIndexWordMetaFilter() {
+
+        long highPriorityFlags =
+                WordFlags.Title.asBit()
+                        | WordFlags.Subjects.asBit()
+                        | WordFlags.TfIdfHigh.asBit()
+                        | WordFlags.NamesWords.asBit()
+                        | WordFlags.UrlDomain.asBit()
+                        | WordFlags.UrlPath.asBit()
+                        | WordFlags.Site.asBit()
+                        | WordFlags.ExternalLink.asBit()
+                        | WordFlags.SiteAdjacent.asBit();
+
+        return r -> WordMetadata.hasAnyFlags(r, highPriorityFlags);
+    }
+
+    private void createForwardIndex() throws IOException {
+
+        Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+        Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
+
+        ForwardIndexConverter converter = new ForwardIndexConverter(new FakeProcessHeartbeat(),
+                IndexJournalReader.paging(workDir),
+                outputFileDocsId,
+                outputFileDocsData,
+                domainRankings
+        );
+
+        converter.convert();
+    }
+
+    private long addRankToIdEncoding(long docId) {
+        return UrlIdCodec.addRank(
+                255,
+                docId);
+    }
+
+}
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java
new file mode 100644
index 00000000..71610e24
--- /dev/null
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java
@@ -0,0 +1,161 @@
+package nu.marginalia;
+
+import com.google.inject.AbstractModule;
+import com.google.inject.Inject;
+import com.google.inject.Provides;
+import com.google.inject.Singleton;
+import com.google.inject.name.Names;
+import gnu.trove.list.array.TIntArrayList;
+import nu.marginalia.db.DomainTypes;
+import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.index.journal.writer.IndexJournalWriter;
+import nu.marginalia.index.journal.writer.IndexJournalWriterPagingImpl;
+import nu.marginalia.index.searchset.SearchSetAny;
+import nu.marginalia.index.searchset.SearchSetsService;
+import nu.marginalia.linkdb.docs.DocumentDbReader;
+import nu.marginalia.linkdb.docs.DocumentDbWriter;
+import nu.marginalia.linkgraph.io.DomainLinksWriter;
+import nu.marginalia.process.control.FakeProcessHeartbeat;
+import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.service.ServiceId;
+import nu.marginalia.service.control.FakeServiceHeartbeat;
+import nu.marginalia.service.control.ServiceEventLog;
+import nu.marginalia.service.control.ServiceHeartbeat;
+import nu.marginalia.service.module.ServiceConfiguration;
+import nu.marginalia.storage.FileStorageService;
+import nu.marginalia.storage.model.FileStorageBase;
+import nu.marginalia.storage.model.FileStorageBaseType;
+import org.mockito.Mockito;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.sql.SQLException;
+import java.util.ArrayList;
+import java.util.Random;
+import java.util.UUID;
+
+import static nu.marginalia.linkdb.LinkdbFileNames.DOCDB_FILE_NAME;
+import static nu.marginalia.linkdb.LinkdbFileNames.DOMAIN_LINKS_FILE_NAME;
+import static org.mockito.ArgumentMatchers.any;
+import static org.mockito.Mockito.when;
+
+public class IntegrationTestModule extends AbstractModule {
+    Path workDir;
+    Path slowDir;
+    Path fastDir;
+    Path indexDir;
+
+    Random random = new Random();
+
+    public IntegrationTestModule() throws IOException {
+        workDir = Files.createTempDirectory("IntegrationTest");
+        slowDir = workDir.resolve("slow");
+        fastDir = workDir.resolve("fast");
+        indexDir = workDir.resolve("index");
+
+        Files.createDirectory(slowDir);
+        Files.createDirectory(fastDir);
+    }
+
+    public void cleanUp() {
+        TestUtil.clearTempDir(workDir);
+    }
+
+    @Override
+    protected void configure() {
+
+        try {
+            var fileStorageServiceMock = Mockito.mock(FileStorageService.class);
+            Mockito.when(fileStorageServiceMock.getStorageBase(FileStorageBaseType.WORK))
+                    .thenReturn(new FileStorageBase(null, null, 0,null, slowDir.toString()));
+            Mockito.when(fileStorageServiceMock.getStorageBase(FileStorageBaseType.CURRENT))
+                    .thenReturn(new FileStorageBase(null, null, 0,null, fastDir.toString()));
+            Mockito.when(fileStorageServiceMock.getStorageBase(FileStorageBaseType.STORAGE))
+                    .thenReturn(new FileStorageBase(null, null, 0, null, fastDir.toString()));
+
+            bind(DocumentDbReader.class).toInstance(new DocumentDbReader(
+                    IndexLocations.getLinkdbLivePath(fileStorageServiceMock)
+                            .resolve(DOCDB_FILE_NAME)
+            ));
+
+            bind(FileStorageService.class).toInstance(fileStorageServiceMock);
+            bind(ServiceHeartbeat.class).toInstance(new FakeServiceHeartbeat());
+            bind(ProcessHeartbeat.class).toInstance(new FakeProcessHeartbeat());
+
+            SearchSetsService setsServiceMock = Mockito.mock(SearchSetsService.class);
+            when(setsServiceMock.getSearchSetByName("NONE")).thenReturn(new SearchSetAny());
+            when(setsServiceMock.getDomainRankings()).thenReturn(new DomainRankings());
+            bind(SearchSetsService.class).toInstance(setsServiceMock);
+
+            DomainTypes domainTypes = Mockito.mock(DomainTypes.class);
+            when(domainTypes.getAllDomainsByType(any())).thenReturn(new ArrayList<>());
+            when(domainTypes.getKnownDomainsByType(any())).thenReturn(new TIntArrayList());
+            when(domainTypes.downloadList(any())).thenReturn(new ArrayList<>());
+            bind(DomainTypes.class).toInstance(domainTypes);
+
+            bind(ServiceEventLog.class).toInstance(Mockito.mock(ServiceEventLog.class));
+
+            bind(IndexJournalWriter.class).toInstance(new IndexJournalWriterPagingImpl(
+                    IndexLocations.getIndexConstructionArea(fileStorageServiceMock)
+            ));
+
+            bind(ServiceConfiguration.class).toInstance(new ServiceConfiguration(
+                    ServiceId.Index,
+                    0,
+                    "127.0.0.1",
+                    "127.0.0.1",
+                    randomPort(),
+                    UUID.randomUUID()
+            ));
+
+            bind(ProcessConfiguration.class).toInstance(new ProcessConfiguration(
+                    "TEST",
+                    0,
+                    UUID.randomUUID()));
+
+            bind(Double.class).annotatedWith(Names.named("min-document-quality")).toInstance(-15.);
+            bind(Integer.class).annotatedWith(Names.named("min-document-length")).toInstance(32);
+            bind(Integer.class).annotatedWith(Names.named("max-title-length")).toInstance(128);
+            bind(Integer.class).annotatedWith(Names.named("max-summary-length")).toInstance(255);
+
+            bind(Path.class).annotatedWith(Names.named("local-index-path")).toInstance(indexDir);
+
+            bind(LanguageModels.class).toInstance(WmsaHome.getLanguageModels());
+
+        } catch (IOException | SQLException e) {
+            throw new RuntimeException(e);
+        }
+
+
+    }
+
+
+    @Inject
+    @Provides
+    @Singleton
+    private DocumentDbWriter createLinkdbWriter(FileStorageService service) throws SQLException, IOException {
+        // Migrate
+        Path dbPath = IndexLocations.getLinkdbWritePath(service).resolve(DOCDB_FILE_NAME);
+
+        if (Files.exists(dbPath)) {
+            Files.delete(dbPath);
+        }
+        return new DocumentDbWriter(dbPath);
+    }
+
+    @Inject @Provides @Singleton
+    private DomainLinksWriter createDomainLinkdbWriter(FileStorageService service) throws SQLException, IOException {
+
+        Path dbPath = IndexLocations.getLinkdbWritePath(service).resolve(DOMAIN_LINKS_FILE_NAME);
+
+        if (Files.exists(dbPath)) {
+            Files.delete(dbPath);
+        }
+
+        return new DomainLinksWriter(dbPath);
+    }
+    private int randomPort() {
+        return random.nextInt(10000, 30000);
+    }
+}
diff --git a/code/tools/integration-test/test/nu/marginalia/TestUtil.java b/code/tools/integration-test/test/nu/marginalia/TestUtil.java
new file mode 100644
index 00000000..0b9ce74f
--- /dev/null
+++ b/code/tools/integration-test/test/nu/marginalia/TestUtil.java
@@ -0,0 +1,52 @@
+package nu.marginalia;
+
+
+import java.io.File;
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.Arrays;
+
+public class TestUtil {
+    public static void clearTempDir(Path path) {
+        if (!Files.exists(path))
+            return;
+
+        if (Files.isDirectory(path)) {
+            for (File f : path.toFile().listFiles()) {
+                if (f.isDirectory()) {
+                    File[] files = f.listFiles();
+                    if (files != null) {
+                        Arrays.stream(files).map(File::toPath).forEach(TestUtil::clearTempDir);
+                    }
+                }
+                else {
+                    System.out.println("Deleting " + f + " (" + fileSize(f.toPath()) + ")");
+                    f.delete();
+                }
+            }
+        }
+        else {
+            System.out.println("Deleting " + path + " (" + fileSize(path) + ")");
+        }
+        path.toFile().delete();
+    }
+
+    private static String fileSize(Path path) {
+        try {
+            long sizeBytes = Files.size(path);
+
+            if (sizeBytes > 1024 * 1024 * 1024) return round(sizeBytes / 1073741824.) + "Gb";
+            if (sizeBytes > 1024 * 1024) return round(sizeBytes / 1048576.) + "Mb";
+            if (sizeBytes > 1024) return round(sizeBytes / 1024.) + "Kb";
+            return sizeBytes + "b";
+        }
+        catch (IOException ex) {
+            throw new RuntimeException(ex);
+        }
+    }
+
+    private static String round(double d) {
+        return String.format("%.2f", d);
+    }
+}
diff --git a/settings.gradle b/settings.gradle
index 79c04ee6..2daa7997 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -95,6 +95,7 @@ include 'code:process-models:processed-data'
 include 'code:tools:experiment-runner'
 include 'code:tools:screenshot-capture-tool'
 include 'code:tools:load-test'
+include 'code:tools:integration-test'
 
 include 'third-party:porterstemmer'
 include 'third-party:symspell'

From b805f6daa8bbd590761056509827c0097f62e274 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 25 Jun 2024 22:17:54 +0200
Subject: [PATCH 017/216] (gamma) Fix readCount() behavior in EGC

---
 .../java/nu/marginalia/sequence/EliasGammaCodec.java      | 8 ++++----
 .../test/nu/marginalia/sequence/EliasGammaCodecTest.java  | 7 +++++++
 2 files changed, 11 insertions(+), 4 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
index 87b2abd5..3f33e8c8 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
@@ -37,12 +37,12 @@ public class EliasGammaCodec implements IntIterator {
     public static int readCount(ByteBuffer buffer) {
         var reader = new BitReader(buffer);
 
-        if (reader.getCurrentValue() > 0) {
-            int bits = reader.takeWhileZero();
-            return reader.get(bits);
+        int bits = reader.takeWhileZero();
+        if (!reader.hasMore()) {
+            return 0;
         }
         else {
-            return 0;
+            return reader.get(bits);
         }
     }
 
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
index 914c8329..77159460 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
@@ -30,6 +30,13 @@ class EliasGammaCodecTest {
         assertEquals(expected, decoded);
     }
 
+    @Test
+    public void valueCount() {
+        var ret = EliasGammaCodec.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });
+        var count = EliasGammaCodec.readCount(ret);
+        assertEquals(6, count);
+    }
+
     @Test
     public void testCodec2() {
         var ret = EliasGammaCodec.encode(work, new int[] { 1, 256 });

From 8ee64c0771607c30a2669d04a54f5d8bc9c63442 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 25 Jun 2024 22:18:10 +0200
Subject: [PATCH 018/216] (index) Correct TermCoherence requirements

---
 .../marginalia/index/results/IndexMetadataService.java   | 9 ++++++---
 .../index/results/model/TermCoherenceGroupList.java      | 6 +++---
 .../marginalia/index/results/model/ids/TermIdList.java   | 4 ++++
 3 files changed, 13 insertions(+), 6 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
index 3ce28764..86437f02 100644
--- a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
@@ -78,14 +78,17 @@ public class IndexMetadataService {
             }
         }
 
+        var idsAll = new TermIdList(termIdsList);
+        var idsPrio = new TermIdList(termIdsPrio);
+
         var constraints = new ArrayList<TermCoherenceGroup>();
         for (var coherence : searchQuery.searchTermCoherences) {
-            constraints.add(new TermCoherenceGroup(coherence, termIdsList));
+            constraints.add(new TermCoherenceGroup(coherence, idsAll));
         }
 
         return new QuerySearchTerms(termToId,
-                new TermIdList(termIdsList),
-                new TermIdList(termIdsPrio),
+                idsAll,
+                idsPrio,
                 new TermCoherenceGroupList(constraints)
         );
     }
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index d93dfd11..de1818a5 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -1,9 +1,9 @@
 package nu.marginalia.index.results.model;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
-import it.unimi.dsi.fastutil.longs.LongList;
 import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.index.model.SearchTermsUtil;
+import nu.marginalia.index.results.model.ids.TermIdList;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.sequence.SequenceOperations;
 
@@ -55,7 +55,7 @@ public class TermCoherenceGroupList {
 
         public final int size;
         public final boolean mandatory;
-        public TermCoherenceGroup(SearchCoherenceConstraint cons, LongList termIdsAll) {
+        public TermCoherenceGroup(SearchCoherenceConstraint cons, TermIdList termIdsAll) {
             offsets = new int[cons.size()];
             present = new BitSet(cons.size());
             mandatory = cons.mandatory();
@@ -87,7 +87,7 @@ public class TermCoherenceGroupList {
                 // so that when we intersect them, an overlap means that the terms are
                 // in the correct order.  Note the offset is negative!
 
-                sequences[si++] = positions[oi].offsetIterator(-oi);
+                sequences[si++] = positions[offset].offsetIterator(-oi);
             }
 
             return SequenceOperations.intersectSequences(sequences);
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java b/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
index 903fef9f..2afba3a6 100644
--- a/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
+++ b/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
@@ -39,6 +39,10 @@ public final class TermIdList {
         return Arrays.binarySearch(array, id) >= 0;
     }
 
+    public int indexOf(long id) {
+        return Arrays.binarySearch(array, id);
+    }
+
     @Override
     public boolean equals(Object obj) {
         if (obj == this) return true;

From 95b9af92a0a0c1d4602608a743d6f5c09315c8f0 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 26 Jun 2024 12:22:06 +0200
Subject: [PATCH 019/216] (index) Implement working optional TermCoherences

---
 code/functions/search-query/api/build.gradle  |  1 +
 .../api/searchquery/IndexProtobufCodec.java   |  3 +-
 .../query/SearchCoherenceConstraint.java      | 74 +++++++++++++++----
 .../query_parser/QueryExpansion.java          |  5 ++
 .../searchquery/svc/QueryFactory.java         | 19 ++---
 .../query/svc/QueryFactoryTest.java           |  8 ++
 .../results/IndexResultValuationContext.java  |  6 +-
 .../ranking/results/ResultValuator.java       |  4 +-
 8 files changed, 91 insertions(+), 29 deletions(-)

diff --git a/code/functions/search-query/api/build.gradle b/code/functions/search-query/api/build.gradle
index b85497cc..a589f52f 100644
--- a/code/functions/search-query/api/build.gradle
+++ b/code/functions/search-query/api/build.gradle
@@ -23,6 +23,7 @@ dependencies {
     implementation project(':code:common:config')
     implementation project(':code:common:service')
     implementation project(':code:index:query')
+    implementation project(':code:libraries:language-processing')
 
     implementation libs.bundles.slf4j
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index 099dc573..3a57cfe6 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -86,7 +86,8 @@ public class IndexProtobufCodec {
         for (var coherences : searchQuery.searchTermCoherences) {
             subqueryBuilder.addCoherencesBuilder()
                     .addAllCoherences(coherences.terms())
-                    .setType(coherences.mandatory() ? RpcCoherences.TYPE.MANDATORY : RpcCoherences.TYPE.OPTIONAL);
+                    .setType(coherences.mandatory() ? RpcCoherences.TYPE.MANDATORY : RpcCoherences.TYPE.OPTIONAL)
+                    .build();
         }
 
         return subqueryBuilder.build();
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
index 0089cc3a..ce1e2e55 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
@@ -1,23 +1,71 @@
 package nu.marginalia.api.searchquery.model.query;
 
+import nu.marginalia.language.WordPatterns;
+
+import java.util.ArrayList;
 import java.util.List;
 
 public record SearchCoherenceConstraint(boolean mandatory, List<String> terms) {
-    public static SearchCoherenceConstraint mandatory(String... terms) {
-        return new SearchCoherenceConstraint(true, List.of(terms));
-    }
-    public static SearchCoherenceConstraint mandatory(List<String> terms) {
-        return new SearchCoherenceConstraint(true, List.copyOf(terms));
-    }
-
-    public static SearchCoherenceConstraint optional(String... terms) {
-        return new SearchCoherenceConstraint(false, List.of(terms));
-    }
-    public static SearchCoherenceConstraint optional(List<String> terms) {
-        return new SearchCoherenceConstraint(false, List.copyOf(terms));
-    }
 
     public int size() {
         return terms.size();
     }
+
+    /** Create a new SearchCoherenceConstraint with the given terms, and the given mandatory flag.
+     * Stop words are replaced with empty strings.
+     */
+    public static SearchCoherenceConstraint mandatory(String... terms) {
+        return new SearchCoherenceConstraint(true, trimStopWords(terms));
+    }
+    /** Create a new SearchCoherenceConstraint with the given terms, and the given mandatory flag.
+     * Stop words are replaced with empty strings.
+     */
+    public static SearchCoherenceConstraint mandatory(List<String> terms) {
+        return new SearchCoherenceConstraint(true, trimStopWords(terms));
+    }
+    /** Create a new SearchCoherenceConstraint with the given terms, without the mandatory flag.
+     * Stop words are replaced with empty strings.
+     */
+    public static SearchCoherenceConstraint optional(String... terms) {
+        return new SearchCoherenceConstraint(false, trimStopWords(terms));
+    }
+    /** Create a new SearchCoherenceConstraint with the given terms, without the mandatory flag.
+     * Stop words are replaced with empty strings.
+     */
+    public static SearchCoherenceConstraint optional(List<String> terms) {
+        return new SearchCoherenceConstraint(false, trimStopWords(terms));
+    }
+
+    private static List<String> trimStopWords(List<String> terms) {
+        List<String> ret = new ArrayList<>(terms.size());
+        for (var term : terms) {
+            if (WordPatterns.isStopWord(term)) {
+                ret.add("");
+            } else {
+                ret.add(term);
+            }
+        }
+        return List.copyOf(ret);
+    }
+
+    private static List<String> trimStopWords(String... terms) {
+        List<String> ret = new ArrayList<>(terms.length);
+        for (var term : terms) {
+            if (WordPatterns.isStopWord(term)) {
+                ret.add("");
+            } else {
+                ret.add(term);
+            }
+        }
+
+        while (!ret.isEmpty() && "".equals(ret.getFirst())) {
+            ret.removeFirst();
+        }
+        while (!ret.isEmpty() && "".equals(ret.getLast())) {
+            ret.removeLast();
+        }
+
+        return List.copyOf(ret);
+    }
+
 }
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
index 2af0b586..5287c7d3 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
@@ -166,6 +166,11 @@ public class QueryExpansion {
             graph.addVariantForSpan(nodes.get(start), nodes.get(end - 1), word);
         }
 
+        // also create a segmentation that is just the entire query
+        coherences.add(nodes.stream()
+                .map(QWord::word)
+                .collect(Collectors.toList()));
+
         return coherences;
     }
 
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
index 4b3e02dc..400ba998 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
@@ -75,23 +75,18 @@ public class QueryFactory {
 
                     String[] parts = StringUtils.split(str, '_');
 
-                    // Checking for stop words here is a bit of a stop-gap to fix the issue of stop words being
-                    // required in the query (which is a problem because they are not indexed). How to do this
-                    // in a clean way is a bit of an open problem that may not get resolved until query-parsing is
-                    // improved.
-
-                    if (parts.length > 1 && !anyPartIsStopWord(parts)) {
-                        // Prefer that the actual n-gram is present
-                        searchTermsAdvice.add(str);
-
-                        // Require that the terms appear in the same sentence
+                    if (parts.length > 1) {
+                        // Require that the terms appear in sequence
                         searchTermCoherences.add(SearchCoherenceConstraint.mandatory(parts));
 
-                        // Require that each term exists in the document
-                        // (needed for ranking)
+                        // Construct a regular query from the parts in the quoted string
                         searchTermsInclude.addAll(Arrays.asList(parts));
+
+                        // Prefer that the actual n-gram is present
+                        searchTermsPriority.add(str);
                     }
                     else {
+                        // If the quoted word is a single word, we don't need to do more than include it in the search
                         searchTermsInclude.add(str);
                     }
                 }
diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index a6698dc7..88562307 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -229,4 +229,12 @@ public class QueryFactoryTest {
         System.out.println("Time: " + (System.currentTimeMillis() - start));
         System.out.println(subquery);
     }
+
+    @Test
+    public void testExpansion8() {
+        long start = System.currentTimeMillis();
+        var subquery = parseAndGetSpecs("success often consists of");
+        System.out.println("Time: " + (System.currentTimeMillis() - start));
+        System.out.println(subquery);
+    }
 }
\ No newline at end of file
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
index f886dc42..2facf59f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
@@ -74,6 +74,8 @@ public class IndexResultValuationContext {
         int htmlFeatures = index.getHtmlFeatures(docId);
         int docSize = index.getDocumentSize(docId);
 
+        int bestCoherence = searchTerms.coherences.testOptional(positions);
+
         double score = searchResultValuator.calculateSearchResultValue(
                 wordFlagsQuery,
                 positionsCountQuery,
@@ -81,8 +83,8 @@ public class IndexResultValuationContext {
                 docMetadata,
                 htmlFeatures,
                 docSize,
-                rankingContext,
-                null);
+                bestCoherence,
+                rankingContext, null);
 
         SearchResultItem searchResult = new SearchResultItem(docId,
                 docMetadata,
diff --git a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
index ae84a11e..379a1d9d 100644
--- a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
+++ b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
@@ -40,6 +40,7 @@ public class ResultValuator {
                                              CompiledQueryInt positionsCountQuery, CompiledQuery<GammaCodedSequence> positionsQuery, long documentMetadata,
                                              int features,
                                              int length,
+                                             int bestCoherence,
                                              ResultRankingContext ctx,
                                              @Nullable Consumer<ResultRankingDetails> detailsConsumer
                                              )
@@ -83,7 +84,8 @@ public class ResultValuator {
                            + rankingBonus
                            + topologyBonus
                            + temporalBias
-                           + flagsPenalty;
+                           + flagsPenalty
+                           + bestCoherence;
 
         // FIXME: need a weighting factor here
         double tcfAvgDist = 25. / termCoherenceFactor.calculateAvgMinDistance(positionsQuery, ctx);

From 02df421c94e26f115fe9abfabe07aa7d3ee8f9aa Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 26 Jun 2024 12:22:57 +0200
Subject: [PATCH 020/216] (*) Trim the stopwords list

Having an overlong stopwords list leads to quoted terms not performing well.  For now we'll slash it to just "a" and "the".
---
 .../resources/dictionary/en-stopwords         | 172 +-----------------
 1 file changed, 1 insertion(+), 171 deletions(-)

diff --git a/code/libraries/language-processing/resources/dictionary/en-stopwords b/code/libraries/language-processing/resources/dictionary/en-stopwords
index d97db17c..f19a4788 100644
--- a/code/libraries/language-processing/resources/dictionary/en-stopwords
+++ b/code/libraries/language-processing/resources/dictionary/en-stopwords
@@ -1,172 +1,2 @@
-i
 a
-e.g
-i.e
-the
-of
-and
-in
-to
-was
-is
-for
-on
-as
-with
-by
-he
-that
-at
-from
-his
-it
-an
-were
-we've
-we're
-which
-are
-this
-also
-be
-had
-or
-has
-first
-their
-after
-its
-new
-but
-who
-her
-not
-she
-she's
-they
-have
-been
-other
-when
-during
-all
-into
-there
-time
-may
-more
-school
-years
-over
-only
-would
-later
-most
-where
-between
-some
-up
-city
-about
-such
-him
-then
-made
-out
-state
-three
-while
-used
-can
-under
-known
-many
-year
-part
-became
-these
-than
-team
-no
-second
-including
-being
-through
-before
-both
-however
-how
-until
-well
-since
-them
-de
-each
-same
-found
-so
-use
-now
-end
-if
-age
-day
-any
-due
-did
-own
-led
-off
-do
-you
-you're
-young
-without
-take
-described
-site
-royal
-services
-radio
-together
-social
-force
-northern
-per
-we
-my
-want
-your
-seem
-else's
-don't
-me
-couldn't
-what
-me
-doesn't
-can't
-isn't
-i've
-it's
-it
-i'm
-.
-..
-...
-....
-.....
-......
-.......
-........
-.........
-..........
-will
-us
-much
-our
-what
-what's
-often
-few
-lot
\ No newline at end of file
+the
\ No newline at end of file

From 69737124802478b305a17310255879e7da775078 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 26 Jun 2024 13:40:06 +0200
Subject: [PATCH 021/216] (query) Tidy up code

---
 .../searchquery/model/query/SearchQuery.java  | 34 ++++++---
 .../searchquery/query_parser/QueryParser.java | 28 ++++++-
 .../query_parser/token/QueryToken.java        | 27 +++----
 .../searchquery/svc/QueryFactory.java         | 75 +++++--------------
 .../query/svc/QueryFactoryTest.java           | 14 +++-
 ...IndexQueryServiceIntegrationSmokeTest.java |  3 +-
 6 files changed, 89 insertions(+), 92 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
index a6abb1dd..b06724a9 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
@@ -36,8 +36,8 @@ public class SearchQuery {
     @Deprecated // why does this exist?
     private double value = 0;
 
-    public static SearchQueryBuilder builder(String compiledQuery) {
-        return new SearchQueryBuilder(compiledQuery);
+    public static SearchQueryBuilder builder() {
+        return new SearchQueryBuilder();
     }
 
     public SearchQuery() {
@@ -86,15 +86,19 @@ public class SearchQuery {
     }
 
     public static class SearchQueryBuilder {
-        private final String compiledQuery;
-        private List<String> searchTermsInclude = new ArrayList<>();
-        private List<String> searchTermsExclude = new ArrayList<>();
-        private List<String> searchTermsAdvice = new ArrayList<>();
-        private List<String> searchTermsPriority = new ArrayList<>();
-        private List<SearchCoherenceConstraint> searchTermCoherences = new ArrayList<>();
+        private String compiledQuery;
+        public final List<String> searchTermsInclude = new ArrayList<>();
+        public final List<String> searchTermsExclude = new ArrayList<>();
+        public final List<String> searchTermsAdvice = new ArrayList<>();
+        public final List<String> searchTermsPriority = new ArrayList<>();
+        public final List<SearchCoherenceConstraint> searchTermCoherences = new ArrayList<>();
 
-        private SearchQueryBuilder(String compiledQuery) {
-            this.compiledQuery = compiledQuery;
+        private SearchQueryBuilder() {
+        }
+
+        public SearchQueryBuilder compiledQuery(String query) {
+            this.compiledQuery = query;
+            return this;
         }
 
         public SearchQueryBuilder include(String... terms) {
@@ -117,7 +121,7 @@ public class SearchQuery {
             return this;
         }
 
-        public SearchQueryBuilder coherences(SearchCoherenceConstraint constraint) {
+        public SearchQueryBuilder coherenceConstraint(SearchCoherenceConstraint constraint) {
             searchTermCoherences.add(constraint);
             return this;
         }
@@ -125,5 +129,13 @@ public class SearchQuery {
         public SearchQuery build() {
             return new SearchQuery(compiledQuery, searchTermsInclude, searchTermsExclude, searchTermsAdvice, searchTermsPriority, searchTermCoherences);
         }
+
+        /** If there are no ranking terms, promote the advice terms to ranking terms */
+        public void promoteNonRankingTerms() {
+            if (searchTermsInclude.isEmpty() && !searchTermsAdvice.isEmpty()) {
+                searchTermsInclude.addAll(searchTermsAdvice);
+                searchTermsAdvice.clear();
+            }
+        }
     }
 }
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
index 3f92a594..2c5eaed1 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
@@ -1,6 +1,7 @@
 package nu.marginalia.functions.searchquery.query_parser;
 
 import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
+import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.language.WordPatterns;
 import nu.marginalia.util.transform_list.TransformList;
 
@@ -104,15 +105,19 @@ public class QueryParser {
         String str = t.str();
 
         if (str.startsWith("q") && str.matches("q[=><]\\d+")) {
-            entity.replace(new QueryToken.QualityTerm(str.substring(1)));
+            var limit = parseSpecificationLimit(str.substring(1));
+            entity.replace(new QueryToken.QualityTerm(limit, str));
         } else if (str.startsWith("near:")) {
             entity.replace(new QueryToken.NearTerm(str.substring(5)));
         } else if (str.startsWith("year") && str.matches("year[=><]\\d{4}")) {
-            entity.replace(new QueryToken.YearTerm(str.substring(4)));
+            var limit = parseSpecificationLimit(str.substring(4));
+            entity.replace(new QueryToken.YearTerm(limit, str));
         } else if (str.startsWith("size") && str.matches("size[=><]\\d+")) {
-            entity.replace(new QueryToken.SizeTerm(str.substring(4)));
+            var limit = parseSpecificationLimit(str.substring(4));
+            entity.replace(new QueryToken.SizeTerm(limit, str));
         } else if (str.startsWith("rank") && str.matches("rank[=><]\\d+")) {
-            entity.replace(new QueryToken.RankTerm(str.substring(4)));
+            var limit = parseSpecificationLimit(str.substring(4));
+            entity.replace(new QueryToken.RankTerm(limit, str));
         } else if (str.startsWith("qs=")) {
             entity.replace(new QueryToken.QsTerm(str.substring(3)));
         } else if (str.contains(":")) {
@@ -120,6 +125,21 @@ public class QueryParser {
         }
     }
 
+    private static SpecificationLimit parseSpecificationLimit(String str) {
+        int startChar = str.charAt(0);
+
+        int val = Integer.parseInt(str.substring(1));
+        if (startChar == '=') {
+            return SpecificationLimit.equals(val);
+        } else if (startChar == '<') {
+            return SpecificationLimit.lessThan(val);
+        } else if (startChar == '>') {
+            return SpecificationLimit.greaterThan(val);
+        } else {
+            return SpecificationLimit.none();
+        }
+    }
+
     private static void handleAdvisoryTerms(TransformList<QueryToken>.Entity entity) {
         var t = entity.value();
         if (t instanceof QueryToken.LParen) {
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/token/QueryToken.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/token/QueryToken.java
index b11fe370..175db074 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/token/QueryToken.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/token/QueryToken.java
@@ -1,6 +1,8 @@
 package nu.marginalia.functions.searchquery.query_parser.token;
 
 
+import nu.marginalia.index.query.limit.SpecificationLimit;
+
 public sealed interface QueryToken {
     String str();
     String displayStr();
@@ -11,25 +13,18 @@ public sealed interface QueryToken {
     record AdviceTerm(String str, String displayStr) implements QueryToken {}
     record PriorityTerm(String str, String displayStr) implements QueryToken {}
 
-    record QualityTerm(String str) implements QueryToken {
-        public String displayStr() {
-            return "q" + str;
-        }
+    record QualityTerm(SpecificationLimit limit, String displayStr) implements QueryToken {
+        public String str() { return displayStr; }
+
     }
-    record YearTerm(String str) implements QueryToken {
-        public String displayStr() {
-            return "year" + str;
-        }
+    record YearTerm(SpecificationLimit limit, String displayStr) implements QueryToken {
+        public String str() { return displayStr; }
     }
-    record SizeTerm(String str) implements QueryToken {
-        public String displayStr() {
-            return "size" + str;
-        }
+    record SizeTerm(SpecificationLimit limit, String displayStr) implements QueryToken {
+        public String str() { return displayStr; }
     }
-    record RankTerm(String str) implements QueryToken {
-        public String displayStr() {
-            return "rank" + str;
-        }
+    record RankTerm(SpecificationLimit limit, String displayStr) implements QueryToken {
+        public String str() { return displayStr; }
     }
     record NearTerm(String str) implements QueryToken {
         public String displayStr() {
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
index 400ba998..9b66d150 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
@@ -53,11 +53,7 @@ public class QueryFactory {
             basicQuery.clear();
         }
 
-        List<String> searchTermsExclude = new ArrayList<>();
-        List<String> searchTermsInclude = new ArrayList<>();
-        List<String> searchTermsAdvice = new ArrayList<>();
-        List<String> searchTermsPriority = new ArrayList<>();
-        List<SearchCoherenceConstraint> searchTermCoherences = new ArrayList<>();
+        SearchQuery.SearchQueryBuilder queryBuilder = SearchQuery.builder();
 
         SpecificationLimit qualityLimit = SpecificationLimit.none();
         SpecificationLimit year = SpecificationLimit.none();
@@ -77,51 +73,48 @@ public class QueryFactory {
 
                     if (parts.length > 1) {
                         // Require that the terms appear in sequence
-                        searchTermCoherences.add(SearchCoherenceConstraint.mandatory(parts));
+                        queryBuilder.coherenceConstraint(SearchCoherenceConstraint.mandatory(parts));
 
                         // Construct a regular query from the parts in the quoted string
-                        searchTermsInclude.addAll(Arrays.asList(parts));
+                        queryBuilder.include(parts);
 
                         // Prefer that the actual n-gram is present
-                        searchTermsPriority.add(str);
+                        queryBuilder.priority(str);
                     }
                     else {
                         // If the quoted word is a single word, we don't need to do more than include it in the search
-                        searchTermsInclude.add(str);
+                        queryBuilder.include(str);
                     }
                 }
+
                 case QueryToken.LiteralTerm(String str, String displayStr) -> {
                     analyzeSearchTerm(problems, str, displayStr);
                     searchTermsHuman.addAll(Arrays.asList(displayStr.split("\\s+")));
 
-                    searchTermsInclude.add(str);
+                    queryBuilder.include(str);
                 }
 
-
-                case QueryToken.ExcludeTerm(String str, String displayStr) -> searchTermsExclude.add(str);
-                case QueryToken.PriorityTerm(String str, String displayStr) -> searchTermsPriority.add(str);
+                case QueryToken.ExcludeTerm(String str, String displayStr) -> queryBuilder.exclude(str);
+                case QueryToken.PriorityTerm(String str, String displayStr) -> queryBuilder.priority(str);
                 case QueryToken.AdviceTerm(String str, String displayStr) -> {
-                    searchTermsAdvice.add(str);
+                    queryBuilder.advice(str);
 
                     if (str.toLowerCase().startsWith("site:")) {
                         domain = str.substring("site:".length());
                     }
                 }
 
-                case QueryToken.YearTerm(String str) -> year = parseSpecificationLimit(str);
-                case QueryToken.SizeTerm(String str) -> size = parseSpecificationLimit(str);
-                case QueryToken.RankTerm(String str) -> rank = parseSpecificationLimit(str);
-                case QueryToken.QualityTerm(String str) -> qualityLimit = parseSpecificationLimit(str);
+                case QueryToken.YearTerm(SpecificationLimit limit, String displayStr) -> year = limit;
+                case QueryToken.SizeTerm(SpecificationLimit limit, String displayStr) -> size = limit;
+                case QueryToken.RankTerm(SpecificationLimit limit, String displayStr) -> rank = limit;
+                case QueryToken.QualityTerm(SpecificationLimit limit, String displayStr) -> qualityLimit = limit;
                 case QueryToken.QsTerm(String str) -> queryStrategy = parseQueryStrategy(str);
 
                 default -> {}
             }
         }
 
-        if (searchTermsInclude.isEmpty() && !searchTermsAdvice.isEmpty()) {
-            searchTermsInclude.addAll(searchTermsAdvice);
-            searchTermsAdvice.clear();
-        }
+        queryBuilder.promoteNonRankingTerms();
 
         List<Integer> domainIds = params.domainIds();
 
@@ -131,25 +124,18 @@ public class QueryFactory {
             limits = limits.forSingleDomain();
         }
 
-        var expansion = queryExpansion.expandQuery(searchTermsInclude);
+        var expansion = queryExpansion.expandQuery(queryBuilder.searchTermsInclude);
 
         // Query expansion may produce suggestions for coherence constraints,
         // add these to the query
         for (var coh : expansion.extraCoherences()) {
-            searchTermCoherences.add(SearchCoherenceConstraint.optional(coh));
+            queryBuilder.coherenceConstraint(SearchCoherenceConstraint.optional(coh));
         }
 
-        var searchQuery = new SearchQuery(
-                expansion.compiledQuery(),
-                searchTermsInclude,
-                searchTermsExclude,
-                searchTermsAdvice,
-                searchTermsPriority,
-                searchTermCoherences
-        );
+        queryBuilder.compiledQuery(expansion.compiledQuery());
 
         var specsBuilder = SearchSpecification.builder()
-                .query(searchQuery)
+                .query(queryBuilder.build())
                 .humanQuery(query)
                 .quality(qualityLimit)
                 .year(year)
@@ -180,20 +166,7 @@ public class QueryFactory {
             problems.add("Search term \"" + displayStr + "\" too long");
         }
     }
-    private SpecificationLimit parseSpecificationLimit(String str) {
-        int startChar = str.charAt(0);
 
-        int val = Integer.parseInt(str.substring(1));
-        if (startChar == '=') {
-            return SpecificationLimit.equals(val);
-        } else if (startChar == '<') {
-            return SpecificationLimit.lessThan(val);
-        } else if (startChar == '>') {
-            return SpecificationLimit.greaterThan(val);
-        } else {
-            return SpecificationLimit.none();
-        }
-    }
 
     private QueryStrategy parseQueryStrategy(String str) {
         return switch (str.toUpperCase()) {
@@ -208,14 +181,4 @@ public class QueryFactory {
             default -> QueryStrategy.AUTO;
         };
     }
-
-
-    private boolean anyPartIsStopWord(String[] parts) {
-        for (String part : parts) {
-            if (WordPatterns.isStopWord(part)) {
-                return true;
-            }
-        }
-        return false;
-    }
 }
diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index 88562307..2b59d15f 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -1,6 +1,7 @@
 package nu.marginalia.query.svc;
 
 import nu.marginalia.WmsaHome;
+import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.functions.searchquery.query_parser.QueryExpansion;
@@ -57,7 +58,12 @@ public class QueryFactoryTest {
 
     @Test
     void qsec10() {
-        try (var lines = Files.lines(Path.of("/home/vlofgren/Exports/qsec10/webis-qsec-10-training-set/webis-qsec-10-training-set-queries.txt"))) {
+        Path webis = Path.of("/home/vlofgren/Exports/qsec10/webis-qsec-10-training-set/webis-qsec-10-training-set-queries.txt");
+
+        if (!Files.exists(webis))
+            return;
+
+        try (var lines = Files.lines(webis)) {
             lines.limit(1000).forEach(line -> {
                 String[] parts = line.split("\t");
                 if (parts.length == 2) {
@@ -129,15 +135,15 @@ public class QueryFactoryTest {
         {
             // the is a stopword, so it should generate an ngram search term
             var specs = parseAndGetSpecs("\"the shining\"");
-            assertEquals("the_shining", specs.query.compiledQuery);
+            assertEquals("( shining | the_shining )", specs.query.compiledQuery);
         }
 
         {
             // tde isn't a stopword, so we should get the normal behavior
             var specs = parseAndGetSpecs("\"tde shining\"");
             assertEquals("( shining tde | tde_shining )", specs.query.compiledQuery);
-            assertEquals(List.of("tde_shining"), specs.query.searchTermsAdvice);
-            assertEquals(List.of(List.of("tde", "shining")), specs.query.searchTermCoherences);
+            assertEquals(List.of("tde_shining"), specs.query.searchTermsPriority);
+            assertEquals(List.of(new SearchCoherenceConstraint(true, List.of("tde", "shining"))), specs.query.searchTermCoherences);
         }
     }
 
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index e5040157..fe6f4354 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -169,7 +169,8 @@ public class IndexQueryServiceIntegrationSmokeTest {
                         .domains(new ArrayList<>())
                         .searchSetIdentifier("NONE")
                         .query(
-                                SearchQuery.builder("2")
+                                SearchQuery.builder()
+                                .compiledQuery("2")
                                 .include("2")
                                 .build()
                         ).build()

From 3faa5bf5210099e30e5c6b2c1ebb6ccbbf69b969 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 26 Jun 2024 14:03:30 +0200
Subject: [PATCH 022/216] (search-query) Tidy up QueryGRPCService and
 IndexClient

---
 .../client/GrpcMultiNodeChannelPool.java      |  5 ++
 .../searchquery/QueryGRPCService.java         | 57 ++++++-------------
 code/index/api/build.gradle                   |  1 +
 .../nu/marginalia/index/api/IndexClient.java  | 32 ++++++++++-
 .../marginalia/query/QueryBasicInterface.java | 14 ++---
 5 files changed, 59 insertions(+), 50 deletions(-)

diff --git a/code/common/service/java/nu/marginalia/service/client/GrpcMultiNodeChannelPool.java b/code/common/service/java/nu/marginalia/service/client/GrpcMultiNodeChannelPool.java
index d4f75e66..de74adb4 100644
--- a/code/common/service/java/nu/marginalia/service/client/GrpcMultiNodeChannelPool.java
+++ b/code/common/service/java/nu/marginalia/service/client/GrpcMultiNodeChannelPool.java
@@ -64,6 +64,11 @@ public class GrpcMultiNodeChannelPool<STUB> {
         return nodeConfigurationWatcher.getQueryNodes();
     }
 
+    /** Return the number of nodes that are eligible for broadcast-style requests */
+    public int getNumNodes() {
+        return nodeConfigurationWatcher.getQueryNodes().size();
+    }
+
     /** Create a new call builder for the given method.  This is a fluent-style
      * method, where you can chain calls to specify how to run the method.
      * <p></p>
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java
index 98f7fb6f..4da55bc1 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java
@@ -1,19 +1,17 @@
 package nu.marginalia.functions.searchquery;
 
+import com.google.common.collect.Lists;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import io.grpc.stub.StreamObserver;
 import io.prometheus.client.Histogram;
-import lombok.SneakyThrows;
 import nu.marginalia.api.searchquery.*;
 import nu.marginalia.api.searchquery.model.query.ProcessedQuery;
 import nu.marginalia.api.searchquery.model.query.QueryParams;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.db.DomainBlacklist;
 import nu.marginalia.index.api.IndexClient;
 import nu.marginalia.functions.searchquery.svc.QueryFactory;
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
-import nu.marginalia.model.id.UrlIdCodec;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -33,18 +31,18 @@ public class QueryGRPCService extends QueryApiGrpc.QueryApiImplBase {
 
 
     private final QueryFactory queryFactory;
-    private final DomainBlacklist blacklist;
     private final IndexClient indexClient;
+
     @Inject
     public QueryGRPCService(QueryFactory queryFactory,
-                            DomainBlacklist blacklist,
                             IndexClient indexClient)
     {
         this.queryFactory = queryFactory;
-        this.blacklist = blacklist;
         this.indexClient = indexClient;
     }
 
+    /** GRPC endpoint that parses a query, delegates it to the index partitions, and then collects the results.
+     */
     public void query(RpcQsQuery request, StreamObserver<RpcQsResponse> responseObserver)
     {
         try {
@@ -55,16 +53,20 @@ public class QueryGRPCService extends QueryApiGrpc.QueryApiImplBase {
                 var params = QueryProtobufCodec.convertRequest(request);
                 var query = queryFactory.createQuery(params, ResultRankingParameters.sensibleDefaults());
 
-                RpcIndexQuery indexRequest = QueryProtobufCodec.convertQuery(request, query);
-                List<RpcDecoratedResultItem> bestItems = executeQueries(indexRequest, request.getQueryLimits().getResultsTotal());
+                var indexRequest = QueryProtobufCodec.convertQuery(request, query);
 
+                // Execute the query on the index partitions
+                List<RpcDecoratedResultItem> bestItems = indexClient.executeQueries(indexRequest);
+
+                 // Convert results to response and send it back
                 var responseBuilder = RpcQsResponse.newBuilder()
                         .addAllResults(bestItems)
                         .setSpecs(indexRequest)
                         .addAllSearchTermsHuman(query.searchTermsHuman);
 
-                if (query.domain != null)
+                if (query.domain != null) {
                     responseBuilder.setDomain(query.domain);
+                }
 
                 responseObserver.onNext(responseBuilder.build());
                 responseObserver.onCompleted();
@@ -75,44 +77,19 @@ public class QueryGRPCService extends QueryApiGrpc.QueryApiImplBase {
         }
     }
 
-    private static final Comparator<RpcDecoratedResultItem> comparator =
-            Comparator.comparing(RpcDecoratedResultItem::getRankingScore);
-
-
-    private boolean isBlacklisted(RpcDecoratedResultItem item) {
-        return blacklist.isBlacklisted(UrlIdCodec.getDomainId(item.getRawItem().getCombinedId()));
-    }
+    public record DetailedDirectResult(ProcessedQuery processedQuery,
+                                       List<DecoratedSearchResultItem> result) {}
 
+    /** Local query execution, without GRPC. */
     public DetailedDirectResult executeDirect(
             String originalQuery,
             QueryParams params,
-            ResultRankingParameters rankingParameters,
-            int count) {
+            ResultRankingParameters rankingParameters) {
 
         var query = queryFactory.createQuery(params, rankingParameters);
+        var items = indexClient.executeQueries(QueryProtobufCodec.convertQuery(originalQuery, query));
 
-        var items = executeQueries(
-                QueryProtobufCodec.convertQuery(originalQuery, query),
-                count)
-                .stream().map(QueryProtobufCodec::convertQueryResult)
-                .toList();
-
-        return new DetailedDirectResult(query, items);
-    }
-
-    public record DetailedDirectResult(ProcessedQuery processedQuery,
-                                List<DecoratedSearchResultItem> result) {}
-
-    @SneakyThrows
-    List<RpcDecoratedResultItem> executeQueries(RpcIndexQuery indexRequest, int totalSize) {
-        var results = indexClient.executeQueries(indexRequest);
-
-        results.sort(comparator);
-        results.removeIf(this::isBlacklisted);
-        if (results.size() > totalSize) {
-            results = results.subList(0, totalSize);
-        }
-        return results;
+        return new DetailedDirectResult(query, Lists.transform(items, QueryProtobufCodec::convertQueryResult));
     }
 
 }
diff --git a/code/index/api/build.gradle b/code/index/api/build.gradle
index 1c0873a8..7f958c0e 100644
--- a/code/index/api/build.gradle
+++ b/code/index/api/build.gradle
@@ -15,6 +15,7 @@ dependencies {
     implementation project(':code:common:model')
     implementation project(':code:common:config')
     implementation project(':code:common:service')
+    implementation project(':code:common:db')
     implementation project(':code:libraries:message-queue')
     implementation project(':code:functions:search-query:api')
 
diff --git a/code/index/api/java/nu/marginalia/index/api/IndexClient.java b/code/index/api/java/nu/marginalia/index/api/IndexClient.java
index 9dd14920..e0383a27 100644
--- a/code/index/api/java/nu/marginalia/index/api/IndexClient.java
+++ b/code/index/api/java/nu/marginalia/index/api/IndexClient.java
@@ -6,6 +6,8 @@ import lombok.SneakyThrows;
 import nu.marginalia.api.searchquery.IndexApiGrpc;
 import nu.marginalia.api.searchquery.RpcDecoratedResultItem;
 import nu.marginalia.api.searchquery.RpcIndexQuery;
+import nu.marginalia.db.DomainBlacklistImpl;
+import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.service.client.GrpcChannelPoolFactory;
 import nu.marginalia.service.client.GrpcMultiNodeChannelPool;
 import nu.marginalia.service.discovery.property.ServiceKey;
@@ -14,6 +16,7 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.util.ArrayList;
+import java.util.Comparator;
 import java.util.List;
 import java.util.concurrent.ExecutorService;
 import java.util.concurrent.Executors;
@@ -22,22 +25,34 @@ import java.util.concurrent.Executors;
 public class IndexClient {
     private static final Logger logger = LoggerFactory.getLogger(IndexClient.class);
     private final GrpcMultiNodeChannelPool<IndexApiGrpc.IndexApiBlockingStub> channelPool;
+    private final DomainBlacklistImpl blacklist;
     private static final ExecutorService executor = Executors.newFixedThreadPool(32);
 
     @Inject
-    public IndexClient(GrpcChannelPoolFactory channelPoolFactory) {
+    public IndexClient(GrpcChannelPoolFactory channelPoolFactory, DomainBlacklistImpl blacklist) {
         this.channelPool = channelPoolFactory.createMulti(
                 ServiceKey.forGrpcApi(IndexApiGrpc.class, ServicePartition.multi()),
                 IndexApiGrpc::newBlockingStub);
+        this.blacklist = blacklist;
     }
 
+    private static final Comparator<RpcDecoratedResultItem> comparator =
+            Comparator.comparing(RpcDecoratedResultItem::getRankingScore);
+
+
+    /** Execute a query on the index partitions and return the combined results. */
     @SneakyThrows
     public List<RpcDecoratedResultItem> executeQueries(RpcIndexQuery indexRequest) {
         var futures =
                 channelPool.call(IndexApiGrpc.IndexApiBlockingStub::query)
                         .async(executor)
                         .runEach(indexRequest);
-        List<RpcDecoratedResultItem> results = new ArrayList<>();
+
+        final int resultsTotal = indexRequest.getQueryLimits().getResultsTotal();
+        final int resultsUpperBound = resultsTotal * channelPool.getNumNodes();
+
+        List<RpcDecoratedResultItem> results = new ArrayList<>(resultsUpperBound);
+
         for (var future : futures) {
             try {
                 future.get().forEachRemaining(results::add);
@@ -47,7 +62,20 @@ public class IndexClient {
             }
         }
 
+        // Sort the results by ranking score and remove blacklisted domains
+        results.sort(comparator);
+        results.removeIf(this::isBlacklisted);
+
+        // Keep only as many results as were requested
+        if (results.size() > resultsTotal) {
+            results = results.subList(0, resultsTotal);
+        }
+
         return results;
     }
 
+    private boolean isBlacklisted(RpcDecoratedResultItem item) {
+        return blacklist.isBlacklisted(UrlIdCodec.getDomainId(item.getRawItem().getCombinedId()));
+    }
+
 }
diff --git a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
index 152f6a78..62af8591 100644
--- a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
+++ b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
@@ -48,10 +48,9 @@ public class QueryBasicInterface {
                 domainCount, count, 250, 8192
         ), set);
 
-        var detailedDirectResult = queryGRPCService.executeDirect(queryParams,
-                params,
-                ResultRankingParameters.sensibleDefaults(),
-                count);
+        var detailedDirectResult = queryGRPCService.executeDirect(
+                queryParams, params, ResultRankingParameters.sensibleDefaults()
+        );
 
         var results = detailedDirectResult.result();
 
@@ -85,10 +84,9 @@ public class QueryBasicInterface {
 
         var rankingParams = rankingParamsFromRequest(request);
 
-        var detailedDirectResult = queryGRPCService.executeDirect(queryString,
-                queryParams,
-                rankingParams,
-                count);
+        var detailedDirectResult = queryGRPCService.executeDirect(
+                queryString, queryParams, rankingParams
+        );
 
         var results = detailedDirectResult.result();
 

From f73fc8dd578b9d9d4f1153639c52e97d97346855 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:13:42 +0200
Subject: [PATCH 023/216] (search-query) Fix end-inclusion bug in
 QWordGraphIterator

---
 .../query_parser/model/QWordGraph.java          | 17 +++++++++++++++--
 1 file changed, 15 insertions(+), 2 deletions(-)

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/model/QWordGraph.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/model/QWordGraph.java
index 724ef6a1..d37c8bbb 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/model/QWordGraph.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/model/QWordGraph.java
@@ -248,16 +248,29 @@ public class QWordGraph implements Iterable<QWord> {
     @Override
     public Iterator<QWord> iterator() {
         return new Iterator<>() {
+            QWord next = null;
             QWord pos = QWord.beg();
 
             @Override
             public boolean hasNext() {
-                return !pos.isEnd();
+                if (next == null) {
+                    if (pos.isEnd()) {
+                        return false;
+                    }
+                    next = getNextOriginal(pos).getFirst();
+                }
+
+                return !next.isEnd();
             }
 
             @Override
             public QWord next() {
-                pos = getNextOriginal(pos).getFirst();
+                if (!hasNext()) {
+                    throw new NoSuchElementException();
+                }
+
+                pos = next;
+                next = null;
                 return pos;
             }
         };

From 87e38e6181aa1c338687f5a43a83cada12b59118 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:14:47 +0200
Subject: [PATCH 024/216] (search-query) refac: Move query factory

---
 .../functions/searchquery/{svc => }/QueryFactory.java         | 4 ++--
 .../nu/marginalia/functions/searchquery/QueryGRPCService.java | 1 -
 .../test/nu/marginalia/query/svc/QueryFactoryTest.java        | 2 +-
 3 files changed, 3 insertions(+), 4 deletions(-)
 rename code/functions/search-query/java/nu/marginalia/functions/searchquery/{svc => }/QueryFactory.java (99%)

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java
similarity index 99%
rename from code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
rename to code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java
index 9b66d150..98e2de94 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/svc/QueryFactory.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java
@@ -1,15 +1,15 @@
-package nu.marginalia.functions.searchquery.svc;
+package nu.marginalia.functions.searchquery;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.api.searchquery.model.query.*;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.functions.searchquery.query_parser.QueryExpansion;
+import nu.marginalia.functions.searchquery.query_parser.QueryParser;
 import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.language.WordPatterns;
-import nu.marginalia.functions.searchquery.query_parser.QueryParser;
 import org.apache.commons.lang3.StringUtils;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java
index 4da55bc1..e4bac6e2 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryGRPCService.java
@@ -10,7 +10,6 @@ import nu.marginalia.api.searchquery.model.query.ProcessedQuery;
 import nu.marginalia.api.searchquery.model.query.QueryParams;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.index.api.IndexClient;
-import nu.marginalia.functions.searchquery.svc.QueryFactory;
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index 2b59d15f..c8bce00f 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -5,7 +5,7 @@ import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.functions.searchquery.query_parser.QueryExpansion;
-import nu.marginalia.functions.searchquery.svc.QueryFactory;
+import nu.marginalia.functions.searchquery.QueryFactory;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;

From 935234939cf083c97eea78c8bb1740e24eb5e1f3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:15:20 +0200
Subject: [PATCH 025/216] (test) Add query parsing to IntegrationTest

---
 code/tools/integration-test/build.gradle      |  1 +
 .../test/nu/marginalia/IntegrationTest.java   | 51 ++++++++++---------
 .../{ => test}/IntegrationTestModule.java     |  6 ++-
 .../nu/marginalia/{ => test}/TestUtil.java    |  2 +-
 4 files changed, 33 insertions(+), 27 deletions(-)
 rename code/tools/integration-test/test/nu/marginalia/{ => test}/IntegrationTestModule.java (97%)
 rename code/tools/integration-test/test/nu/marginalia/{ => test}/TestUtil.java (98%)

diff --git a/code/tools/integration-test/build.gradle b/code/tools/integration-test/build.gradle
index 818ca6af..f4623a45 100644
--- a/code/tools/integration-test/build.gradle
+++ b/code/tools/integration-test/build.gradle
@@ -27,6 +27,7 @@ dependencies {
     implementation project(':code:index:query')
     implementation project(':code:index:index-journal')
     implementation project(':code:functions:link-graph:partition')
+    implementation project(':code:functions:search-query')
     implementation project(':code:libraries:array')
     implementation project(':code:common:db')
     implementation project(':code:common:config')
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 074a0264..6f829bc0 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -2,9 +2,9 @@ package nu.marginalia;
 
 import com.google.inject.Guice;
 import com.google.inject.Inject;
-import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
-import nu.marginalia.api.searchquery.model.query.SearchQuery;
-import nu.marginalia.api.searchquery.model.query.SearchSpecification;
+import nu.marginalia.api.searchquery.QueryProtobufCodec;
+import nu.marginalia.api.searchquery.RpcQsQuery;
+import nu.marginalia.api.searchquery.RpcQueryLimits;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.converting.processor.DomainProcessor;
 import nu.marginalia.converting.writer.ConverterBatchWriter;
@@ -13,6 +13,7 @@ import nu.marginalia.crawl.retreival.fetcher.ContentTags;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
 import nu.marginalia.crawling.io.CrawledDomainReader;
 import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
+import nu.marginalia.functions.searchquery.QueryFactory;
 import nu.marginalia.index.IndexGrpcService;
 import nu.marginalia.index.ReverseIndexFullFileNames;
 import nu.marginalia.index.ReverseIndexPrioFileNames;
@@ -22,10 +23,7 @@ import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.model.SearchParameters;
-import nu.marginalia.index.query.limit.QueryLimits;
-import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.index.searchset.SearchSetAny;
 import nu.marginalia.linkdb.docs.DocumentDbReader;
 import nu.marginalia.linkdb.docs.DocumentDbWriter;
@@ -43,6 +41,8 @@ import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorageBaseType;
+import nu.marginalia.test.IntegrationTestModule;
+import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.*;
 import org.mockito.Mockito;
 
@@ -93,6 +93,9 @@ public class IntegrationTest {
     @Inject
     DocumentDbReader documentDbReader;
 
+    @Inject
+    QueryFactory queryFactory;
+
     @BeforeEach
     public void setupTest() throws IOException {
         testModule = new IntegrationTestModule();
@@ -203,26 +206,24 @@ public class IntegrationTest {
         documentDbReader.reconnect();
 
         /** QUERY */
-        var rs = indexGrpcService.executeSearch(new SearchParameters(new SearchSpecification(
-                new SearchQuery("problem solving process",
-                        List.of("problem", "solving", "process"),
-                        List.of(),
-                        List.of(),
-                        List.of(),
-                        List.of(new SearchCoherenceConstraint(true, List.of("problem", "solving", "process")))
-                ),
-                null,
-                "NONE",
-                "feynman",
-                SpecificationLimit.none(),
-                SpecificationLimit.none(),
-                SpecificationLimit.none(),
-                SpecificationLimit.none(),
-                new QueryLimits(10, 10, 100, 100),
-                QueryStrategy.AUTO,
-                ResultRankingParameters.sensibleDefaults()
-        ), new SearchSetAny()));
 
+        var request = RpcQsQuery.newBuilder()
+                .setQueryLimits(RpcQueryLimits.newBuilder()
+                        .setTimeoutMs(1000)
+                        .setResultsTotal(100)
+                        .setResultsByDomain(10)
+                        .setFetchSize(1000)
+                        .build())
+                .setQueryStrategy("AUTO")
+                .setHumanQuery("problem solving process")
+                .build();
+
+        var params = QueryProtobufCodec.convertRequest(request);
+
+        var query = queryFactory.createQuery(params, ResultRankingParameters.sensibleDefaults());
+
+        var indexRequest = QueryProtobufCodec.convertQuery(request, query);
+        var rs = indexGrpcService.executeSearch(new SearchParameters(indexRequest, new SearchSetAny()));
 
         System.out.println(rs);
     }
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java b/code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java
similarity index 97%
rename from code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java
rename to code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java
index 71610e24..69b94ee8 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTestModule.java
+++ b/code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java
@@ -1,4 +1,4 @@
-package nu.marginalia;
+package nu.marginalia.test;
 
 import com.google.inject.AbstractModule;
 import com.google.inject.Inject;
@@ -6,6 +6,10 @@ import com.google.inject.Provides;
 import com.google.inject.Singleton;
 import com.google.inject.name.Names;
 import gnu.trove.list.array.TIntArrayList;
+import nu.marginalia.IndexLocations;
+import nu.marginalia.LanguageModels;
+import nu.marginalia.ProcessConfiguration;
+import nu.marginalia.WmsaHome;
 import nu.marginalia.db.DomainTypes;
 import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.journal.writer.IndexJournalWriter;
diff --git a/code/tools/integration-test/test/nu/marginalia/TestUtil.java b/code/tools/integration-test/test/nu/marginalia/test/TestUtil.java
similarity index 98%
rename from code/tools/integration-test/test/nu/marginalia/TestUtil.java
rename to code/tools/integration-test/test/nu/marginalia/test/TestUtil.java
index 0b9ce74f..43332601 100644
--- a/code/tools/integration-test/test/nu/marginalia/TestUtil.java
+++ b/code/tools/integration-test/test/nu/marginalia/test/TestUtil.java
@@ -1,4 +1,4 @@
-package nu.marginalia;
+package nu.marginalia.test;
 
 
 import java.io.File;

From 975b8ae2e9001f9bf34cbea03543b397da8bec96 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:15:31 +0200
Subject: [PATCH 026/216] (minor) Tidy code

---
 .../api/java/nu/marginalia/index/api/IndexMqEndpoints.java      | 2 --
 1 file changed, 2 deletions(-)

diff --git a/code/index/api/java/nu/marginalia/index/api/IndexMqEndpoints.java b/code/index/api/java/nu/marginalia/index/api/IndexMqEndpoints.java
index ec618912..343154b2 100644
--- a/code/index/api/java/nu/marginalia/index/api/IndexMqEndpoints.java
+++ b/code/index/api/java/nu/marginalia/index/api/IndexMqEndpoints.java
@@ -5,7 +5,5 @@ public class IndexMqEndpoints {
     public static final String INDEX_RERANK = "INDEX-RERANK";
     public static final String INDEX_REPARTITION = "INDEX-REPARTITION";
     public static final String SWITCH_INDEX = "SWITCH-INDEX";
-
     public static final String SWITCH_LINKDB = "SWITCH_LINKDB";
-
 }

From 10fe5a78cb0fe9ea860afac7abd822effd88fa47 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:19:48 +0200
Subject: [PATCH 027/216] (log) Prevent tests from trying to log to file

They would never have succeeded, but it adds an annoying preamble of error spam in the console window.
---
 code/common/service/resources/log4j2-test.xml | 15 ---------------
 1 file changed, 15 deletions(-)

diff --git a/code/common/service/resources/log4j2-test.xml b/code/common/service/resources/log4j2-test.xml
index 0181775c..6f67fb7f 100644
--- a/code/common/service/resources/log4j2-test.xml
+++ b/code/common/service/resources/log4j2-test.xml
@@ -2,22 +2,7 @@
     <Appenders>
         <Console name="Console" target="SYSTEM_OUT">
             <PatternLayout pattern="%d{HH:mm:ss,SSS} %style{%-8markerSimpleName}{FG_Cyan} %highlight{%-5level}{FATAL=red, ERROR=red, WARN=yellow} %-24t %-20c{1}  --  %msg%n"/>
-            <Filters>
-                <MarkerFilter marker="HTTP" onMatch="DENY" onMismatch="NEUTRAL" />
-            </Filters>
         </Console>
-        <RollingFile name="LogToFile" fileName="${env:WMSA_LOG_DIR:-/var/log/wmsa}/wmsa-${sys:service-name}-${env:WMSA_SERVICE_NODE:-0}.log" filePattern="/var/log/wmsa/wmsa-${sys:service-name}-${env:WMSA_SERVICE_NODE:-0}-log-%d{MM-dd-yy-HH-mm-ss}-%i.log.gz"
-                     ignoreExceptions="false">
-            <PatternLayout>
-                <Pattern>%-5level %d{yyyy-MM-dd HH:mm:ss,SSS} %-20t %-20c{1}: %msg{nolookups}%n</Pattern>
-            </PatternLayout>
-            <SizeBasedTriggeringPolicy size="10MB" />
-            <Filters>
-                <MarkerFilter marker="PROCESS" onMatch="DENY" onMismatch="NEUTRAL" />
-                <MarkerFilter marker="QUERY" onMatch="DENY" onMismatch="NEUTRAL" />
-                <MarkerFilter marker="HTTP" onMatch="DENY" onMismatch="NEUTRAL" />
-            </Filters>
-        </RollingFile>
     </Appenders>
     <Loggers>
         <Logger name="org.apache.zookeeper" level="WARN" />

From 0e4dd3d76d2832618760c6af6ae4a5e32956eec3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:40:53 +0200
Subject: [PATCH 028/216] (minor) Remove accidentally committed debug printf

---
 code/index/java/nu/marginalia/index/model/SearchParameters.java | 2 --
 1 file changed, 2 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/model/SearchParameters.java b/code/index/java/nu/marginalia/index/model/SearchParameters.java
index 1c8295d1..f0e851e5 100644
--- a/code/index/java/nu/marginalia/index/model/SearchParameters.java
+++ b/code/index/java/nu/marginalia/index/model/SearchParameters.java
@@ -71,8 +71,6 @@ public class SearchParameters {
         this.budget = new IndexSearchBudget(limits.timeoutMs() / 2);
         this.query = IndexProtobufCodec.convertRpcQuery(request.getQuery());
 
-        System.out.println(query);
-
         this.limitByDomain = limits.resultsByDomain();
         this.limitTotal = limits.resultsTotal();
 

From 738e0e5fed5bdadd9a52f8735b93e5555189cf30 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 27 Jun 2024 13:58:36 +0200
Subject: [PATCH 029/216] (process) Add option for automatic profiling

The change adds a new system property 'system.profile' that makes ProcessService automatically trigger JFR profiling of the processes it spawns.  By default, these are put in the log directory.

The change also adds a JVM parameter that makes it shut up about native access.
---
 .../nu/marginalia/process/ProcessService.java  | 18 +++++++++++++++++-
 1 file changed, 17 insertions(+), 1 deletion(-)

diff --git a/code/execution/java/nu/marginalia/process/ProcessService.java b/code/execution/java/nu/marginalia/process/ProcessService.java
index 0744267e..30f15f6e 100644
--- a/code/execution/java/nu/marginalia/process/ProcessService.java
+++ b/code/execution/java/nu/marginalia/process/ProcessService.java
@@ -19,6 +19,8 @@ import org.slf4j.MarkerFactory;
 import java.io.BufferedReader;
 import java.io.IOException;
 import java.io.InputStreamReader;
+import java.time.LocalDateTime;
+import java.time.format.DateTimeFormatter;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.List;
@@ -32,6 +34,7 @@ public class ProcessService {
     private final ServiceEventLog eventLog;
 
     private final ConcurrentHashMap<ProcessId, Process> processes = new ConcurrentHashMap<>();
+    private final int node;
 
 
     public static ProcessService.ProcessId translateExternalIdBase(String id) {
@@ -78,6 +81,7 @@ public class ProcessService {
     @Inject
     public ProcessService(BaseServiceParams params) {
         this.eventLog = params.eventLog;
+        this.node = params.configuration.node();
     }
 
 
@@ -86,7 +90,7 @@ public class ProcessService {
         List<String> args = new ArrayList<>();
         String javaHome = System.getProperty("java.home");
 
-        args.add(STR."\{javaHome}/bin/java");
+        args.add(javaHome + "/bin/java");
         args.add("-cp");
         args.add(System.getProperty("java.class.path"));
 
@@ -94,6 +98,7 @@ public class ProcessService {
         else args.add("-da");
 
         args.add("--enable-preview");
+        args.add("--enable-native-access=ALL-UNNAMED");
 
         String loggingOpts = System.getProperty("log4j2.configurationFile");
         if (loggingOpts != null) {
@@ -104,6 +109,17 @@ public class ProcessService {
             args.add("-Dsystem.serviceNode=" + System.getProperty("system.serviceNode"));
         }
 
+        if (Boolean.getBoolean("system.profile")) {
+            // add jfr options
+            args.add("-XX:+FlightRecorder");
+            String jfrFileName = "/var/log/wmsa/profile-%s-%d-%s.jfr".formatted(
+                    processId.toString(),
+                    node,
+                    LocalDateTime.now().format(DateTimeFormatter.ISO_LOCAL_DATE_TIME).replace(':', '.')
+            );
+            args.add("-XX:StartFlightRecording=filename=%s,name=%s".formatted(jfrFileName, processId.toString()));
+        }
+
         args.addAll(processId.envOpts());
         args.add(processId.mainClass);
         args.addAll(Arrays.asList(extraArgs));

From 6ee4d1eb90f08feab74bf92db32447c59ad2c1d6 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 28 Jun 2024 16:42:39 +0200
Subject: [PATCH 030/216] (keyword) Increase the work area for position
 encoding

The change also moves the allocation outside of the build()-method to allow re-use of this rather large temporary buffer.
---
 .../marginalia/keyword/model/DocumentKeywordsBuilder.java   | 3 +--
 .../nu/marginalia/keyword/DocumentKeywordExtractorTest.java | 2 +-
 .../marginalia/converting/writer/ConverterBatchWriter.java  | 4 +++-
 .../tools/experiments/SentenceStatisticsExperiment.java     | 4 +++-
 .../test/nu/marginalia/IntegrationTest.java                 | 6 +++++-
 5 files changed, 13 insertions(+), 6 deletions(-)

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 27176faf..4f757a59 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -28,14 +28,13 @@ public class DocumentKeywordsBuilder {
         this(1600);
     }
 
-    public DocumentKeywords build() {
+    public DocumentKeywords build(ByteBuffer workArea) {
         final String[] wordArray = new String[wordToMeta.size()];
         final long[] meta = new long[wordToMeta.size()];
         final GammaCodedSequence[] positions = new GammaCodedSequence[wordToMeta.size()];
 
         var iter = wordToMeta.object2LongEntrySet().fastIterator();
 
-        ByteBuffer workArea = ByteBuffer.allocate(1024);
         for (int i = 0; iter.hasNext(); i++) {
             var entry = iter.next();
 
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index 2aafdc00..2a434dc3 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -91,7 +91,7 @@ class DocumentKeywordExtractorTest {
                 new EdgeUrl("https://encyclopedia.marginalia.nu/article/Don't_Tell_Me_(Madonna_song)")
         );
 
-        var keywordsBuilt = keywords.build();
+        var keywordsBuilt = keywords.build(ByteBuffer.allocate(1024));
 
         Map<String, WordMetadata> flags = new HashMap<>();
         Map<String, GammaCodedSequence> positions = new HashMap<>();
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index cfd26fe7..9833b8d0 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -102,6 +102,8 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
 
         String domainName = domain.toString();
 
+        ByteBuffer workArea = ByteBuffer.allocate(16384);
+
         while (documentIterator.hasNext()) {
             var document = documentIterator.next();
             if (document.details == null) {
@@ -125,7 +127,7 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                         null);
             }
             else {
-                var wb = document.words.build();
+                var wb = document.words.build(workArea);
                 List<String> words = Arrays.asList(wb.keywords);
                 TLongArrayList metas = new TLongArrayList(wb.metadata);
                 List<GammaCodedSequence> positions = Arrays.asList(wb.positions);
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
index 639bb4bf..f83196e5 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
@@ -17,6 +17,7 @@ import java.io.BufferedOutputStream;
 import java.io.FileOutputStream;
 import java.io.IOException;
 import java.io.PrintWriter;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
@@ -45,6 +46,7 @@ public class SentenceStatisticsExperiment extends LegacyExperiment {
 
         logLine("Processing: " + domain.domain);
 
+        ByteBuffer workArea = ByteBuffer.allocate(8192);
         for (var doc : domain.doc) {
             if (doc.documentBody == null) continue;
 
@@ -55,7 +57,7 @@ public class SentenceStatisticsExperiment extends LegacyExperiment {
             var dld = se.extractSentences(parsed);
             var keywords = documentKeywordExtractor.extractKeywords(dld, new EdgeUrl(doc.url));
 
-            keywords.build();
+            keywords.build(workArea);
         }
 
         return true;
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 6f829bc0..5428ccec 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -215,14 +215,18 @@ public class IntegrationTest {
                         .setFetchSize(1000)
                         .build())
                 .setQueryStrategy("AUTO")
-                .setHumanQuery("problem solving process")
+                .setHumanQuery("\"This is how thinking works\"")
                 .build();
 
         var params = QueryProtobufCodec.convertRequest(request);
 
         var query = queryFactory.createQuery(params, ResultRankingParameters.sensibleDefaults());
 
+
         var indexRequest = QueryProtobufCodec.convertQuery(request, query);
+
+        System.out.println(indexRequest);
+
         var rs = indexGrpcService.executeSearch(new SearchParameters(indexRequest, new SearchSetAny()));
 
         System.out.println(rs);

From 4fbb863a10287b8e2cbe423236dd3dd2a449b872 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 30 Jun 2024 22:41:38 +0200
Subject: [PATCH 031/216] (keyword-extraction) Add upper limit to number of
 positions per word

Also adding some logging for this event to get a feel for how big these lists get with realistic data.  To be cleaned up later.
---
 .../keyword/model/DocumentKeywordsBuilder.java    | 15 ++++++++++++++-
 1 file changed, 14 insertions(+), 1 deletion(-)

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 4f757a59..c12f5fff 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -7,6 +7,8 @@ import lombok.Getter;
 import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.sequence.GammaCodedSequence;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
 
 import java.nio.ByteBuffer;
 import java.util.*;
@@ -23,6 +25,9 @@ public class DocumentKeywordsBuilder {
     // granted, some of these words are word n-grams, but 64 ought to
     // be plenty. The lexicon writer has another limit that's higher.
     private final int MAX_WORD_LENGTH = 64;
+    private final int MAX_POSITIONS_PER_WORD = 100;
+
+    private static final Logger logger = LoggerFactory.getLogger(DocumentKeywordsBuilder.class);
 
     public DocumentKeywordsBuilder() {
         this(1600);
@@ -40,7 +45,15 @@ public class DocumentKeywordsBuilder {
 
             meta[i] = entry.getLongValue();
             wordArray[i] = entry.getKey();
-            positions[i] = GammaCodedSequence.generate(workArea, wordToPos.getOrDefault(entry.getKey(), IntList.of()));
+
+            var posList = wordToPos.getOrDefault(entry.getKey(), IntList.of());
+
+            if (posList.size() > MAX_POSITIONS_PER_WORD) {
+                logger.info("Truncating positions for word {}: was {}", entry.getKey(), posList.size());
+                posList.subList(MAX_POSITIONS_PER_WORD, posList.size()).clear();
+            }
+
+            positions[i] = GammaCodedSequence.generate(workArea, posList);
         }
 
         return new DocumentKeywords(wordArray, meta, positions);

From a6e15cb338ec691e09cc8ea7de2193f59bbd5f38 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 30 Jun 2024 22:46:56 +0200
Subject: [PATCH 032/216] (keyword-extraction) Update upper limit to number of
 positions per word

100 was a bit too low, let's try 256.
---
 .../nu/marginalia/keyword/model/DocumentKeywordsBuilder.java  | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index c12f5fff..f1f24a41 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -25,7 +25,7 @@ public class DocumentKeywordsBuilder {
     // granted, some of these words are word n-grams, but 64 ought to
     // be plenty. The lexicon writer has another limit that's higher.
     private final int MAX_WORD_LENGTH = 64;
-    private final int MAX_POSITIONS_PER_WORD = 100;
+    private final int MAX_POSITIONS_PER_WORD = 256;
 
     private static final Logger logger = LoggerFactory.getLogger(DocumentKeywordsBuilder.class);
 
@@ -49,7 +49,7 @@ public class DocumentKeywordsBuilder {
             var posList = wordToPos.getOrDefault(entry.getKey(), IntList.of());
 
             if (posList.size() > MAX_POSITIONS_PER_WORD) {
-                logger.info("Truncating positions for word {}: was {}", entry.getKey(), posList.size());
+                logger.info("Truncating positions for word '{}', count was {}", entry.getKey(), posList.size());
                 posList.subList(MAX_POSITIONS_PER_WORD, posList.size()).clear();
             }
 

From e8ab1e14e006e37f5692a8f2fadfd3936106fa70 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 2 Jul 2024 20:52:32 +0200
Subject: [PATCH 033/216] (keyword-extraction) Update upper limit to number of
 positions per word

After real-world testing, it was determined that 256 was still a bit too low, but 512 seems like it will only truncate outlier cases like assembly code and certain tabulations.
---
 .../nu/marginalia/keyword/model/DocumentKeywordsBuilder.java   | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index f1f24a41..efb652af 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -25,7 +25,7 @@ public class DocumentKeywordsBuilder {
     // granted, some of these words are word n-grams, but 64 ought to
     // be plenty. The lexicon writer has another limit that's higher.
     private final int MAX_WORD_LENGTH = 64;
-    private final int MAX_POSITIONS_PER_WORD = 256;
+    private final int MAX_POSITIONS_PER_WORD = 512;
 
     private static final Logger logger = LoggerFactory.getLogger(DocumentKeywordsBuilder.class);
 
@@ -49,7 +49,6 @@ public class DocumentKeywordsBuilder {
             var posList = wordToPos.getOrDefault(entry.getKey(), IntList.of());
 
             if (posList.size() > MAX_POSITIONS_PER_WORD) {
-                logger.info("Truncating positions for word '{}', count was {}", entry.getKey(), posList.size());
                 posList.subList(MAX_POSITIONS_PER_WORD, posList.size()).clear();
             }
 

From d023e399d20e19bf27afec9e8e95be6fa52a259f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 4 Jul 2024 15:24:53 +0200
Subject: [PATCH 034/216] (index) Remove unnecessary allocations in journal
 reader

The term data iterator is quite hot and was performing buffer slice operations that were not necessary.

Replacing with a fixed pointer alias that can be repositioned to the relevant data.

The positions data was also being wrapped in a GammaCodedSequence only to be immediately un-wrapped.

Removed this unnecessary step and move to copying the buffer directly instead.
---
 .../journal/model/IndexJournalEntryTermData.java   | 10 +++++++---
 .../journal/reader/IndexJournalReadEntry.java      | 14 +++++++++-----
 .../construction/PositionsFileConstructor.java     | 13 +++++++------
 .../construction/ReversePreindexDocuments.java     |  2 +-
 4 files changed, 24 insertions(+), 15 deletions(-)

diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
index c9de3da1..cf6f7e52 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
@@ -2,19 +2,23 @@ package nu.marginalia.index.journal.model;
 
 import nu.marginalia.sequence.GammaCodedSequence;
 
+import java.nio.ByteBuffer;
+
 /** Data corresponding to a term in a document in the index journal.
  *
  * @param termId the id of the term
  * @param metadata the metadata of the term
- * @param positions the positions of the word in the document, gamma coded
+ * @param positionsBuffer buffer holding positions of the word in the document, gamma coded
  *
  * @see GammaCodedSequence
  */
 public record IndexJournalEntryTermData(
         long termId,
         long metadata,
-        GammaCodedSequence positions)
+        ByteBuffer positionsBuffer)
 {
-
+    public GammaCodedSequence positions() {
+        return new GammaCodedSequence(positionsBuffer);
+    }
 
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
index e39a1e4b..e5756bf4 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
@@ -3,7 +3,6 @@ package nu.marginalia.index.journal.reader;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
 import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.DataInputStream;
 import java.io.IOException;
@@ -14,6 +13,7 @@ public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData
     public final IndexJournalEntryHeader header;
 
     private final ByteBuffer buffer;
+
     private final int initialPos;
 
     public IndexJournalReadEntry(IndexJournalEntryHeader header, ByteBuffer buffer) {
@@ -75,9 +75,13 @@ public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData
 class TermDataIterator implements Iterator<IndexJournalEntryTermData> {
     private final ByteBuffer buffer;
 
+    // Pointer alias to buffer, used to reduce slice() allocation overhead in the iterator
+    private final ByteBuffer alias;
+
     TermDataIterator(ByteBuffer buffer, int initialPos) {
         this.buffer = buffer;
         this.buffer.position(initialPos);
+        this.alias = buffer.duplicate();
     }
 
     @Override
@@ -94,14 +98,14 @@ class TermDataIterator implements Iterator<IndexJournalEntryTermData> {
         // read the size of the sequence data
         int size = buffer.getShort() & 0xFFFF;
 
-        // slice the buffer to get the sequence data
-        var slice = buffer.slice(buffer.position(), size);
-        var sequence = new GammaCodedSequence(slice);
+        // position the alias buffer to the term data
+        alias.limit(buffer.position() + size);
+        alias.position(buffer.position());
 
         // advance the buffer position to the next term
         buffer.position(buffer.position() + size);
 
-        return new IndexJournalEntryTermData(termId, meta, sequence);
+        return new IndexJournalEntryTermData(termId, meta, alias);
     }
 
 }
\ No newline at end of file
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
index 9cbd6b14..c5d4c15b 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
@@ -24,11 +24,12 @@ import java.nio.file.StandardOpenOption;
  * each posting in the file.
  */
 public class PositionsFileConstructor implements AutoCloseable {
+    private final ByteBuffer workBuffer = ByteBuffer.allocate(65536);
+    
     private final Path file;
     private final FileChannel channel;
 
     private long offset;
-    private final ByteBuffer workBuffer = ByteBuffer.allocate(8192);
 
     public PositionsFileConstructor(Path file) throws IOException {
         this.file = file;
@@ -38,21 +39,21 @@ public class PositionsFileConstructor implements AutoCloseable {
 
     /** Add a term to the positions file
      * @param termMeta the term metadata
-     * @param positions the positions of the term
+     * @param positionsBuffer the positions of the term
      * @return the offset of the term in the file, with the size of the data in the highest byte
      */
-    public long add(byte termMeta, GammaCodedSequence positions) throws IOException {
+    public long add(byte termMeta, ByteBuffer positionsBuffer) throws IOException {
         synchronized (file) {
-            var positionBuffer = positions.buffer();
-            int size = 1 + positionBuffer.remaining();
+            int size = 1 + positionsBuffer.remaining();
 
             if (workBuffer.remaining() < size) {
                 workBuffer.flip();
                 channel.write(workBuffer);
                 workBuffer.clear();
             }
+
             workBuffer.put(termMeta);
-            workBuffer.put(positionBuffer);
+            workBuffer.put(positionsBuffer);
 
             long ret = PositionCodec.encode(size, offset);
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
index 3f97061a..d0d5ed7e 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
@@ -87,7 +87,7 @@ public class ReversePreindexDocuments {
                     long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
 
                     // write position data to the positions file and get the offset
-                    long encodedPosOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positions());
+                    long encodedPosOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positionsBuffer());
 
                     assembly.put(offset + 0, rankEncodedId);
                     assembly.put(offset + 1, encodedPosOffset);

From a6b03a66dcfbc6b4e945c7f3a9056f0b82cdc6f0 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 4 Jul 2024 20:49:07 +0200
Subject: [PATCH 035/216] (crawl)  Reduce Charset.forName() object churn

Cache the Charset object returned from Charset.forName() for future use, since we're likely to see the same charset again and Charset.forName(...) can be surprisingly expensive and its built-in caching strategy, which just caches the 2 last values seen doesn't cope well with how we're hitting it with a wide array of random charsets
---
 .../java/nu/marginalia/contenttype/DocumentBodyToString.java | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/code/features-crawl/content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java b/code/features-crawl/content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
index 7fe604f4..a867a3c2 100644
--- a/code/features-crawl/content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
+++ b/code/features-crawl/content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
@@ -1,8 +1,11 @@
 package nu.marginalia.contenttype;
 
 import java.nio.charset.*;
+import java.util.Map;
+import java.util.concurrent.ConcurrentHashMap;
 
 public class DocumentBodyToString {
+    private static final Map<String, Charset> charsetMap = new ConcurrentHashMap<>();
 
     /** Get the string data from a document body, given the content type and charset */
     public static String getStringData(ContentType type, byte[] data) {
@@ -11,7 +14,7 @@ public class DocumentBodyToString {
             if (type.charset() == null || type.charset().isBlank())
                 charset = StandardCharsets.UTF_8;
             else {
-                charset = Charset.forName(type.charset());
+                charset = charsetMap.computeIfAbsent(type.charset(), Charset::forName);
             }
         }
         catch (IllegalCharsetNameException ex) {

From a4ecd5f4ce8dd2622a91781c3d222617c12cfe1e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 6 Jul 2024 15:11:43 +0200
Subject: [PATCH 036/216] (minor) Fix non-compiling test due to previous
 refactor

---
 .../test/nu/marginalia/index/PositionsFileReaderTest.java   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
index 5dd2be3a..34274635 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
@@ -35,9 +35,9 @@ class PositionsFileReaderTest {
         ByteBuffer workArea = ByteBuffer.allocate(8192);
         long key1, key2, key3;
         try (PositionsFileConstructor constructor = new PositionsFileConstructor(file)) {
-            key1 = constructor.add((byte) 43, GammaCodedSequence.generate(workArea, 1, 2, 3));
-            key2 = constructor.add((byte) 51, GammaCodedSequence.generate(workArea, 2, 3, 5, 1000, 5000, 20241));
-            key3 = constructor.add((byte) 61, GammaCodedSequence.generate(workArea, 3, 5, 7));
+            key1 = constructor.add((byte) 43, GammaCodedSequence.generate(workArea, 1, 2, 3).buffer());
+            key2 = constructor.add((byte) 51, GammaCodedSequence.generate(workArea, 2, 3, 5, 1000, 5000, 20241).buffer());
+            key3 = constructor.add((byte) 61, GammaCodedSequence.generate(workArea, 3, 5, 7).buffer());
         }
 
         System.out.println("key1: " + Long.toHexString(key1));

From 85c99ae808636569908cffac10dd14e1c6523343 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 6 Jul 2024 15:44:47 +0200
Subject: [PATCH 037/216] (index-reverse) Split index construction into
 separate packages for full and priority index

---
 .../FullIndexBTreeTransformer.java}           |  12 +-
 .../FullIndexConstructor.java}                |  31 +-
 .../FullPreindex.java}                        |  74 +++--
 .../FullPreindexDocuments.java}               |  22 +-
 .../FullPreindexReference.java}               |  16 +-
 .../FullPreindexWordSegments.java}            |  20 +-
 .../prio/PrioIndexBTreeTransformer.java       |  48 +++
 .../prio/PrioIndexConstructor.java            | 114 +++++++
 .../index/construction/prio/PrioPreindex.java | 310 ++++++++++++++++++
 .../prio/PrioPreindexDocuments.java           | 141 ++++++++
 .../prio/PrioPreindexReference.java           |  36 ++
 .../prio/PrioPreindexWordSegments.java        | 205 ++++++++++++
 .../index/ReverseIndexReaderTest.java         |  10 +-
 .../FullPreindexDocsTest.java}                |  20 +-
 .../FullPreindexFinalizeTest.java}            |  12 +-
 .../FullPreindexMergeTest.java}               |  18 +-
 .../FullPreindexWordSegmentsTest.java}        |  18 +-
 .../{ => full}/TestJournalFactory.java        |   2 +-
 .../{ => full}/TestSegmentData.java           |   2 +-
 .../index/CombinedIndexReaderTest.java        |   9 +-
 ...IndexQueryServiceIntegrationSmokeTest.java |   6 +-
 .../IndexQueryServiceIntegrationTest.java     |   6 +-
 .../index/IndexConstructorMain.java           |   7 +-
 .../test/nu/marginalia/IntegrationTest.java   |   6 +-
 24 files changed, 1006 insertions(+), 139 deletions(-)
 rename code/index/index-reverse/java/nu/marginalia/index/construction/{ReverseIndexBTreeTransformer.java => full/FullIndexBTreeTransformer.java} (73%)
 rename code/index/index-reverse/java/nu/marginalia/index/construction/{ReverseIndexConstructor.java => full/FullIndexConstructor.java} (74%)
 rename code/index/index-reverse/java/nu/marginalia/index/construction/{ReversePreindex.java => full/FullPreindex.java} (79%)
 rename code/index/index-reverse/java/nu/marginalia/index/construction/{ReversePreindexDocuments.java => full/FullPreindexDocuments.java} (84%)
 rename code/index/index-reverse/java/nu/marginalia/index/construction/{ReversePreindexReference.java => full/FullPreindexReference.java} (62%)
 rename code/index/index-reverse/java/nu/marginalia/index/construction/{ReversePreindexWordSegments.java => full/FullPreindexWordSegments.java} (89%)
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
 rename code/index/index-reverse/test/nu/marginalia/index/construction/{ReversePreindexDocsTest.java => full/FullPreindexDocsTest.java} (86%)
 rename code/index/index-reverse/test/nu/marginalia/index/construction/{ReversePreindexFinalizeTest.java => full/FullPreindexFinalizeTest.java} (91%)
 rename code/index/index-reverse/test/nu/marginalia/index/construction/{ReversePreindexMergeTest.java => full/FullPreindexMergeTest.java} (95%)
 rename code/index/index-reverse/test/nu/marginalia/index/construction/{ReversePreindexWordSegmentsTest.java => full/FullPreindexWordSegmentsTest.java} (90%)
 rename code/index/index-reverse/test/nu/marginalia/index/construction/{ => full}/TestJournalFactory.java (98%)
 rename code/index/index-reverse/test/nu/marginalia/index/construction/{ => full}/TestSegmentData.java (96%)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexBTreeTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java
similarity index 73%
rename from code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexBTreeTransformer.java
rename to code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java
index dd5499bf..ccf21331 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexBTreeTransformer.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java
@@ -1,4 +1,4 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.algo.LongArrayTransformations;
@@ -9,7 +9,7 @@ import java.io.IOException;
 import java.nio.channels.FileChannel;
 
 /** Constructs the BTrees in a reverse index */
-public class ReverseIndexBTreeTransformer implements LongArrayTransformations.LongIOTransformer {
+public class FullIndexBTreeTransformer implements LongArrayTransformations.LongIOTransformer {
     private final BTreeWriter writer;
     private final FileChannel intermediateChannel;
 
@@ -18,10 +18,10 @@ public class ReverseIndexBTreeTransformer implements LongArrayTransformations.Lo
     long start = 0;
     long writeOffset = 0;
 
-    public ReverseIndexBTreeTransformer(LongArray urlsFileMap,
-                                        int entrySize,
-                                        BTreeContext bTreeContext,
-                                        FileChannel intermediateChannel) {
+    public FullIndexBTreeTransformer(LongArray urlsFileMap,
+                                     int entrySize,
+                                     BTreeContext bTreeContext,
+                                     FileChannel intermediateChannel) {
         this.writer = new BTreeWriter(urlsFileMap, bTreeContext);
         this.entrySize = entrySize;
         this.intermediateChannel = intermediateChannel;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
similarity index 74%
rename from code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
rename to code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
index 9fa3ed93..db7d5604 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReverseIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
@@ -1,6 +1,9 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import lombok.SneakyThrows;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.JournalReaderSource;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.index.journal.IndexJournalFileNames;
 import org.slf4j.Logger;
@@ -10,9 +13,9 @@ import java.io.IOException;
 import java.nio.file.Path;
 import java.util.concurrent.atomic.AtomicInteger;
 
-public class ReverseIndexConstructor {
+public class FullIndexConstructor {
 
-    private static final Logger logger = LoggerFactory.getLogger(ReverseIndexConstructor.class);
+    private static final Logger logger = LoggerFactory.getLogger(FullIndexConstructor.class);
 
     public enum CreateReverseIndexSteps {
         CONSTRUCT,
@@ -27,12 +30,12 @@ public class ReverseIndexConstructor {
     private final DocIdRewriter docIdRewriter;
     private final Path tmpDir;
 
-    public ReverseIndexConstructor(Path outputFileDocs,
-                                   Path outputFileWords,
-                                   Path outputFilePositions,
-                                   JournalReaderSource readerSource,
-                                   DocIdRewriter docIdRewriter,
-                                   Path tmpDir) {
+    public FullIndexConstructor(Path outputFileDocs,
+                                Path outputFileWords,
+                                Path outputFilePositions,
+                                JournalReaderSource readerSource,
+                                DocIdRewriter docIdRewriter,
+                                Path tmpDir) {
         this.outputFileDocs = outputFileDocs;
         this.outputFileWords = outputFileWords;
         this.outputFilePositions = outputFilePositions;
@@ -77,20 +80,20 @@ public class ReverseIndexConstructor {
     }
 
     @SneakyThrows
-    private ReversePreindexReference construct(Path input, PositionsFileConstructor positionsFileConstructor) {
-        return ReversePreindex
+    private FullPreindexReference construct(Path input, PositionsFileConstructor positionsFileConstructor) {
+        return FullPreindex
                 .constructPreindex(readerSource.construct(input), positionsFileConstructor, docIdRewriter, tmpDir)
                 .closeToReference();
     }
 
     @SneakyThrows
-    private ReversePreindexReference merge(ReversePreindexReference leftR, ReversePreindexReference rightR) {
+    private FullPreindexReference merge(FullPreindexReference leftR, FullPreindexReference rightR) {
 
         var left = leftR.open();
         var right = rightR.open();
 
         try {
-            return ReversePreindex.merge(tmpDir, left, right).closeToReference();
+            return FullPreindex.merge(tmpDir, left, right).closeToReference();
         }
         finally {
             left.delete();
@@ -101,7 +104,7 @@ public class ReverseIndexConstructor {
     }
 
     @SneakyThrows
-    private void finalizeIndex(ReversePreindexReference finalPR) {
+    private void finalizeIndex(FullPreindexReference finalPR) {
         var finalP = finalPR.open();
         finalP.finalizeIndex(outputFileDocs, outputFileWords);
         finalP.delete();
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
similarity index 79%
rename from code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java
rename to code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
index 3abe8171..668263d8 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
@@ -1,9 +1,13 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.btree.BTreeWriter;
 import nu.marginalia.index.ReverseIndexParameters;
+import nu.marginalia.index.construction.CountToOffsetTransformer;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.IndexSizeEstimator;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -25,13 +29,13 @@ import static nu.marginalia.array.algo.TwoArrayOperations.*;
  * the union of their data.  This operation requires no additional
  * RAM.
  */
-public class ReversePreindex {
-    final ReversePreindexWordSegments segments;
-    final ReversePreindexDocuments documents;
+public class FullPreindex {
+    final FullPreindexWordSegments segments;
+    final FullPreindexDocuments documents;
 
-    private static final Logger logger = LoggerFactory.getLogger(ReversePreindex.class);
+    private static final Logger logger = LoggerFactory.getLogger(FullPreindex.class);
 
-    public ReversePreindex(ReversePreindexWordSegments segments, ReversePreindexDocuments documents) {
+    public FullPreindex(FullPreindexWordSegments segments, FullPreindexDocuments documents) {
         this.segments = segments;
         this.documents = documents;
     }
@@ -39,27 +43,27 @@ public class ReversePreindex {
     /** Constructs a new preindex with the data associated with reader.  The backing files
      * will have randomly assigned names.
      */
-    public static ReversePreindex constructPreindex(IndexJournalReader reader,
-                                                    PositionsFileConstructor positionsFileConstructor,
-                                                    DocIdRewriter docIdRewriter,
-                                                    Path workDir) throws IOException
+    public static FullPreindex constructPreindex(IndexJournalReader reader,
+                                                 PositionsFileConstructor positionsFileConstructor,
+                                                 DocIdRewriter docIdRewriter,
+                                                 Path workDir) throws IOException
     {
         Path segmentWordsFile = Files.createTempFile(workDir, "segment_words", ".dat");
         Path segmentCountsFile = Files.createTempFile(workDir, "segment_counts", ".dat");
         Path docsFile = Files.createTempFile(workDir, "docs", ".dat");
 
-        var segments = ReversePreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, positionsFileConstructor, segments);
-        return new ReversePreindex(segments, docs);
+        var segments = FullPreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
+        var docs = FullPreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, positionsFileConstructor, segments);
+        return new FullPreindex(segments, docs);
     }
 
     /**  Close the associated memory mapped areas and return
      * a dehydrated version of this object that can be re-opened
      * later.
      */
-    public ReversePreindexReference closeToReference() {
+    public FullPreindexReference closeToReference() {
         try {
-            return new ReversePreindexReference(segments, documents);
+            return new FullPreindexReference(segments, documents);
         }
         finally {
             segments.force();
@@ -85,7 +89,7 @@ public class ReversePreindex {
         LongArray finalDocs = LongArrayFactory.mmapForWritingConfined(outputFileDocs, sizeEstimator.size);
         try (var intermediateDocChannel = documents.createDocumentsFileChannel()) {
             offsets.transformEachIO(0, offsets.size(),
-                    new ReverseIndexBTreeTransformer(finalDocs, 2,
+                    new FullIndexBTreeTransformer(finalDocs, 2,
                             ReverseIndexParameters.docsBTreeContext,
                             intermediateDocChannel));
             intermediateDocChannel.force(false);
@@ -126,11 +130,11 @@ public class ReversePreindex {
         documents.delete();
     }
 
-    public static ReversePreindex merge(Path destDir,
-                                        ReversePreindex left,
-                                        ReversePreindex right) throws IOException {
+    public static FullPreindex merge(Path destDir,
+                                     FullPreindex left,
+                                     FullPreindex right) throws IOException {
 
-        ReversePreindexWordSegments mergingSegment =
+        FullPreindexWordSegments mergingSegment =
                 createMergedSegmentWordFile(destDir, left.segments, right.segments);
 
         var mergingIter = mergingSegment.constructionIterator(2);
@@ -198,18 +202,18 @@ public class ReversePreindex {
         mergedDocuments = shrinkMergedDocuments(mergedDocuments,
                 docsFile, 2 * mergingSegment.totalSize());
 
-        return new ReversePreindex(
+        return new FullPreindex(
                 mergingSegment,
-                new ReversePreindexDocuments(mergedDocuments, docsFile)
+                new FullPreindexDocuments(mergedDocuments, docsFile)
         );
     }
 
     /** Create a segment word file with each word from both inputs, with zero counts for all the data.
      * This is an intermediate product in merging.
      */
-    static ReversePreindexWordSegments createMergedSegmentWordFile(Path destDir,
-                                                                   ReversePreindexWordSegments left,
-                                                                   ReversePreindexWordSegments right) throws IOException {
+    static FullPreindexWordSegments createMergedSegmentWordFile(Path destDir,
+                                                                FullPreindexWordSegments left,
+                                                                FullPreindexWordSegments right) throws IOException {
         Path segmentWordsFile = Files.createTempFile(destDir, "segment_words", ".dat");
         Path segmentCountsFile = Files.createTempFile(destDir, "segment_counts", ".dat");
 
@@ -228,7 +232,7 @@ public class ReversePreindex {
 
         LongArray counts = LongArrayFactory.mmapForWritingConfined(segmentCountsFile, segmentsSize);
 
-        return new ReversePreindexWordSegments(wordIdsFile, counts, segmentWordsFile, segmentCountsFile);
+        return new FullPreindexWordSegments(wordIdsFile, counts, segmentWordsFile, segmentCountsFile);
     }
 
     /** It's possible we overestimated the necessary size of the documents file,
@@ -256,12 +260,12 @@ public class ReversePreindex {
     /** Merge contents of the segments indicated by leftIter and rightIter into the destionation
      * segment, and advance the construction iterator with the appropriate size.
      */
-    private static void mergeSegments(ReversePreindexWordSegments.SegmentIterator leftIter,
-                                      ReversePreindexWordSegments.SegmentIterator rightIter,
-                                      ReversePreindexDocuments left,
-                                      ReversePreindexDocuments right,
+    private static void mergeSegments(FullPreindexWordSegments.SegmentIterator leftIter,
+                                      FullPreindexWordSegments.SegmentIterator rightIter,
+                                      FullPreindexDocuments left,
+                                      FullPreindexDocuments right,
                                       LongArray dest,
-                                      ReversePreindexWordSegments.SegmentConstructionIterator destIter)
+                                      FullPreindexWordSegments.SegmentConstructionIterator destIter)
     {
         long segSize = mergeArrays2(dest,
                 left.documents,
@@ -279,10 +283,10 @@ public class ReversePreindex {
     /** Copy the data from the source segment at the position and length indicated by sourceIter,
      * into the destination segment, and advance the construction iterator.
      */
-    private static boolean copySegment(ReversePreindexWordSegments.SegmentIterator sourceIter,
-                                    LongArray dest,
-                                    FileChannel sourceChannel,
-                                    ReversePreindexWordSegments.SegmentConstructionIterator mergingIter) throws IOException {
+    private static boolean copySegment(FullPreindexWordSegments.SegmentIterator sourceIter,
+                                       LongArray dest,
+                                       FileChannel sourceChannel,
+                                       FullPreindexWordSegments.SegmentConstructionIterator mergingIter) throws IOException {
 
         long size = sourceIter.endOffset - sourceIter.startOffset;
         long start = mergingIter.startOffset;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
similarity index 84%
rename from code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
rename to code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index d0d5ed7e..49442367 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -1,8 +1,10 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import lombok.SneakyThrows;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.rwf.RandomFileAssembler;
 import org.slf4j.Logger;
@@ -20,35 +22,35 @@ import java.util.concurrent.TimeUnit;
 /** A LongArray with document data, segmented according to
  * the associated ReversePreindexWordSegments data
  */
-public class ReversePreindexDocuments {
+public class FullPreindexDocuments {
     public final LongArray documents;
 
     private static PositionsFileConstructor positionsFileConstructor;
     private static final int RECORD_SIZE_LONGS = 2;
-    private static final Logger logger = LoggerFactory.getLogger(ReversePreindexDocuments.class);
+    private static final Logger logger = LoggerFactory.getLogger(FullPreindexDocuments.class);
 
     public final Path file;
 
-    public ReversePreindexDocuments(LongArray documents, Path file) {
+    public FullPreindexDocuments(LongArray documents, Path file) {
         this.documents = documents;
         this.file = file;
     }
 
-    public static ReversePreindexDocuments construct(
+    public static FullPreindexDocuments construct(
             Path docsFile,
             Path workDir,
             IndexJournalReader reader,
             DocIdRewriter docIdRewriter,
             PositionsFileConstructor positionsFileConstructor,
-            ReversePreindexWordSegments segments) throws IOException {
-        ReversePreindexDocuments.positionsFileConstructor = positionsFileConstructor;
+            FullPreindexWordSegments segments) throws IOException {
+        FullPreindexDocuments.positionsFileConstructor = positionsFileConstructor;
 
         createUnsortedDocsFile(docsFile, workDir, reader, segments, docIdRewriter);
 
         LongArray docsFileMap = LongArrayFactory.mmapForModifyingShared(docsFile);
         sortDocsFile(docsFileMap, segments);
 
-        return new ReversePreindexDocuments(docsFileMap, docsFile);
+        return new FullPreindexDocuments(docsFileMap, docsFile);
     }
 
     public FileChannel createDocumentsFileChannel() throws IOException {
@@ -67,7 +69,7 @@ public class ReversePreindexDocuments {
     private static void createUnsortedDocsFile(Path docsFile,
                                                Path workDir,
                                                IndexJournalReader reader,
-                                               ReversePreindexWordSegments segments,
+                                               FullPreindexWordSegments segments,
                                                DocIdRewriter docIdRewriter) throws IOException {
 
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
@@ -99,7 +101,7 @@ public class ReversePreindexDocuments {
     }
 
     @SneakyThrows
-    private static void sortDocsFile(LongArray docsFileMap, ReversePreindexWordSegments segments) throws IOException {
+    private static void sortDocsFile(LongArray docsFileMap, FullPreindexWordSegments segments) throws IOException {
 
         var iter = segments.iterator(RECORD_SIZE_LONGS);
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexReference.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java
similarity index 62%
rename from code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexReference.java
rename to code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java
index 16c542d5..9045b0c7 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexReference.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java
@@ -1,33 +1,33 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import nu.marginalia.array.LongArrayFactory;
 
 import java.io.IOException;
 import java.nio.file.Path;
 
-/** This is a dehydrated version of a ReversePreIndex, that only
+/** This is a dehydrated version of a FullPreIndex, that only
  * keeps references to its location on disk but does not hold associated
  * memory maps.
  */
-public record ReversePreindexReference(
+public record FullPreindexReference(
         Path wordsFile,
         Path countsFile,
         Path documentsFile
 )
 {
-    public ReversePreindexReference(ReversePreindexWordSegments segments, ReversePreindexDocuments documents) {
+    public FullPreindexReference(FullPreindexWordSegments segments, FullPreindexDocuments documents) {
         this(segments.wordsFile, segments.countsFile, documents.file);
     }
 
-    public ReversePreindex open() throws IOException {
-        return new ReversePreindex(
-            new ReversePreindexWordSegments(
+    public FullPreindex open() throws IOException {
+        return new FullPreindex(
+            new FullPreindexWordSegments(
                     LongArrayFactory.mmapForModifyingShared(wordsFile),
                     LongArrayFactory.mmapForModifyingShared(countsFile),
                     wordsFile,
                     countsFile
             ),
-            new ReversePreindexDocuments(
+            new FullPreindexDocuments(
                     LongArrayFactory.mmapForModifyingShared(documentsFile),
                     documentsFile
             )
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
similarity index 89%
rename from code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java
rename to code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index 0351ed45..eb744616 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/ReversePreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -1,4 +1,4 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import it.unimi.dsi.fastutil.longs.Long2IntOpenHashMap;
 import it.unimi.dsi.fastutil.longs.Long2LongOpenHashMap;
@@ -14,17 +14,17 @@ import java.nio.file.Path;
 /** A pair of file-backed arrays of sorted wordIds
  * and the count of documents associated with each termId.
  */
-public class ReversePreindexWordSegments {
+public class FullPreindexWordSegments {
     public final LongArray wordIds;
     public final LongArray counts;
 
     final Path wordsFile;
     final Path countsFile;
 
-    public ReversePreindexWordSegments(LongArray wordIds,
-                                       LongArray counts,
-                                       Path wordsFile,
-                                       Path countsFile)
+    public FullPreindexWordSegments(LongArray wordIds,
+                                    LongArray counts,
+                                    Path wordsFile,
+                                    Path countsFile)
     {
         assert wordIds.size() == counts.size();
 
@@ -51,9 +51,9 @@ public class ReversePreindexWordSegments {
         return ret;
     }
 
-    public static ReversePreindexWordSegments construct(IndexJournalReader reader,
-                                                        Path wordIdsFile,
-                                                        Path countsFile)
+    public static FullPreindexWordSegments construct(IndexJournalReader reader,
+                                                     Path wordIdsFile,
+                                                     Path countsFile)
     throws IOException
     {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
@@ -79,7 +79,7 @@ public class ReversePreindexWordSegments {
             counts.set(i, countsMap.get(words.get(i)));
         }
 
-        return new ReversePreindexWordSegments(words, counts, wordIdsFile, countsFile);
+        return new FullPreindexWordSegments(words, counts, wordIdsFile, countsFile);
     }
 
     public SegmentIterator iterator(int recordSize) {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java
new file mode 100644
index 00000000..d402405a
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java
@@ -0,0 +1,48 @@
+package nu.marginalia.index.construction.prio;
+
+import nu.marginalia.array.LongArray;
+import nu.marginalia.array.algo.LongArrayTransformations;
+import nu.marginalia.btree.BTreeWriter;
+import nu.marginalia.btree.model.BTreeContext;
+
+import java.io.IOException;
+import java.nio.channels.FileChannel;
+
+/** Constructs the BTrees in a reverse index */
+public class PrioIndexBTreeTransformer implements LongArrayTransformations.LongIOTransformer {
+    private final BTreeWriter writer;
+    private final FileChannel intermediateChannel;
+
+    private final int entrySize;
+
+    long start = 0;
+    long writeOffset = 0;
+
+    public PrioIndexBTreeTransformer(LongArray urlsFileMap,
+                                     int entrySize,
+                                     BTreeContext bTreeContext,
+                                     FileChannel intermediateChannel) {
+        this.writer = new BTreeWriter(urlsFileMap, bTreeContext);
+        this.entrySize = entrySize;
+        this.intermediateChannel = intermediateChannel;
+    }
+
+    @Override
+    public long transform(long pos, long end) throws IOException {
+
+        final int size = (int) ((end - start) / entrySize);
+
+        if (size == 0) {
+            return -1;
+        }
+
+        final long offsetForBlock = writeOffset;
+
+        writeOffset += writer.write(writeOffset, size,
+                mapRegion -> mapRegion.transferFrom(intermediateChannel, start, 0, end - start)
+        );
+
+        start = end;
+        return offsetForBlock;
+    }
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
new file mode 100644
index 00000000..4cad80b9
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
@@ -0,0 +1,114 @@
+package nu.marginalia.index.construction.prio;
+
+import lombok.SneakyThrows;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.JournalReaderSource;
+import nu.marginalia.index.construction.PositionsFileConstructor;
+import nu.marginalia.index.journal.IndexJournalFileNames;
+import nu.marginalia.process.control.ProcessHeartbeat;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.io.IOException;
+import java.nio.file.Path;
+import java.util.concurrent.atomic.AtomicInteger;
+
+public class PrioIndexConstructor {
+
+    private static final Logger logger = LoggerFactory.getLogger(PrioIndexConstructor.class);
+
+    public enum CreateReverseIndexSteps {
+        CONSTRUCT,
+        FINALIZE,
+        FINISHED
+    }
+
+    private final Path outputFileDocs;
+    private final Path outputFileWords;
+    private final Path outputFilePositions;
+    private final JournalReaderSource readerSource;
+    private final DocIdRewriter docIdRewriter;
+    private final Path tmpDir;
+
+    public PrioIndexConstructor(Path outputFileDocs,
+                                Path outputFileWords,
+                                Path outputFilePositions,
+                                JournalReaderSource readerSource,
+                                DocIdRewriter docIdRewriter,
+                                Path tmpDir) {
+        this.outputFileDocs = outputFileDocs;
+        this.outputFileWords = outputFileWords;
+        this.outputFilePositions = outputFilePositions;
+        this.readerSource = readerSource;
+        this.docIdRewriter = docIdRewriter;
+        this.tmpDir = tmpDir;
+    }
+
+    public void createReverseIndex(ProcessHeartbeat processHeartbeat,
+                                   String processName,
+                                   Path sourceBaseDir) throws IOException
+    {
+        var inputs = IndexJournalFileNames.findJournalFiles(sourceBaseDir);
+        if (inputs.isEmpty()) {
+            logger.error("No journal files in base dir {}", sourceBaseDir);
+            return;
+        }
+
+        try (var heartbeat = processHeartbeat.createProcessTaskHeartbeat(CreateReverseIndexSteps.class, processName);
+             var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes");
+             var posConstructor = new PositionsFileConstructor(outputFilePositions)
+        ) {
+            heartbeat.progress(CreateReverseIndexSteps.CONSTRUCT);
+
+            AtomicInteger progress = new AtomicInteger(0);
+
+            inputs
+                .parallelStream()
+                .map(in -> {
+                    preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
+                    return construct(in, posConstructor);
+                })
+                .reduce(this::merge)
+                .ifPresent((index) -> {
+                    heartbeat.progress(CreateReverseIndexSteps.FINALIZE);
+                    finalizeIndex(index);
+                    heartbeat.progress(CreateReverseIndexSteps.FINISHED);
+                });
+
+            heartbeat.progress(CreateReverseIndexSteps.FINISHED);
+        }
+    }
+
+    @SneakyThrows
+    private PrioPreindexReference construct(Path input, PositionsFileConstructor positionsFileConstructor) {
+        return PrioPreindex
+                .constructPreindex(readerSource.construct(input), positionsFileConstructor, docIdRewriter, tmpDir)
+                .closeToReference();
+    }
+
+    @SneakyThrows
+    private PrioPreindexReference merge(PrioPreindexReference leftR, PrioPreindexReference rightR) {
+
+        var left = leftR.open();
+        var right = rightR.open();
+
+        try {
+            return PrioPreindex.merge(tmpDir, left, right).closeToReference();
+        }
+        finally {
+            left.delete();
+            right.delete();
+        }
+
+
+    }
+
+    @SneakyThrows
+    private void finalizeIndex(PrioPreindexReference finalPR) {
+        var finalP = finalPR.open();
+        finalP.finalizeIndex(outputFileDocs, outputFileWords);
+        finalP.delete();
+    }
+
+
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
new file mode 100644
index 00000000..f5449231
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -0,0 +1,310 @@
+package nu.marginalia.index.construction.prio;
+
+import nu.marginalia.array.LongArray;
+import nu.marginalia.array.LongArrayFactory;
+import nu.marginalia.btree.BTreeWriter;
+import nu.marginalia.index.ReverseIndexParameters;
+import nu.marginalia.index.construction.CountToOffsetTransformer;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.IndexSizeEstimator;
+import nu.marginalia.index.construction.PositionsFileConstructor;
+import nu.marginalia.index.journal.reader.IndexJournalReader;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.io.IOException;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+import static nu.marginalia.array.algo.TwoArrayOperations.*;
+
+/** Contains the data that would go into a reverse index,
+ * that is, a mapping from words to documents, minus the actual
+ * index structure that makes the data quick to access while
+ * searching.
+ * <p>
+ * Two preindexes can be merged into a third preindex containing
+ * the union of their data.  This operation requires no additional
+ * RAM.
+ */
+public class PrioPreindex {
+    final PrioPreindexWordSegments segments;
+    final PrioPreindexDocuments documents;
+
+    private static final Logger logger = LoggerFactory.getLogger(PrioPreindex.class);
+
+    public PrioPreindex(PrioPreindexWordSegments segments, PrioPreindexDocuments documents) {
+        this.segments = segments;
+        this.documents = documents;
+    }
+
+    /** Constructs a new preindex with the data associated with reader.  The backing files
+     * will have randomly assigned names.
+     */
+    public static PrioPreindex constructPreindex(IndexJournalReader reader,
+                                                 PositionsFileConstructor positionsFileConstructor,
+                                                 DocIdRewriter docIdRewriter,
+                                                 Path workDir) throws IOException
+    {
+        Path segmentWordsFile = Files.createTempFile(workDir, "segment_words", ".dat");
+        Path segmentCountsFile = Files.createTempFile(workDir, "segment_counts", ".dat");
+        Path docsFile = Files.createTempFile(workDir, "docs", ".dat");
+
+        var segments = PrioPreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
+        var docs = PrioPreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, positionsFileConstructor, segments);
+        return new PrioPreindex(segments, docs);
+    }
+
+    /**  Close the associated memory mapped areas and return
+     * a dehydrated version of this object that can be re-opened
+     * later.
+     */
+    public PrioPreindexReference closeToReference() {
+        try {
+            return new PrioPreindexReference(segments, documents);
+        }
+        finally {
+            segments.force();
+            documents.force();
+            segments.close();
+            documents.close();
+        }
+    }
+
+    /** Transform the preindex into a reverse index */
+    public void finalizeIndex(Path outputFileDocs, Path outputFileWords) throws IOException {
+        var offsets = segments.counts;
+
+        Files.deleteIfExists(outputFileDocs);
+        Files.deleteIfExists(outputFileWords);
+
+        // Estimate the size of the docs index data
+        offsets.transformEach(0, offsets.size(), new CountToOffsetTransformer(2));
+        IndexSizeEstimator sizeEstimator = new IndexSizeEstimator(ReverseIndexParameters.docsBTreeContext, 2);
+        offsets.fold(0, 0, offsets.size(), sizeEstimator);
+
+        // Write the docs file
+        LongArray finalDocs = LongArrayFactory.mmapForWritingConfined(outputFileDocs, sizeEstimator.size);
+        try (var intermediateDocChannel = documents.createDocumentsFileChannel()) {
+            offsets.transformEachIO(0, offsets.size(),
+                    new PrioIndexBTreeTransformer(finalDocs, 2,
+                            ReverseIndexParameters.docsBTreeContext,
+                            intermediateDocChannel));
+            intermediateDocChannel.force(false);
+        }
+
+        LongArray wordIds = segments.wordIds;
+
+        if (offsets.size() != wordIds.size())
+            throw new IllegalStateException("Offsets and word-ids of different size");
+        if (offsets.size() > Integer.MAX_VALUE) {
+            throw new IllegalStateException("offsets.size() too big!");
+        }
+
+        // Estimate the size of the words index data
+        long wordsSize = ReverseIndexParameters.wordsBTreeContext.calculateSize((int) offsets.size());
+
+        // Construct the tree
+        LongArray wordsArray = LongArrayFactory.mmapForWritingConfined(outputFileWords, wordsSize);
+
+        new BTreeWriter(wordsArray, ReverseIndexParameters.wordsBTreeContext)
+            .write(0, (int) offsets.size(), mapRegion -> {
+            for (long i = 0; i < offsets.size(); i++) {
+                mapRegion.set(2*i, wordIds.get(i));
+                mapRegion.set(2*i + 1, offsets.get(i));
+            }
+        });
+
+        finalDocs.force();
+        finalDocs.close();
+        wordsArray.force();
+        wordsArray.close();
+
+    }
+
+    /** Delete all files associated with this pre-index */
+    public void delete() throws IOException {
+        segments.delete();
+        documents.delete();
+    }
+
+    public static PrioPreindex merge(Path destDir,
+                                     PrioPreindex left,
+                                     PrioPreindex right) throws IOException {
+
+        PrioPreindexWordSegments mergingSegment =
+                createMergedSegmentWordFile(destDir, left.segments, right.segments);
+
+        var mergingIter = mergingSegment.constructionIterator(2);
+        var leftIter = left.segments.iterator(2);
+        var rightIter = right.segments.iterator(2);
+
+        Path docsFile = Files.createTempFile(destDir, "docs", ".dat");
+
+        LongArray mergedDocuments = LongArrayFactory.mmapForWritingConfined(docsFile, left.documents.size() + right.documents.size());
+
+        leftIter.next();
+        rightIter.next();
+
+        try (FileChannel leftChannel = left.documents.createDocumentsFileChannel();
+             FileChannel rightChannel = right.documents.createDocumentsFileChannel())
+        {
+
+            while (mergingIter.canPutMore()
+                    && leftIter.isPositionBeforeEnd()
+                    && rightIter.isPositionBeforeEnd())
+            {
+                final long currentWord = mergingIter.wordId;
+
+                if (leftIter.wordId == currentWord && rightIter.wordId == currentWord)
+                {
+                    // both inputs have documents for the current word
+                    mergeSegments(leftIter, rightIter,
+                            left.documents, right.documents,
+                            mergedDocuments, mergingIter);
+                }
+                else if (leftIter.wordId == currentWord) {
+                    if (!copySegment(leftIter, mergedDocuments, leftChannel, mergingIter))
+                        break;
+                }
+                else if (rightIter.wordId == currentWord) {
+                    if (!copySegment(rightIter, mergedDocuments, rightChannel, mergingIter))
+                        break;
+                }
+                else assert false : "This should never happen"; // the helvetica scenario
+            }
+
+            if (leftIter.isPositionBeforeEnd()) {
+                while (copySegment(leftIter, mergedDocuments, leftChannel, mergingIter));
+            }
+
+            if (rightIter.isPositionBeforeEnd()) {
+                while (copySegment(rightIter, mergedDocuments, rightChannel, mergingIter));
+            }
+
+        }
+
+        if (leftIter.isPositionBeforeEnd())
+            throw new IllegalStateException("Left has more to go");
+        if (rightIter.isPositionBeforeEnd())
+            throw new IllegalStateException("Right has more to go");
+        if (mergingIter.canPutMore())
+            throw new IllegalStateException("Source iters ran dry before merging iter");
+
+
+        mergingSegment.force();
+
+        // We may have overestimated the size of the merged docs size in the case there were
+        // duplicates in the data, so we need to shrink it to the actual size we wrote.
+
+        mergedDocuments = shrinkMergedDocuments(mergedDocuments,
+                docsFile, 2 * mergingSegment.totalSize());
+
+        return new PrioPreindex(
+                mergingSegment,
+                new PrioPreindexDocuments(mergedDocuments, docsFile)
+        );
+    }
+
+    /** Create a segment word file with each word from both inputs, with zero counts for all the data.
+     * This is an intermediate product in merging.
+     */
+    static PrioPreindexWordSegments createMergedSegmentWordFile(Path destDir,
+                                                                PrioPreindexWordSegments left,
+                                                                PrioPreindexWordSegments right) throws IOException {
+        Path segmentWordsFile = Files.createTempFile(destDir, "segment_words", ".dat");
+        Path segmentCountsFile = Files.createTempFile(destDir, "segment_counts", ".dat");
+
+        // We need total size to request a direct LongArray range.  Seems slower, but is faster.
+        // ... see LongArray.directRangeIfPossible(long start, long end)
+        long segmentsSize = countDistinctElements(left.wordIds, right.wordIds,
+                0,  left.wordIds.size(),
+                0,  right.wordIds.size());
+
+        LongArray wordIdsFile = LongArrayFactory.mmapForWritingConfined(segmentWordsFile, segmentsSize);
+
+        mergeArrays(wordIdsFile, left.wordIds, right.wordIds,
+                0,
+                0, left.wordIds.size(),
+                0, right.wordIds.size());
+
+        LongArray counts = LongArrayFactory.mmapForWritingConfined(segmentCountsFile, segmentsSize);
+
+        return new PrioPreindexWordSegments(wordIdsFile, counts, segmentWordsFile, segmentCountsFile);
+    }
+
+    /** It's possible we overestimated the necessary size of the documents file,
+     * this will permit us to shrink it down to the smallest necessary size.
+     */
+    private static LongArray shrinkMergedDocuments(LongArray mergedDocuments, Path docsFile, long sizeLongs) throws IOException {
+
+        mergedDocuments.force();
+
+        long beforeSize = mergedDocuments.size();
+        long afterSize = sizeLongs * 8;
+        if (beforeSize != afterSize) {
+            mergedDocuments.close();
+            try (var bc = Files.newByteChannel(docsFile, StandardOpenOption.WRITE)) {
+                bc.truncate(sizeLongs * 8);
+            }
+
+            logger.info("Shrunk {} from {}b to {}b", docsFile, beforeSize, afterSize);
+            mergedDocuments = LongArrayFactory.mmapForWritingConfined(docsFile, sizeLongs);
+        }
+
+        return mergedDocuments;
+    }
+
+    /** Merge contents of the segments indicated by leftIter and rightIter into the destionation
+     * segment, and advance the construction iterator with the appropriate size.
+     */
+    private static void mergeSegments(PrioPreindexWordSegments.SegmentIterator leftIter,
+                                      PrioPreindexWordSegments.SegmentIterator rightIter,
+                                      PrioPreindexDocuments left,
+                                      PrioPreindexDocuments right,
+                                      LongArray dest,
+                                      PrioPreindexWordSegments.SegmentConstructionIterator destIter)
+    {
+        long segSize = mergeArrays2(dest,
+                left.documents,
+                right.documents,
+                destIter.startOffset,
+                leftIter.startOffset, leftIter.endOffset,
+                rightIter.startOffset, rightIter.endOffset);
+
+        long distinct = segSize / 2;
+        destIter.putNext(distinct);
+        leftIter.next();
+        rightIter.next();
+    }
+
+    /** Copy the data from the source segment at the position and length indicated by sourceIter,
+     * into the destination segment, and advance the construction iterator.
+     */
+    private static boolean copySegment(PrioPreindexWordSegments.SegmentIterator sourceIter,
+                                       LongArray dest,
+                                       FileChannel sourceChannel,
+                                       PrioPreindexWordSegments.SegmentConstructionIterator mergingIter) throws IOException {
+
+        long size = sourceIter.endOffset - sourceIter.startOffset;
+        long start = mergingIter.startOffset;
+        long end = start + size;
+
+        dest.transferFrom(sourceChannel,
+                sourceIter.startOffset,
+                mergingIter.startOffset,
+                end);
+
+        boolean putNext = mergingIter.putNext(size / 2);
+        boolean iterNext = sourceIter.next();
+
+        if (!putNext && iterNext)
+            throw new IllegalStateException("Source iterator ran out before dest iterator?!");
+
+        return iterNext;
+    }
+
+
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
new file mode 100644
index 00000000..03edb4b4
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -0,0 +1,141 @@
+package nu.marginalia.index.construction.prio;
+
+import lombok.SneakyThrows;
+import nu.marginalia.array.LongArray;
+import nu.marginalia.array.LongArrayFactory;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.PositionsFileConstructor;
+import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.rwf.RandomFileAssembler;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.io.IOException;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Executors;
+import java.util.concurrent.TimeUnit;
+
+/** A LongArray with document data, segmented according to
+ * the associated ReversePreindexWordSegments data
+ */
+public class PrioPreindexDocuments {
+    public final LongArray documents;
+
+    private static PositionsFileConstructor positionsFileConstructor;
+    private static final int RECORD_SIZE_LONGS = 2;
+    private static final Logger logger = LoggerFactory.getLogger(PrioPreindexDocuments.class);
+
+    public final Path file;
+
+    public PrioPreindexDocuments(LongArray documents, Path file) {
+        this.documents = documents;
+        this.file = file;
+    }
+
+    public static PrioPreindexDocuments construct(
+            Path docsFile,
+            Path workDir,
+            IndexJournalReader reader,
+            DocIdRewriter docIdRewriter,
+            PositionsFileConstructor positionsFileConstructor,
+            PrioPreindexWordSegments segments) throws IOException {
+        PrioPreindexDocuments.positionsFileConstructor = positionsFileConstructor;
+
+        createUnsortedDocsFile(docsFile, workDir, reader, segments, docIdRewriter);
+
+        LongArray docsFileMap = LongArrayFactory.mmapForModifyingShared(docsFile);
+        sortDocsFile(docsFileMap, segments);
+
+        return new PrioPreindexDocuments(docsFileMap, docsFile);
+    }
+
+    public FileChannel createDocumentsFileChannel() throws IOException {
+        return (FileChannel) Files.newByteChannel(file, StandardOpenOption.READ);
+    }
+
+
+    public LongArray slice(long start, long end) {
+        return documents.range(start, end);
+    }
+
+    public long size() {
+        return documents.size();
+    }
+
+    private static void createUnsortedDocsFile(Path docsFile,
+                                               Path workDir,
+                                               IndexJournalReader reader,
+                                               PrioPreindexWordSegments segments,
+                                               DocIdRewriter docIdRewriter) throws IOException {
+
+        long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
+
+        try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
+             var pointer = reader.newPointer())
+        {
+
+            var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
+            offsetMap.defaultReturnValue(0);
+
+            while (pointer.nextDocument()) {
+                long rankEncodedId = docIdRewriter.rewriteDocId(pointer.documentId());
+                for (var termData : pointer) {
+                    long termId = termData.termId();
+
+                    long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
+
+                    // write position data to the positions file and get the offset
+                    long encodedPosOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positionsBuffer());
+
+                    assembly.put(offset + 0, rankEncodedId);
+                    assembly.put(offset + 1, encodedPosOffset);
+                }
+            }
+
+            assembly.write(docsFile);
+        }
+    }
+
+    @SneakyThrows
+    private static void sortDocsFile(LongArray docsFileMap, PrioPreindexWordSegments segments) throws IOException {
+
+        var iter = segments.iterator(RECORD_SIZE_LONGS);
+
+        ExecutorService sortingWorkers = Executors.newWorkStealingPool(Runtime.getRuntime().availableProcessors());
+
+        while (iter.next()) {
+            long iterStart = iter.startOffset;
+            long iterEnd = iter.endOffset;
+
+            if (iter.size() < 1024) {
+                docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd);
+            }
+            else {
+                sortingWorkers.execute(() ->
+                    docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd));
+            }
+        }
+
+        sortingWorkers.shutdown();
+        while (!sortingWorkers.awaitTermination(1, TimeUnit.HOURS));
+
+        sortingWorkers.close();
+    }
+
+    public void delete() throws IOException {
+        Files.delete(this.file);
+        documents.close();
+    }
+
+    public void close() {
+        documents.close();
+    }
+
+    public void force() {
+        documents.force();
+    }
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java
new file mode 100644
index 00000000..10b590dd
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java
@@ -0,0 +1,36 @@
+package nu.marginalia.index.construction.prio;
+
+import nu.marginalia.array.LongArrayFactory;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+/** This is a dehydrated version of a PrioPreIndex, that only
+ * keeps references to its location on disk but does not hold associated
+ * memory maps.
+ */
+public record PrioPreindexReference(
+        Path wordsFile,
+        Path countsFile,
+        Path documentsFile
+)
+{
+    public PrioPreindexReference(PrioPreindexWordSegments segments, PrioPreindexDocuments documents) {
+        this(segments.wordsFile, segments.countsFile, documents.file);
+    }
+
+    public PrioPreindex open() throws IOException {
+        return new PrioPreindex(
+            new PrioPreindexWordSegments(
+                    LongArrayFactory.mmapForModifyingShared(wordsFile),
+                    LongArrayFactory.mmapForModifyingShared(countsFile),
+                    wordsFile,
+                    countsFile
+            ),
+            new PrioPreindexDocuments(
+                    LongArrayFactory.mmapForModifyingShared(documentsFile),
+                    documentsFile
+            )
+        );
+    }
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
new file mode 100644
index 00000000..512f10ff
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -0,0 +1,205 @@
+package nu.marginalia.index.construction.prio;
+
+import it.unimi.dsi.fastutil.longs.Long2IntOpenHashMap;
+import it.unimi.dsi.fastutil.longs.Long2LongOpenHashMap;
+import it.unimi.dsi.fastutil.longs.LongIterator;
+import nu.marginalia.array.LongArray;
+import nu.marginalia.array.LongArrayFactory;
+import nu.marginalia.index.journal.reader.IndexJournalReader;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+/** A pair of file-backed arrays of sorted wordIds
+ * and the count of documents associated with each termId.
+ */
+public class PrioPreindexWordSegments {
+    public final LongArray wordIds;
+    public final LongArray counts;
+
+    final Path wordsFile;
+    final Path countsFile;
+
+    public PrioPreindexWordSegments(LongArray wordIds,
+                                    LongArray counts,
+                                    Path wordsFile,
+                                    Path countsFile)
+    {
+        assert wordIds.size() == counts.size();
+
+        this.wordIds = wordIds;
+        this.counts = counts;
+        this.wordsFile = wordsFile;
+        this.countsFile = countsFile;
+    }
+
+    /** Returns a long-long hash map where each key is a termId,
+     * and each value is the start offset of the data.
+     */
+    public Long2LongOpenHashMap asMap(int recordSize) {
+        if (wordIds.size() > Integer.MAX_VALUE)
+            throw new IllegalArgumentException("Cannot create a map with more than Integer.MAX_VALUE entries");
+
+        Long2LongOpenHashMap ret = new Long2LongOpenHashMap((int) wordIds.size(), 0.75f);
+        var iter = iterator(recordSize);
+
+        while (iter.next()) {
+            ret.put(iter.wordId, iter.startOffset);
+        }
+
+        return ret;
+    }
+
+    public static PrioPreindexWordSegments construct(IndexJournalReader reader,
+                                                     Path wordIdsFile,
+                                                     Path countsFile)
+    throws IOException
+    {
+        Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
+        countsMap.defaultReturnValue(0);
+        reader.forEachWordId(wordId -> countsMap.addTo(wordId, 1));
+
+        LongArray words = LongArrayFactory.mmapForWritingConfined(wordIdsFile, countsMap.size());
+        LongArray counts = LongArrayFactory.mmapForWritingConfined(countsFile, countsMap.size());
+
+        // Create the words file by iterating over the map and inserting them into
+        // the words file in whatever bizarro hash table order they appear in
+        long i = 0;
+        LongIterator iter = countsMap.keySet().iterator();
+        while (iter.hasNext()) {
+            words.set(i++, iter.nextLong());
+        }
+
+        // Sort the words file
+        words.sort(0, counts.size());
+
+        // Populate the counts
+        for (i = 0; i < countsMap.size(); i++) {
+            counts.set(i, countsMap.get(words.get(i)));
+        }
+
+        return new PrioPreindexWordSegments(words, counts, wordIdsFile, countsFile);
+    }
+
+    public SegmentIterator iterator(int recordSize) {
+        return new SegmentIterator(recordSize);
+    }
+    public SegmentConstructionIterator constructionIterator(int recordSize) {
+        return new SegmentConstructionIterator(recordSize);
+    }
+
+    public long totalSize() {
+        return counts.fold(0, 0, counts.size(), Long::sum);
+    }
+
+    public void delete() throws IOException {
+        Files.delete(countsFile);
+        Files.delete(wordsFile);
+
+        counts.close();
+        wordIds.close();
+    }
+
+    public void force() {
+        counts.force();
+        wordIds.force();
+    }
+
+    public void close() {
+        wordIds.close();
+        counts.close();
+    }
+
+    public class SegmentIterator {
+        private final int recordSize;
+        private final long fileSize;
+        long wordId;
+        long startOffset = 0;
+        long endOffset = 0;
+
+        private SegmentIterator(int recordSize) {
+            this.recordSize = recordSize;
+            this.fileSize = wordIds.size();
+        }
+
+        private long i = -1;
+        public long idx() {
+            return i;
+        }
+        public boolean next() {
+            if (++i >= fileSize) {
+                wordId = Long.MIN_VALUE;
+                return false;
+            }
+
+            wordId = wordIds.get(i);
+            startOffset = endOffset;
+            endOffset = startOffset + recordSize * counts.get(i);
+
+            return true;
+        }
+
+        public boolean hasMorePositions() {
+            return i + 1 < wordIds.size();
+        }
+
+        public boolean isPositionBeforeEnd() {
+            return i < wordIds.size();
+        }
+
+        public long size() {
+            return endOffset - startOffset;
+        }
+    }
+
+    class SegmentConstructionIterator {
+        private final int recordSize;
+        private final long fileSize;
+        long wordId;
+        long startOffset = 0;
+        long endOffset = 0;
+
+        private SegmentConstructionIterator(int recordSize) {
+            this.recordSize = recordSize;
+            this.fileSize = wordIds.size();
+            if (fileSize == 0) {
+                throw new IllegalArgumentException("Cannot construct zero-length word segment file");
+            }
+            this.wordId = wordIds.get(0);
+        }
+
+        private long i = 0;
+        public long idx() {
+            return i;
+        }
+
+        public boolean putNext(long size) {
+
+            if (i >= fileSize)
+                return false;
+
+            endOffset = startOffset + recordSize * size;
+            counts.set(i, size);
+            startOffset = endOffset;
+            endOffset = -1;
+
+            i++;
+
+            if (i == fileSize) {
+                // We've reached the end of the iteration and there is no
+                // "next" termId to fetch
+                wordId = Long.MIN_VALUE;
+                return false;
+            }
+            else {
+                wordId = wordIds.get(i);
+                return true;
+            }
+        }
+
+        public boolean canPutMore() {
+            return i < wordIds.size();
+        }
+    }
+}
diff --git a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
index 2d53dd2e..5047da90 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
@@ -4,9 +4,9 @@ import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
-import nu.marginalia.index.construction.ReversePreindex;
-import nu.marginalia.index.construction.TestJournalFactory;
-import nu.marginalia.index.construction.TestJournalFactory.EntryDataWithWordMeta;
+import nu.marginalia.index.construction.full.FullPreindex;
+import nu.marginalia.index.construction.full.TestJournalFactory;
+import nu.marginalia.index.construction.full.TestJournalFactory.EntryDataWithWordMeta;
 import nu.marginalia.index.positions.PositionsFileReader;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
@@ -19,7 +19,7 @@ import java.nio.file.Path;
 import java.util.ArrayList;
 import java.util.List;
 
-import static nu.marginalia.index.construction.TestJournalFactory.wm;
+import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
 import static org.junit.jupiter.api.Assertions.*;
 
 class ReverseIndexReaderTest {
@@ -99,7 +99,7 @@ class ReverseIndexReaderTest {
         Path wordsFile = tempDir.resolve("words.dat");
 
         try (var positionsFileConstructor = new PositionsFileConstructor(posFile)) {
-            var preindex = ReversePreindex.constructPreindex(reader,
+            var preindex = FullPreindex.constructPreindex(reader,
                     positionsFileConstructor,
                     DocIdRewriter.identity(), tempDir);
             preindex.finalizeIndex(docsFile, wordsFile);
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java
similarity index 86%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java
index df378228..a5c87f0f 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexDocsTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java
@@ -1,5 +1,7 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -11,10 +13,10 @@ import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.List;
 
-import static nu.marginalia.index.construction.TestJournalFactory.EntryData;
+import static nu.marginalia.index.construction.full.TestJournalFactory.EntryData;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 
-class ReversePreindexDocsTest {
+class FullPreindexDocsTest {
     Path countsFile;
     Path wordsIdFile;
     Path docsFile;
@@ -57,8 +59,8 @@ class ReversePreindexDocsTest {
                 new EntryData(-0xF00BA3L, 0, 10, 40, -100, 33)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), new PositionsFileConstructor(positionsFile), segments);
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var docs = FullPreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), new PositionsFileConstructor(positionsFile), segments);
 
         List<TestSegmentData> expected = List.of(
                 new TestSegmentData(-100, 0, 2, new long[] { -0xF00BA3L, 0 }),
@@ -86,8 +88,8 @@ class ReversePreindexDocsTest {
                 new EntryData(-0xF00BA3L, 0, 4, 4)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(),
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var docs = FullPreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(),
                 new PositionsFileConstructor(positionsFile),
                 segments);
 
@@ -115,8 +117,8 @@ class ReversePreindexDocsTest {
                 new EntryData(0xF00BA4L, 0, 15, 30, -100, 33)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = ReversePreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(),
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var docs = FullPreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(),
                 new PositionsFileConstructor(positionsFile),
                 segments);
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java
similarity index 91%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java
index e10c2c27..411f2cdc 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexFinalizeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java
@@ -1,8 +1,10 @@
 
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.btree.model.BTreeHeader;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -12,11 +14,11 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.*;
 
-import static nu.marginalia.index.construction.TestJournalFactory.*;
+import static nu.marginalia.index.construction.full.TestJournalFactory.*;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertTrue;
 
-class ReversePreindexFinalizeTest {
+class FullPreindexFinalizeTest {
     TestJournalFactory journalFactory;
     Path positionsFile;
     Path countsFile;
@@ -52,7 +54,7 @@ class ReversePreindexFinalizeTest {
     @Test
     public void testFinalizeSimple() throws IOException {
         var reader = journalFactory.createReader(new EntryDataWithWordMeta(100, 101, wm(50, 51)));
-        var preindex = ReversePreindex.constructPreindex(reader,
+        var preindex = FullPreindex.constructPreindex(reader,
                 new PositionsFileConstructor(positionsFile),
                 DocIdRewriter.identity(), tempDir);
 
@@ -90,7 +92,7 @@ class ReversePreindexFinalizeTest {
                 new EntryDataWithWordMeta(101, 101, wm(51, 52))
                 );
 
-        var preindex = ReversePreindex.constructPreindex(reader,
+        var preindex = FullPreindex.constructPreindex(reader,
                 new PositionsFileConstructor(positionsFile),
                 DocIdRewriter.identity(), tempDir);
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
similarity index 95%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
index 2bfa6556..6abe612b 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexMergeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
@@ -1,6 +1,8 @@
 
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.PositionsFileConstructor;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -10,10 +12,10 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.*;
 
-import static nu.marginalia.index.construction.TestJournalFactory.*;
+import static nu.marginalia.index.construction.full.TestJournalFactory.*;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 
-class ReversePreindexMergeTest {
+class FullPreindexMergeTest {
     TestJournalFactory journalFactory;
     Path countsFile;
     Path wordsIdFile;
@@ -46,19 +48,19 @@ class ReversePreindexMergeTest {
         Files.delete(tempDir);
     }
 
-    public ReversePreindex runMergeScenario(
+    public FullPreindex runMergeScenario(
             List<EntryDataWithWordMeta> leftData,
             List<EntryDataWithWordMeta> rightData
     ) throws IOException {
         var reader1 = journalFactory.createReader(leftData.toArray(EntryDataWithWordMeta[]::new));
         var reader2 = journalFactory.createReader(rightData.toArray(EntryDataWithWordMeta[]::new));
 
-        var left = ReversePreindex.constructPreindex(reader1, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
-        var right = ReversePreindex.constructPreindex(reader2, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
-        return ReversePreindex.merge(tempDir, left, right);
+        var left = FullPreindex.constructPreindex(reader1, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
+        var right = FullPreindex.constructPreindex(reader2, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
+        return FullPreindex.merge(tempDir, left, right);
     }
 
-    private List<TestSegmentData> getData(ReversePreindex merged) {
+    private List<TestSegmentData> getData(FullPreindex merged) {
         var iter = merged.segments.iterator(2);
         List<TestSegmentData> actual = new ArrayList<>();
         while (iter.next()) {
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexWordSegmentsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java
similarity index 90%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexWordSegmentsTest.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java
index 0ad3205a..72c13207 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/ReversePreindexWordSegmentsTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java
@@ -1,4 +1,4 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import nu.marginalia.array.LongArray;
 import org.junit.jupiter.api.AfterEach;
@@ -11,10 +11,10 @@ import java.nio.file.Path;
 import java.util.ArrayList;
 import java.util.List;
 
-import static nu.marginalia.index.construction.TestJournalFactory.*;
+import static nu.marginalia.index.construction.full.TestJournalFactory.*;
 import static org.junit.jupiter.api.Assertions.*;
 
-class ReversePreindexWordSegmentsTest {
+class FullPreindexWordSegmentsTest {
     Path countsFile;
     Path wordsIdFile;
     Path docsFile;
@@ -51,7 +51,7 @@ class ReversePreindexWordSegmentsTest {
                 new EntryData(-0xF00BA3L, 0, 1L<<33)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
         var iter = segments.iterator(1);
 
         List<TestSegmentData> expected = List.of(
@@ -72,7 +72,7 @@ class ReversePreindexWordSegmentsTest {
                 new EntryData(-0xF00BA3L, 0, 5, 5)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
         var iter = segments.iterator(1);
 
         List<TestSegmentData> expected = List.of(
@@ -94,7 +94,7 @@ class ReversePreindexWordSegmentsTest {
                 new EntryData(-0xF00BA3L, 0, 10, 40, -100, 33)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
         var iter = segments.iterator(1);
 
         List<TestSegmentData> expected = List.of(
@@ -120,7 +120,7 @@ class ReversePreindexWordSegmentsTest {
                 new EntryData(0xF00BA4L, 0, 15, 30, -100, 33)
         );
 
-        var segments = ReversePreindexWordSegments.construct(reader, wordsIdFile, countsFile);
+        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
         var iter = segments.iterator(1);
 
         List<TestSegmentData> expected = List.of(
@@ -148,7 +148,7 @@ class ReversePreindexWordSegmentsTest {
         LongArray countsArray = LongArray.allocate(4);
         wordsArray.set(0, -1, -2, -3, -4);
         countsArray.set(0, 2, 1, 3, 5);
-        var segments = new ReversePreindexWordSegments(wordsArray, countsArray, null, null);
+        var segments = new FullPreindexWordSegments(wordsArray, countsArray, null, null);
 
         var ritr = segments.iterator(1);
         assertTrue(ritr.hasMorePositions());
@@ -196,7 +196,7 @@ class ReversePreindexWordSegmentsTest {
         LongArray wordsArray = LongArray.allocate(4);
         LongArray countsArray = LongArray.allocate(4);
         wordsArray.set(0, -1, -2, -3, -4);
-        var segments = new ReversePreindexWordSegments(wordsArray, countsArray, null, null);
+        var segments = new FullPreindexWordSegments(wordsArray, countsArray, null, null);
 
         var citr = segments.constructionIterator(1);
         assertEquals(-1, citr.wordId);
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
similarity index 98%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
index a4c15305..48bd8bc0 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/TestJournalFactory.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
@@ -1,4 +1,4 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/TestSegmentData.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java
similarity index 96%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/TestSegmentData.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java
index 574bb61a..f37b5975 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/TestSegmentData.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java
@@ -1,4 +1,4 @@
-package nu.marginalia.index.construction;
+package nu.marginalia.index.construction.full;
 
 import java.util.Arrays;
 
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
index cd23261e..bce2a436 100644
--- a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -3,13 +3,11 @@ package nu.marginalia.index;
 import com.google.inject.Guice;
 import com.google.inject.Inject;
 import it.unimi.dsi.fastutil.ints.IntList;
-import it.unimi.dsi.fastutil.longs.LongArrayList;
-import it.unimi.dsi.fastutil.longs.LongList;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.ReverseIndexConstructor;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
@@ -33,7 +31,6 @@ import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
 import nu.marginalia.storage.FileStorageService;
 import org.junit.jupiter.api.AfterEach;
@@ -247,7 +244,7 @@ public class CombinedIndexReaderTest {
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
         var constructor =
-                new ReverseIndexConstructor(
+                new FullIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
@@ -267,7 +264,7 @@ public class CombinedIndexReaderTest {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index fe6f4354..9d334c2e 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -14,7 +14,7 @@ import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.ReverseIndexConstructor;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
@@ -291,7 +291,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
@@ -313,7 +313,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 2662ed6b..2a24e350 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -7,13 +7,13 @@ import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.ReverseIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
@@ -493,7 +493,7 @@ public class IndexQueryServiceIntegrationTest {
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
         var constructor =
-                new ReverseIndexConstructor(
+                new FullIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
@@ -513,7 +513,7 @@ public class IndexQueryServiceIntegrationTest {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
diff --git a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
index eac907eb..96b53799 100644
--- a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
+++ b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
@@ -6,10 +6,11 @@ import com.google.inject.Inject;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.ProcessConfiguration;
 import nu.marginalia.ProcessConfigurationModule;
+import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.service.ProcessMainClass;
 import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.index.construction.ReverseIndexConstructor;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
@@ -117,7 +118,7 @@ public class IndexConstructorMain extends ProcessMainClass {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
@@ -142,7 +143,7 @@ public class IndexConstructorMain extends ProcessMainClass {
         // important to the document.  This filter will act on the encoded {@see WordMetadata}
         LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 5428ccec..2cd178f2 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -17,7 +17,7 @@ import nu.marginalia.functions.searchquery.QueryFactory;
 import nu.marginalia.index.IndexGrpcService;
 import nu.marginalia.index.ReverseIndexFullFileNames;
 import nu.marginalia.index.ReverseIndexPrioFileNames;
-import nu.marginalia.index.construction.ReverseIndexConstructor;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
@@ -244,7 +244,7 @@ public class IntegrationTest {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
@@ -269,7 +269,7 @@ public class IntegrationTest {
         // important to the document.  This filter will act on the encoded {@see WordMetadata}
         LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
 
-        var constructor = new ReverseIndexConstructor(
+        var constructor = new FullIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,

From fa36689597a47be2a3e071acaad3b5a84c579918 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 6 Jul 2024 16:12:29 +0200
Subject: [PATCH 038/216] (index-reverse) Simplify priority index

* Do not emit a documents file
* Do not interlace metadata or offsets with doc ids
---
 ...eader.java => FullReverseIndexReader.java} | 12 +--
 .../index/PrioReverseIndexReader.java         | 99 +++++++++++++++++++
 .../index/ReverseIndexParameters.java         |  3 +-
 .../index/ReverseIndexSelfTest.java           |  6 +-
 .../index/construction/full/FullPreindex.java |  4 +-
 .../full/FullPreindexDocuments.java           |  2 +-
 .../prio/PrioIndexConstructor.java            |  9 +-
 .../index/construction/prio/PrioPreindex.java | 25 +++--
 .../prio/PrioPreindexDocuments.java           | 19 +---
 ...t.java => FullReverseIndexReaderTest.java} |  8 +-
 .../index/ReverseIndexDebugTest.java          |  2 +-
 .../construction/full/TestJournalFactory.java |  2 +-
 .../construction/prio/FullPreindexTest.java   | 86 ++++++++++++++++
 .../nu/marginalia/index/IndexFactory.java     | 11 +--
 .../index/index/CombinedIndexReader.java      | 20 ++--
 .../index/index/IndexQueryBuilderImpl.java    | 11 +--
 .../test/nu/marginalia/IntegrationTest.java   |  3 +-
 17 files changed, 244 insertions(+), 78 deletions(-)
 rename code/index/index-reverse/java/nu/marginalia/index/{ReverseIndexReader.java => FullReverseIndexReader.java} (94%)
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
 rename code/index/index-reverse/test/nu/marginalia/index/{ReverseIndexReaderTest.java => FullReverseIndexReaderTest.java} (91%)
 create mode 100644 code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java

diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java
similarity index 94%
rename from code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
rename to code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java
index da3cb1fe..ce70be2d 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java
@@ -21,7 +21,7 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.concurrent.Executors;
 
-public class ReverseIndexReader {
+public class FullReverseIndexReader {
     private final LongArray words;
     private final LongArray documents;
     private final long wordsDataOffset;
@@ -31,10 +31,10 @@ public class ReverseIndexReader {
 
     private final PositionsFileReader positionsFileReader;
 
-    public ReverseIndexReader(String name,
-                              Path words,
-                              Path documents,
-                              PositionsFileReader positionsFileReader) throws IOException {
+    public FullReverseIndexReader(String name,
+                                  Path words,
+                                  Path documents,
+                                  PositionsFileReader positionsFileReader) throws IOException {
         this.name = name;
 
         this.positionsFileReader = positionsFileReader;
@@ -138,7 +138,7 @@ public class ReverseIndexReader {
     private BTreeReader createReaderNew(long offset) {
         return new BTreeReader(
                 documents,
-                ReverseIndexParameters.docsBTreeContext,
+                ReverseIndexParameters.fullDocsBTreeContext,
                 offset);
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
new file mode 100644
index 00000000..4fd7ed3f
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
@@ -0,0 +1,99 @@
+package nu.marginalia.index;
+
+import nu.marginalia.array.LongArray;
+import nu.marginalia.array.LongArrayFactory;
+import nu.marginalia.btree.BTreeReader;
+import nu.marginalia.index.query.EmptyEntrySource;
+import nu.marginalia.index.query.EntrySource;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+public class PrioReverseIndexReader {
+    private final LongArray words;
+    private final LongArray documents;
+    private final long wordsDataOffset;
+    private final Logger logger = LoggerFactory.getLogger(getClass());
+    private final BTreeReader wordsBTreeReader;
+    private final String name;
+
+    public PrioReverseIndexReader(String name,
+                                  Path words,
+                                  Path documents) throws IOException {
+        this.name = name;
+
+        if (!Files.exists(words) || !Files.exists(documents)) {
+            this.words = null;
+            this.documents = null;
+            this.wordsBTreeReader = null;
+            this.wordsDataOffset = -1;
+            return;
+        }
+
+        logger.info("Switching reverse index");
+
+        this.words = LongArrayFactory.mmapForReadingShared(words);
+        this.documents = LongArrayFactory.mmapForReadingShared(documents);
+
+        wordsBTreeReader = new BTreeReader(this.words, ReverseIndexParameters.wordsBTreeContext, 0);
+        wordsDataOffset = wordsBTreeReader.getHeader().dataOffsetLongs();
+
+    }
+
+    /** Calculate the offset of the word in the documents.
+     * If the return-value is negative, the term does not exist
+     * in the index.
+     */
+    long wordOffset(long termId) {
+        long idx = wordsBTreeReader.findEntry(termId);
+
+        if (idx < 0)
+            return -1L;
+
+        return words.get(wordsDataOffset + idx + 1);
+    }
+
+    public EntrySource documents(long termId) {
+        if (null == words) {
+            logger.warn("Reverse index is not ready, dropping query");
+            return new EmptyEntrySource();
+        }
+
+        long offset = wordOffset(termId);
+
+        if (offset < 0) // No documents
+            return new EmptyEntrySource();
+
+        return new ReverseIndexEntrySource(name, createReaderNew(offset), 1, termId);
+    }
+
+    /** Return the number of documents with the termId in the index */
+    public int numDocuments(long termId) {
+        long offset = wordOffset(termId);
+
+        if (offset < 0)
+            return 0;
+
+        return createReaderNew(offset).numEntries();
+    }
+
+    /** Create a BTreeReader for the document offset associated with a termId */
+    private BTreeReader createReaderNew(long offset) {
+        return new BTreeReader(
+                documents,
+                ReverseIndexParameters.prioDocsBTreeContext,
+                offset);
+    }
+
+    public void close() {
+        if (documents != null)
+            documents.close();
+
+        if (words != null)
+            words.close();
+    }
+
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexParameters.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexParameters.java
index a6df15d3..6de56e0c 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexParameters.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexParameters.java
@@ -5,6 +5,7 @@ import nu.marginalia.btree.model.BTreeContext;
 
 public class ReverseIndexParameters
 {
-    public static final BTreeContext docsBTreeContext = new BTreeContext(5, 2, BTreeBlockSize.BS_2048);
+    public static final BTreeContext prioDocsBTreeContext = new BTreeContext(5, 1, BTreeBlockSize.BS_2048);
+    public static final BTreeContext fullDocsBTreeContext = new BTreeContext(5, 2, BTreeBlockSize.BS_2048);
     public static final BTreeContext wordsBTreeContext = new BTreeContext(5, 2, BTreeBlockSize.BS_2048);
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexSelfTest.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexSelfTest.java
index 61dee824..06251aca 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexSelfTest.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexSelfTest.java
@@ -22,7 +22,7 @@ public class ReverseIndexSelfTest {
     public static void runSelfTest2(LongArray wordsDataRange, LongArray documents) {
         logger.info("Starting test 2");
         for (long i = 1; i < wordsDataRange.size(); i+=2) {
-            var docsBTreeReader = new BTreeReader(documents, ReverseIndexParameters.docsBTreeContext, wordsDataRange.get(i));
+            var docsBTreeReader = new BTreeReader(documents, ReverseIndexParameters.fullDocsBTreeContext, wordsDataRange.get(i));
             var header = docsBTreeReader.getHeader();
             var docRange = documents.range(header.dataOffsetLongs(), header.dataOffsetLongs() + header.numEntries() * 2L);
 
@@ -49,7 +49,7 @@ public class ReverseIndexSelfTest {
     public static void runSelfTest4(LongArray wordsDataRange, LongArray documents) {
         logger.info("Starting test 4");
         for (long i = 1; i < wordsDataRange.size(); i+=2) {
-            var docsBTreeReader = new BTreeReader(documents, ReverseIndexParameters.docsBTreeContext, wordsDataRange.get(i));
+            var docsBTreeReader = new BTreeReader(documents, ReverseIndexParameters.fullDocsBTreeContext, wordsDataRange.get(i));
             var header = docsBTreeReader.getHeader();
             var docRange = documents.range(header.dataOffsetLongs(), header.dataOffsetLongs() + header.numEntries() * 2L);
             for (int j = 0; j < docRange.size(); j+=2) {
@@ -84,7 +84,7 @@ public class ReverseIndexSelfTest {
     public static void runSelfTest6(LongArray wordsDataRange, LongArray documents) {
         logger.info("Starting test 6");
         for (long i = 1; i < wordsDataRange.size(); i+=2) {
-            var docsBTreeReader = new BTreeReader(documents, ReverseIndexParameters.docsBTreeContext, wordsDataRange.get(i));
+            var docsBTreeReader = new BTreeReader(documents, ReverseIndexParameters.fullDocsBTreeContext, wordsDataRange.get(i));
             var header = docsBTreeReader.getHeader();
             var docRange = documents.range(header.dataOffsetLongs(), header.dataOffsetLongs() + header.numEntries() * 2L);
             Long prev = null;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
index 668263d8..063324d2 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
@@ -82,7 +82,7 @@ public class FullPreindex {
 
         // Estimate the size of the docs index data
         offsets.transformEach(0, offsets.size(), new CountToOffsetTransformer(2));
-        IndexSizeEstimator sizeEstimator = new IndexSizeEstimator(ReverseIndexParameters.docsBTreeContext, 2);
+        IndexSizeEstimator sizeEstimator = new IndexSizeEstimator(ReverseIndexParameters.fullDocsBTreeContext, 2);
         offsets.fold(0, 0, offsets.size(), sizeEstimator);
 
         // Write the docs file
@@ -90,7 +90,7 @@ public class FullPreindex {
         try (var intermediateDocChannel = documents.createDocumentsFileChannel()) {
             offsets.transformEachIO(0, offsets.size(),
                     new FullIndexBTreeTransformer(finalDocs, 2,
-                            ReverseIndexParameters.docsBTreeContext,
+                            ReverseIndexParameters.fullDocsBTreeContext,
                             intermediateDocChannel));
             intermediateDocChannel.force(false);
         }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 49442367..bae7990a 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -20,7 +20,7 @@ import java.util.concurrent.Executors;
 import java.util.concurrent.TimeUnit;
 
 /** A LongArray with document data, segmented according to
- * the associated ReversePreindexWordSegments data
+ * the associated FullPreindexWordSegments data
  */
 public class FullPreindexDocuments {
     public final LongArray documents;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
index 4cad80b9..e853fb50 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
@@ -55,8 +55,7 @@ public class PrioIndexConstructor {
         }
 
         try (var heartbeat = processHeartbeat.createProcessTaskHeartbeat(CreateReverseIndexSteps.class, processName);
-             var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes");
-             var posConstructor = new PositionsFileConstructor(outputFilePositions)
+             var preindexHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("constructPreindexes")
         ) {
             heartbeat.progress(CreateReverseIndexSteps.CONSTRUCT);
 
@@ -66,7 +65,7 @@ public class PrioIndexConstructor {
                 .parallelStream()
                 .map(in -> {
                     preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
-                    return construct(in, posConstructor);
+                    return construct(in);
                 })
                 .reduce(this::merge)
                 .ifPresent((index) -> {
@@ -80,9 +79,9 @@ public class PrioIndexConstructor {
     }
 
     @SneakyThrows
-    private PrioPreindexReference construct(Path input, PositionsFileConstructor positionsFileConstructor) {
+    private PrioPreindexReference construct(Path input) {
         return PrioPreindex
-                .constructPreindex(readerSource.construct(input), positionsFileConstructor, docIdRewriter, tmpDir)
+                .constructPreindex(readerSource.construct(input), docIdRewriter, tmpDir)
                 .closeToReference();
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index f5449231..64929510 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -7,7 +7,6 @@ import nu.marginalia.index.ReverseIndexParameters;
 import nu.marginalia.index.construction.CountToOffsetTransformer;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.IndexSizeEstimator;
-import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -44,7 +43,6 @@ public class PrioPreindex {
      * will have randomly assigned names.
      */
     public static PrioPreindex constructPreindex(IndexJournalReader reader,
-                                                 PositionsFileConstructor positionsFileConstructor,
                                                  DocIdRewriter docIdRewriter,
                                                  Path workDir) throws IOException
     {
@@ -53,7 +51,7 @@ public class PrioPreindex {
         Path docsFile = Files.createTempFile(workDir, "docs", ".dat");
 
         var segments = PrioPreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
-        var docs = PrioPreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, positionsFileConstructor, segments);
+        var docs = PrioPreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, segments);
         return new PrioPreindex(segments, docs);
     }
 
@@ -81,16 +79,16 @@ public class PrioPreindex {
         Files.deleteIfExists(outputFileWords);
 
         // Estimate the size of the docs index data
-        offsets.transformEach(0, offsets.size(), new CountToOffsetTransformer(2));
-        IndexSizeEstimator sizeEstimator = new IndexSizeEstimator(ReverseIndexParameters.docsBTreeContext, 2);
+        offsets.transformEach(0, offsets.size(), new CountToOffsetTransformer(1));
+        IndexSizeEstimator sizeEstimator = new IndexSizeEstimator(ReverseIndexParameters.prioDocsBTreeContext, 1);
         offsets.fold(0, 0, offsets.size(), sizeEstimator);
 
         // Write the docs file
         LongArray finalDocs = LongArrayFactory.mmapForWritingConfined(outputFileDocs, sizeEstimator.size);
         try (var intermediateDocChannel = documents.createDocumentsFileChannel()) {
             offsets.transformEachIO(0, offsets.size(),
-                    new PrioIndexBTreeTransformer(finalDocs, 2,
-                            ReverseIndexParameters.docsBTreeContext,
+                    new PrioIndexBTreeTransformer(finalDocs, 1,
+                            ReverseIndexParameters.prioDocsBTreeContext,
                             intermediateDocChannel));
             intermediateDocChannel.force(false);
         }
@@ -137,9 +135,9 @@ public class PrioPreindex {
         PrioPreindexWordSegments mergingSegment =
                 createMergedSegmentWordFile(destDir, left.segments, right.segments);
 
-        var mergingIter = mergingSegment.constructionIterator(2);
-        var leftIter = left.segments.iterator(2);
-        var rightIter = right.segments.iterator(2);
+        var mergingIter = mergingSegment.constructionIterator(1);
+        var leftIter = left.segments.iterator(1);
+        var rightIter = right.segments.iterator(1);
 
         Path docsFile = Files.createTempFile(destDir, "docs", ".dat");
 
@@ -200,7 +198,7 @@ public class PrioPreindex {
         // duplicates in the data, so we need to shrink it to the actual size we wrote.
 
         mergedDocuments = shrinkMergedDocuments(mergedDocuments,
-                docsFile, 2 * mergingSegment.totalSize());
+                docsFile, mergingSegment.totalSize());
 
         return new PrioPreindex(
                 mergingSegment,
@@ -274,8 +272,7 @@ public class PrioPreindex {
                 leftIter.startOffset, leftIter.endOffset,
                 rightIter.startOffset, rightIter.endOffset);
 
-        long distinct = segSize / 2;
-        destIter.putNext(distinct);
+        destIter.putNext(segSize);
         leftIter.next();
         rightIter.next();
     }
@@ -297,7 +294,7 @@ public class PrioPreindex {
                 mergingIter.startOffset,
                 end);
 
-        boolean putNext = mergingIter.putNext(size / 2);
+        boolean putNext = mergingIter.putNext(size);
         boolean iterNext = sourceIter.next();
 
         if (!putNext && iterNext)
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index 03edb4b4..186d0d65 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -4,7 +4,6 @@ import lombok.SneakyThrows;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.rwf.RandomFileAssembler;
 import org.slf4j.Logger;
@@ -20,13 +19,12 @@ import java.util.concurrent.Executors;
 import java.util.concurrent.TimeUnit;
 
 /** A LongArray with document data, segmented according to
- * the associated ReversePreindexWordSegments data
+ * the associated FullPreindexWordSegments data
  */
 public class PrioPreindexDocuments {
     public final LongArray documents;
 
-    private static PositionsFileConstructor positionsFileConstructor;
-    private static final int RECORD_SIZE_LONGS = 2;
+    private static final int RECORD_SIZE_LONGS = 1;
     private static final Logger logger = LoggerFactory.getLogger(PrioPreindexDocuments.class);
 
     public final Path file;
@@ -41,9 +39,7 @@ public class PrioPreindexDocuments {
             Path workDir,
             IndexJournalReader reader,
             DocIdRewriter docIdRewriter,
-            PositionsFileConstructor positionsFileConstructor,
             PrioPreindexWordSegments segments) throws IOException {
-        PrioPreindexDocuments.positionsFileConstructor = positionsFileConstructor;
 
         createUnsortedDocsFile(docsFile, workDir, reader, segments, docIdRewriter);
 
@@ -88,11 +84,7 @@ public class PrioPreindexDocuments {
 
                     long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
 
-                    // write position data to the positions file and get the offset
-                    long encodedPosOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positionsBuffer());
-
-                    assembly.put(offset + 0, rankEncodedId);
-                    assembly.put(offset + 1, encodedPosOffset);
+                    assembly.put(offset, rankEncodedId);
                 }
             }
 
@@ -112,11 +104,10 @@ public class PrioPreindexDocuments {
             long iterEnd = iter.endOffset;
 
             if (iter.size() < 1024) {
-                docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd);
+                docsFileMap.sort(iterStart, iterEnd);
             }
             else {
-                sortingWorkers.execute(() ->
-                    docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd));
+                sortingWorkers.execute(() -> docsFileMap.sort(iterStart, iterEnd));
             }
         }
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java
similarity index 91%
rename from code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
rename to code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java
index 5047da90..6cf4349c 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java
@@ -22,7 +22,7 @@ import java.util.List;
 import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
 import static org.junit.jupiter.api.Assertions.*;
 
-class ReverseIndexReaderTest {
+class FullReverseIndexReaderTest {
     TestJournalFactory journalFactory;
     Path tempDir;
 
@@ -82,7 +82,7 @@ class ReverseIndexReaderTest {
 
     }
 
-    private long[] readEntries(ReverseIndexReader reader, long wordId) {
+    private long[] readEntries(FullReverseIndexReader reader, long wordId) {
         var es = reader.documents(wordId);
         assertTrue(es.hasMore());
         LongQueryBuffer buffer = new LongQueryBuffer(4);
@@ -91,7 +91,7 @@ class ReverseIndexReaderTest {
         return buffer.copyData();
     }
 
-    private ReverseIndexReader createIndex(EntryDataWithWordMeta... scenario) throws IOException {
+    private FullReverseIndexReader createIndex(EntryDataWithWordMeta... scenario) throws IOException {
         var reader = journalFactory.createReader(scenario);
 
         Path posFile = tempDir.resolve("positions.dat");
@@ -106,7 +106,7 @@ class ReverseIndexReaderTest {
             preindex.delete();
         }
 
-        return new ReverseIndexReader("test", wordsFile, docsFile, new PositionsFileReader(posFile));
+        return new FullReverseIndexReader("test", wordsFile, docsFile, new PositionsFileReader(posFile));
 
     }
 }
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexDebugTest.java b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexDebugTest.java
index 6f612a06..359e9396 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexDebugTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/ReverseIndexDebugTest.java
@@ -26,7 +26,7 @@ public class ReverseIndexDebugTest {
         long wordOffset = wordsBTreeReader.findEntry(problemWord);
         assertTrue(wordOffset >= 0);
 
-        var docsReader = new BTreeReader(documents, ReverseIndexParameters.docsBTreeContext, wordOffset);
+        var docsReader = new BTreeReader(documents, ReverseIndexParameters.prioDocsBTreeContext, wordOffset);
 
         // We find problemDoc even though it doesn't exist in the document range
         long docOffset = docsReader.findEntry(problemDoc);
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
index 48bd8bc0..f34dcd9c 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
@@ -58,7 +58,7 @@ public class TestJournalFactory {
         return new WordWithMeta(wordId, meta, GammaCodedSequence.generate(ByteBuffer.allocate(128), positions));
     }
 
-    IndexJournalReader createReader(EntryData... entries) throws IOException {
+    public IndexJournalReader createReader(EntryData... entries) throws IOException {
         Path jf = Files.createTempFile(tempDir, "journal", ".dat");
 
         var writer = new IndexJournalWriterSingleFileImpl(jf);
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java
new file mode 100644
index 00000000..24c83553
--- /dev/null
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java
@@ -0,0 +1,86 @@
+package nu.marginalia.index.construction.prio;
+
+import nu.marginalia.array.page.LongQueryBuffer;
+import nu.marginalia.index.PrioReverseIndexReader;
+import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.full.TestJournalFactory;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+
+import static nu.marginalia.index.construction.full.TestJournalFactory.*;
+import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+class FullPreindexTest {
+    Path countsFile;
+    Path wordsIdFile;
+    Path docsFile;
+    Path tempDir;
+    Path positionsFile;
+
+    TestJournalFactory journalFactory;
+
+    @BeforeEach
+    public void setUp() throws IOException  {
+        journalFactory = new TestJournalFactory();
+
+        countsFile = Files.createTempFile("counts", ".dat");
+        wordsIdFile = Files.createTempFile("words", ".dat");
+        docsFile = Files.createTempFile("docs", ".dat");
+        tempDir = Files.createTempDirectory("sort");
+        positionsFile = tempDir.resolve("positions.dat");
+    }
+
+    @AfterEach
+    public void tearDown() throws IOException {
+        journalFactory.clear();
+
+        Files.deleteIfExists(countsFile);
+        Files.deleteIfExists(wordsIdFile);
+        Files.deleteIfExists(positionsFile);
+        Files.deleteIfExists(docsFile);
+
+        List<Path> contents = new ArrayList<>();
+        Files.list(tempDir).forEach(contents::add);
+        for (var tempFile : contents) {
+            Files.delete(tempFile);
+        }
+        Files.delete(tempDir);
+    }
+
+    @Test
+    public void testFinalizeSimple() throws IOException {
+        var journalReader = journalFactory.createReader(
+                new EntryDataWithWordMeta(100, 101, wm(50, 51)),
+                new EntryDataWithWordMeta(104, 101, wm(50, 52))
+        );
+
+        var preindex = PrioPreindex.constructPreindex(journalReader, DocIdRewriter.identity(), tempDir);
+        preindex.finalizeIndex(tempDir.resolve( "docs.dat"), tempDir.resolve("words.dat"));
+        preindex.delete();
+
+        Path wordsFile = tempDir.resolve("words.dat");
+        Path docsFile =  tempDir.resolve("docs.dat");
+
+        assertTrue(Files.exists(wordsFile));
+        assertTrue(Files.exists(docsFile));
+
+        var indexReader = new PrioReverseIndexReader("test", wordsFile, docsFile);
+
+        var entrySource = indexReader.documents(50);
+        var lqb = new LongQueryBuffer(32);
+        entrySource.read(lqb);
+
+        assertEquals(2, lqb.size());
+        assertEquals(100, lqb.copyData()[0]);
+        assertEquals(104, lqb.copyData()[1]);
+    }
+}
\ No newline at end of file
diff --git a/code/index/java/nu/marginalia/index/IndexFactory.java b/code/index/java/nu/marginalia/index/IndexFactory.java
index 38fed31e..14e62380 100644
--- a/code/index/java/nu/marginalia/index/IndexFactory.java
+++ b/code/index/java/nu/marginalia/index/IndexFactory.java
@@ -38,19 +38,18 @@ public class IndexFactory {
         return IndexLocations.getSearchSetsPath(fileStorageService);
     }
 
-    public ReverseIndexReader getReverseIndexReader() throws IOException {
-        return new ReverseIndexReader("full",
+    public FullReverseIndexReader getReverseIndexReader() throws IOException {
+        return new FullReverseIndexReader("full",
                 ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.CURRENT),
                 ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.CURRENT),
                 new PositionsFileReader(ReverseIndexFullFileNames.resolve(liveStorage, ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.CURRENT))
         );
     }
 
-    public ReverseIndexReader getReverseIndexPrioReader() throws IOException {
-        return new ReverseIndexReader("prio",
+    public PrioReverseIndexReader getReverseIndexPrioReader() throws IOException {
+        return new PrioReverseIndexReader("prio",
                 ReverseIndexPrioFileNames.resolve(liveStorage, ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.CURRENT),
-                ReverseIndexPrioFileNames.resolve(liveStorage, ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.CURRENT),
-                null
+                ReverseIndexPrioFileNames.resolve(liveStorage, ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.CURRENT)
         );
     }
 
diff --git a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
index 5779b526..01a5fd06 100644
--- a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
+++ b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
@@ -5,7 +5,8 @@ import it.unimi.dsi.fastutil.longs.LongList;
 import it.unimi.dsi.fastutil.longs.LongOpenHashSet;
 import it.unimi.dsi.fastutil.longs.LongSet;
 import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
-import nu.marginalia.index.ReverseIndexReader;
+import nu.marginalia.index.FullReverseIndexReader;
+import nu.marginalia.index.PrioReverseIndexReader;
 import nu.marginalia.index.forward.ForwardIndexReader;
 import nu.marginalia.index.model.QueryParams;
 import nu.marginalia.index.model.SearchTerms;
@@ -38,30 +39,25 @@ public class CombinedIndexReader {
     private final Logger logger = LoggerFactory.getLogger(getClass());
 
     private final ForwardIndexReader forwardIndexReader;
-    private final ReverseIndexReader reverseIndexFullReader;
-    private final ReverseIndexReader reverseIndexPriorityReader;
+    private final FullReverseIndexReader reverseIndexFullReader;
+    private final PrioReverseIndexReader reverseIndexPriorityReader;
 
     public CombinedIndexReader(ForwardIndexReader forwardIndexReader,
-                               ReverseIndexReader reverseIndexFullReader,
-                               ReverseIndexReader reverseIndexPriorityReader) {
+                               FullReverseIndexReader reverseIndexFullReader,
+                               PrioReverseIndexReader reverseIndexPriorityReader) {
         this.forwardIndexReader = forwardIndexReader;
         this.reverseIndexFullReader = reverseIndexFullReader;
         this.reverseIndexPriorityReader = reverseIndexPriorityReader;
     }
 
     public IndexQueryBuilderImpl newQueryBuilder(IndexQuery query) {
-        return new IndexQueryBuilderImpl(reverseIndexFullReader, reverseIndexPriorityReader, query);
+        return new IndexQueryBuilderImpl(reverseIndexFullReader, query);
     }
 
     public QueryFilterStepIf hasWordFull(long termId) {
         return reverseIndexFullReader.also(termId);
     }
 
-    public QueryFilterStepIf hasWordPrio(long termId) {
-        return reverseIndexPriorityReader.also(termId);
-    }
-
-
     /** Creates a query builder for terms in the priority index */
     public IndexQueryBuilder findPriorityWord(long wordId) {
         return newQueryBuilder(new IndexQuery(reverseIndexPriorityReader.documents(wordId)))
@@ -124,7 +120,7 @@ public class CombinedIndexReader {
             if (paths.size() < 4) {
                 var prioHead = findPriorityWord(elements.getLong(0));
                 for (int i = 1; i < elements.size(); i++) {
-                    prioHead.addInclusionFilter(hasWordPrio(elements.getLong(i)));
+                    prioHead.addInclusionFilter(hasWordFull(elements.getLong(i)));
                 }
                 queryHeads.add(prioHead);
             }
diff --git a/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java b/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java
index 0f63fdbc..cd416ca3 100644
--- a/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java
+++ b/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java
@@ -2,7 +2,8 @@ package nu.marginalia.index.index;
 
 import java.util.List;
 import gnu.trove.set.hash.TLongHashSet;
-import nu.marginalia.index.ReverseIndexReader;
+import nu.marginalia.index.FullReverseIndexReader;
+import nu.marginalia.index.PrioReverseIndexReader;
 import nu.marginalia.index.query.IndexQuery;
 import nu.marginalia.index.query.IndexQueryBuilder;
 import nu.marginalia.index.query.filter.QueryFilterAnyOf;
@@ -10,8 +11,7 @@ import nu.marginalia.index.query.filter.QueryFilterStepIf;
 
 public class IndexQueryBuilderImpl implements IndexQueryBuilder  {
     private final IndexQuery query;
-    private final ReverseIndexReader reverseIndexFullReader;
-    private final ReverseIndexReader reverseIndexPrioReader;
+    private final FullReverseIndexReader reverseIndexFullReader;
 
     /* Keep track of already added include terms to avoid redundant checks.
      *
@@ -21,13 +21,10 @@ public class IndexQueryBuilderImpl implements IndexQueryBuilder  {
      * */
     private final TLongHashSet alreadyConsideredTerms = new TLongHashSet();
 
-    IndexQueryBuilderImpl(ReverseIndexReader reverseIndexFullReader,
-                          ReverseIndexReader reverseIndexPrioReader,
-                          IndexQuery query)
+    IndexQueryBuilderImpl(FullReverseIndexReader reverseIndexFullReader, IndexQuery query)
     {
         this.query = query;
         this.reverseIndexFullReader = reverseIndexFullReader;
-        this.reverseIndexPrioReader = reverseIndexPrioReader;
     }
 
     public IndexQueryBuilder withSourceTerms(long... sourceTerms) {
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 2cd178f2..3cf8a10d 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -18,6 +18,7 @@ import nu.marginalia.index.IndexGrpcService;
 import nu.marginalia.index.ReverseIndexFullFileNames;
 import nu.marginalia.index.ReverseIndexPrioFileNames;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
+import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
@@ -269,7 +270,7 @@ public class IntegrationTest {
         // important to the document.  This filter will act on the encoded {@see WordMetadata}
         LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
 
-        var constructor = new FullIndexConstructor(
+        var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,

From 21afe940962b33dfd750fc8731bfed401038961e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 7 Jul 2024 21:36:10 +0200
Subject: [PATCH 039/216] (index-reverse) Don't use 128 bit merge function for
 prio index

---
 .../nu/marginalia/index/construction/prio/PrioPreindex.java     | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index 64929510..ff32ba65 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -265,7 +265,7 @@ public class PrioPreindex {
                                       LongArray dest,
                                       PrioPreindexWordSegments.SegmentConstructionIterator destIter)
     {
-        long segSize = mergeArrays2(dest,
+        long segSize = mergeArrays(dest,
                 left.documents,
                 right.documents,
                 destIter.startOffset,

From d90bd340bbb21636511aa5f3eae2816bac230405 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 8 Jul 2024 17:20:17 +0200
Subject: [PATCH 040/216] (index-reverse) Removing btree indexes from prio
 documents file

Btree index adds overhead and disk space and doesn't fill any function for the prio index.

* Update finalize logic with a new IO transformer that copies the data and prepends a size
* Update the reader to read the new format
* Added a test
---
 ...ySource.java => FullIndexEntrySource.java} | 10 +--
 .../index/FullReverseIndexReader.java         |  2 +-
 .../index/PrioIndexEntrySource.java           | 73 +++++++++++++++++++
 .../index/PrioReverseIndexReader.java         | 52 +++++++++----
 .../prio/PrioDocIdsTransformer.java           | 58 +++++++++++++++
 .../prio/PrioIndexBTreeTransformer.java       | 48 ------------
 .../index/construction/prio/PrioPreindex.java | 17 +----
 .../prio/PrioDocIdsTransformerTest.java       | 71 ++++++++++++++++++
 ...reindexTest.java => PrioPreindexTest.java} | 41 ++++++++++-
 9 files changed, 289 insertions(+), 83 deletions(-)
 rename code/index/index-reverse/java/nu/marginalia/index/{ReverseIndexEntrySource.java => FullIndexEntrySource.java} (83%)
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
 create mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
 delete mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java
 create mode 100644 code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
 rename code/index/index-reverse/test/nu/marginalia/index/construction/prio/{FullPreindexTest.java => PrioPreindexTest.java} (67%)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java
similarity index 83%
rename from code/index/index-reverse/java/nu/marginalia/index/ReverseIndexEntrySource.java
rename to code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java
index f10ddb1c..c76b9189 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexEntrySource.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java
@@ -6,7 +6,7 @@ import nu.marginalia.index.query.EntrySource;
 
 import static java.lang.Math.min;
 
-public class ReverseIndexEntrySource implements EntrySource {
+public class FullIndexEntrySource implements EntrySource {
     private final String name;
     private final BTreeReader reader;
 
@@ -16,10 +16,10 @@ public class ReverseIndexEntrySource implements EntrySource {
     final int entrySize;
     private final long wordId;
 
-    public ReverseIndexEntrySource(String name,
-                                   BTreeReader reader,
-                                   int entrySize,
-                                   long wordId) {
+    public FullIndexEntrySource(String name,
+                                BTreeReader reader,
+                                int entrySize,
+                                long wordId) {
         this.name = name;
         this.reader = reader;
         this.entrySize = entrySize;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java
index ce70be2d..15b7b7ce 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/FullReverseIndexReader.java
@@ -101,7 +101,7 @@ public class FullReverseIndexReader {
         if (offset < 0) // No documents
             return new EmptyEntrySource();
 
-        return new ReverseIndexEntrySource(name, createReaderNew(offset), 2, termId);
+        return new FullIndexEntrySource(name, createReaderNew(offset), 2, termId);
     }
 
     /** Create a filter step requiring the specified termId to exist in the documents */
diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
new file mode 100644
index 00000000..2d29b99b
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
@@ -0,0 +1,73 @@
+package nu.marginalia.index;
+
+import lombok.SneakyThrows;
+import nu.marginalia.array.page.LongQueryBuffer;
+import nu.marginalia.index.query.EntrySource;
+
+import java.nio.channels.FileChannel;
+
+import static java.lang.Math.min;
+
+public class PrioIndexEntrySource implements EntrySource {
+    private final String name;
+
+    int posL;
+    int endOffsetL;
+
+    private final FileChannel docsFileChannel;
+    private final long dataOffsetStartB;
+    private final long wordId;
+
+    public PrioIndexEntrySource(String name,
+                                int numEntriesL,
+                                FileChannel docsFileChannel,
+                                long dataOffsetStartB,
+                                long wordId)
+    {
+        this.name = name;
+        this.docsFileChannel = docsFileChannel;
+        this.dataOffsetStartB = dataOffsetStartB;
+        this.wordId = wordId;
+
+        posL = 0;
+        endOffsetL = posL + numEntriesL;
+    }
+
+    @Override
+    public void skip(int n) {
+        posL += n;
+    }
+
+    @Override
+    @SneakyThrows
+    @SuppressWarnings("preview")
+    public void read(LongQueryBuffer buffer) {
+        buffer.end = min(buffer.end, endOffsetL - posL);
+
+        var byteBuffer = buffer.data.getMemorySegment().asByteBuffer();
+        byteBuffer.clear();
+        byteBuffer.limit(buffer.end * 8);
+
+        while (byteBuffer.hasRemaining()) {
+            int rb = docsFileChannel.read(byteBuffer, dataOffsetStartB + posL * 8L + byteBuffer.position());
+            if (rb == -1) {
+                throw new IllegalStateException("Unexpected end of file while reading index data.");
+            }
+        }
+
+        posL += buffer.end;
+        buffer.uniq();
+    }
+
+
+    @Override
+    public boolean hasMore() {
+        return posL < endOffsetL;
+    }
+
+
+    @Override
+    public String indexName() {
+        return name + ":" + Long.toHexString(wordId);
+    }
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
index 4fd7ed3f..62ab1145 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
@@ -9,17 +9,20 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
 public class PrioReverseIndexReader {
     private final LongArray words;
-    private final LongArray documents;
     private final long wordsDataOffset;
     private final Logger logger = LoggerFactory.getLogger(getClass());
     private final BTreeReader wordsBTreeReader;
     private final String name;
 
+    private final FileChannel documentsChannel;
+
     public PrioReverseIndexReader(String name,
                                   Path words,
                                   Path documents) throws IOException {
@@ -27,8 +30,8 @@ public class PrioReverseIndexReader {
 
         if (!Files.exists(words) || !Files.exists(documents)) {
             this.words = null;
-            this.documents = null;
             this.wordsBTreeReader = null;
+            this.documentsChannel = null;
             this.wordsDataOffset = -1;
             return;
         }
@@ -36,11 +39,11 @@ public class PrioReverseIndexReader {
         logger.info("Switching reverse index");
 
         this.words = LongArrayFactory.mmapForReadingShared(words);
-        this.documents = LongArrayFactory.mmapForReadingShared(documents);
 
         wordsBTreeReader = new BTreeReader(this.words, ReverseIndexParameters.wordsBTreeContext, 0);
         wordsDataOffset = wordsBTreeReader.getHeader().dataOffsetLongs();
 
+        documentsChannel = (FileChannel) Files.newByteChannel(documents);
     }
 
     /** Calculate the offset of the word in the documents.
@@ -67,30 +70,49 @@ public class PrioReverseIndexReader {
         if (offset < 0) // No documents
             return new EmptyEntrySource();
 
-        return new ReverseIndexEntrySource(name, createReaderNew(offset), 1, termId);
+        // Read the number of documents
+        ByteBuffer buffer = ByteBuffer.allocate(8);
+        try {
+            documentsChannel.read(buffer, offset);
+        }
+        catch (IOException e) {
+            logger.error("Failed to read documents channel", e);
+            return new EmptyEntrySource();
+        }
+
+        return new PrioIndexEntrySource(name,
+                (int) buffer.getLong(0),
+                documentsChannel,
+                offset + 8,
+                termId);
     }
 
     /** Return the number of documents with the termId in the index */
     public int numDocuments(long termId) {
+
         long offset = wordOffset(termId);
 
-        if (offset < 0)
+        ByteBuffer buffer = ByteBuffer.allocate(8);
+        try {
+            documentsChannel.read(buffer, offset);
+        }
+        catch (IOException e) {
+            logger.error("Failed to read documents channel", e);
             return 0;
+        }
+
+        return (int) buffer.getLong(0);
 
-        return createReaderNew(offset).numEntries();
     }
 
-    /** Create a BTreeReader for the document offset associated with a termId */
-    private BTreeReader createReaderNew(long offset) {
-        return new BTreeReader(
-                documents,
-                ReverseIndexParameters.prioDocsBTreeContext,
-                offset);
-    }
 
     public void close() {
-        if (documents != null)
-            documents.close();
+        try {
+            documentsChannel.close();
+        }
+        catch (IOException e) {
+            logger.error("Failed to close documents channel", e);
+        }
 
         if (words != null)
             words.close();
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
new file mode 100644
index 00000000..7a4801b3
--- /dev/null
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
@@ -0,0 +1,58 @@
+package nu.marginalia.index.construction.prio;
+
+import nu.marginalia.array.algo.LongArrayTransformations;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.channels.FileChannel;
+
+/** Constructs document ids list priority reverse index */
+public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTransformer {
+    private final FileChannel writeChannel;
+    private final FileChannel readChannel;
+
+    private final ByteBuffer buffer = ByteBuffer.allocate(8192);
+
+    long startL = 0;
+    long writeOffsetB = 0;
+
+    public PrioDocIdsTransformer(FileChannel writeChannel,
+                                 FileChannel readChannel) {
+        this.writeChannel = writeChannel;
+        this.readChannel = readChannel;
+    }
+
+    @Override
+    public long transform(long pos, long endL) throws IOException {
+
+        final int sizeL = (int) ((endL - startL));
+        final long startOffsetB = writeOffsetB;
+
+        if (sizeL == 0) {
+            return -1;
+        }
+
+        readChannel.position(startL * 8);
+
+        buffer.clear();
+        buffer.putLong(sizeL);
+
+        int toBeWrittenB = 8 * (1 + sizeL);
+        do {
+            buffer.limit(Math.min(buffer.capacity(), toBeWrittenB));
+            readChannel.read(buffer);
+            buffer.flip();
+
+            while (buffer.hasRemaining()) {
+                int written = writeChannel.write(buffer, writeOffsetB);
+                writeOffsetB += written;
+                toBeWrittenB -= written;
+            }
+
+            buffer.clear();
+        } while (toBeWrittenB > 0);
+
+        startL = endL;
+        return startOffsetB;
+    }
+}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java
deleted file mode 100644
index d402405a..00000000
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexBTreeTransformer.java
+++ /dev/null
@@ -1,48 +0,0 @@
-package nu.marginalia.index.construction.prio;
-
-import nu.marginalia.array.LongArray;
-import nu.marginalia.array.algo.LongArrayTransformations;
-import nu.marginalia.btree.BTreeWriter;
-import nu.marginalia.btree.model.BTreeContext;
-
-import java.io.IOException;
-import java.nio.channels.FileChannel;
-
-/** Constructs the BTrees in a reverse index */
-public class PrioIndexBTreeTransformer implements LongArrayTransformations.LongIOTransformer {
-    private final BTreeWriter writer;
-    private final FileChannel intermediateChannel;
-
-    private final int entrySize;
-
-    long start = 0;
-    long writeOffset = 0;
-
-    public PrioIndexBTreeTransformer(LongArray urlsFileMap,
-                                     int entrySize,
-                                     BTreeContext bTreeContext,
-                                     FileChannel intermediateChannel) {
-        this.writer = new BTreeWriter(urlsFileMap, bTreeContext);
-        this.entrySize = entrySize;
-        this.intermediateChannel = intermediateChannel;
-    }
-
-    @Override
-    public long transform(long pos, long end) throws IOException {
-
-        final int size = (int) ((end - start) / entrySize);
-
-        if (size == 0) {
-            return -1;
-        }
-
-        final long offsetForBlock = writeOffset;
-
-        writeOffset += writer.write(writeOffset, size,
-                mapRegion -> mapRegion.transferFrom(intermediateChannel, start, 0, end - start)
-        );
-
-        start = end;
-        return offsetForBlock;
-    }
-}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index ff32ba65..13fde772 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -6,7 +6,6 @@ import nu.marginalia.btree.BTreeWriter;
 import nu.marginalia.index.ReverseIndexParameters;
 import nu.marginalia.index.construction.CountToOffsetTransformer;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.IndexSizeEstimator;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -80,17 +79,12 @@ public class PrioPreindex {
 
         // Estimate the size of the docs index data
         offsets.transformEach(0, offsets.size(), new CountToOffsetTransformer(1));
-        IndexSizeEstimator sizeEstimator = new IndexSizeEstimator(ReverseIndexParameters.prioDocsBTreeContext, 1);
-        offsets.fold(0, 0, offsets.size(), sizeEstimator);
 
         // Write the docs file
-        LongArray finalDocs = LongArrayFactory.mmapForWritingConfined(outputFileDocs, sizeEstimator.size);
-        try (var intermediateDocChannel = documents.createDocumentsFileChannel()) {
-            offsets.transformEachIO(0, offsets.size(),
-                    new PrioIndexBTreeTransformer(finalDocs, 1,
-                            ReverseIndexParameters.prioDocsBTreeContext,
-                            intermediateDocChannel));
-            intermediateDocChannel.force(false);
+        try (var intermediateDocChannel = documents.createDocumentsFileChannel();
+             var destFileChannel = (FileChannel) Files.newByteChannel(outputFileDocs, StandardOpenOption.CREATE_NEW, StandardOpenOption.WRITE)
+        ) {
+            offsets.transformEachIO(0, offsets.size(), new PrioDocIdsTransformer(destFileChannel, intermediateDocChannel));
         }
 
         LongArray wordIds = segments.wordIds;
@@ -115,11 +109,8 @@ public class PrioPreindex {
             }
         });
 
-        finalDocs.force();
-        finalDocs.close();
         wordsArray.force();
         wordsArray.close();
-
     }
 
     /** Delete all files associated with this pre-index */
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
new file mode 100644
index 00000000..f1e976a6
--- /dev/null
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
@@ -0,0 +1,71 @@
+package nu.marginalia.index.construction.prio;
+
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.DataInputStream;
+import java.io.DataOutputStream;
+import java.io.IOException;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class PrioDocIdsTransformerTest {
+
+    Path inputFile = null;
+    Path outputFile = null;
+
+    @BeforeEach
+    public void setUp() throws IOException {
+        inputFile = Files.createTempFile("input", ".dat");
+        outputFile = Files.createTempFile("output", ".dat");
+    }
+
+    @AfterEach
+    public void tearDown() throws IOException {
+        if (inputFile != null) {
+            Files.deleteIfExists(inputFile);
+        }
+        if (outputFile != null) {
+            Files.deleteIfExists(outputFile);
+        }
+    }
+
+    @Test
+    public void test() throws IOException {
+
+        // Write 5 longs to the input file as data
+        try (var dos = new DataOutputStream(Files.newOutputStream(inputFile))) {
+            dos.writeLong(1);
+            dos.writeLong(2);
+            dos.writeLong(3);
+            dos.writeLong(4);
+            dos.writeLong(5);
+        }
+
+        try (var writeChannel = (FileChannel) Files.newByteChannel(outputFile, StandardOpenOption.WRITE);
+             var readChannel = (FileChannel) Files.newByteChannel(inputFile))
+        {
+            // Transform two segments of the input file and write them to the output file with prefixed sizes
+            var transformer = new PrioDocIdsTransformer(writeChannel, readChannel);
+            transformer.transform(0, 3);
+            transformer.transform(1, 5);
+        }
+
+        // Verify the output file
+        try (var dis = new DataInputStream(Files.newInputStream(outputFile))) {
+            assertEquals(3, dis.readLong());
+            assertEquals(1, dis.readLong());
+            assertEquals(2, dis.readLong());
+            assertEquals(3, dis.readLong());
+            assertEquals(2, dis.readLong());
+            assertEquals(4, dis.readLong());
+            assertEquals(5, dis.readLong());
+        }
+    }
+
+}
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
similarity index 67%
rename from code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java
rename to code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
index 24c83553..8ba5ac7c 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/FullPreindexTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
@@ -19,7 +19,7 @@ import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertTrue;
 
-class FullPreindexTest {
+class PrioPreindexTest {
     Path countsFile;
     Path wordsIdFile;
     Path docsFile;
@@ -83,4 +83,43 @@ class FullPreindexTest {
         assertEquals(100, lqb.copyData()[0]);
         assertEquals(104, lqb.copyData()[1]);
     }
+
+
+    @Test
+    public void testFinalizeLargeData() throws IOException {
+        EntryDataWithWordMeta[] entries = new EntryDataWithWordMeta[10000];
+        for (int i = 0; i < 10000; i++) {
+            entries[i] = new EntryDataWithWordMeta(100 + i, 101, wm(50, 51));
+        }
+        var journalReader = journalFactory.createReader(entries);
+
+        var preindex = PrioPreindex.constructPreindex(journalReader, DocIdRewriter.identity(), tempDir);
+        preindex.finalizeIndex(tempDir.resolve( "docs.dat"), tempDir.resolve("words.dat"));
+        preindex.delete();
+
+        Path wordsFile = tempDir.resolve("words.dat");
+        Path docsFile =  tempDir.resolve("docs.dat");
+
+        assertTrue(Files.exists(wordsFile));
+        assertTrue(Files.exists(docsFile));
+
+        var indexReader = new PrioReverseIndexReader("test", wordsFile, docsFile);
+
+        var entrySource = indexReader.documents(50);
+        var lqb = new LongQueryBuffer(32);
+        entrySource.read(lqb);
+
+        assertEquals(32, lqb.size());
+        var dataArray = lqb.copyData();
+        for (int i = 0; i < 32; i++) {
+            assertEquals(100 + i, dataArray[i]);
+        }
+
+        entrySource.read(lqb);
+        assertEquals(32, lqb.size());
+        dataArray = lqb.copyData();
+        for (int i = 0; i < 32; i++) {
+            assertEquals(100 + 32 + i, dataArray[i]);
+        }
+    }
 }
\ No newline at end of file

From 12a2ab93db9af81c3cdb73037fd8d0dd01e87d42 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 8 Jul 2024 19:19:30 +0200
Subject: [PATCH 041/216] (actor) Improve error messages  for convert-and-load

Some copy-and-paste errors had snuck in and every index construction error was reported as "repartitioned failed"; updated with more useful messages.
---
 .../java/nu/marginalia/actor/task/ConvertAndLoadActor.java  | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java b/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
index 085dffed..45b7d77a 100644
--- a/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
+++ b/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
@@ -146,7 +146,7 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
                 var rsp = processWatcher.waitResponse(mqIndexConstructorOutbox, ProcessService.ProcessId.INDEX_CONSTRUCTOR, id);
 
                 if (rsp.state() != MqMessageState.OK)
-                    yield new Error("Repartition failed");
+                    yield new Error("Forward index construction failed");
                 else
                     yield new ReindexFull();
             }
@@ -155,7 +155,7 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
                 var rsp = processWatcher.waitResponse(mqIndexConstructorOutbox, ProcessService.ProcessId.INDEX_CONSTRUCTOR, id);
 
                 if (rsp.state() != MqMessageState.OK)
-                    yield new Error("Repartition failed");
+                    yield new Error("Full index construction failed");
                 else
                     yield new ReindexPrio();
             }
@@ -164,7 +164,7 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
                 var rsp = processWatcher.waitResponse(mqIndexConstructorOutbox, ProcessService.ProcessId.INDEX_CONSTRUCTOR, id);
 
                 if (rsp.state() != MqMessageState.OK)
-                    yield new Error("Repartition failed");
+                    yield new Error("Prio index construction failed");
                 else
                     yield new SwitchIndex();
             }

From 0d29e2a39d6796fd1d6167646619d7c34684801f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 9 Jul 2024 01:39:40 +0200
Subject: [PATCH 042/216] (index-reverse) Entry Sources reset() their
 LongQueryBuffer

Previously this was the responsibility of the caller, which lead to the possibility of passing in improperly prepared buffers and receiving bad outcome
---
 .../java/nu/marginalia/index/FullIndexEntrySource.java          | 1 +
 .../java/nu/marginalia/index/PrioIndexEntrySource.java          | 1 +
 code/index/query/java/nu/marginalia/index/query/IndexQuery.java | 2 --
 3 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java
index c76b9189..3f572f15 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/FullIndexEntrySource.java
@@ -36,6 +36,7 @@ public class FullIndexEntrySource implements EntrySource {
 
     @Override
     public void read(LongQueryBuffer buffer) {
+        buffer.reset();
         buffer.end = min(buffer.end, endOffset - pos);
         reader.readData(buffer.data, buffer.end, pos);
         pos += buffer.end;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
index 2d29b99b..bfb6be14 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
@@ -42,6 +42,7 @@ public class PrioIndexEntrySource implements EntrySource {
     @SneakyThrows
     @SuppressWarnings("preview")
     public void read(LongQueryBuffer buffer) {
+        buffer.reset();
         buffer.end = min(buffer.end, endOffsetL - posL);
 
         var byteBuffer = buffer.data.getMemorySegment().asByteBuffer();
diff --git a/code/index/query/java/nu/marginalia/index/query/IndexQuery.java b/code/index/query/java/nu/marginalia/index/query/IndexQuery.java
index 81136e91..52caed8e 100644
--- a/code/index/query/java/nu/marginalia/index/query/IndexQuery.java
+++ b/code/index/query/java/nu/marginalia/index/query/IndexQuery.java
@@ -73,8 +73,6 @@ public class IndexQuery {
 
     private boolean fillBuffer(LongQueryBuffer dest) {
         for (;;) {
-            dest.reset();
-
             EntrySource source = sources.get(si);
             source.read(dest);
 

From ecfe17521af3041caa333b323d2d944c95287b32 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 9 Jul 2024 17:27:53 +0200
Subject: [PATCH 043/216] (coded-sequence) Correct implementation of Elias
 gamma

The implementation was incorrectly using 1 bit more than it should.  The change also adds a put method for Elias delta; and cleans up the interface a bit.
---
 .../marginalia/sequence/EliasGammaCodec.java  | 25 ++++++++---
 .../nu/marginalia/sequence/io/BitReader.java  | 14 +++++--
 .../nu/marginalia/sequence/io/BitWriter.java  | 42 ++++++++++---------
 .../nu/marginalia/sequence/BitWriterTest.java | 24 +++++------
 4 files changed, 63 insertions(+), 42 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
index 3f33e8c8..4c23eb8c 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
@@ -24,7 +24,7 @@ public class EliasGammaCodec implements IntIterator {
         reader = new BitReader(buffer);
 
         last = zero;
-        int bits = reader.takeWhileZero();
+        int bits = 1 + reader.takeWhileZero();
 
         if (!reader.hasMore()) {
             rem = 0;
@@ -37,7 +37,7 @@ public class EliasGammaCodec implements IntIterator {
     public static int readCount(ByteBuffer buffer) {
         var reader = new BitReader(buffer);
 
-        int bits = reader.takeWhileZero();
+        int bits = 1 + reader.takeWhileZero();
         if (!reader.hasMore()) {
             return 0;
         }
@@ -64,7 +64,7 @@ public class EliasGammaCodec implements IntIterator {
 
         var writer = new BitWriter(workArea);
 
-        writer.putGammaCoded(sequence.size());
+        writer.putGamma(sequence.size());
 
         int last = 0;
 
@@ -76,10 +76,23 @@ public class EliasGammaCodec implements IntIterator {
             // can't encode zeroes
             assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values";
 
-            writer.putGammaCoded(delta);
+            writer.putGamma(delta);
         }
 
-        return writer.finish();
+        // Finish the writer and return the work buffer, positioned and limited around
+        // the relevant data
+
+        var buffer = writer.finish();
+
+        // Copy the contents of the writer's internal buffer to a new ByteBuffer that is correctly sized,
+        // this lets us re-use the internal buffer for subsequent calls to encode without worrying about
+        // accidentally overwriting the previous data.
+
+        var outBuffer = ByteBuffer.allocate(buffer.limit());
+        outBuffer.put(buffer);
+        outBuffer.flip();
+
+        return outBuffer;
     }
 
     /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
@@ -95,7 +108,7 @@ public class EliasGammaCodec implements IntIterator {
         if (next > 0) return true;
         if (!reader.hasMore() || --rem < 0) return false;
 
-        int bits = reader.takeWhileZero();
+        int bits = 1 + reader.takeWhileZero();
 
         if (!reader.hasMore()) return false;
         
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index d67163c9..620cbf26 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -20,10 +20,6 @@ public class BitReader {
         this.currentValue = 0;
     }
 
-    public long getCurrentValue() {
-        return currentValue;
-    }
-
     /** Read the next bit from the buffer */
     public boolean getBit() {
         if (bitPosition <= 0) {
@@ -102,6 +98,16 @@ public class BitReader {
         return result;
     }
 
+    public int getGamma() {
+        int bits = takeWhileZero();
+        return get(bits);
+    }
+
+    public int getDelta() {
+        int bits = getGamma() - 1;
+        return get(bits);
+    }
+
     public boolean hasMore() {
         return bitPosition > 0 || underlying.hasRemaining();
     }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
index f92876b1..a084cf22 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -72,40 +72,42 @@ public class BitWriter {
         }
     }
 
-    /** Write the provided value in a gamma-coded format,
+    /** Write the provided value in a Elias gamma-coded format,
      * e.g. by first finding the number of significant bits,
      * then writing that many zeroes, then the bits themselves
      */
-    public void putGammaCoded(int value) {
-        int bits = 1 + Integer.numberOfTrailingZeros(Integer.highestOneBit(value));
+    public void putGamma(int value) {
+        int bits = Integer.numberOfTrailingZeros(Integer.highestOneBit(value));
 
         put(0, bits);
+        put(value, 1 + bits);
+    }
+
+    /** Write the provided value in an Elias delta-coded format,
+     * e.g. by first finding the number of significant bits,
+     * then writing that many zeroes, then the bits themselves
+     */
+    public void putDelta(int value) {
+        int bits = 1 + Integer.numberOfTrailingZeros(Integer.highestOneBit(value));
+
+        putGamma(bits + 1);
         put(value, bits);
     }
 
+    /** Flush the changes to the writer's internal buffer and
+     * return the buffer, ready for reading.  If the internal buffer
+     * is intended to be re-used, the returned value should be copied
+     * to a new buffer by the caller.
+     */
     public ByteBuffer finish() {
         finishLastByte();
 
-        var outBuffer = ByteBuffer.allocate(totalMeaningfulBytes);
+        underlying.position(0);
+        underlying.limit(totalMeaningfulBytes);
 
-        outBuffer.put(0, underlying, 0, totalMeaningfulBytes);
-
-        outBuffer.position(0);
-        outBuffer.limit(totalMeaningfulBytes);
-
-        return outBuffer;
+        return underlying;
     }
 
-    public ByteBuffer finish(ByteBuffer outBuffer) {
-        finishLastByte();
-
-        outBuffer.put(underlying.array(), 0, totalMeaningfulBytes);
-
-        outBuffer.position(0);
-        outBuffer.limit(totalMeaningfulBytes);
-
-        return outBuffer;
-    }
 
     private void finishLastByte() {
         // It's possible we have a few bits left over that have yet to be written
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
index 0fb3d2bf..8d5d16d4 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
@@ -31,7 +31,7 @@ class BitWriterTest {
         byte expected = (byte) 0b0111_1110;
 
         assertEquals(expected, actual);
-        assertEquals(1, out.capacity());
+        assertEquals(1, out.limit());
     }
 
     @Test
@@ -53,7 +53,7 @@ class BitWriterTest {
         byte expected = (byte) 0b1011_1110;
 
         assertEquals(expected, actual, STR."was \{Integer.toBinaryString(actual & 0xFF)}");
-        assertEquals(1, out.capacity());
+        assertEquals(1, out.limit());
     }
 
 
@@ -77,7 +77,7 @@ class BitWriterTest {
 
         var out = writer.finish();
 
-        assertEquals(2, out.capacity());
+        assertEquals(2, out.limit());
 
         byte actual1 = out.get(0);
         byte actual2 = out.get(1);
@@ -112,7 +112,7 @@ class BitWriterTest {
 
         var out = writer.finish();
 
-        assertEquals(5, out.capacity());
+        assertEquals(5, out.limit());
 
         for (int i = 0; i < 4; i++) {
             byte actual1 = out.get(i);
@@ -135,7 +135,7 @@ class BitWriterTest {
 
         writer.put(1, 1);
         var ret = writer.finish();
-        assertEquals(1, ret.capacity());
+        assertEquals(1, ret.limit());
         assertEquals((byte)0b1000_0000, ret.get(0));
     }
 
@@ -146,7 +146,7 @@ class BitWriterTest {
 
         writer.put(1, 4);
         var ret = writer.finish();
-        assertEquals(1, ret.capacity());
+        assertEquals(1, ret.limit());
         assertEquals((byte)0b0001_0000, ret.get(0));
     }
 
@@ -157,7 +157,7 @@ class BitWriterTest {
 
         writer.put(3, 8);
         var ret = writer.finish();
-        assertEquals(1, ret.capacity());
+        assertEquals(1, ret.limit());
         assertEquals((byte)0b0000_0011, ret.get(0));
     }
 
@@ -168,7 +168,7 @@ class BitWriterTest {
 
         writer.put(~0, 8);
         var ret = writer.finish();
-        assertEquals(1, ret.capacity());
+        assertEquals(1, ret.limit());
         assertEquals((byte)0b1111_1111, ret.get(0));
     }
 
@@ -184,7 +184,7 @@ class BitWriterTest {
 
         var ret = writer.finish();
 
-        assertEquals(4, ret.capacity());
+        assertEquals(4, ret.limit());
         assertEquals((byte)0b1111_1111, ret.get(0));
         assertEquals((byte)0, ret.get(1));
         assertEquals((byte)0b1111_1111, ret.get(2));
@@ -202,7 +202,7 @@ class BitWriterTest {
 
         var ret = writer.finish();
 
-        assertEquals(6, ret.capacity());
+        assertEquals(6, ret.limit());
         assertEquals((byte)0b1111_1111, ret.get(0));
         assertEquals((byte)0b1111_1111, ret.get(1));
         assertEquals((byte)0b1111_1111, ret.get(2));
@@ -223,7 +223,7 @@ class BitWriterTest {
 
         var ret = writer.finish();
 
-        assertEquals(6, ret.capacity());
+        assertEquals(6, ret.limit());
         assertEquals((byte)0b0011_1111, ret.get(0));
         assertEquals((byte)0b1111_1111, ret.get(1));
         assertEquals((byte)0b1111_1111, ret.get(2));
@@ -259,7 +259,7 @@ class BitWriterTest {
 
         var ret = writer.finish();
 
-        assertEquals(1, ret.capacity());
+        assertEquals(1, ret.limit());
         assertEquals(0, ret.get(0));
 
         var reader = new BitReader(ret);

From abf7a8d78d50c49988b210e19166b9309ddfe841 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 10 Jul 2024 14:28:28 +0200
Subject: [PATCH 044/216] (coded-sequence) Correct implementation of Elias
 gamma

Also clean up the code a bit as the EliasGammaCodec class was an iterator, and it was leaking abstraction details.
---
 .../keyword/DocumentKeywordExtractorTest.java |   1 -
 ...IndexQueryServiceIntegrationSmokeTest.java |   3 +-
 .../marginalia/sequence/EliasGammaCodec.java  | 133 -----------------
 .../sequence/GammaCodedSequence.java          | 139 +++++++++++++++++-
 .../nu/marginalia/sequence/io/BitReader.java  |   4 +-
 .../nu/marginalia/sequence/io/BitWriter.java  |  25 +++-
 .../nu/marginalia/sequence/BitReaderTest.java |  14 +-
 .../nu/marginalia/sequence/BitWriterTest.java |  72 ++++++---
 ...va => EliasGammaSequenceIteratorTest.java} |  18 +--
 9 files changed, 223 insertions(+), 186 deletions(-)
 delete mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
 rename code/libraries/coded-sequence/test/nu/marginalia/sequence/{EliasGammaCodecTest.java => EliasGammaSequenceIteratorTest.java} (73%)

diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index 2a434dc3..ff95c847 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -5,7 +5,6 @@ import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.idx.WordMetadata;
-import nu.marginalia.sequence.EliasGammaCodec;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.jsoup.Jsoup;
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 9d334c2e..e9d4395f 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -7,6 +7,7 @@ import nu.marginalia.IndexLocations;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
+import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
@@ -313,7 +314,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new FullIndexConstructor(
+        var constructor = new PrioIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
deleted file mode 100644
index 4c23eb8c..00000000
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/EliasGammaCodec.java
+++ /dev/null
@@ -1,133 +0,0 @@
-package nu.marginalia.sequence;
-
-import it.unimi.dsi.fastutil.ints.IntIterator;
-import it.unimi.dsi.fastutil.ints.IntList;
-import nu.marginalia.sequence.io.BitReader;
-import nu.marginalia.sequence.io.BitWriter;
-
-import java.nio.ByteBuffer;
-
-/** Implement coding and decoding of sequences of integers using the Elias Gamma code.
- *  The sequence is prefixed by the number of integers in the sequence, then the delta between
- *  each integer in the sequence is encoded using the Elias Gamma code.
- * <p></p>
- * <a href="https://en.wikipedia.org/wiki/Elias_gamma_coding">https://en.wikipedia.org/wiki/Elias_gamma_coding</a>
- * */
-public class EliasGammaCodec implements IntIterator {
-
-    private final BitReader reader;
-    int rem = 0;
-    private int last;
-    private int next = 0;
-
-    private EliasGammaCodec(ByteBuffer buffer, int zero) {
-        reader = new BitReader(buffer);
-
-        last = zero;
-        int bits = 1 + reader.takeWhileZero();
-
-        if (!reader.hasMore()) {
-            rem = 0;
-        }
-        else {
-            rem = reader.get(bits);
-        }
-    }
-
-    public static int readCount(ByteBuffer buffer) {
-        var reader = new BitReader(buffer);
-
-        int bits = 1 + reader.takeWhileZero();
-        if (!reader.hasMore()) {
-            return 0;
-        }
-        else {
-            return reader.get(bits);
-        }
-    }
-
-    /** Decode a sequence of integers from a ByteBuffer using the Elias Gamma code */
-    public static IntIterator decode(ByteBuffer buffer) {
-        return new EliasGammaCodec(buffer, 0);
-    }
-    public static IntIterator decodeWithOffset(ByteBuffer buffer, int offset) {
-        return new EliasGammaCodec(buffer, offset);
-    }
-
-    /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
-     * The sequence must be strictly increasing and may not contain values less than
-     * or equal to zero.
-     */
-    public static ByteBuffer encode(ByteBuffer workArea, IntList sequence) {
-        if (sequence.isEmpty())
-            return ByteBuffer.allocate(0);
-
-        var writer = new BitWriter(workArea);
-
-        writer.putGamma(sequence.size());
-
-        int last = 0;
-
-        for (var iter = sequence.iterator(); iter.hasNext(); ) {
-            int i = iter.nextInt();
-            int delta = i - last;
-            last = i;
-
-            // can't encode zeroes
-            assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values";
-
-            writer.putGamma(delta);
-        }
-
-        // Finish the writer and return the work buffer, positioned and limited around
-        // the relevant data
-
-        var buffer = writer.finish();
-
-        // Copy the contents of the writer's internal buffer to a new ByteBuffer that is correctly sized,
-        // this lets us re-use the internal buffer for subsequent calls to encode without worrying about
-        // accidentally overwriting the previous data.
-
-        var outBuffer = ByteBuffer.allocate(buffer.limit());
-        outBuffer.put(buffer);
-        outBuffer.flip();
-
-        return outBuffer;
-    }
-
-    /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
-     * The sequence must be strictly increasing and may not contain values less than
-     * or equal to zero.
-     */
-    public static ByteBuffer encode(ByteBuffer workArea, int[] sequence) {
-        return encode(workArea, IntList.of(sequence));
-    }
-
-    @Override
-    public boolean hasNext() {
-        if (next > 0) return true;
-        if (!reader.hasMore() || --rem < 0) return false;
-
-        int bits = 1 + reader.takeWhileZero();
-
-        if (!reader.hasMore()) return false;
-        
-        int delta = reader.get(bits);
-        last += delta;
-        next = last;
-
-        return true;
-    }
-
-    @Override
-    public int nextInt() {
-        if (hasNext()) {
-            int ret = next;
-            next = -1;
-            return ret;
-        }
-        throw new ArrayIndexOutOfBoundsException("No more data to read");
-    }
-
-
-}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index fe82af51..8b6f9ea3 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -4,6 +4,8 @@ import blue.strategic.parquet.BinarySerializable;
 import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.sequence.io.BitReader;
+import nu.marginalia.sequence.io.BitWriter;
 
 import java.nio.ByteBuffer;
 import java.util.Arrays;
@@ -26,7 +28,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
      * values less than or equal to zero.
      * */
     public static GammaCodedSequence generate(ByteBuffer workArea, int... values) {
-        return new GammaCodedSequence(EliasGammaCodec.encode(workArea, values));
+        return new GammaCodedSequence(encode(workArea, values));
     }
 
     /** Create a new GammaCodedSequence from a sequence of integers.
@@ -35,7 +37,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
      * values less than or equal to zero.
      * */
     public static GammaCodedSequence generate(ByteBuffer workArea, IntList values) {
-        return new GammaCodedSequence(EliasGammaCodec.encode(workArea, values));
+        return new GammaCodedSequence(encode(workArea, values));
     }
 
     public GammaCodedSequence(ByteBuffer bytes) {
@@ -76,7 +78,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         raw.position(startPos);
         raw.limit(startLimit);
 
-        return EliasGammaCodec.decode(raw);
+        return new EliasGammaSequenceIterator(raw);
     }
 
     /** Return an iterator over the sequence with a constant offset applied to each value.
@@ -88,7 +90,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         raw.position(startPos);
         raw.limit(startLimit);
 
-        return EliasGammaCodec.decodeWithOffset(raw, offset);
+        return new EliasGammaSequenceIterator(raw, offset);
     }
 
     public IntList values() {
@@ -140,6 +142,133 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         if (0 == raw.get(startPos))
             return 0;
 
-        return EliasGammaCodec.readCount(buffer());
+        return EliasGammaSequenceIterator.readCount(buffer());
+    }
+
+
+    /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
+     * The sequence must be strictly increasing and may not contain values less than
+     * or equal to zero.
+     */
+    public static ByteBuffer encode(ByteBuffer workArea, IntList sequence) {
+        if (sequence.isEmpty())
+            return ByteBuffer.allocate(0);
+
+        var writer = new BitWriter(workArea);
+
+        writer.putGamma(sequence.size());
+
+        int last = 0;
+
+        for (var iter = sequence.iterator(); iter.hasNext(); ) {
+            int i = iter.nextInt();
+            int delta = i - last;
+            last = i;
+
+            // can't encode zeroes
+            assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values";
+
+            writer.putGamma(delta);
+        }
+
+        // Finish the writer and return the work buffer, positioned and limited around
+        // the relevant data
+
+        var buffer = writer.finish();
+
+        // Copy the contents of the writer's internal buffer to a new ByteBuffer that is correctly sized,
+        // this lets us re-use the internal buffer for subsequent calls to encode without worrying about
+        // accidentally overwriting the previous data.
+
+        var outBuffer = ByteBuffer.allocate(buffer.limit());
+        outBuffer.put(buffer);
+        outBuffer.flip();
+
+        return outBuffer;
+    }
+
+    /** Encode a sequence of integers into a ByteBuffer using the Elias Gamma code.
+     * The sequence must be strictly increasing and may not contain values less than
+     * or equal to zero.
+     */
+    public static ByteBuffer encode(ByteBuffer workArea, int[] sequence) {
+        return encode(workArea, IntList.of(sequence));
+    }
+
+    /** Iterator that implements decoding of sequences of integers using the Elias Gamma code.
+     *  The sequence is prefixed by the number of integers in the sequence, then the delta between
+     *  each integer in the sequence is encoded using the Elias Gamma code.
+     * <p></p>
+     * <a href="https://en.wikipedia.org/wiki/Elias_gamma_coding">https://en.wikipedia.org/wiki/Elias_gamma_coding</a>
+     * */
+    public static class EliasGammaSequenceIterator implements IntIterator {
+
+        private final BitReader reader;
+        int rem = 0;
+        private int last;
+        private int next = 0;
+
+        public EliasGammaSequenceIterator(ByteBuffer buffer, int zero) {
+            reader = new BitReader(buffer);
+
+            last = zero;
+            int bits = 1 + reader.takeWhileZero();
+
+            if (!reader.hasMore()) {
+                rem = 0;
+            }
+            else {
+                rem = reader.get(bits);
+            }
+        }
+
+        public EliasGammaSequenceIterator(ByteBuffer buffer) {
+            this(buffer, 0);
+        }
+
+        public static int readCount(ByteBuffer buffer) {
+            var reader = new BitReader(buffer);
+
+            int bits = 1 + reader.takeWhileZero();
+            if (!reader.hasMore()) {
+                return 0;
+            }
+            else {
+                return reader.get(bits);
+            }
+        }
+
+
+
+        // This is BitWriter.getGamma with more checks in place for streaming iteration
+        @Override
+        public boolean hasNext() {
+            if (next > 0) return true;
+            if (!reader.hasMore() || --rem < 0) return false;
+
+            int bits = 1 + reader.takeWhileZero();
+
+            if (reader.hasMore()) {
+                int delta = reader.get(bits);
+                last += delta;
+                next = last;
+
+                return true;
+            }
+
+            return false;
+        }
+
+        @Override
+        public int nextInt() {
+            if (hasNext()) {
+                int ret = next;
+                next = -1;
+                return ret;
+            }
+            throw new ArrayIndexOutOfBoundsException("No more data to read");
+        }
+
+
     }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 620cbf26..930f67f0 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -100,11 +100,11 @@ public class BitReader {
 
     public int getGamma() {
         int bits = takeWhileZero();
-        return get(bits);
+        return get(bits + 1);
     }
 
     public int getDelta() {
-        int bits = getGamma() - 1;
+        int bits = getGamma();
         return get(bits);
     }
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
index a084cf22..65b90830 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -48,7 +48,7 @@ public class BitWriter {
     }
 
     /** Write the lowest width bits of the value to the buffer */
-    public void put(int value, int width) {
+    public void putBits(int value, int width) {
         assert width <= 32 : "Attempting to write more than 32 bits from a single integer";
 
         int rem = (64 - bitPosition);
@@ -72,15 +72,24 @@ public class BitWriter {
         }
     }
 
+    static int numberOfSignificantBits(int value) {
+        // we could also do 1 + Integer.numberOfTrailingZeros(Integer.highestOneBit(value))
+        // but it's doubtful it makes much of a difference either way
+
+        return Integer.SIZE - Integer.numberOfLeadingZeros(value);
+    }
+
     /** Write the provided value in a Elias gamma-coded format,
      * e.g. by first finding the number of significant bits,
      * then writing that many zeroes, then the bits themselves
      */
     public void putGamma(int value) {
-        int bits = Integer.numberOfTrailingZeros(Integer.highestOneBit(value));
+        assert value > 0 : "Attempting to write an Elias gamma coded value less than or equal to zero";
 
-        put(0, bits);
-        put(value, 1 + bits);
+        int bits = numberOfSignificantBits(value);
+
+        putBits(0, bits - 1);
+        putBits(value, bits);
     }
 
     /** Write the provided value in an Elias delta-coded format,
@@ -88,10 +97,12 @@ public class BitWriter {
      * then writing that many zeroes, then the bits themselves
      */
     public void putDelta(int value) {
-        int bits = 1 + Integer.numberOfTrailingZeros(Integer.highestOneBit(value));
+        assert value > 0 : "Attempting to write an Elias delta coded value less than or equal to zero";
 
-        putGamma(bits + 1);
-        put(value, bits);
+        int bits = numberOfSignificantBits(value);
+
+        putGamma(bits);
+        putBits(value, bits);
     }
 
     /** Flush the changes to the writer's internal buffer and
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
index 6eef10f1..9218e269 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
@@ -25,7 +25,7 @@ class BitReaderTest {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
         writer.putBit(true);
         writer.putBit(false);
-        writer.put(0, 32);
+        writer.putBits(0, 32);
         writer.putBit(true);
         writer.putBit(false);
         var buffer = writer.finish();
@@ -59,7 +59,7 @@ class BitReaderTest {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
         writer.putBit(true);
         writer.putBit(false);
-        writer.put(0, 32);
+        writer.putBits(0, 32);
         writer.putBit(true);
         writer.putBit(false);
         var buffer = writer.finish();
@@ -103,7 +103,7 @@ class BitReaderTest {
     @Test
     public void testTakeWhileZero() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
-        writer.put(0, 4);
+        writer.putBits(0, 4);
         writer.putBit(true);
         var buffer = writer.finish();
 
@@ -116,7 +116,7 @@ class BitReaderTest {
     @Test
     public void testTakeWhileZeroAllZero() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
-        writer.put(0, 8);
+        writer.putBits(0, 8);
         var buffer = writer.finish();
 
         var reader = new BitReader(buffer);
@@ -127,9 +127,9 @@ class BitReaderTest {
     @Test
     public void testTakeWhileZeroOverInt64() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
-        writer.put(0, 32);
-        writer.put(0, 32);
-        writer.put(0, 2);
+        writer.putBits(0, 32);
+        writer.putBits(0, 32);
+        writer.putBits(0, 2);
         writer.putBit(true);
         var buffer = writer.finish();
 
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
index 8d5d16d4..5adb5c7e 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
@@ -133,7 +133,7 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(1, 1);
+        writer.putBits(1, 1);
         var ret = writer.finish();
         assertEquals(1, ret.limit());
         assertEquals((byte)0b1000_0000, ret.get(0));
@@ -144,7 +144,7 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(1, 4);
+        writer.putBits(1, 4);
         var ret = writer.finish();
         assertEquals(1, ret.limit());
         assertEquals((byte)0b0001_0000, ret.get(0));
@@ -155,7 +155,7 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(3, 8);
+        writer.putBits(3, 8);
         var ret = writer.finish();
         assertEquals(1, ret.limit());
         assertEquals((byte)0b0000_0011, ret.get(0));
@@ -166,7 +166,7 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(~0, 8);
+        writer.putBits(~0, 8);
         var ret = writer.finish();
         assertEquals(1, ret.limit());
         assertEquals((byte)0b1111_1111, ret.get(0));
@@ -177,10 +177,10 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(~0, 8);
-        writer.put(0, 8);
-        writer.put(~0, 8);
-        writer.put(1, 1);
+        writer.putBits(~0, 8);
+        writer.putBits(0, 8);
+        writer.putBits(~0, 8);
+        writer.putBits(1, 1);
 
         var ret = writer.finish();
 
@@ -196,9 +196,9 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(~0, 24);
-        writer.put(0, 16);
-        writer.put(1, 1);
+        writer.putBits(~0, 24);
+        writer.putBits(0, 16);
+        writer.putBits(1, 1);
 
         var ret = writer.finish();
 
@@ -216,10 +216,10 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(0, 2);
-        writer.put(~0, 24);
-        writer.put(0, 16);
-        writer.put(1, 1);
+        writer.putBits(0, 2);
+        writer.putBits(~0, 24);
+        writer.putBits(0, 16);
+        writer.putBits(1, 1);
 
         var ret = writer.finish();
 
@@ -237,8 +237,8 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(1, 6);
-        writer.put(702, 11);
+        writer.putBits(1, 6);
+        writer.putBits(702, 11);
 
         var ret = writer.finish();
 
@@ -254,8 +254,8 @@ class BitWriterTest {
         var buffer = ByteBuffer.allocate(1024);
         var writer = new BitWriter(buffer);
 
-        writer.put(0, 6);
-        writer.put(0, 2);
+        writer.putBits(0, 6);
+        writer.putBits(0, 2);
 
         var ret = writer.finish();
 
@@ -281,8 +281,8 @@ class BitWriterTest {
             int a = r.nextInt(0, 1<<aw - 1);
             int b = r.nextInt(0, 1<<bw - 1);
             System.out.println(a + "/" + aw + "," + b + "/" + bw);
-            writer.put(a, aw);
-            writer.put(b, bw);
+            writer.putBits(a, aw);
+            writer.putBits(b, bw);
             var ret = writer.finish();
 
             var reader = new BitReader(ret);
@@ -294,4 +294,34 @@ class BitWriterTest {
             System.out.println(a + "," + b);
         }
     }
+
+    @Test
+    void testGamma() {
+        var buffer = ByteBuffer.allocate(8192);
+        var writer = new BitWriter(buffer);
+        writer.putGamma(1);
+        writer.putGamma(2);
+        writer.putGamma(30);
+        var ret = writer.finish();
+
+        var reader = new BitReader(ret);
+        assertEquals(1, reader.getGamma());
+        assertEquals(2, reader.getGamma());
+        assertEquals(30, reader.getGamma());
+    }
+
+    @Test
+    void testDelta() {
+        var buffer = ByteBuffer.allocate(8192);
+        var writer = new BitWriter(buffer);
+        writer.putDelta(1);
+        writer.putDelta(2);
+        writer.putDelta(30);
+        var ret = writer.finish();
+
+        var reader = new BitReader(ret);
+        assertEquals(1, reader.getDelta());
+        assertEquals(2, reader.getDelta());
+        assertEquals(30, reader.getDelta());
+    }
 }
\ No newline at end of file
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java
similarity index 73%
rename from code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
rename to code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java
index 77159460..1e48d0ae 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaCodecTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java
@@ -11,18 +11,18 @@ import java.util.stream.IntStream;
 
 import static org.junit.jupiter.api.Assertions.*;
 
-class EliasGammaCodecTest {
+class EliasGammaSequenceIteratorTest {
 
     ByteBuffer work = ByteBuffer.allocate(65536);
 
     @Test
     public void testCodec() {
-        var ret = EliasGammaCodec.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });
+        var ret = GammaCodedSequence.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });
 
         List<Integer> decoded = new ArrayList<>();
         List<Integer> expected = List.of(1, 3, 5, 16, 32, 64);
 
-        var sequence = EliasGammaCodec.decode(ret);
+        var sequence = new GammaCodedSequence.EliasGammaSequenceIterator(ret);
         while (sequence.hasNext()) {
             decoded.add(sequence.nextInt());
         }
@@ -32,19 +32,19 @@ class EliasGammaCodecTest {
 
     @Test
     public void valueCount() {
-        var ret = EliasGammaCodec.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });
-        var count = EliasGammaCodec.readCount(ret);
+        var ret = GammaCodedSequence.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });
+        var count = GammaCodedSequence.EliasGammaSequenceIterator.readCount(ret);
         assertEquals(6, count);
     }
 
     @Test
     public void testCodec2() {
-        var ret = EliasGammaCodec.encode(work, new int[] { 1, 256 });
+        var ret = GammaCodedSequence.encode(work, new int[] { 1, 256 });
 
         List<Integer> decoded = new ArrayList<>();
         List<Integer> expected = List.of(1, 256);
 
-        var sequence = EliasGammaCodec.decode(ret);
+        var sequence = new GammaCodedSequence.EliasGammaSequenceIterator(ret);
         while (sequence.hasNext()) {
             decoded.add(sequence.nextInt());
         }
@@ -61,13 +61,13 @@ class EliasGammaCodecTest {
             sequence[0] = 1;
             sequence[1] = 1 + r.nextInt(1, 512);
 
-            var ret = EliasGammaCodec.encode(work, sequence);
+            var ret = GammaCodedSequence.encode(work, sequence);
 
             List<Integer> decoded = new ArrayList<>();
             List<Integer> expected = IntStream.of(sequence).boxed().toList();
 
             try {
-                var codedData = EliasGammaCodec.decode(ret);
+                var codedData = new GammaCodedSequence.EliasGammaSequenceIterator(ret);
                 while (codedData.hasNext()) {
                     decoded.add(codedData.nextInt());
                 }

From 12590d34498e2147019b0c9a1e83ac895d117909 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 10 Jul 2024 18:34:07 +0200
Subject: [PATCH 045/216] (index-reverse) Added compression to priority index

The priority index documents file can be trivially compressed to a large degree.

Compression schema:
```
00b -> diff docord (E gamma)
01b -> diff domainid (E delta) + (1 + docord) (E delta)
10b -> rank (E gamma) + domainid,docord (raw)
11b -> 30 bit size header, followed by 1 raw doc id (61 bits)
```
---
 .../nu/marginalia/model/id/UrlIdCodec.java    |   8 ++
 .../index/PrioIndexEntrySource.java           | 109 ++++++++++++++----
 .../index/PrioReverseIndexReader.java         |  17 +--
 .../prio/PrioDocIdsTransformer.java           | 109 +++++++++++++++---
 .../prio/PrioDocIdsTransformerTest.java       |  85 +++++++++++---
 .../construction/prio/PrioPreindexTest.java   |   7 +-
 .../marginalia/index/query/EntrySource.java   |   1 +
 .../array/page/LongQueryBuffer.java           |   6 +
 .../nu/marginalia/sequence/io/BitWriter.java  |   3 +-
 .../nu/marginalia/sequence/BitWriterTest.java |  17 +++
 10 files changed, 295 insertions(+), 67 deletions(-)

diff --git a/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java b/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java
index 26ac847e..a8c9af28 100644
--- a/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java
+++ b/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java
@@ -40,6 +40,14 @@ public class UrlIdCodec {
         return ((long) domainId << 26) | documentOrdinal;
     }
 
+    /** Encode a URL id with a ranking element */
+    public static long encodeId(int rank, int domainId, int documentOrdinal) {
+        domainId &= 0x7FFF_FFFF;
+        documentOrdinal &= 0x03FF_FFFF;
+        rank &= 0x3F;
+
+        return  ((long) rank << 57) | ((long) domainId << 26) | documentOrdinal;
+    }
     /** Add a ranking element to an existing combined URL id.
      *
      * @param rank [0,1] the importance of the domain, low is good
diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
index bfb6be14..e55a4235 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
@@ -3,23 +3,32 @@ package nu.marginalia.index;
 import lombok.SneakyThrows;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.query.EntrySource;
+import nu.marginalia.sequence.io.BitReader;
+import nu.marginalia.model.id.UrlIdCodec;
 
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
 import java.nio.channels.FileChannel;
 
-import static java.lang.Math.min;
-
 public class PrioIndexEntrySource implements EntrySource {
     private final String name;
 
-    int posL;
-    int endOffsetL;
+    private final ByteBuffer readData = ByteBuffer.allocate(1024);
+    private final BitReader bitReader = new BitReader(readData);
 
     private final FileChannel docsFileChannel;
-    private final long dataOffsetStartB;
+    private long dataOffsetStartB;
     private final long wordId;
 
+    private final int numItems;
+    private int readItems = 0;
+
+    int prevRank = -1;
+    int prevDomainId = -1;
+    int prevDocOrd = -1;
+
     public PrioIndexEntrySource(String name,
-                                int numEntriesL,
                                 FileChannel docsFileChannel,
                                 long dataOffsetStartB,
                                 long wordId)
@@ -29,41 +38,101 @@ public class PrioIndexEntrySource implements EntrySource {
         this.dataOffsetStartB = dataOffsetStartB;
         this.wordId = wordId;
 
-        posL = 0;
-        endOffsetL = posL + numEntriesL;
+        // sneaky read of the header to get item count upfront
+
+        try {
+            readData.limit(4);
+
+            int rb = docsFileChannel.read(readData, dataOffsetStartB);
+            assert rb == 4;
+            readData.flip();
+            numItems = readData.getInt() & 0x3FFF_FFFF;
+
+            readData.position(0);
+            readData.limit(0);
+        }
+        catch (IOException ex) {
+            throw new IllegalStateException("Failed to read index data.", ex);
+        }
     }
 
     @Override
     public void skip(int n) {
-        posL += n;
+        throw new UnsupportedOperationException("Not implemented");
     }
 
     @Override
     @SneakyThrows
     @SuppressWarnings("preview")
     public void read(LongQueryBuffer buffer) {
-        buffer.reset();
-        buffer.end = min(buffer.end, endOffsetL - posL);
+        var outputBuffer = buffer.asByteBuffer().order(ByteOrder.LITTLE_ENDIAN);
+        outputBuffer.clear();
 
-        var byteBuffer = buffer.data.getMemorySegment().asByteBuffer();
-        byteBuffer.clear();
-        byteBuffer.limit(buffer.end * 8);
+        while (readItems++ < numItems && outputBuffer.hasRemaining()) {
+            fillReadBuffer();
 
-        while (byteBuffer.hasRemaining()) {
-            int rb = docsFileChannel.read(byteBuffer, dataOffsetStartB + posL * 8L + byteBuffer.position());
-            if (rb == -1) {
-                throw new IllegalStateException("Unexpected end of file while reading index data.");
+            int rank;
+            int domainId;
+            int docOrd;
+
+            int code = bitReader.get(2);
+            if (code == 0b11) {
+                // header
+                bitReader.get(30); // skip 30 bits for the size header
+
+                rank = bitReader.get(7);
+                domainId = bitReader.get(31);
+                docOrd = bitReader.get(26);
             }
+            else if (code == 0b10) {
+                rank = prevRank + bitReader.getGamma();
+                domainId = bitReader.get(31);
+                docOrd = bitReader.get(26);
+            }
+            else if (code == 0b01) {
+                rank = prevRank;
+                domainId = bitReader.getDelta() + prevDomainId;
+                docOrd = bitReader.getDelta() - 1;
+            }
+            else if (code == 0b00) {
+                rank = prevRank;
+                domainId = prevDomainId;
+                docOrd = prevDocOrd + bitReader.getGamma();
+            }
+            else {
+                throw new IllegalStateException("??? found code " + code);
+            }
+
+            long encodedId = UrlIdCodec.encodeId(rank, domainId, docOrd);
+
+            outputBuffer.putLong(
+                    encodedId
+            );
+
+            prevRank = rank;
+            prevDomainId = domainId;
+            prevDocOrd = docOrd;
         }
 
-        posL += buffer.end;
+        buffer.end = outputBuffer.position() / 8;
+
         buffer.uniq();
     }
 
+    private void fillReadBuffer() throws IOException {
+        if (readData.remaining() < 8) {
+            readData.compact();
+            int rb = docsFileChannel.read(readData, dataOffsetStartB);
+            if (rb > 0) {
+                dataOffsetStartB += rb;
+            }
+            readData.flip();
+        }
+    }
 
     @Override
     public boolean hasMore() {
-        return posL < endOffsetL;
+        return readItems < numItems;
     }
 
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
index 62ab1145..4b6944ae 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
@@ -70,20 +70,9 @@ public class PrioReverseIndexReader {
         if (offset < 0) // No documents
             return new EmptyEntrySource();
 
-        // Read the number of documents
-        ByteBuffer buffer = ByteBuffer.allocate(8);
-        try {
-            documentsChannel.read(buffer, offset);
-        }
-        catch (IOException e) {
-            logger.error("Failed to read documents channel", e);
-            return new EmptyEntrySource();
-        }
-
         return new PrioIndexEntrySource(name,
-                (int) buffer.getLong(0),
                 documentsChannel,
-                offset + 8,
+                offset,
                 termId);
     }
 
@@ -92,7 +81,7 @@ public class PrioReverseIndexReader {
 
         long offset = wordOffset(termId);
 
-        ByteBuffer buffer = ByteBuffer.allocate(8);
+        ByteBuffer buffer = ByteBuffer.allocate(4);
         try {
             documentsChannel.read(buffer, offset);
         }
@@ -101,7 +90,7 @@ public class PrioReverseIndexReader {
             return 0;
         }
 
-        return (int) buffer.getLong(0);
+        return buffer.getInt(0) & 0x3FFF_FFFF;
 
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
index 7a4801b3..01bdcfc2 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
@@ -1,17 +1,26 @@
 package nu.marginalia.index.construction.prio;
 
 import nu.marginalia.array.algo.LongArrayTransformations;
+import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.sequence.io.BitWriter;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
 import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
 import java.nio.channels.FileChannel;
 
 /** Constructs document ids list priority reverse index */
 public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTransformer {
+
+    private static final Logger logger = LoggerFactory.getLogger(PrioDocIdsTransformer.class);
+
     private final FileChannel writeChannel;
     private final FileChannel readChannel;
 
-    private final ByteBuffer buffer = ByteBuffer.allocate(8192);
+    private final ByteBuffer readBuffer = ByteBuffer.allocate(8192).order(ByteOrder.LITTLE_ENDIAN);
+    private final ByteBuffer writeBuffer = ByteBuffer.allocate(8192);
 
     long startL = 0;
     long writeOffsetB = 0;
@@ -33,25 +42,99 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
         }
 
         readChannel.position(startL * 8);
+        readBuffer.clear();
+        writeBuffer.clear();
 
-        buffer.clear();
-        buffer.putLong(sizeL);
+        int toBeRead = 8 * (sizeL);
+
+        var bitWriter = new BitWriter(writeBuffer);
+
+        int prevRank = -1;
+        int prevDomainId = -1;
+        int prevDocOrd = -1;
+        boolean wroteHeader = false;
 
-        int toBeWrittenB = 8 * (1 + sizeL);
         do {
-            buffer.limit(Math.min(buffer.capacity(), toBeWrittenB));
-            readChannel.read(buffer);
-            buffer.flip();
+            readBuffer.limit(Math.min(readBuffer.capacity(), toBeRead));
+            readChannel.read(readBuffer);
+            readBuffer.flip();
 
-            while (buffer.hasRemaining()) {
-                int written = writeChannel.write(buffer, writeOffsetB);
-                writeOffsetB += written;
-                toBeWrittenB -= written;
+            if (!wroteHeader) {
+                // write 11b header
+                bitWriter.putBits(3, 2);
+                // encode number of items
+                bitWriter.putBits(sizeL, 30);
+
+
+                long firstItem = readBuffer.getLong();
+
+                prevRank = UrlIdCodec.getRank(firstItem);
+                prevDomainId = UrlIdCodec.getDomainId(firstItem);
+                prevDocOrd = UrlIdCodec.getDocumentOrdinal(firstItem);
+
+                bitWriter.putBits(prevRank, 7);
+                bitWriter.putBits(prevDomainId, 31);
+                bitWriter.putBits(prevDocOrd, 26);
+
+                wroteHeader = true;
             }
 
-            buffer.clear();
-        } while (toBeWrittenB > 0);
+            while (readBuffer.hasRemaining()) {
+                long nextId = readBuffer.getLong();
 
+                // break down id components
+                int rank = UrlIdCodec.getRank(nextId);
+                int domainId = UrlIdCodec.getDomainId(nextId);
+                int docOrd = UrlIdCodec.getDocumentOrdinal(nextId);
+
+                // encode components
+                if (rank != prevRank) {
+                    bitWriter.putBits(0b10, 2);
+                    bitWriter.putGamma(rank - prevRank);
+                    bitWriter.putBits(domainId, 31);
+                    bitWriter.putBits(docOrd, 26);
+                }
+                else if (domainId != prevDomainId) {
+                    bitWriter.putBits(0b01, 2);
+                    bitWriter.putDelta(domainId - prevDomainId);
+                    bitWriter.putDelta(1 + docOrd);
+                }
+                else if (docOrd != prevDocOrd) {
+                    bitWriter.putBits(0b00, 2);
+                    bitWriter.putGamma(docOrd - prevDocOrd);
+                }
+                else {
+                    logger.warn("Unexpected duplicate document id: {}", nextId);
+                }
+
+                prevDocOrd = docOrd;
+                prevDomainId = domainId;
+                prevRank = rank;
+
+                if (writeBuffer.remaining() < 16) {
+                    writeBuffer.flip();
+                    int written = writeChannel.write(writeBuffer, writeOffsetB);
+                    writeOffsetB += written;
+                    writeBuffer.clear();
+                }
+            }
+
+            toBeRead -= readBuffer.limit();
+            readBuffer.clear();
+        } while (toBeRead > 0);
+
+        // write lingering data
+
+        // ensure any half-written data is flushed to the buffer
+        bitWriter.finishLastByte();
+
+        writeBuffer.flip();
+        while (writeBuffer.hasRemaining()) {
+            int written = writeChannel.write(writeBuffer, writeOffsetB);
+            writeOffsetB += written;
+        }
+
+        // update the start input pointer
         startL = endL;
         return startOffsetB;
     }
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
index f1e976a6..c5116334 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
@@ -1,5 +1,7 @@
 package nu.marginalia.index.construction.prio;
 
+import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.sequence.io.BitReader;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -7,6 +9,7 @@ import org.junit.jupiter.api.Test;
 import java.io.DataInputStream;
 import java.io.DataOutputStream;
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
@@ -36,15 +39,14 @@ class PrioDocIdsTransformerTest {
     }
 
     @Test
-    public void test() throws IOException {
+    public void testDomainIdDocOrd() throws IOException {
 
         // Write 5 longs to the input file as data
         try (var dos = new DataOutputStream(Files.newOutputStream(inputFile))) {
-            dos.writeLong(1);
-            dos.writeLong(2);
-            dos.writeLong(3);
-            dos.writeLong(4);
-            dos.writeLong(5);
+            dos.writeLong(UrlIdCodec.encodeId(0, 0));
+            dos.writeLong(UrlIdCodec.encodeId(0, 1));
+            dos.writeLong(UrlIdCodec.encodeId(1, 0));
+            dos.writeLong(UrlIdCodec.encodeId(4, 51) | 0x7000_0000_0000_0000L);
         }
 
         try (var writeChannel = (FileChannel) Files.newByteChannel(outputFile, StandardOpenOption.WRITE);
@@ -52,19 +54,68 @@ class PrioDocIdsTransformerTest {
         {
             // Transform two segments of the input file and write them to the output file with prefixed sizes
             var transformer = new PrioDocIdsTransformer(writeChannel, readChannel);
-            transformer.transform(0, 3);
-            transformer.transform(1, 5);
+            transformer.transform(0, 4);
         }
 
-        // Verify the output file
-        try (var dis = new DataInputStream(Files.newInputStream(outputFile))) {
-            assertEquals(3, dis.readLong());
-            assertEquals(1, dis.readLong());
-            assertEquals(2, dis.readLong());
-            assertEquals(3, dis.readLong());
-            assertEquals(2, dis.readLong());
-            assertEquals(4, dis.readLong());
-            assertEquals(5, dis.readLong());
+        byte[] bytes = Files.readAllBytes(outputFile);
+        var buffer = ByteBuffer.wrap(bytes);
+
+
+        BitReader reader = new BitReader(buffer);
+
+        // read the header
+        {
+            int code = reader.get(2);
+            int size = reader.get(30);
+            assertEquals(3, code);
+            assertEquals(4, size);
+        }
+
+        // read first doc id in parts
+        int rank = reader.get(7);
+        int domainId = reader.get(31);
+        int ordinal = reader.get(26);
+
+        assertEquals(0, rank);
+        assertEquals(0, domainId);
+        assertEquals(0, ordinal);
+
+        {
+            int code = reader.get(2);
+            assertEquals(0, code); // increment doc ordinal
+
+            int dord = reader.getGamma();
+            ordinal += dord;
+
+            assertEquals(1, ordinal);
+        }
+
+        {
+            int code = reader.get(2);
+            assertEquals(1, code); // increment doc ordinal
+
+            int diffDomainId = reader.getDelta();
+            domainId += diffDomainId;
+            assertEquals(1, domainId);
+
+            int abs_ord = reader.getDelta();
+            ordinal = abs_ord - 1;
+            assertEquals(0, ordinal);
+        }
+
+        {
+            int code = reader.get(2);
+            assertEquals(2, code); // increment doc ordinal
+
+            int diffRank = reader.getGamma() - 1;
+            rank += diffRank;
+            assertEquals(56, rank);
+
+            domainId = reader.get(31);
+            ordinal = reader.get(26);
+
+            assertEquals(4, domainId);
+            assertEquals(51, ordinal);
         }
     }
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
index 8ba5ac7c..2a1a2a6c 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
@@ -12,6 +12,7 @@ import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.ArrayList;
+import java.util.Arrays;
 import java.util.List;
 
 import static nu.marginalia.index.construction.full.TestJournalFactory.*;
@@ -60,7 +61,8 @@ class PrioPreindexTest {
     public void testFinalizeSimple() throws IOException {
         var journalReader = journalFactory.createReader(
                 new EntryDataWithWordMeta(100, 101, wm(50, 51)),
-                new EntryDataWithWordMeta(104, 101, wm(50, 52))
+                new EntryDataWithWordMeta(104, 101, wm(50, 52)),
+                new EntryDataWithWordMeta(106, 101, wm(50, 52))
         );
 
         var preindex = PrioPreindex.constructPreindex(journalReader, DocIdRewriter.identity(), tempDir);
@@ -79,9 +81,10 @@ class PrioPreindexTest {
         var lqb = new LongQueryBuffer(32);
         entrySource.read(lqb);
 
-        assertEquals(2, lqb.size());
+        assertEquals(3, lqb.size());
         assertEquals(100, lqb.copyData()[0]);
         assertEquals(104, lqb.copyData()[1]);
+        assertEquals(106, lqb.copyData()[2]);
     }
 
 
diff --git a/code/index/query/java/nu/marginalia/index/query/EntrySource.java b/code/index/query/java/nu/marginalia/index/query/EntrySource.java
index 4b0f6405..166440f0 100644
--- a/code/index/query/java/nu/marginalia/index/query/EntrySource.java
+++ b/code/index/query/java/nu/marginalia/index/query/EntrySource.java
@@ -6,6 +6,7 @@ import nu.marginalia.array.page.LongQueryBuffer;
  */
 public interface EntrySource {
     /** Skip n entries. */
+    @Deprecated
     void skip(int n);
 
     /** Fill the buffer with entries, updating its data and length appropriately. */
diff --git a/code/libraries/array/java/nu/marginalia/array/page/LongQueryBuffer.java b/code/libraries/array/java/nu/marginalia/array/page/LongQueryBuffer.java
index 1a270af7..ba1bd2b3 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/LongQueryBuffer.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/LongQueryBuffer.java
@@ -3,6 +3,7 @@ package nu.marginalia.array.page;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 
+import java.nio.ByteBuffer;
 import java.util.Arrays;
 
 /** A buffer for long values that can be used to filter and manipulate the data.
@@ -164,6 +165,11 @@ public class LongQueryBuffer {
         finalizeFiltering();
     }
 
+    @SuppressWarnings("preview")
+    public ByteBuffer asByteBuffer() {
+        return data.getMemorySegment().asByteBuffer();
+    }
+
     public String toString() {
         return getClass().getSimpleName() + "[" +
             "read = " + read +
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
index 65b90830..598f7594 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -120,7 +120,8 @@ public class BitWriter {
     }
 
 
-    private void finishLastByte() {
+    /** Finish writing any partially written bit fields to the buffer */
+    public void finishLastByte() {
         // It's possible we have a few bits left over that have yet to be written
         // to the underlying buffer. We need to write them out now.
 
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
index 5adb5c7e..b5404ceb 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitWriterTest.java
@@ -324,4 +324,21 @@ class BitWriterTest {
         assertEquals(2, reader.getDelta());
         assertEquals(30, reader.getDelta());
     }
+
+    @Test
+    void testGamma2() {
+        var buffer = ByteBuffer.allocate(8192);
+        var writer = new BitWriter(buffer);
+        writer.putBits(0, 2);
+        writer.putGamma(4);
+        writer.putBits(0, 2);
+        writer.putGamma(2);
+        var ret = writer.finish();
+
+        var reader = new BitReader(ret);
+        reader.get(2);
+        assertEquals(4, reader.getGamma());
+        reader.get(2);
+        assertEquals(2, reader.getGamma());
+    }
 }
\ No newline at end of file

From 9881cac2dac5b4a95a8deb98f244d97993fe7643 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 10 Jul 2024 23:17:30 +0200
Subject: [PATCH 046/216] (index-reader) Correctly handle negative offset
 values

When wordOffset(...) returns a negative value, it means the word isn't present in the index, and we should abort.
---
 .../java/nu/marginalia/index/PrioReverseIndexReader.java       | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
index 4b6944ae..bf1214e5 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioReverseIndexReader.java
@@ -81,6 +81,9 @@ public class PrioReverseIndexReader {
 
         long offset = wordOffset(termId);
 
+        if (offset < 0) // No documents
+            return 0;
+
         ByteBuffer buffer = ByteBuffer.allocate(4);
         try {
             documentsChannel.read(buffer, offset);

From f090f0101b0fa492b88d3e230088dd3335ccc179 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 10 Jul 2024 23:18:06 +0200
Subject: [PATCH 047/216] (index-construction) Gather up preindex writes

Use fewer writes when finalizing the preindex documents.dat file, as this was getting too slow.
---
 .../prio/PrioDocIdsTransformer.java           | 30 ++++++++++---------
 .../index/construction/prio/PrioPreindex.java |  5 ++--
 .../prio/PrioDocIdsTransformerTest.java       | 24 +++++++++------
 3 files changed, 34 insertions(+), 25 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
index 01bdcfc2..52a5ec45 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
@@ -12,7 +12,7 @@ import java.nio.ByteOrder;
 import java.nio.channels.FileChannel;
 
 /** Constructs document ids list priority reverse index */
-public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTransformer {
+public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTransformer, AutoCloseable {
 
     private static final Logger logger = LoggerFactory.getLogger(PrioDocIdsTransformer.class);
 
@@ -43,7 +43,6 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
 
         readChannel.position(startL * 8);
         readBuffer.clear();
-        writeBuffer.clear();
 
         int toBeRead = 8 * (sizeL);
 
@@ -80,6 +79,13 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
             }
 
             while (readBuffer.hasRemaining()) {
+                if (writeBuffer.remaining() < 16) {
+                    writeBuffer.flip();
+                    int written = writeChannel.write(writeBuffer, writeOffsetB);
+                    writeOffsetB += written;
+                    writeBuffer.clear();
+                }
+
                 long nextId = readBuffer.getLong();
 
                 // break down id components
@@ -111,12 +117,6 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
                 prevDomainId = domainId;
                 prevRank = rank;
 
-                if (writeBuffer.remaining() < 16) {
-                    writeBuffer.flip();
-                    int written = writeChannel.write(writeBuffer, writeOffsetB);
-                    writeOffsetB += written;
-                    writeBuffer.clear();
-                }
             }
 
             toBeRead -= readBuffer.limit();
@@ -128,14 +128,16 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
         // ensure any half-written data is flushed to the buffer
         bitWriter.finishLastByte();
 
-        writeBuffer.flip();
-        while (writeBuffer.hasRemaining()) {
-            int written = writeChannel.write(writeBuffer, writeOffsetB);
-            writeOffsetB += written;
-        }
-
         // update the start input pointer
         startL = endL;
         return startOffsetB;
     }
+
+    @Override
+    public void close() throws IOException {
+        writeBuffer.flip();
+        int written = writeChannel.write(writeBuffer, writeOffsetB);
+        writeOffsetB += written;
+        writeBuffer.clear();
+    }
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index 13fde772..a9ac2337 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -82,9 +82,10 @@ public class PrioPreindex {
 
         // Write the docs file
         try (var intermediateDocChannel = documents.createDocumentsFileChannel();
-             var destFileChannel = (FileChannel) Files.newByteChannel(outputFileDocs, StandardOpenOption.CREATE_NEW, StandardOpenOption.WRITE)
+             var destFileChannel = (FileChannel) Files.newByteChannel(outputFileDocs, StandardOpenOption.CREATE_NEW, StandardOpenOption.WRITE);
+             var transformer = new PrioDocIdsTransformer(destFileChannel, intermediateDocChannel)
         ) {
-            offsets.transformEachIO(0, offsets.size(), new PrioDocIdsTransformer(destFileChannel, intermediateDocChannel));
+            offsets.transformEachIO(0, offsets.size(), transformer);
         }
 
         LongArray wordIds = segments.wordIds;
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
index c5116334..e4ced16d 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioDocIdsTransformerTest.java
@@ -10,6 +10,7 @@ import java.io.DataInputStream;
 import java.io.DataOutputStream;
 import java.io.IOException;
 import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
 import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
@@ -41,19 +42,24 @@ class PrioDocIdsTransformerTest {
     @Test
     public void testDomainIdDocOrd() throws IOException {
 
-        // Write 5 longs to the input file as data
-        try (var dos = new DataOutputStream(Files.newOutputStream(inputFile))) {
-            dos.writeLong(UrlIdCodec.encodeId(0, 0));
-            dos.writeLong(UrlIdCodec.encodeId(0, 1));
-            dos.writeLong(UrlIdCodec.encodeId(1, 0));
-            dos.writeLong(UrlIdCodec.encodeId(4, 51) | 0x7000_0000_0000_0000L);
+
+        try (var writeChannel = (FileChannel) Files.newByteChannel(inputFile, StandardOpenOption.WRITE)) {
+            var buffer = ByteBuffer.allocate(128).order(ByteOrder.LITTLE_ENDIAN);
+
+            buffer.putLong(UrlIdCodec.encodeId(0, 0));
+            buffer.putLong(UrlIdCodec.encodeId(0, 1));
+            buffer.putLong(UrlIdCodec.encodeId(1, 0));
+            buffer.putLong(UrlIdCodec.encodeId(4, 51) | 0x7000_0000_0000_0000L);
+
+            writeChannel.write(buffer.flip());
         }
 
         try (var writeChannel = (FileChannel) Files.newByteChannel(outputFile, StandardOpenOption.WRITE);
-             var readChannel = (FileChannel) Files.newByteChannel(inputFile))
+             var readChannel = (FileChannel) Files.newByteChannel(inputFile);
+             var transformer = new PrioDocIdsTransformer(writeChannel, readChannel))
         {
             // Transform two segments of the input file and write them to the output file with prefixed sizes
-            var transformer = new PrioDocIdsTransformer(writeChannel, readChannel);
+
             transformer.transform(0, 4);
         }
 
@@ -107,7 +113,7 @@ class PrioDocIdsTransformerTest {
             int code = reader.get(2);
             assertEquals(2, code); // increment doc ordinal
 
-            int diffRank = reader.getGamma() - 1;
+            int diffRank = reader.getGamma();
             rank += diffRank;
             assertEquals(56, rank);
 

From 31881874a9d9b0bacb0943540fe03aae4edf55c8 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 11 Jul 2024 16:11:20 +0200
Subject: [PATCH 048/216] (coded-sequence) Correct indicator of next-value

It was incorrectly assumed that a "next" value could not be zero or negative, as this is not representable via the Gamam code.  This is incorrect in this case, as we're able to provide a negative offset.  Changing to using Integer.MIN_VALUE as indicator that a value is absent instead, as this will never be used.
---
 .../nu/marginalia/sequence/GammaCodedSequence.java    | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 8b6f9ea3..301b1c96 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -206,9 +206,13 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         private final BitReader reader;
         int rem = 0;
         private int last;
-        private int next = 0;
+        private int next = Integer.MIN_VALUE;
 
         public EliasGammaSequenceIterator(ByteBuffer buffer, int zero) {
+            if (zero == Integer.MIN_VALUE) {
+                throw new IllegalArgumentException("Integer.MIN_VALUE is a reserved offset that may not be used as zero point");
+            }
+
             reader = new BitReader(buffer);
 
             last = zero;
@@ -243,13 +247,14 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         // This is BitWriter.getGamma with more checks in place for streaming iteration
         @Override
         public boolean hasNext() {
-            if (next > 0) return true;
+            if (next != Integer.MIN_VALUE) return true;
             if (!reader.hasMore() || --rem < 0) return false;
 
             int bits = 1 + reader.takeWhileZero();
 
             if (reader.hasMore()) {
                 int delta = reader.get(bits);
+
                 last += delta;
                 next = last;
 
@@ -263,7 +268,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         public int nextInt() {
             if (hasNext()) {
                 int ret = next;
-                next = -1;
+                next = Integer.MIN_VALUE;
                 return ret;
             }
             throw new ArrayIndexOutOfBoundsException("No more data to read");

From 1ab875a75da20c02f9a8c4d7c61548f1f76b99c9 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 11 Jul 2024 16:12:02 +0200
Subject: [PATCH 049/216] (test) Correcting flaky tests

Also changing the inappropriate usage of ReverseIndexPrioFileNames for the full index in test code.
---
 .../query_parser/model/QWordGraphTest.java    |  4 +-
 .../index/ReverseIndexPrioFileNames.java      |  5 -
 .../prio/PrioIndexConstructor.java            |  4 -
 .../full/FullPreindexMergeTest.java           |  7 ++
 .../index/CombinedIndexReaderTest.java        |  6 +-
 ...IndexQueryServiceIntegrationSmokeTest.java |  2 -
 .../IndexQueryServiceIntegrationTest.java     | 92 ++++++++-----------
 .../index/IndexConstructorMain.java           |  2 -
 .../test/nu/marginalia/IntegrationTest.java   |  2 -
 9 files changed, 50 insertions(+), 74 deletions(-)

diff --git a/code/functions/search-query/test/nu/marginalia/functions/searchquery/query_parser/model/QWordGraphTest.java b/code/functions/search-query/test/nu/marginalia/functions/searchquery/query_parser/model/QWordGraphTest.java
index 4f4fc0b1..e1df546c 100644
--- a/code/functions/search-query/test/nu/marginalia/functions/searchquery/query_parser/model/QWordGraphTest.java
+++ b/code/functions/search-query/test/nu/marginalia/functions/searchquery/query_parser/model/QWordGraphTest.java
@@ -1,5 +1,6 @@
 package nu.marginalia.functions.searchquery.query_parser.model;
 
+import org.junit.jupiter.api.Disabled;
 import org.junit.jupiter.api.Test;
 
 import java.util.Comparator;
@@ -100,7 +101,8 @@ class QWordGraphTest {
         assertEquals("q b ( c | d )", graph.compileToQuery());
     }
 
-    @Test // this test is a bit flaky, the order of the variants is not guaranteed
+    @Disabled // flaky, the order of the variants is not guaranteed
+    @Test
     void testCompile5() {
         // Construct a graph like
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java
index ecc570ba..ff924cf1 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/ReverseIndexPrioFileNames.java
@@ -13,10 +13,6 @@ public class ReverseIndexPrioFileNames {
                 case NEXT -> basePath.resolve("rev-prio-docs.dat.next");
                 case CURRENT -> basePath.resolve("rev-prio-docs.dat");
             };
-            case POSITIONS -> switch (version) {
-                case NEXT -> basePath.resolve("rev-prio-positions.dat.next");
-                case CURRENT -> basePath.resolve("rev-prio-positions.dat");
-            };
         };
     }
 
@@ -28,6 +24,5 @@ public class ReverseIndexPrioFileNames {
     public enum FileIdentifier {
         WORDS,
         DOCS,
-        POSITIONS,
     }
 }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
index e853fb50..93616e88 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
@@ -3,7 +3,6 @@ package nu.marginalia.index.construction.prio;
 import lombok.SneakyThrows;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.JournalReaderSource;
-import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.IndexJournalFileNames;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import org.slf4j.Logger;
@@ -25,20 +24,17 @@ public class PrioIndexConstructor {
 
     private final Path outputFileDocs;
     private final Path outputFileWords;
-    private final Path outputFilePositions;
     private final JournalReaderSource readerSource;
     private final DocIdRewriter docIdRewriter;
     private final Path tmpDir;
 
     public PrioIndexConstructor(Path outputFileDocs,
                                 Path outputFileWords,
-                                Path outputFilePositions,
                                 JournalReaderSource readerSource,
                                 DocIdRewriter docIdRewriter,
                                 Path tmpDir) {
         this.outputFileDocs = outputFileDocs;
         this.outputFileWords = outputFileWords;
-        this.outputFilePositions = outputFilePositions;
         this.readerSource = readerSource;
         this.docIdRewriter = docIdRewriter;
         this.tmpDir = tmpDir;
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
index 6abe612b..85796e41 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
@@ -5,6 +5,7 @@ import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Disabled;
 import org.junit.jupiter.api.Test;
 
 import java.io.IOException;
@@ -73,6 +74,7 @@ class FullPreindexMergeTest {
     }
 
     @Test
+    @Disabled
     public void testDocsMergeSingleNoOverlap() throws IOException {
 
         IdSequence docIds = new IdSequence();
@@ -97,6 +99,7 @@ class FullPreindexMergeTest {
     }
 
     @Test
+    @Disabled
     public void testDocsMergeSingleOnlyOverlap() throws IOException {
 
         IdSequence docIds = new IdSequence();
@@ -121,6 +124,7 @@ class FullPreindexMergeTest {
     }
 
     @Test
+    @Disabled
     public void testDocsMergeSingleOnlyOverlap2() throws IOException {
 
         long wid1 = 1;
@@ -152,6 +156,7 @@ class FullPreindexMergeTest {
     }
 
     @Test
+    @Disabled
     public void testBadCase1() throws IOException {
         long wordId = 0xF00F00BA3L;
 
@@ -193,6 +198,7 @@ class FullPreindexMergeTest {
     }
 
     @Test
+    @Disabled
     public void testBadCase2() throws IOException {
         long wordId = 100;
 
@@ -235,6 +241,7 @@ class FullPreindexMergeTest {
     }
 
     @Test
+    @Disabled
     public void testFuzz() throws IOException {
         Random r = new Random();
         int maxDocs = 150;
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
index bce2a436..226ca9ae 100644
--- a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -256,9 +256,9 @@ public class CombinedIndexReaderTest {
 
     private void createPrioReverseIndex() throws IOException {
 
-        Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
-        Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
-        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
+        Path outputFileDocs = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.DOCS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFileWords = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.WORDS, ReverseIndexFullFileNames.FileVersion.NEXT);
+        Path outputFilePositions = ReverseIndexFullFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexFullFileNames.FileIdentifier.POSITIONS, ReverseIndexFullFileNames.FileVersion.NEXT);
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index e9d4395f..0be75487 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -307,7 +307,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
-        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
@@ -317,7 +316,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
         var constructor = new PrioIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
-                    outputFilePositions,
                     IndexJournalReader::singleFile,
                     DocIdRewriter.identity(),
                     tmpDir);
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 2a24e350..6155ab83 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -2,12 +2,14 @@ package nu.marginalia.index;
 
 import com.google.inject.Guice;
 import com.google.inject.Inject;
+import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
+import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.sequence.GammaCodedSequence;
@@ -182,30 +184,6 @@ public class IndexQueryServiceIntegrationTest {
                 .expectCount(0);
     }
 
-    @Test
-    public void testPositions() throws Exception {
-
-        // Test position rules
-        new MockData()
-            .add( // Case 1: Both words have a position set, should be considered
-                d(1, 1),
-                new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class))),
-                w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
-            ).add( // Case 2: Only one of the words have a position set, should not be considered
-                d(2, 2),
-                new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class))),
-                w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                w("world", new WordMetadata(0L, EnumSet.noneOf(WordFlags.class)).encode())
-            ).load();
-
-
-        var query = basicQuery(builder -> builder.query(justInclude("hello", "world")));
-
-        executeSearch(query)
-            .expectDocumentsInOrder(d(1,1));
-    }
-
     @Test
     public void testYear() throws Exception {
 
@@ -214,19 +192,19 @@ public class IndexQueryServiceIntegrationTest {
                 .add( // Case 1: Document is dated 1999
                         d(1, 1),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(1999), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 ).add( // Case 2: Document is dated 2000
                         d(2, 2),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(2000), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 )
                 .add( // Case 2: Document is dated 2001
                         d(3, 3),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(2001), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 )
                 .load();
 
@@ -269,26 +247,26 @@ public class IndexQueryServiceIntegrationTest {
                 .add(
                         d(1, 1),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(1999), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 ).add(
                         d(1, 2),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(2000), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 )
                 // docs from domain 2
                 .add(
                         d(2, 1),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(2001), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 )
                 .add(
                         d(2, 2),
                         new MockDocumentMeta(0, new DocumentMetadata(2, PubDate.toYearByte(2001), 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 )
                 .load();
 
@@ -322,13 +300,13 @@ public class IndexQueryServiceIntegrationTest {
                 .add( // Case 1: The required include is present, exclude is absent; should be a result
                         d(1, 1),
                         new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("world", EnumSet.noneOf(WordFlags.class), 1)
                 ).add( // Case 2: The required include is present, excluded term is absent; should not be a result
                         d(2, 2),
                         new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class))),
-                        w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                        w("my_darling", new WordMetadata(0L, EnumSet.noneOf(WordFlags.class)).encode())
+                        w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                        w("my_darling", EnumSet.noneOf(WordFlags.class), 1)
                 ).load();
 
         var query = basicQuery(builder ->
@@ -389,14 +367,14 @@ public class IndexQueryServiceIntegrationTest {
             .add( // Case 1: Both positions overlap; should be included
                 d(1, 1),
                 new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class))),
-                w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                w("world", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode())
+                w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                w("world", EnumSet.noneOf(WordFlags.class), 1)
             )
             .add( // Case 2: Positions do not overlap, do not include
                 d(2, 2),
                 new MockDocumentMeta(0, new DocumentMetadata(2, 0, 14, EnumSet.noneOf(DocumentFlags.class))),
-                w("hello", new WordMetadata(1L, EnumSet.noneOf(WordFlags.class)).encode()),
-                w("world", new WordMetadata(2L, EnumSet.noneOf(WordFlags.class)).encode())
+                w("hello", EnumSet.noneOf(WordFlags.class), 1),
+                w("world", EnumSet.noneOf(WordFlags.class), 2)
             )
         .load();
 
@@ -407,7 +385,7 @@ public class IndexQueryServiceIntegrationTest {
                 )));
 
         assertEquals(1, rsp.results.size());
-        assertEquals(d(1,1).docId(),
+        assertEquals(d(2,2).docId(),
                 rsp.results.get(0).rawIndexResult.getDocumentId());
     }
 
@@ -507,16 +485,14 @@ public class IndexQueryServiceIntegrationTest {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
-        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
         if (!Files.isDirectory(tmpDir)) Files.createDirectories(tmpDir);
 
-        var constructor = new FullIndexConstructor(
+        var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                outputFilePositions,
                 IndexJournalReader::singleFile,
                 DocIdRewriter.identity(),
                 tmpDir);
@@ -572,8 +548,12 @@ public class IndexQueryServiceIntegrationTest {
 
                 String[] keywords = words.stream().map(w -> w.keyword).toArray(String[]::new);
                 long[] metadata = words.stream().map(w -> w.termMetadata).mapToLong(Long::longValue).toArray();
+
                 GammaCodedSequence[] positions = new GammaCodedSequence[words.size()]; // FIXME: positions?
-                Arrays.setAll(positions, i -> new GammaCodedSequence(ByteBuffer.allocate(1)));
+                ByteBuffer workBuffer = ByteBuffer.allocate(8192);
+                for (int i = 0; i < positions.length; i++) {
+                    positions[i] = GammaCodedSequence.generate(workBuffer, words.get(i).positions);
+                }
 
                 indexJournalWriter.put(header,
                         new IndexJournalEntryData(keywords, metadata, positions));
@@ -616,9 +596,11 @@ public class IndexQueryServiceIntegrationTest {
             this(features, new DocumentMetadata(encoded));
         }
     }
-    record MockDataKeyword(String keyword, long termMetadata) {}
+    record MockDataKeyword(String keyword, long termMetadata, IntList positions) {}
 
-    public MockDataKeyword w(String keyword, long termMetadata) { return new MockDataKeyword(keyword, termMetadata); }
-    public MockDataKeyword w(String keyword) { return new MockDataKeyword(keyword, 0L); }
-    public MockDataKeyword w(String keyword, WordFlags flags) { return new MockDataKeyword(keyword, new WordMetadata(0L, EnumSet.of(flags)).encode()); }
+    public MockDataKeyword w(String keyword, EnumSet<WordFlags> wordFlags, int... positions) {
+        return new MockDataKeyword(keyword, new WordMetadata(0, wordFlags).encode(), IntList.of(positions));
+    }
+    public MockDataKeyword w(String keyword) { return new MockDataKeyword(keyword, 0L, IntList.of()); }
+    public MockDataKeyword w(String keyword, WordFlags flags) { return new MockDataKeyword(keyword, new WordMetadata(0L, EnumSet.of(flags)).encode(), IntList.of()); }
 }
diff --git a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
index 96b53799..34cd0738 100644
--- a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
+++ b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
@@ -134,7 +134,6 @@ public class IndexConstructorMain extends ProcessMainClass {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
-        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
@@ -146,7 +145,6 @@ public class IndexConstructorMain extends ProcessMainClass {
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                outputFilePositions,
                 (path) -> IndexJournalReader.singleFile(path).filtering(wordMetaFilter),
                 this::addRankToIdEncoding,
                 tmpDir);
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 3cf8a10d..ca6ab9cc 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -261,7 +261,6 @@ public class IntegrationTest {
 
         Path outputFileDocs = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.DOCS, ReverseIndexPrioFileNames.FileVersion.NEXT);
         Path outputFileWords = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.WORDS, ReverseIndexPrioFileNames.FileVersion.NEXT);
-        Path outputFilePositions = ReverseIndexPrioFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ReverseIndexPrioFileNames.FileIdentifier.POSITIONS, ReverseIndexPrioFileNames.FileVersion.NEXT);
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
@@ -273,7 +272,6 @@ public class IntegrationTest {
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                outputFilePositions,
                 (path) -> IndexJournalReader.singleFile(path).filtering(wordMetaFilter),
                 this::addRankToIdEncoding,
                 tmpDir);

From 97695693f24990429118e879bf0c04beb8163bce Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 11 Jul 2024 19:21:36 +0200
Subject: [PATCH 050/216] (index-prio) Don't increment readItems counter when
 the output buffer is full

This behavior was causing the reader to sometimes discard trailing entries in the list.
---
 .../java/nu/marginalia/index/PrioIndexEntrySource.java          | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
index e55a4235..6346290f 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
@@ -68,7 +68,7 @@ public class PrioIndexEntrySource implements EntrySource {
         var outputBuffer = buffer.asByteBuffer().order(ByteOrder.LITTLE_ENDIAN);
         outputBuffer.clear();
 
-        while (readItems++ < numItems && outputBuffer.hasRemaining()) {
+        while (outputBuffer.hasRemaining() && readItems++ < numItems) {
             fillReadBuffer();
 
             int rank;

From 6303977e9c6ca6d6c48040f2c62d674f95ef16e9 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 11 Jul 2024 19:22:05 +0200
Subject: [PATCH 051/216] (index-prio) Fail louder when size is 0 in
 PrioDocIdsTransformer

We can't deal with this scenario and should complain very loudly
---
 .../index/construction/prio/PrioDocIdsTransformer.java       | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
index 52a5ec45..85bbedac 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
@@ -37,9 +37,8 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
         final int sizeL = (int) ((endL - startL));
         final long startOffsetB = writeOffsetB;
 
-        if (sizeL == 0) {
-            return -1;
-        }
+        if (sizeL == 0)
+            throw new IllegalStateException("Empty range");
 
         readChannel.position(startL * 8);
         readBuffer.clear();

From d28fc86956b59837d411fd417b7d1be83814553a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 11 Jul 2024 19:22:36 +0200
Subject: [PATCH 052/216] (index-prio) Add fuzz test for prio index

---
 .../construction/prio/PrioPreindexTest.java   | 81 +++++++++++++++----
 1 file changed, 65 insertions(+), 16 deletions(-)

diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
index 2a1a2a6c..5b323d73 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
@@ -4,7 +4,9 @@ import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.PrioReverseIndexReader;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.full.TestJournalFactory;
+import nu.marginalia.model.id.UrlIdCodec;
 import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 
@@ -12,8 +14,8 @@ import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.ArrayList;
-import java.util.Arrays;
 import java.util.List;
+import java.util.Random;
 
 import static nu.marginalia.index.construction.full.TestJournalFactory.*;
 import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
@@ -87,12 +89,41 @@ class PrioPreindexTest {
         assertEquals(106, lqb.copyData()[2]);
     }
 
-
     @Test
     public void testFinalizeLargeData() throws IOException {
-        EntryDataWithWordMeta[] entries = new EntryDataWithWordMeta[10000];
-        for (int i = 0; i < 10000; i++) {
-            entries[i] = new EntryDataWithWordMeta(100 + i, 101, wm(50, 51));
+        int rankComponent = 0;
+        int domainComponent = 0;
+        int docOrdinal = 0;
+        var random = new Random();
+        long[] documentIds = new long[10000];
+
+        for (int i = 0; i < documentIds.length; i++) {
+            int scenario = random.nextInt(0, 3);
+
+            // Avoid going into scenario 3 when we've already reached max rank
+            // instead fall back into scenario 0 as this should be the more common
+            // of the two
+            if (rankComponent == 63 && scenario == 2) {
+                scenario = 0;
+            }
+
+            if (scenario == 0) {
+                docOrdinal += random.nextInt(1, 100);
+            } else if (scenario == 1) {
+                domainComponent+=random.nextInt(1, 1000);
+                docOrdinal=random.nextInt(0, 10000);
+            } else {
+                rankComponent = Math.min(63, rankComponent + random.nextInt(1, 2));
+                domainComponent=random.nextInt(0, 10000);
+                docOrdinal=random.nextInt(0, 10000);
+            }
+
+            documentIds[i] = UrlIdCodec.encodeId(rankComponent, domainComponent, docOrdinal);
+        }
+
+        EntryDataWithWordMeta[] entries = new EntryDataWithWordMeta[documentIds.length];
+        for (int i = 0; i < documentIds.length; i++) {
+            entries[i] = new EntryDataWithWordMeta(documentIds[i], 101, wm(50, 51));
         }
         var journalReader = journalFactory.createReader(entries);
 
@@ -108,21 +139,39 @@ class PrioPreindexTest {
 
         var indexReader = new PrioReverseIndexReader("test", wordsFile, docsFile);
 
+        int items = indexReader.numDocuments(50);
+        assertEquals(documentIds.length, items);
+
         var entrySource = indexReader.documents(50);
         var lqb = new LongQueryBuffer(32);
-        entrySource.read(lqb);
 
-        assertEquals(32, lqb.size());
-        var dataArray = lqb.copyData();
-        for (int i = 0; i < 32; i++) {
-            assertEquals(100 + i, dataArray[i]);
+        for (int pos = 0; pos < documentIds.length;) {
+            if (!entrySource.hasMore()) {
+                Assertions.fail("Out of data @ " + pos);
+            }
+
+            entrySource.read(lqb);
+
+            var dataArray = lqb.copyData();
+            for (int i = 0; i < lqb.size(); i++) {
+
+                long currValue = dataArray[i];
+
+                if (documentIds[i + pos] != currValue) {
+                    System.out.println("Mismatch at position " + (i + pos));
+
+                    long prevValue = documentIds[i + pos - 1];
+
+                    assertTrue(currValue > prevValue, "Current value is not greater than previous value");
+
+                    System.out.println("Prev: " + prevValue + " -> " +  UrlIdCodec.getRank(prevValue) + " " + UrlIdCodec.getDomainId(prevValue) + " " + UrlIdCodec.getDocumentOrdinal(prevValue));
+                    System.out.println("Curr: " + currValue + " -> " + UrlIdCodec.getRank(currValue) + " " + UrlIdCodec.getDomainId(currValue) + " " + UrlIdCodec.getDocumentOrdinal(currValue));
+
+                    Assertions.fail();
+                }
+            }
+            pos += lqb.size();
         }
 
-        entrySource.read(lqb);
-        assertEquals(32, lqb.size());
-        dataArray = lqb.copyData();
-        for (int i = 0; i < 32; i++) {
-            assertEquals(100 + 32 + i, dataArray[i]);
-        }
     }
 }
\ No newline at end of file

From 179a6002c20009ed07a93f5ec16d3481187d085e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 12 Jul 2024 23:50:28 +0200
Subject: [PATCH 053/216] (coded-sequence) Add a callback for re-filling
 underlying buffer

---
 .../index/PrioIndexEntrySource.java           | 11 +++++-----
 .../nu/marginalia/sequence/io/BitReader.java  | 22 +++++++++++++++++--
 2 files changed, 26 insertions(+), 7 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
index 6346290f..e3b93d44 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/PrioIndexEntrySource.java
@@ -15,7 +15,7 @@ public class PrioIndexEntrySource implements EntrySource {
     private final String name;
 
     private final ByteBuffer readData = ByteBuffer.allocate(1024);
-    private final BitReader bitReader = new BitReader(readData);
+    private final BitReader bitReader = new BitReader(readData, this::fillReadBuffer);
 
     private final FileChannel docsFileChannel;
     private long dataOffsetStartB;
@@ -69,8 +69,6 @@ public class PrioIndexEntrySource implements EntrySource {
         outputBuffer.clear();
 
         while (outputBuffer.hasRemaining() && readItems++ < numItems) {
-            fillReadBuffer();
-
             int rank;
             int domainId;
             int docOrd;
@@ -119,8 +117,8 @@ public class PrioIndexEntrySource implements EntrySource {
         buffer.uniq();
     }
 
-    private void fillReadBuffer() throws IOException {
-        if (readData.remaining() < 8) {
+    private void fillReadBuffer() {
+        try {
             readData.compact();
             int rb = docsFileChannel.read(readData, dataOffsetStartB);
             if (rb > 0) {
@@ -128,6 +126,9 @@ public class PrioIndexEntrySource implements EntrySource {
             }
             readData.flip();
         }
+        catch (IOException ex) {
+            throw new IllegalStateException("Failed to read index data.", ex);
+        }
     }
 
     @Override
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 930f67f0..524e2a6b 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -1,5 +1,8 @@
 package nu.marginalia.sequence.io;
 
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
 import java.nio.ByteBuffer;
 
 /** A utility class for reading bits from a ByteBuffer
@@ -7,6 +10,9 @@ import java.nio.ByteBuffer;
  */
 public class BitReader {
     private final ByteBuffer underlying;
+    private final Runnable refillCallback;
+
+    private static final Logger logger = LoggerFactory.getLogger(BitReader.class);
 
     /** The current value being decoded */
     private long currentValue;
@@ -14,12 +20,23 @@ public class BitReader {
     /** Bit index in the current value */
     private int bitPosition;
 
-    public BitReader(ByteBuffer buffer) {
+
+    /** Create a new BitReader for the given buffer.  The supplied callback will be
+     * invoked when the underlying buffer is out of data.  The callback should
+     * refill the buffer with more data.
+     */
+    public BitReader(ByteBuffer buffer, Runnable refillCallback) {
         this.underlying = buffer;
+        this.refillCallback = refillCallback;
         this.bitPosition = 0;
         this.currentValue = 0;
     }
 
+    /** Create a new BitReader for the given buffer */
+    public BitReader(ByteBuffer buffer) {
+        this(buffer, () -> { throw new IllegalStateException("No more data to read and no re-fill callback provided"); });
+    }
+
     /** Read the next bit from the buffer */
     public boolean getBit() {
         if (bitPosition <= 0) {
@@ -132,7 +149,8 @@ public class BitReader {
             bitPosition = 8;
         }
         else { // There's no more data to read!
-            throw new ArrayIndexOutOfBoundsException("No more data to read");
+            refillCallback.run();
+            readNext();
         }
     }
 }

From ad3857938daa58b2b33acaafb0bf4191b2ad2213 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 15 Jul 2024 04:49:28 +0200
Subject: [PATCH 054/216] (search-api, ranking) Update with new ranking
 parameters

Adding new ranking parameters to the API and routing them through the system, in order to permit integration of the new position data with the ranking algorithm.

The change also cleans out several parameters that no longer filled any function.
---
 .../api/searchquery/IndexProtobufCodec.java   | 33 ++++++----------
 .../api/searchquery/QueryProtobufCodec.java   |  9 ++---
 .../results/ResultRankingParameters.java      | 23 ++++-------
 .../results/debug/ResultRankingOutputs.java   |  9 ++---
 .../api/src/main/protobuf/query-api.proto     | 29 +++++++-------
 .../ranking/results/ResultValuator.java       | 18 ++++-----
 .../marginalia/query/QueryBasicInterface.java | 18 +++------
 .../resources/templates/qdebug.hdb            | 38 +++++++------------
 8 files changed, 70 insertions(+), 107 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index 3a57cfe6..2b5cbaa0 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -98,19 +98,16 @@ public class IndexProtobufCodec {
             return ResultRankingParameters.sensibleDefaults();
 
         return new ResultRankingParameters(
-                new Bm25Parameters(params.getFullK(), params.getFullB()),
-                new Bm25Parameters(params.getPrioK(), params.getPrioB()),
+                new Bm25Parameters(params.getBm25K(), params.getBm25B()),
                 params.getShortDocumentThreshold(),
                 params.getShortDocumentPenalty(),
                 params.getDomainRankBonus(),
                 params.getQualityPenalty(),
                 params.getShortSentenceThreshold(),
                 params.getShortSentencePenalty(),
-                params.getBm25FullWeight(),
-                params.getBm25NgramWeight(),
-                params.getBm25PrioWeight(),
-                params.getTcfJaccardWeight(),
-                params.getTcfOverlapWeight(),
+                params.getBm25Weight(),
+                params.getTcfFirstPositionWeight(),
+                params.getTcfAvgDistWeight(),
                 ResultRankingParameters.TemporalBias.valueOf(params.getTemporalBias().getBias().name()),
                 params.getTemporalBiasWeight(),
                 params.getExportDebugData()
@@ -125,21 +122,17 @@ public class IndexProtobufCodec {
         }
 
         var builder = RpcResultRankingParameters.newBuilder()
-                        .setFullB(rankingParams.fullParams.b())
-                        .setFullK(rankingParams.fullParams.k())
-                        .setPrioB(rankingParams.prioParams.b())
-                        .setPrioK(rankingParams.prioParams.k())
+                        .setBm25B(rankingParams.bm25Params.b())
+                        .setBm25K(rankingParams.bm25Params.k())
                         .setShortDocumentThreshold(rankingParams.shortDocumentThreshold)
                         .setShortDocumentPenalty(rankingParams.shortDocumentPenalty)
                         .setDomainRankBonus(rankingParams.domainRankBonus)
                         .setQualityPenalty(rankingParams.qualityPenalty)
                         .setShortSentenceThreshold(rankingParams.shortSentenceThreshold)
                         .setShortSentencePenalty(rankingParams.shortSentencePenalty)
-                        .setBm25FullWeight(rankingParams.bm25FullWeight)
-                        .setBm25NgramWeight(rankingParams.bm25NgramWeight)
-                        .setBm25PrioWeight(rankingParams.bm25PrioWeight)
-                        .setTcfOverlapWeight(rankingParams.tcfOverlapWeight)
-                        .setTcfJaccardWeight(rankingParams.tcfJaccardWeight)
+                        .setBm25Weight(rankingParams.bm25Weight)
+                        .setTcfAvgDistWeight(rankingParams.tcfAvgDist)
+                        .setTcfFirstPositionWeight(rankingParams.tcfFirstPosition)
                         .setTemporalBiasWeight(rankingParams.temporalBiasWeight)
                         .setExportDebugData(rankingParams.exportDebugData);
 
@@ -176,11 +169,9 @@ public class IndexProtobufCodec {
                 .setTemporalBias(outputs.temporalBias())
                 .setFlagsPenalty(outputs.flagsPenalty())
                 .setOverallPart(outputs.overallPart())
-                .setTcfOverlap(outputs.tcfOverlap())
-                .setTcfJaccard(outputs.tcfJaccard())
-                .setBM25F(outputs.bM25F())
-                .setBM25N(outputs.bM25N())
-                .setBM25P(outputs.bM25P())
+                .setTcfAvgDist(outputs.tcfAvgDist())
+                .setTcfFirstPosition(outputs.tcfFirstPosition())
+                .setBm25Part(outputs.bm25())
                 .build();
     }
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
index 58a20a8a..5d79cfea 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
@@ -157,11 +157,10 @@ public class QueryProtobufCodec {
                 outputs.getTemporalBias(),
                 outputs.getFlagsPenalty(),
                 outputs.getOverallPart(),
-                outputs.getTcfOverlap(),
-                outputs.getTcfJaccard(),
-                outputs.getBM25F(),
-                outputs.getBM25N(),
-                outputs.getBM25P()
+                outputs.getBm25Part(),
+                outputs.getTcfAvgDist(),
+                outputs.getTcfFirstPosition()
+
         );
     }
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
index 04f699aa..7a5b7937 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
@@ -10,9 +10,7 @@ import lombok.*;
 public class ResultRankingParameters {
 
     /** Tuning for BM25 when applied to full document matches */
-    public final Bm25Parameters fullParams;
-    /** Tuning for BM25 when applied to priority matches, terms with relevance signal indicators */
-    public final Bm25Parameters prioParams;
+    public final Bm25Parameters bm25Params;
 
     /** Documents below this length are penalized */
     public int shortDocumentThreshold;
@@ -32,11 +30,9 @@ public class ResultRankingParameters {
     /** Magnitude of penalty for documents with low average sentence length */
     public double shortSentencePenalty;
 
-    public double bm25FullWeight;
-    public double bm25NgramWeight;
-    public double bm25PrioWeight;
-    public double tcfJaccardWeight;
-    public double tcfOverlapWeight;
+    public double bm25Weight;
+    public double tcfFirstPosition;
+    public double tcfAvgDist;
 
     public TemporalBias temporalBias;
     public double temporalBiasWeight;
@@ -45,19 +41,16 @@ public class ResultRankingParameters {
 
     public static ResultRankingParameters sensibleDefaults() {
         return builder()
-                .fullParams(new Bm25Parameters(1.2, 0.5))
-                .prioParams(new Bm25Parameters(1.5, 0))
+                .bm25Params(new Bm25Parameters(1.2, 0.5))
                 .shortDocumentThreshold(2000)
                 .shortDocumentPenalty(2.)
                 .domainRankBonus(1/25.)
                 .qualityPenalty(1/15.)
                 .shortSentenceThreshold(2)
                 .shortSentencePenalty(5)
-                .bm25FullWeight(1.)
-                .bm25NgramWeight(.25)
-                .bm25PrioWeight(1.)
-                .tcfOverlapWeight(3.)
-                .tcfJaccardWeight(1)
+                .bm25Weight(1.)
+                .tcfAvgDist(25.)
+                .tcfFirstPosition(1) // FIXME: what's a good default?
                 .temporalBias(TemporalBias.NONE)
                 .temporalBiasWeight(1. / (5.))
                 .exportDebugData(false)
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java
index bd4b943d..e9c490e8 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java
@@ -1,5 +1,6 @@
 package nu.marginalia.api.searchquery.model.results.debug;
 
+
 public record ResultRankingOutputs(double averageSentenceLengthPenalty,
                                    double qualityPenalty,
                                    double rankingBonus,
@@ -8,10 +9,8 @@ public record ResultRankingOutputs(double averageSentenceLengthPenalty,
                                    double temporalBias,
                                    double flagsPenalty,
                                    double overallPart,
-                                   double tcfOverlap,
-                                   double tcfJaccard,
-                                   double bM25F,
-                                   double bM25N,
-                                   double bM25P)
+                                   double bm25,
+                                   double tcfAvgDist,
+                                   double tcfFirstPosition)
 {
 }
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index 589c5143..a29b7010 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -119,25 +119,26 @@ message RpcQueryLimits {
   int32 fetchSize = 4; // Size of the fetch buffer in the index service
 }
 
+/** Parameters for the result ranking function */
 message RpcResultRankingParameters {
-  double fullK = 1; // BM25 parameter
-  double fullB = 2; // BM25 parameter
-  double prioK = 3; // BM25 parameter
-  double prioB = 4; // BM25 parameter
+  double bm25K = 1; // BM25 parameter
+  double bm25B = 2; // BM25 parameter
+
   int32 shortDocumentThreshold = 5;
   double shortDocumentPenalty = 6;
   double domainRankBonus = 7;
   double qualityPenalty = 8;
   int32 shortSentenceThreshold = 9;
   double shortSentencePenalty = 10;
-  double bm25FullWeight = 11;
-  double bm25NgramWeight = 12;
-  double bm25PrioWeight = 13;
-  double tcfOverlapWeight = 14;
-  double tcfJaccardWeight = 15;
+  double bm25Weight = 11;
+  double tcfAvgDistWeight = 12;
+  double tcfFirstPositionWeight = 13;
+  // 14, 15 unused
   RpcTemporalBias temporalBias = 16;
   double temporalBiasWeight = 17;
+
   bool exportDebugData = 18;
+
 }
 
 message RpcResultRankingDetails {
@@ -155,6 +156,7 @@ message RpcResultRankingInputs {
   repeated string flags = 7;
 }
 
+/** Summary of the output of the ranking function */
 message RpcResultRankingOutputs {
   double averageSentenceLengthPenalty = 1;
   double qualityPenalty = 2;
@@ -164,11 +166,10 @@ message RpcResultRankingOutputs {
   double temporalBias = 6;
   double flagsPenalty = 7;
   double overallPart = 8;
-  double tcfOverlap = 9;
-  double tcfJaccard = 10;
-  double bM25F = 11;
-  double bM25N = 12;
-  double bM25P = 13;
+  double bm25Part = 9;
+  // 10-14 unused
+  double tcfAvgDist = 15;
+  double tcfFirstPosition = 16;
 }
 
 /* Defines a single subquery */
diff --git a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
index 379a1d9d..6ab72eef 100644
--- a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
+++ b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
@@ -88,10 +88,10 @@ public class ResultValuator {
                            + bestCoherence;
 
         // FIXME: need a weighting factor here
-        double tcfAvgDist = 25. / termCoherenceFactor.calculateAvgMinDistance(positionsQuery, ctx);
+        double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / termCoherenceFactor.calculateAvgMinDistance(positionsQuery, ctx));
+        double tcfFirstPosition = 0.;
 
-        double bM25F = rankingParams.bm25FullWeight * wordFlagsQuery.root.visit(new Bm25FullGraphVisitor(rankingParams.fullParams, positionsCountQuery.data, length, ctx));
-        double bM25P = rankingParams.bm25PrioWeight * wordFlagsQuery.root.visit(new Bm25PrioGraphVisitor(rankingParams.prioParams, wordFlagsQuery.data, ctx));
+        double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25FullGraphVisitor(rankingParams.bm25Params, positionsCountQuery.data, length, ctx));
 
         double overallPartPositive = Math.max(0, overallPart);
         double overallPartNegative = -Math.min(0, overallPart);
@@ -116,11 +116,9 @@ public class ResultValuator {
                             temporalBias,
                             flagsPenalty,
                             overallPart,
-                            0,
-                            0,
-                            bM25F,
-                            0, // FIXME: Remove from model
-                            bM25P)
+                            bM25,
+                            tcfAvgDist,
+                            tcfFirstPosition)
             );
 
             detailsConsumer.accept(details);
@@ -129,8 +127,8 @@ public class ResultValuator {
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
-                      tcfAvgDist
-                      + bM25F + bM25P
+                  tcfAvgDist + tcfFirstPosition
+                      + bM25
                       + overallPartPositive,
                 overallPartNegative);
 
diff --git a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
index 62af8591..4ed3b838 100644
--- a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
+++ b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
@@ -106,23 +106,17 @@ public class QueryBasicInterface {
                 .qualityPenalty(doubleFromRequest(request, "qualityPenalty", sensibleDefaults.qualityPenalty))
                 .shortDocumentThreshold(intFromRequest(request, "shortDocumentThreshold", sensibleDefaults.shortDocumentThreshold))
                 .shortDocumentPenalty(doubleFromRequest(request, "shortDocumentPenalty", sensibleDefaults.shortDocumentPenalty))
-                .tcfJaccardWeight(doubleFromRequest(request, "tcfJaccardWeight", sensibleDefaults.tcfJaccardWeight))
-                .tcfOverlapWeight(doubleFromRequest(request, "tcfOverlapWeight", sensibleDefaults.tcfOverlapWeight))
-                .fullParams(new Bm25Parameters(
-                        doubleFromRequest(request, "fullParams.k1", sensibleDefaults.fullParams.k()),
-                        doubleFromRequest(request, "fullParams.b", sensibleDefaults.fullParams.b())
-                ))
-                .prioParams(new Bm25Parameters(
-                        doubleFromRequest(request, "prioParams.k1", sensibleDefaults.prioParams.k()),
-                        doubleFromRequest(request, "prioParams.b", sensibleDefaults.prioParams.b())
+                .tcfFirstPosition(doubleFromRequest(request, "tcfFirstPosition", sensibleDefaults.tcfFirstPosition))
+                .tcfAvgDist(doubleFromRequest(request, "tcfAvgDist", sensibleDefaults.tcfAvgDist))
+                .bm25Params(new Bm25Parameters(
+                        doubleFromRequest(request, "bm25.k1", sensibleDefaults.bm25Params.k()),
+                        doubleFromRequest(request, "bm25.b", sensibleDefaults.bm25Params.b())
                 ))
                 .temporalBias(ResultRankingParameters.TemporalBias.valueOf(stringFromRequest(request, "temporalBias", sensibleDefaults.temporalBias.toString())))
                 .temporalBiasWeight(doubleFromRequest(request, "temporalBiasWeight", sensibleDefaults.temporalBiasWeight))
                 .shortSentenceThreshold(intFromRequest(request, "shortSentenceThreshold", sensibleDefaults.shortSentenceThreshold))
                 .shortSentencePenalty(doubleFromRequest(request, "shortSentencePenalty", sensibleDefaults.shortSentencePenalty))
-                .bm25FullWeight(doubleFromRequest(request, "bm25FullWeight", sensibleDefaults.bm25FullWeight))
-                .bm25NgramWeight(doubleFromRequest(request, "bm25NgramWeight", sensibleDefaults.bm25NgramWeight))
-                .bm25PrioWeight(doubleFromRequest(request, "bm25PrioWeight", sensibleDefaults.bm25PrioWeight))
+                .bm25Weight(doubleFromRequest(request, "bm25Weight", sensibleDefaults.bm25Weight))
                 .exportDebugData(true)
                 .build();
     }
diff --git a/code/services-core/query-service/resources/templates/qdebug.hdb b/code/services-core/query-service/resources/templates/qdebug.hdb
index 4081317f..4d2e7e41 100644
--- a/code/services-core/query-service/resources/templates/qdebug.hdb
+++ b/code/services-core/query-service/resources/templates/qdebug.hdb
@@ -31,22 +31,16 @@
         <div class="col-sm-2"><input type="text" class="form-control" id="shortDocumentPenalty" name="shortDocumentPenalty" value="{{shortDocumentPenalty}}"></div>
     </div>
     <div class="row my-2">
-        <div class="col-sm-2"><label for="tcfJaccardWeight">TCF Jaccard Weight</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="tcfJaccardWeight" name="tcfJaccardWeight" value="{{tcfJaccardWeight}}"></div>
-        <div class="col-sm-2"><label for="tcfOverlapWeight">TCF Overlap Weight</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="tcfOverlapWeight" name="tcfOverlapWeight" value="{{tcfOverlapWeight}}"></div>
+        <div class="col-sm-2"><label for="tcfAvgDist">TCF Average Distance</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="tcfAvgDist" name="tcfAvgDist" value="{{tcfAvgDist}}"></div>
+        <div class="col-sm-2"><label for="tcfFirstPosition">TCF First Position Weight</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="tcfFirstPosition" name="tcfFirstPosition" value="{{tcfFirstPosition}}"></div>
     </div>
     <div class="row my-2">
-        <div class="col-sm-2"><label for="fullParams.k1">Full Params K1</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="fullParams.k1" name="fullParams.k1" value="{{fullParams.k}}"></div>
-        <div class="col-sm-2"><label for="fullParams.b">Full Params B</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="fullParams.b" name="fullParams.b" value="{{fullParams.b}}"></div>
-    </div>
-    <div class="row my-2">
-        <div class="col-sm-2"><label for="prioParams.k1">Prio Params K1</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="prioParams.k1" name="prioParams.k1" value="{{prioParams.k}}"></div>
-        <div class="col-sm-2"><label for="prioParams.b">Prio Params B</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="prioParams.b" name="prioParams.b" value="{{prioParams.b}}"></div>
+        <div class="col-sm-2"><label for="bm25.k1">BM25 K1</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="bm25.k1" name="bm25.k1" value="{{bm25Params.k}}"></div>
+        <div class="col-sm-2"><label for="bm25.b">BM25 B</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="bm25.b" name="bm25.b" value="{{bm25Params.b}}"></div>
     </div>
     <div class="row my-2">
         <div class="col-sm-2"><label for="temporalBias">Temporal Bias</label></div>
@@ -67,12 +61,8 @@
         <div class="col-sm-2"><input type="text" class="form-control" id="shortSentencePenalty" name="shortSentencePenalty" value="{{shortSentencePenalty}}"></div>
     </div>
     <div class="row my-2">
-        <div class="col-sm-2"><label for="bm25FullWeight">BM25 Full Weight</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="bm25FullWeight" name="bm25FullWeight" value="{{bm25FullWeight}}"></div>
-        <div class="col-sm-2"><label for="bm25NgramWeight">BM25 Ngram Weight</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="bm25NgramWeight" name="bm25NgramWeight" value="{{bm25NgramWeight}}"></div>
-        <div class="col-sm-2"><label for="bm25PrioWeight">BM25 Prio Weight</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="bm25PrioWeight" name="bm25PrioWeight" value="{{bm25PrioWeight}}"></div>
+        <div class="col-sm-2"><label for="bm25FullWeight">BM25 Weight</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="bm25Weight" name="bm25Weight" value="{{bm25Weight}}"></div>
     </div>
 
     {{/with}}
@@ -130,11 +120,9 @@
         <div><small class="text-muted">Temporal Bias: {{temporalBias}}</small></div>
         <div><small class="text-muted">Flags Penalty: {{flagsPenalty}}</small></div>
         <div><small class="text-muted">Overall Part: {{overallPart}}</small></div>
-        <div><small class="text-muted">TCF Overlap: {{tcfOverlap}}</small></div>
-        <div><small class="text-muted">TCF Jaccard: {{tcfJaccard}}</small></div>
-        <div><small class="text-muted">BM25 Full: {{bM25F}}</small></div>
-        <div><small class="text-muted">BM25 Ngram: {{bM25N}}</small></div>
-        <div><small class="text-muted">BM25 Prio: {{bM25P}}</small></div>
+        <div><small class="text-muted">TCF Avg Distance: {{tcfAvgDist}}</small></div>
+        <div><small class="text-muted">TCF First Position: {{tcfFirstPosition}}</small></div>
+        <div><small class="text-muted">BM25: {{bM25}}</small></div>
     {{/with}}
 
 </div>

From fa162698c2a358ce8e0b4f96d38f9947f435f4c7 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 15 Jul 2024 05:15:30 +0200
Subject: [PATCH 055/216] (term-frequency) Fix concurrency issues in
 SentenceExtractor and TermFrequencyExporter

How'd This Ever Work? (tm)

TermFrequencyExporter was using Math.clamp() incorrectly, and SentenceExtractor was synchronizing on its own instance when initializing shared static members, causing rare issues when spinning multiple SE:s up at once.
---
 .../java/nu/marginalia/extractor/TermFrequencyExporter.java     | 2 +-
 .../java/nu/marginalia/language/sentence/SentenceExtractor.java | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
index 18fb3261..3bcc9cf2 100644
--- a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
+++ b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
@@ -54,7 +54,7 @@ public class TermFrequencyExporter implements ExporterIf {
         TLongIntHashMap counts = new TLongIntHashMap(100_000_000, 0.7f, -1, -1);
         AtomicInteger docCount = new AtomicInteger();
 
-        SimpleBlockingThreadPool sjp = new SimpleBlockingThreadPool("exporter", Math.clamp(2, 16, Runtime.getRuntime().availableProcessors() / 2), 4);
+        SimpleBlockingThreadPool sjp = new SimpleBlockingThreadPool("exporter", Math.clamp(Runtime.getRuntime().availableProcessors() / 2, 2, 16), 4);
         Path crawlerLogFile = inputDir.resolve("crawler.log");
 
         for (var item : WorkLog.iterable(crawlerLogFile)) {
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
index bb1e3771..8dd818a3 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
@@ -59,7 +59,7 @@ public class SentenceExtractor {
             logger.error("Could not initialize sentence detector", ex);
         }
 
-        synchronized (this) {
+        synchronized (SentenceExtractor.class) {
             if (ngramLexicon == null) {
                 ngramLexicon = new NgramLexicon(models);
             }

From 9d0e5dee02618b2b65eeb3d8dbc6cb5f6f844758 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 15 Jul 2024 05:18:10 +0200
Subject: [PATCH 056/216] Fix gitignore issue .so files not to be ignored
 correctly.

---
 code/libraries/array/cpp/resources/.gitignore | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/libraries/array/cpp/resources/.gitignore b/code/libraries/array/cpp/resources/.gitignore
index 01b07345..f1fe8d1e 100644
--- a/code/libraries/array/cpp/resources/.gitignore
+++ b/code/libraries/array/cpp/resources/.gitignore
@@ -1 +1 @@
-../../resources/cpp/libcpp.so
\ No newline at end of file
+*.so
\ No newline at end of file

From dfd19b5eb99a96a43c0bc4dedb14fff58d2f62e4 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 15 Jul 2024 05:18:10 +0200
Subject: [PATCH 057/216] (index) Reduce the number of abstractions around
 result ranking

The change also restructures the internal API a bit, moving resultsFromDomain from RpcRawResultItem into RpcDecoratedResultItem, as the previous order was driving complexity in the code that generates these objects, and the consumer side of things puts all this data in the same object regardless.
---
 .../linkdb/docs/DocumentDbReader.java         |  45 +--
 .../linkdb/docs/DocumentDbWriter.java         |   4 +
 .../api/searchquery/QueryProtobufCodec.java   |   3 +-
 .../results/DecoratedSearchResultItem.java    |   7 +-
 .../model/results/SearchResultItem.java       |   3 -
 .../api/src/main/protobuf/query-api.proto     |   2 +-
 .../nu/marginalia/index/IndexGrpcService.java |   8 +-
 .../index/index/IndexQueryBuilderImpl.java    |   1 -
 .../results/Bm25GraphVisitor.java}            |  36 +-
 .../index/results/IndexMetadataService.java   |  96 -----
 .../results/IndexResultRankingService.java    | 229 ++++++++++++
 .../results/IndexResultScoreCalculator.java   | 349 ++++++++++++++++++
 .../results/IndexResultValuationContext.java  | 165 ---------
 .../results/IndexResultValuatorService.java   | 210 -----------
 .../results/model/ids/CombinedDocIdList.java  |   1 +
 .../ranking/results/ResultValuator.java       | 209 -----------
 .../results/factors/Bm25PrioGraphVisitor.java | 127 -------
 .../results/factors/TermCoherenceFactor.java  |  53 ---
 .../IndexResultDomainDeduplicatorTest.java    |   2 +-
 .../search/svc/SearchQueryIndexService.java   |   2 +-
 .../paperdoll/SearchServicePaperDoll.java     |   1 +
 21 files changed, 633 insertions(+), 920 deletions(-)
 rename code/index/java/nu/marginalia/{ranking/results/factors/Bm25FullGraphVisitor.java => index/results/Bm25GraphVisitor.java} (66%)
 delete mode 100644 code/index/java/nu/marginalia/index/results/IndexMetadataService.java
 create mode 100644 code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
 create mode 100644 code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
 delete mode 100644 code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
 delete mode 100644 code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java
 delete mode 100644 code/index/java/nu/marginalia/ranking/results/ResultValuator.java
 delete mode 100644 code/index/java/nu/marginalia/ranking/results/factors/Bm25PrioGraphVisitor.java
 delete mode 100644 code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java

diff --git a/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbReader.java b/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbReader.java
index ba48f3ec..5b6112fe 100644
--- a/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbReader.java
+++ b/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbReader.java
@@ -22,6 +22,12 @@ import java.sql.SQLException;
 import java.util.ArrayList;
 import java.util.List;
 
+/** Reads the document database, which is a SQLite database
+ * containing the URLs and metadata of the documents in the
+ * index.
+ * <p></p>
+ * The database is created by the DocumentDbWriter class.
+ * */
 @Singleton
 public class DocumentDbReader {
     private final Path dbFile;
@@ -52,6 +58,11 @@ public class DocumentDbReader {
         }
     }
 
+    /** Switches the input database file to a new file.
+     * <p></p>
+     * This is used to switch over to a new database file
+     * when the index is re-indexed.
+     * */
     public void switchInput(Path newDbFile) throws IOException, SQLException {
         if (!Files.isRegularFile(newDbFile)) {
             logger.error("Source is not a file, refusing switch-over {}", newDbFile);
@@ -78,35 +89,11 @@ public class DocumentDbReader {
         connection = createConnection();
     }
 
-    public List<String> getUrlsFromDomain(int domainId) throws SQLException {
-        if (connection == null ||
-                connection.isClosed())
-        {
-            throw new RuntimeException("URL query temporarily unavailable due to database switch");
-        }
-
-        long minId = UrlIdCodec.encodeId(domainId, 0);
-        long maxId = UrlIdCodec.encodeId(domainId+1, 0);
-
-        List<String> ret = new ArrayList<>();
-
-        try (var stmt = connection.prepareStatement("""
-                SELECT URL
-                FROM DOCUMENT
-                WHERE ID >= ? AND ID < ?
-                """))
-        {
-            stmt.setLong(1, minId);
-            stmt.setLong(2, maxId);
-            var rs = stmt.executeQuery();
-            while (rs.next()) {
-                ret.add(rs.getString(1));
-            }
-        }
-
-        return ret;
-    }
-
+    /** Returns the URL details for the given document ids.
+     * <p></p>
+     * This is used to get the URL details for the search
+     * results.
+     * */
     public List<DocdbUrlDetail> getUrlDetails(TLongList ids) throws SQLException {
         List<DocdbUrlDetail> ret = new ArrayList<>(ids.size());
 
diff --git a/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbWriter.java b/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbWriter.java
index e843e826..faa98bf5 100644
--- a/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbWriter.java
+++ b/code/common/linkdb/java/nu/marginalia/linkdb/docs/DocumentDbWriter.java
@@ -9,6 +9,10 @@ import java.sql.DriverManager;
 import java.sql.SQLException;
 import java.util.List;
 
+/** Writes the document database, which is a SQLite database
+ * containing the URLs and metadata of the documents in the
+ * index.
+ * */
 public class DocumentDbWriter {
 
     private final Connection connection;
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
index 5d79cfea..46681de4 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
@@ -130,6 +130,7 @@ public class QueryProtobufCodec {
                 results.getWordsTotal(),
                 results.getBestPositions(),
                 results.getRankingScore(),
+                results.getResultsFromDomain(),
                 convertRankingDetails(results.getRankingDetails())
         );
     }
@@ -187,7 +188,6 @@ public class QueryProtobufCodec {
                 rawItem.getEncodedDocMetadata(),
                 rawItem.getHtmlFeatures(),
                 keywordScores,
-                rawItem.getResultsFromDomain(),
                 rawItem.getHasPriorityTerms(),
                 Double.NaN // Not set
         );
@@ -256,6 +256,7 @@ public class QueryProtobufCodec {
                 rpcDecoratedResultItem.getWordsTotal(),
                 rpcDecoratedResultItem.getBestPositions(),
                 rpcDecoratedResultItem.getRankingScore(),
+                rpcDecoratedResultItem.getResultsFromDomain(),
                 convertRankingDetails(rpcDecoratedResultItem.getRankingDetails())
         );
     }
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/DecoratedSearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/DecoratedSearchResultItem.java
index 0522e7bc..8a9b690b 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/DecoratedSearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/DecoratedSearchResultItem.java
@@ -34,6 +34,8 @@ public class DecoratedSearchResultItem implements Comparable<DecoratedSearchResu
     public final long bestPositions;
     public final double rankingScore;
 
+    public final int resultsFromDomain;
+
     @Nullable
     public ResultRankingDetails rankingDetails;
 
@@ -43,9 +45,6 @@ public class DecoratedSearchResultItem implements Comparable<DecoratedSearchResu
     public int domainId() {
         return rawIndexResult.getDomainId();
     }
-    public int resultsFromDomain() {
-        return rawIndexResult.getResultsFromDomain();
-    }
 
     public List<SearchResultKeywordScore> keywordScores() {
         return rawIndexResult.getKeywordScores();
@@ -72,6 +71,7 @@ public class DecoratedSearchResultItem implements Comparable<DecoratedSearchResu
                                      int wordsTotal,
                                      long bestPositions,
                                      double rankingScore,
+                                     int resultsFromDomain,
                                      @Nullable
                                      ResultRankingDetails rankingDetails
                                      )
@@ -88,6 +88,7 @@ public class DecoratedSearchResultItem implements Comparable<DecoratedSearchResu
         this.wordsTotal = wordsTotal;
         this.bestPositions = bestPositions;
         this.rankingScore = rankingScore;
+        this.resultsFromDomain = resultsFromDomain;
         this.rankingDetails = rankingDetails;
     }
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
index f676a954..dbd94638 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
@@ -25,9 +25,6 @@ public class SearchResultItem implements Comparable<SearchResultItem> {
     /** How did the subqueries match against the document ? */
     public final List<SearchResultKeywordScore> keywordScores;
 
-    /** How many other potential results existed in the same domain */
-    public int resultsFromDomain;
-
     public boolean hasPrioTerm;
 
     public SearchResultItem(long combinedId,
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index a29b7010..642b28ed 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -93,12 +93,12 @@ message RpcDecoratedResultItem {
   double rankingScore = 11; // The ranking score of this search result item, lower is better
   int64 bestPositions = 12;
   RpcResultRankingDetails rankingDetails = 13; // optional, only present if exportDebugData is true in RpcResultRankingParameters
+  int32 resultsFromDomain = 14;
 }
 
 /** A raw index-service view of a search result */
 message RpcRawResultItem {
   int64 combinedId = 1; // raw ID with bit-encoded ranking information still present
-  int32 resultsFromDomain = 2; // number of other results from the same domain
   int64 encodedDocMetadata = 3; // bit encoded document metadata
   int32 htmlFeatures = 4; // bitmask encoding features of the document
   repeated RpcResultKeywordScore keywordScores = 5;
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index 1dc847b8..58a9a4b0 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -20,7 +20,7 @@ import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.model.SearchTerms;
 import nu.marginalia.index.query.IndexQuery;
 import nu.marginalia.index.query.IndexSearchBudget;
-import nu.marginalia.index.results.IndexResultValuatorService;
+import nu.marginalia.index.results.IndexResultRankingService;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
 import nu.marginalia.index.searchset.SearchSetsService;
 import nu.marginalia.index.searchset.SmallSearchSet;
@@ -81,7 +81,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
     private final StatefulIndex statefulIndex;
     private final SearchSetsService searchSetsService;
 
-    private final IndexResultValuatorService resultValuator;
+    private final IndexResultRankingService resultValuator;
 
     private final String nodeName;
 
@@ -91,7 +91,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
     public IndexGrpcService(ServiceConfiguration serviceConfiguration,
                             StatefulIndex statefulIndex,
                             SearchSetsService searchSetsService,
-                            IndexResultValuatorService resultValuator)
+                            IndexResultRankingService resultValuator)
     {
         var nodeId = serviceConfiguration.node();
         this.nodeName = Integer.toString(nodeId);
@@ -135,7 +135,6 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
 
                 var rawItem = RpcRawResultItem.newBuilder();
                 rawItem.setCombinedId(rawResult.combinedId);
-                rawItem.setResultsFromDomain(rawResult.resultsFromDomain);
                 rawItem.setHtmlFeatures(rawResult.htmlFeatures);
                 rawItem.setEncodedDocMetadata(rawResult.encodedDocMetadata);
                 rawItem.setHasPriorityTerms(rawResult.hasPrioTerm);
@@ -159,6 +158,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                         .setUrlQuality(result.urlQuality)
                         .setWordsTotal(result.wordsTotal)
                         .setBestPositions(result.bestPositions)
+                        .setResultsFromDomain(result.resultsFromDomain)
                         .setRawItem(rawItem);
 
                 var rankingDetails = IndexProtobufCodec.convertRankingDetails(result.rankingDetails);
diff --git a/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java b/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java
index cd416ca3..abdbc836 100644
--- a/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java
+++ b/code/index/java/nu/marginalia/index/index/IndexQueryBuilderImpl.java
@@ -3,7 +3,6 @@ package nu.marginalia.index.index;
 import java.util.List;
 import gnu.trove.set.hash.TLongHashSet;
 import nu.marginalia.index.FullReverseIndexReader;
-import nu.marginalia.index.PrioReverseIndexReader;
 import nu.marginalia.index.query.IndexQuery;
 import nu.marginalia.index.query.IndexQueryBuilder;
 import nu.marginalia.index.query.filter.QueryFilterAnyOf;
diff --git a/code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java b/code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java
similarity index 66%
rename from code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java
rename to code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java
index 88a592bb..9416bf13 100644
--- a/code/index/java/nu/marginalia/ranking/results/factors/Bm25FullGraphVisitor.java
+++ b/code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java
@@ -1,33 +1,38 @@
-package nu.marginalia.ranking.results.factors;
+package nu.marginalia.index.results;
 
 import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
-import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
 import nu.marginalia.api.searchquery.model.compiled.CqExpression;
 import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.model.idx.WordMetadata;
 
 import java.util.BitSet;
 import java.util.List;
 
-public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
+/** Visitor for calculating the best BM25 score for a graph representing a search query
+ */
+public class Bm25GraphVisitor implements CqExpression.DoubleVisitor {
     private static final long AVG_LENGTH = 5000;
 
     private final CqDataInt counts;
     private final CqDataInt frequencies;
-    private final Bm25Parameters bm25Parameters;
+
+    private final double k1;
+    private final double b;
 
     private final int docCount;
     private final int length;
 
     private final BitSet mask;
 
-    public Bm25FullGraphVisitor(Bm25Parameters bm25Parameters,
-                                CqDataInt counts,
-                                int length,
-                                ResultRankingContext ctx) {
+    public Bm25GraphVisitor(Bm25Parameters bm25Parameters,
+                            CqDataInt counts,
+                            int length,
+                            ResultRankingContext ctx) {
         this.length = length;
-        this.bm25Parameters = bm25Parameters;
+
+        this.k1 = bm25Parameters.k();
+        this.b = bm25Parameters.b();
+
         this.docCount = ctx.termFreqDocCount();
         this.counts = counts;
         this.frequencies = ctx.fullCounts;
@@ -37,9 +42,11 @@ public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
     @Override
     public double onAnd(List<? extends CqExpression> parts) {
         double value = 0;
+
         for (var part : parts) {
             value += part.visit(this);
         }
+
         return value;
     }
 
@@ -59,10 +66,9 @@ public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
         }
 
         double count = counts.get(idx);
-
         int freq = frequencies.get(idx);
 
-        return invFreq(docCount, freq) * f(bm25Parameters.k(), bm25Parameters.b(), count, length);
+        return invFreq(docCount, freq) * f(count, length);
     }
 
     /**
@@ -76,14 +82,12 @@ public class Bm25FullGraphVisitor implements CqExpression.DoubleVisitor {
 
     /**
      *
-     * @param k  determines the size of the impact of a single term
-     * @param b  determines the magnitude of the length normalization
      * @param count   number of occurrences in the document
      * @param length  document length
      */
-    private double f(double k, double b, double count, int length) {
+    private double f(double count, int length) {
         final double lengthRatio = (double) length / AVG_LENGTH;
 
-        return (count * (k + 1)) / (count + k * (1 - b + b * lengthRatio));
+        return (count * (k1 + 1)) / (count + k1 * (1 - b + b * lengthRatio));
     }
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java b/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
deleted file mode 100644
index 86437f02..00000000
--- a/code/index/java/nu/marginalia/index/results/IndexMetadataService.java
+++ /dev/null
@@ -1,96 +0,0 @@
-package nu.marginalia.index.results;
-
-import com.google.inject.Inject;
-import gnu.trove.map.hash.TObjectLongHashMap;
-import it.unimi.dsi.fastutil.longs.Long2ObjectArrayMap;
-import it.unimi.dsi.fastutil.longs.LongArrayList;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.query.SearchQuery;
-import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.model.SearchTermsUtil;
-import nu.marginalia.index.results.model.QuerySearchTerms;
-import nu.marginalia.index.results.model.TermCoherenceGroupList;
-import nu.marginalia.index.results.model.ids.CombinedDocIdList;
-import nu.marginalia.index.results.model.ids.TermMetadataList;
-import nu.marginalia.index.results.model.ids.TermIdList;
-
-import java.lang.foreign.Arena;
-import java.util.ArrayList;
-
-import static nu.marginalia.index.results.model.TermCoherenceGroupList.TermCoherenceGroup;
-
-public class IndexMetadataService {
-    private final StatefulIndex statefulIndex;
-
-    @Inject
-    public IndexMetadataService(StatefulIndex index) {
-        this.statefulIndex = index;
-    }
-
-    public Long2ObjectArrayMap<TermMetadataList>
-        getTermMetadataForDocuments(Arena arena, CombinedDocIdList combinedIdsAll, TermIdList termIdsList)
-    {
-        var currentIndex = statefulIndex.get();
-
-        Long2ObjectArrayMap<TermMetadataList> termdocToMeta =
-                new Long2ObjectArrayMap<>(termIdsList.size());
-
-        for (long termId : termIdsList.array()) {
-            termdocToMeta.put(termId, currentIndex.getTermMetadata(arena, termId, combinedIdsAll));
-        }
-
-        return termdocToMeta;
-    }
-
-    public QuerySearchTerms getSearchTerms(CompiledQuery<String> compiledQuery, SearchQuery searchQuery) {
-
-        LongArrayList termIdsList = new LongArrayList();
-        LongArrayList termIdsPrio = new LongArrayList();
-
-        TObjectLongHashMap<String> termToId = new TObjectLongHashMap<>(10, 0.75f, -1);
-
-        for (String word : compiledQuery) {
-            long id = SearchTermsUtil.getWordId(word);
-            termIdsList.add(id);
-            termToId.put(word, id);
-        }
-
-        for (var term : searchQuery.searchTermsAdvice) {
-            if (termToId.containsKey(term)) {
-                continue;
-            }
-
-            long id = SearchTermsUtil.getWordId(term);
-            termIdsList.add(id);
-            termToId.put(term, id);
-        }
-
-        for (var term : searchQuery.searchTermsPriority) {
-            if (termToId.containsKey(term)) {
-                long id = SearchTermsUtil.getWordId(term);
-                termIdsPrio.add(id);
-            }
-            else {
-                long id = SearchTermsUtil.getWordId(term);
-                termIdsList.add(id);
-                termIdsPrio.add(id);
-                termToId.put(term, id);
-            }
-        }
-
-        var idsAll = new TermIdList(termIdsList);
-        var idsPrio = new TermIdList(termIdsPrio);
-
-        var constraints = new ArrayList<TermCoherenceGroup>();
-        for (var coherence : searchQuery.searchTermCoherences) {
-            constraints.add(new TermCoherenceGroup(coherence, idsAll));
-        }
-
-        return new QuerySearchTerms(termToId,
-                idsAll,
-                idsPrio,
-                new TermCoherenceGroupList(constraints)
-        );
-    }
-
-}
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
new file mode 100644
index 00000000..4b455580
--- /dev/null
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -0,0 +1,229 @@
+package nu.marginalia.index.results;
+
+import com.google.inject.Inject;
+import com.google.inject.Singleton;
+import gnu.trove.list.TLongList;
+import gnu.trove.list.array.TLongArrayList;
+import gnu.trove.map.hash.TObjectLongHashMap;
+import it.unimi.dsi.fastutil.longs.LongArrayList;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
+import nu.marginalia.api.searchquery.model.query.SearchQuery;
+import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
+import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
+import nu.marginalia.api.searchquery.model.results.SearchResultItem;
+import nu.marginalia.index.index.CombinedIndexReader;
+import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.model.SearchParameters;
+import nu.marginalia.index.model.SearchTermsUtil;
+import nu.marginalia.index.results.model.QuerySearchTerms;
+import nu.marginalia.index.results.model.TermCoherenceGroupList;
+import nu.marginalia.index.results.model.ids.CombinedDocIdList;
+import nu.marginalia.index.results.model.ids.TermIdList;
+import nu.marginalia.index.results.model.ids.TermMetadataList;
+import nu.marginalia.linkdb.docs.DocumentDbReader;
+import nu.marginalia.linkdb.model.DocdbUrlDetail;
+import nu.marginalia.sequence.GammaCodedSequence;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.lang.foreign.Arena;
+import java.sql.SQLException;
+import java.util.*;
+
+@Singleton
+public class IndexResultRankingService {
+    private static final Logger logger = LoggerFactory.getLogger(IndexResultRankingService.class);
+
+    private final DocumentDbReader documentDbReader;
+    private final StatefulIndex statefulIndex;
+
+    @Inject
+    public IndexResultRankingService(DocumentDbReader documentDbReader,
+                                     StatefulIndex statefulIndex)
+    {
+        this.documentDbReader = documentDbReader;
+        this.statefulIndex = statefulIndex;
+    }
+
+    public List<SearchResultItem> rankResults(SearchParameters params,
+                                              ResultRankingContext rankingContext,
+                                              CombinedDocIdList resultIds)
+    {
+        IndexResultScoreCalculator resultRanker = new IndexResultScoreCalculator(statefulIndex, rankingContext, params);
+
+        List<SearchResultItem> results = new ArrayList<>(resultIds.size());
+
+        // Get the current index reader, which is the one we'll use for this calculation,
+        // this may change during the calculation, but we don't want to switch over mid-calculation
+        final CombinedIndexReader currentIndex = statefulIndex.get();
+
+        final QuerySearchTerms searchTerms = getSearchTerms(params.compiledQuery, params.query);
+        final int termCount = searchTerms.termIdsAll.size();
+
+        // We use an arena for the position data to avoid gc pressure
+        // from the gamma coded sequences, which can be large and have a lifetime
+        // that matches the try block here
+        try (var arena = Arena.ofConfined()) {
+
+            TermMetadataList[] termsForDocs = new TermMetadataList[termCount];
+            for (int ti = 0; ti < termCount; ti++) {
+                termsForDocs[ti] = currentIndex.getTermMetadata(arena, searchTerms.termIdsAll.at(ti), resultIds);
+            }
+
+            // Data for the document.  We arrange this in arrays outside the calculation function to avoid
+            // hash lookups in the inner loop, as it's hot code, and we don't want unnecessary cpu cache
+            // thrashing in there; out here we can rely on implicit array ordering to match up the data.
+
+            long[] flags = new long[termCount];
+            GammaCodedSequence[] positions = new GammaCodedSequence[termCount];
+
+            // Iterate over documents by their index in the combinedDocIds, as we need the index for the
+            // term data arrays as well
+
+            for (int i = 0; i < resultIds.size(); i++) {
+
+                // Prepare term-level data for the document
+                for (int ti = 0; ti < flags.length; ti++) {
+                    var tfd = termsForDocs[ti];
+
+                    assert tfd != null : "No term data for term " + ti;
+
+                    flags[ti] = tfd.flag(i);
+                    positions[ti] = tfd.position(i);
+                }
+
+                // Ignore documents that don't match the mandatory constraints
+                if (!searchTerms.coherences.testMandatory(positions)) {
+                    continue;
+                }
+
+                // Calculate the preliminary score
+                var score = resultRanker.calculateScore(resultIds.at(i), searchTerms, flags, positions);
+                if (score != null) {
+                    results.add(score);
+                }
+            }
+
+            return results;
+        }
+    }
+
+
+    public List<DecoratedSearchResultItem> selectBestResults(SearchParameters params,
+                                                     Collection<SearchResultItem> results) throws SQLException {
+
+        var domainCountFilter = new IndexResultDomainDeduplicator(params.limitByDomain);
+
+        List<SearchResultItem> resultsList = new ArrayList<>(results.size());
+        TLongList idsList = new TLongArrayList(params.limitTotal);
+
+        for (var item : results) {
+            if (domainCountFilter.test(item)) {
+
+                if (resultsList.size() < params.limitTotal) {
+                    resultsList.add(item);
+                    idsList.add(item.getDocumentId());
+                }
+                //
+                // else { break; } <-- don't add this even though it looks like it should be present!
+                //
+                // It's important that this filter runs across all results, not just the top N,
+                // so we shouldn't break the loop in a putative else-case here!
+                //
+
+            }
+        }
+
+        // Fetch the document details for the selected results in one go, from the local document database
+        // for this index partition
+        Map<Long, DocdbUrlDetail> detailsById = new HashMap<>(idsList.size());
+        for (var item : documentDbReader.getUrlDetails(idsList)) {
+            detailsById.put(item.urlId(), item);
+        }
+
+        List<DecoratedSearchResultItem> resultItems = new ArrayList<>(resultsList.size());
+
+        // Decorate the results with the document details
+        for (var result : resultsList) {
+            final long id = result.getDocumentId();
+            final DocdbUrlDetail docData = detailsById.get(id);
+
+            if (docData == null) {
+                logger.warn("No document data for id {}", id);
+                continue;
+            }
+
+            // Create a decorated search result item from the result and the document data
+            resultItems.add(new DecoratedSearchResultItem(
+                    result,
+                    docData.url(),
+                    docData.title(),
+                    docData.description(),
+                    docData.urlQuality(),
+                    docData.format(),
+                    docData.features(),
+                    docData.pubYear(),
+                    docData.dataHash(),
+                    docData.wordsTotal(),
+                    0L, //bestPositions(wordMetas),
+                    result.getScore(),
+                    domainCountFilter.getCount(result),
+                    null
+            ));
+        }
+
+        return resultItems;
+    }
+
+
+    public QuerySearchTerms getSearchTerms(CompiledQuery<String> compiledQuery, SearchQuery searchQuery) {
+
+        LongArrayList termIdsList = new LongArrayList();
+        LongArrayList termIdsPrio = new LongArrayList();
+
+        TObjectLongHashMap<String> termToId = new TObjectLongHashMap<>(10, 0.75f, -1);
+
+        for (String word : compiledQuery) {
+            long id = SearchTermsUtil.getWordId(word);
+            termIdsList.add(id);
+            termToId.put(word, id);
+        }
+
+        for (var term : searchQuery.searchTermsAdvice) {
+            if (termToId.containsKey(term)) {
+                continue;
+            }
+
+            long id = SearchTermsUtil.getWordId(term);
+            termIdsList.add(id);
+            termToId.put(term, id);
+        }
+
+        for (var term : searchQuery.searchTermsPriority) {
+            if (termToId.containsKey(term)) {
+                long id = SearchTermsUtil.getWordId(term);
+                termIdsPrio.add(id);
+            }
+            else {
+                long id = SearchTermsUtil.getWordId(term);
+                termIdsList.add(id);
+                termIdsPrio.add(id);
+                termToId.put(term, id);
+            }
+        }
+
+        var idsAll = new TermIdList(termIdsList);
+        var idsPrio = new TermIdList(termIdsPrio);
+
+        var constraints = new ArrayList<TermCoherenceGroupList.TermCoherenceGroup>();
+        for (var coherence : searchQuery.searchTermCoherences) {
+            constraints.add(new TermCoherenceGroupList.TermCoherenceGroup(coherence, idsAll));
+        }
+
+        return new QuerySearchTerms(termToId,
+                idsAll,
+                idsPrio,
+                new TermCoherenceGroupList(constraints)
+        );
+    }
+}
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
new file mode 100644
index 00000000..20af5f92
--- /dev/null
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -0,0 +1,349 @@
+package nu.marginalia.index.results;
+
+import nu.marginalia.api.searchquery.model.compiled.*;
+import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
+import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
+import nu.marginalia.api.searchquery.model.results.SearchResultItem;
+import nu.marginalia.index.index.CombinedIndexReader;
+import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.model.SearchParameters;
+import nu.marginalia.index.model.QueryParams;
+import nu.marginalia.index.results.model.QuerySearchTerms;
+import nu.marginalia.model.crawl.HtmlFeature;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.model.idx.DocumentFlags;
+import nu.marginalia.model.idx.DocumentMetadata;
+import nu.marginalia.model.idx.WordFlags;
+import nu.marginalia.index.query.limit.QueryStrategy;
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.SequenceOperations;
+
+import javax.annotation.Nullable;
+
+import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.*;
+
+/** This class is responsible for calculating the score of a search result.
+ * It holds the data required to perform the scoring, as there is strong
+ * reasons to cache this data, and performs the calculations */
+public class IndexResultScoreCalculator {
+    private final CombinedIndexReader index;
+    private final QueryParams queryParams;
+
+    private final ResultRankingContext rankingContext;
+    private final CompiledQuery<String> compiledQuery;
+
+    public IndexResultScoreCalculator(StatefulIndex statefulIndex,
+                                      ResultRankingContext rankingContext,
+                                      SearchParameters params)
+    {
+        this.index = statefulIndex.get();
+        this.rankingContext = rankingContext;
+
+        this.queryParams = params.queryParams;
+        this.compiledQuery = params.compiledQuery;
+    }
+
+    private final long flagsFilterMask = WordFlags.Title.asBit() | WordFlags.Subjects.asBit() | WordFlags.UrlDomain.asBit() | WordFlags.UrlPath.asBit() | WordFlags.ExternalLink.asBit();
+
+    @Nullable
+    public SearchResultItem calculateScore(long combinedId,
+                                           QuerySearchTerms searchTerms,
+                                           long[] wordFlags,
+                                           GammaCodedSequence[] positions)
+    {
+
+        CompiledQuery<GammaCodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
+
+        int[] counts = new int[compiledQuery.size()];
+
+        for (int i = 0; i < counts.length; i++) {
+            if (positions[i] != null) {
+                counts[i] = positions[i].valueCount();
+            }
+        }
+        CompiledQueryInt positionsCountQuery = compiledQuery.root.newQuery(counts);
+        CompiledQueryLong wordFlagsQuery = compiledQuery.root.newQuery(wordFlags);
+
+        // If the document is not relevant to the query, abort early to reduce allocations and
+        // avoid unnecessary calculations
+        if (testRelevance(wordFlagsQuery, positionsCountQuery)) {
+            return null;
+        }
+
+        long docId = UrlIdCodec.removeRank(combinedId);
+        long docMetadata = index.getDocumentMetadata(docId);
+        int htmlFeatures = index.getHtmlFeatures(docId);
+        int docSize = index.getDocumentSize(docId);
+
+        int bestCoherence = searchTerms.coherences.testOptional(positions);
+
+        double score = calculateSearchResultValue(
+                wordFlagsQuery,
+                positionsCountQuery,
+                positionsQuery,
+                docMetadata,
+                htmlFeatures,
+                docSize,
+                bestCoherence,
+                rankingContext);
+
+        SearchResultItem searchResult = new SearchResultItem(docId,
+                docMetadata,
+                htmlFeatures);
+
+        if (hasPrioTerm(searchTerms, positions)) {
+            score = 0.75 * score;
+        }
+
+        searchResult.setScore(score);
+
+        return searchResult;
+    }
+
+    private boolean testRelevance(CompiledQueryLong wordFlagsQuery, CompiledQueryInt countsQuery) {
+        boolean allSynthetic = booleanAggregate(wordFlagsQuery, WordFlags.Synthetic::isPresent);
+        int flagsCount = intMaxMinAggregate(wordFlagsQuery, flags ->  Long.bitCount(flags & flagsFilterMask));
+        int positionsCount = intMaxMinAggregate(countsQuery, p -> p);
+
+        if (!meetsQueryStrategyRequirements(wordFlagsQuery, queryParams.queryStrategy())) {
+            return true;
+        }
+        if (flagsCount == 0 && !allSynthetic && positionsCount == 0) {
+            return true;
+        }
+
+        return false;
+    }
+
+    private boolean hasPrioTerm(QuerySearchTerms searchTerms, GammaCodedSequence[] positions) {
+        var allTerms = searchTerms.termIdsAll;
+        var prioTerms = searchTerms.termIdsPrio;
+
+        for (int i = 0; i < allTerms.size(); i++) {
+            if (positions[i] != null && prioTerms.contains(allTerms.at(i))) {
+                return true;
+            }
+        }
+
+        return false;
+    }
+
+    private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
+                                                   QueryStrategy queryStrategy)
+    {
+        if (queryStrategy == QueryStrategy.AUTO ||
+                queryStrategy == QueryStrategy.SENTENCE ||
+                queryStrategy == QueryStrategy.TOPIC) {
+            return true;
+        }
+
+        return booleanAggregate(queryGraphScores,
+                docs -> meetsQueryStrategyRequirements(docs, queryParams.queryStrategy()));
+    }
+
+    private boolean meetsQueryStrategyRequirements(long wordMeta, QueryStrategy queryStrategy) {
+        if (queryStrategy == QueryStrategy.REQUIRE_FIELD_SITE) {
+            return WordFlags.Site.isPresent(wordMeta);
+        }
+        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_SUBJECT) {
+            return WordFlags.Subjects.isPresent(wordMeta);
+        }
+        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_TITLE) {
+            return WordFlags.Title.isPresent(wordMeta);
+        }
+        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_URL) {
+            return WordFlags.UrlPath.isPresent(wordMeta);
+        }
+        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_DOMAIN) {
+            return WordFlags.UrlDomain.isPresent(wordMeta);
+        }
+        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_LINK) {
+            return WordFlags.ExternalLink.isPresent(wordMeta);
+        }
+        return true;
+    }
+
+    public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
+                                             CompiledQueryInt positionsCountQuery,
+                                             CompiledQuery<GammaCodedSequence> positionsQuery, long documentMetadata,
+                                             int features,
+                                             int length,
+                                             int bestCoherence,
+                                             ResultRankingContext ctx)
+    {
+        if (length < 0) {
+            length = 5000;
+        }
+
+        var rankingParams = ctx.params;
+
+        int rank = DocumentMetadata.decodeRank(documentMetadata);
+        int asl = DocumentMetadata.decodeAvgSentenceLength(documentMetadata);
+        int quality = DocumentMetadata.decodeQuality(documentMetadata);
+        int size = DocumentMetadata.decodeSize(documentMetadata);
+        int flagsPenalty = flagsPenalty(features, documentMetadata & 0xFF, size);
+        int topology = DocumentMetadata.decodeTopology(documentMetadata);
+        int year = DocumentMetadata.decodeYear(documentMetadata);
+
+        double averageSentenceLengthPenalty = (asl >= rankingParams.shortSentenceThreshold ? 0 : -rankingParams.shortSentencePenalty);
+
+        final double qualityPenalty = calculateQualityPenalty(size, quality, rankingParams);
+        final double rankingBonus = (255. - rank) * rankingParams.domainRankBonus;
+        final double topologyBonus = Math.log(1 + topology);
+        final double documentLengthPenalty = length > rankingParams.shortDocumentThreshold ? 0 : -rankingParams.shortDocumentPenalty;
+        final double temporalBias;
+
+        if (rankingParams.temporalBias == ResultRankingParameters.TemporalBias.RECENT) {
+            temporalBias = - Math.abs(year - PubDate.MAX_YEAR) * rankingParams.temporalBiasWeight;
+        } else if (rankingParams.temporalBias == ResultRankingParameters.TemporalBias.OLD) {
+            temporalBias = - Math.abs(year - PubDate.MIN_YEAR) * rankingParams.temporalBiasWeight;
+        } else {
+            temporalBias = 0;
+        }
+
+        double overallPart = averageSentenceLengthPenalty
+                + documentLengthPenalty
+                + qualityPenalty
+                + rankingBonus
+                + topologyBonus
+                + temporalBias
+                + flagsPenalty
+                + bestCoherence;
+
+        double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
+        double tcfFirstPosition = 0.;
+
+        double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, positionsCountQuery.data, length, ctx));
+
+        // Renormalize to 0...15, where 0 is the best possible score;
+        // this is a historical artifact of the original ranking function
+        double ret = normalize(
+                tcfAvgDist + tcfFirstPosition
+                        + bM25
+                        + Math.max(0, overallPart),
+                -Math.min(0, overallPart));
+
+        if (Double.isNaN(ret)) { // This should never happen but if it does, we want to know about it
+            if (getClass().desiredAssertionStatus()) {
+                throw new IllegalStateException("NaN in result value calculation");
+            }
+
+            return Double.MAX_VALUE;
+        }
+        else {
+            return ret;
+        }
+    }
+
+    private double calculateQualityPenalty(int size, int quality, ResultRankingParameters rankingParams) {
+        if (size < 400) {
+            if (quality < 5)
+                return 0;
+            return -quality * rankingParams.qualityPenalty;
+        }
+        else {
+            return -quality * rankingParams.qualityPenalty * 20;
+        }
+    }
+
+    private int flagsPenalty(int featureFlags, long docFlags, int size) {
+
+        // Short-circuit for index-service, which does not have the feature flags
+        if (featureFlags == 0)
+            return 0;
+
+        double penalty = 0;
+
+        boolean isForum = DocumentFlags.GeneratorForum.isPresent(docFlags);
+        boolean isWiki = DocumentFlags.GeneratorWiki.isPresent(docFlags);
+        boolean isDocs = DocumentFlags.GeneratorDocs.isPresent(docFlags);
+
+        // Penalize large sites harder for any bullshit as it's a strong signal of a low quality site
+        double largeSiteFactor = 1.;
+
+        if (!isForum && !isWiki && !isDocs && size > 400) {
+            // Long urls-that-look-like-this tend to be poor search results
+            if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.KEBAB_CASE_URL.getFeatureBit()))
+                penalty += 30.0;
+            else if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.LONG_URL.getFeatureBit()))
+                penalty += 30.;
+            else penalty += 5.;
+
+            largeSiteFactor = 2;
+        }
+
+        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.TRACKING_ADTECH.getFeatureBit()))
+            penalty += 7.5 * largeSiteFactor;
+
+        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.AFFILIATE_LINK.getFeatureBit()))
+            penalty += 5.0 * largeSiteFactor;
+
+        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.COOKIES.getFeatureBit()))
+            penalty += 2.5 * largeSiteFactor;
+
+        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.TRACKING.getFeatureBit()))
+            penalty += 2.5 * largeSiteFactor;
+
+        if (isForum || isWiki) {
+            penalty = Math.min(0, penalty - 2);
+        }
+
+        return (int) -penalty;
+    }
+
+    /** Normalize a value to the range 0...15, where 0 is the best possible score
+     *
+     * @param value The value to normalize, must be positive or zero
+     * @param penalty Any negative component of the value
+     * */
+    public static double normalize(double value, double penalty) {
+        if (value < 0)
+            value = 0;
+
+        return Math.sqrt((1.0 + 500. + 10 * penalty) / (1.0 + value));
+    }
+
+
+    public static double calculateAvgMinDistance(CompiledQuery<GammaCodedSequence> positions, ResultRankingContext ctx) {
+        double sum = 0;
+        int cnt = 0;
+
+        for (int i = 0; i < positions.size(); i++) {
+
+            // Skip terms that are not in the regular mask
+            if (!ctx.regularMask.get(i))
+                continue;
+
+            var posi = positions.at(i);
+
+            // Skip terms that are not in the document
+            if (posi == null)
+                continue;
+
+            for (int j = i + 1; j < positions.size(); j++) {
+
+                // Skip terms that are not in the regular mask
+                if (!ctx.regularMask.get(j))
+                    continue;
+
+                var posj = positions.at(j);
+
+                // Skip terms that are not in the document
+                if (posj == null)
+                    continue;
+
+                int distance = SequenceOperations.minDistance(posi.iterator(), posj.iterator());
+                sum += distance;
+                cnt++;
+            }
+        }
+
+        if (cnt > 0) {
+            return sum / cnt;
+        } else {
+            return 1000.;
+        }
+    }
+
+}
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java b/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
deleted file mode 100644
index 2facf59f..00000000
--- a/code/index/java/nu/marginalia/index/results/IndexResultValuationContext.java
+++ /dev/null
@@ -1,165 +0,0 @@
-package nu.marginalia.index.results;
-
-import nu.marginalia.api.searchquery.model.compiled.*;
-import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.api.searchquery.model.results.SearchResultItem;
-import nu.marginalia.index.index.CombinedIndexReader;
-import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.model.SearchParameters;
-import nu.marginalia.index.model.QueryParams;
-import nu.marginalia.index.results.model.QuerySearchTerms;
-import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.index.query.limit.QueryStrategy;
-import nu.marginalia.ranking.results.ResultValuator;
-import nu.marginalia.sequence.GammaCodedSequence;
-
-import javax.annotation.Nullable;
-
-import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.*;
-
-/** This class is responsible for calculating the score of a search result.
- * It holds the data required to perform the scoring, as there is strong
- * reasons to cache this data, and performs the calculations */
-public class IndexResultValuationContext {
-    private final CombinedIndexReader index;
-    private final QueryParams queryParams;
-
-    private final ResultRankingContext rankingContext;
-    private final ResultValuator searchResultValuator;
-    private final CompiledQuery<String> compiledQuery;
-
-    public IndexResultValuationContext(ResultValuator searchResultValuator,
-                                       StatefulIndex statefulIndex,
-                                       ResultRankingContext rankingContext,
-                                       SearchParameters params)
-    {
-        this.index = statefulIndex.get();
-        this.rankingContext = rankingContext;
-        this.searchResultValuator = searchResultValuator;
-
-        this.queryParams = params.queryParams;
-        this.compiledQuery = params.compiledQuery;
-    }
-
-    private final long flagsFilterMask = WordFlags.Title.asBit() | WordFlags.Subjects.asBit() | WordFlags.UrlDomain.asBit() | WordFlags.UrlPath.asBit() | WordFlags.ExternalLink.asBit();
-
-    @Nullable
-    public SearchResultItem calculatePreliminaryScore(long combinedId,
-                                                      QuerySearchTerms searchTerms,
-                                                      long[] wordFlags,
-                                                      GammaCodedSequence[] positions)
-    {
-        if (!searchTerms.coherences.testMandatory(positions))
-            return null;
-
-        CompiledQuery<GammaCodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
-        CompiledQueryLong wordFlagsQuery = compiledQuery.root.newQuery(wordFlags);
-        int[] counts = new int[compiledQuery.size()];
-        for (int i = 0; i < counts.length; i++) {
-            if (positions[i] != null) {
-                counts[i] = positions[i].valueCount();
-            }
-        }
-        CompiledQueryInt positionsCountQuery = compiledQuery.root.newQuery(counts);
-
-        // If the document is not relevant to the query, abort early to reduce allocations and
-        // avoid unnecessary calculations
-        if (testRelevance(wordFlagsQuery, positionsCountQuery)) {
-            return null;
-        }
-
-        long docId = UrlIdCodec.removeRank(combinedId);
-        long docMetadata = index.getDocumentMetadata(docId);
-        int htmlFeatures = index.getHtmlFeatures(docId);
-        int docSize = index.getDocumentSize(docId);
-
-        int bestCoherence = searchTerms.coherences.testOptional(positions);
-
-        double score = searchResultValuator.calculateSearchResultValue(
-                wordFlagsQuery,
-                positionsCountQuery,
-                positionsQuery,
-                docMetadata,
-                htmlFeatures,
-                docSize,
-                bestCoherence,
-                rankingContext, null);
-
-        SearchResultItem searchResult = new SearchResultItem(docId,
-                docMetadata,
-                htmlFeatures);
-
-        if (hasPrioTerm(searchTerms, positions)) {
-            score = 0.75 * score;
-        }
-
-        searchResult.setScore(score);
-
-        return searchResult;
-    }
-
-    private boolean testRelevance(CompiledQueryLong wordFlagsQuery, CompiledQueryInt countsQuery) {
-        boolean allSynthetic = booleanAggregate(wordFlagsQuery, WordFlags.Synthetic::isPresent);
-        int flagsCount = intMaxMinAggregate(wordFlagsQuery, flags ->  Long.bitCount(flags & flagsFilterMask));
-        int positionsCount = intMaxMinAggregate(countsQuery, p -> p);
-
-        if (!meetsQueryStrategyRequirements(wordFlagsQuery, queryParams.queryStrategy())) {
-            return true;
-        }
-        if (flagsCount == 0 && !allSynthetic && positionsCount == 0) {
-            return true;
-        }
-
-        return false;
-    }
-
-    private boolean hasPrioTerm(QuerySearchTerms searchTerms, GammaCodedSequence[] positions) {
-        var allTerms = searchTerms.termIdsAll;
-        var prioTerms = searchTerms.termIdsPrio;
-
-        for (int i = 0; i < allTerms.size(); i++) {
-            if (positions[i] != null && prioTerms.contains(allTerms.at(i))) {
-                return true;
-            }
-        }
-
-        return false;
-    }
-
-    private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
-                                                   QueryStrategy queryStrategy)
-    {
-        if (queryStrategy == QueryStrategy.AUTO ||
-                queryStrategy == QueryStrategy.SENTENCE ||
-                queryStrategy == QueryStrategy.TOPIC) {
-            return true;
-        }
-
-        return booleanAggregate(queryGraphScores,
-                docs -> meetsQueryStrategyRequirements(docs, queryParams.queryStrategy()));
-    }
-
-    private boolean meetsQueryStrategyRequirements(long wordMeta, QueryStrategy queryStrategy) {
-        if (queryStrategy == QueryStrategy.REQUIRE_FIELD_SITE) {
-            return WordFlags.Site.isPresent(wordMeta);
-        }
-        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_SUBJECT) {
-            return WordFlags.Subjects.isPresent(wordMeta);
-        }
-        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_TITLE) {
-            return WordFlags.Title.isPresent(wordMeta);
-        }
-        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_URL) {
-            return WordFlags.UrlPath.isPresent(wordMeta);
-        }
-        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_DOMAIN) {
-            return WordFlags.UrlDomain.isPresent(wordMeta);
-        }
-        else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_LINK) {
-            return WordFlags.ExternalLink.isPresent(wordMeta);
-        }
-        return true;
-    }
-
-}
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java b/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java
deleted file mode 100644
index fbe99cb1..00000000
--- a/code/index/java/nu/marginalia/index/results/IndexResultValuatorService.java
+++ /dev/null
@@ -1,210 +0,0 @@
-package nu.marginalia.index.results;
-
-import com.google.inject.Inject;
-import com.google.inject.Singleton;
-import gnu.trove.list.TLongList;
-import gnu.trove.list.array.TLongArrayList;
-import it.unimi.dsi.fastutil.longs.LongSet;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
-import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
-import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.api.searchquery.model.results.SearchResultItem;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingDetails;
-import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.model.SearchParameters;
-import nu.marginalia.index.results.model.ids.CombinedDocIdList;
-import nu.marginalia.linkdb.docs.DocumentDbReader;
-import nu.marginalia.linkdb.model.DocdbUrlDetail;
-import nu.marginalia.model.idx.WordMetadata;
-import nu.marginalia.ranking.results.ResultValuator;
-import nu.marginalia.sequence.GammaCodedSequence;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import java.lang.foreign.Arena;
-import java.sql.SQLException;
-import java.util.*;
-
-@Singleton
-public class IndexResultValuatorService {
-    private static final Logger logger = LoggerFactory.getLogger(IndexResultValuatorService.class);
-
-    private final IndexMetadataService metadataService;
-    private final DocumentDbReader documentDbReader;
-    private final ResultValuator resultValuator;
-    private final StatefulIndex statefulIndex;
-
-    @Inject
-    public IndexResultValuatorService(IndexMetadataService metadataService,
-                                      DocumentDbReader documentDbReader,
-                                      ResultValuator resultValuator,
-                                      StatefulIndex statefulIndex)
-    {
-        this.metadataService = metadataService;
-        this.documentDbReader = documentDbReader;
-        this.resultValuator = resultValuator;
-        this.statefulIndex = statefulIndex;
-    }
-
-    public List<SearchResultItem> rankResults(SearchParameters params,
-                                              ResultRankingContext rankingContext,
-                                              CombinedDocIdList resultIds)
-    {
-        IndexResultValuationContext evaluator =
-                new IndexResultValuationContext(resultValuator, statefulIndex, rankingContext, params);
-
-        List<SearchResultItem> results = new ArrayList<>(resultIds.size());
-
-        try (var arena = Arena.ofConfined()) {
-            // Batch-fetch the word metadata for the documents
-
-            var searchTerms = metadataService.getSearchTerms(params.compiledQuery, params.query);
-            var termsForDocs = metadataService.getTermMetadataForDocuments(arena, resultIds, searchTerms.termIdsAll);
-
-            // Prepare data for the document.  We do this outside of the calculation function to avoid
-            // hash lookups in the inner loop, as it's very hot code and we don't want thrashing in there;
-            // out here we can rely on implicit array ordering to match up the data.
-
-            var ra = resultIds.array();
-            long[] flags = new long[searchTerms.termIdsAll.size()];
-            GammaCodedSequence[] positions = new GammaCodedSequence[searchTerms.termIdsAll.size()];
-
-            for (int i = 0; i < ra.length; i++) {
-                long id = ra[i];
-
-                // Prepare term-level data for the document
-                for (int ti = 0; ti < flags.length; ti++) {
-                    long tid = searchTerms.termIdsAll.at(ti);
-                    var tfd = termsForDocs.get(tid);
-
-                    assert tfd != null : "No term data for term " + ti;
-
-                    flags[ti] = tfd.flag(i);
-                    positions[ti] = tfd.position(i);
-                }
-
-                // Calculate the preliminary score
-
-                var score = evaluator.calculatePreliminaryScore(id, searchTerms, flags, positions);
-                if (score != null) {
-                    results.add(score);
-                }
-            }
-
-            return results;
-        }
-    }
-
-
-    public List<DecoratedSearchResultItem> selectBestResults(SearchParameters params,
-                                                     Collection<SearchResultItem> results) throws SQLException {
-
-        var domainCountFilter = new IndexResultDomainDeduplicator(params.limitByDomain);
-
-        List<SearchResultItem> resultsList = new ArrayList<>(results.size());
-
-        for (var item : results) {
-            if (domainCountFilter.test(item)) {
-                // It's important that this filter runs across all results, not just the top N
-                if (resultsList.size() < params.limitTotal) {
-                    resultsList.add(item);
-                }
-            }
-        }
-
-        for (var item : resultsList) {
-            item.resultsFromDomain = domainCountFilter.getCount(item);
-        }
-
-        return decorateResults(resultsList, params.compiledQuery);
-    }
-
-    /** Decorate the result items with additional information from the link database
-     * and calculate an updated ranking with the additional information */
-    public List<DecoratedSearchResultItem> decorateResults(List<SearchResultItem> rawResults,
-                                                           CompiledQuery<String> compiledQuery)
-            throws SQLException
-    {
-        TLongList idsList = new TLongArrayList(rawResults.size());
-
-        for (var result : rawResults)
-            idsList.add(result.getDocumentId());
-
-        Map<Long, DocdbUrlDetail> urlDetailsById = new HashMap<>(rawResults.size());
-
-        for (var item : documentDbReader.getUrlDetails(idsList))
-            urlDetailsById.put(item.urlId(), item);
-
-        List<DecoratedSearchResultItem> resultItems = new ArrayList<>(rawResults.size());
-        for (var result : rawResults) {
-            var id = result.getDocumentId();
-            var docData = urlDetailsById.get(id);
-
-            if (docData == null) {
-                logger.warn("No document data for id {}", id);
-                continue;
-            }
-
-            resultItems.add(createCombinedItem(
-                    result,
-                    docData));
-        }
-        return resultItems;
-    }
-
-    private DecoratedSearchResultItem createCombinedItem(SearchResultItem result,
-                                                         DocdbUrlDetail docData) {
-
-        ResultRankingDetailsExtractor detailsExtractor = new ResultRankingDetailsExtractor();
-       //  Consumer<ResultRankingDetails> detailConsumer = rankingContext.params.exportDebugData ? detailsExtractor::set : null;
-
-        return new DecoratedSearchResultItem(
-                result,
-                docData.url(),
-                docData.title(),
-                docData.description(),
-                docData.urlQuality(),
-                docData.format(),
-                docData.features(),
-                docData.pubYear(),
-                docData.dataHash(),
-                docData.wordsTotal(),
-                0L, //bestPositions(wordMetas),
-                result.getScore(),
-                detailsExtractor.get()
-        );
-    }
-
-    private static class ResultRankingDetailsExtractor {
-        private ResultRankingDetails value = null;
-
-        public ResultRankingDetails get() {
-            return value;
-        }
-        public void set(ResultRankingDetails value) {
-            this.value = value;
-        }
-    }
-
-    private long bestPositions(CompiledQueryLong wordMetas) {
-        LongSet positionsSet = CompiledQueryAggregates.positionsAggregate(wordMetas, WordMetadata::decodePositions);
-
-        int bestPc = 0;
-        long bestPositions = 0;
-
-        var li = positionsSet.longIterator();
-
-        while (li.hasNext()) {
-            long pos = li.nextLong();
-            int pc = Long.bitCount(pos);
-            if (pc > bestPc) {
-                bestPc = pc;
-                bestPositions = pos;
-            }
-        }
-
-        return bestPositions;
-    }
-}
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java b/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java
index 7845f14f..43f5c575 100644
--- a/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java
+++ b/code/index/java/nu/marginalia/index/results/model/ids/CombinedDocIdList.java
@@ -32,6 +32,7 @@ public final class CombinedDocIdList {
     public int size() {
         return data.length;
     }
+    public long at(int i) { return data[i]; }
 
     public LongStream stream() {
         return Arrays.stream(data);
diff --git a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java b/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
deleted file mode 100644
index 6ab72eef..00000000
--- a/code/index/java/nu/marginalia/ranking/results/ResultValuator.java
+++ /dev/null
@@ -1,209 +0,0 @@
-package nu.marginalia.ranking.results;
-
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingDetails;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingInputs;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingOutputs;
-import nu.marginalia.model.crawl.HtmlFeature;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.model.idx.DocumentFlags;
-import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.ranking.results.factors.*;
-
-import com.google.inject.Inject;
-import com.google.inject.Singleton;
-import nu.marginalia.sequence.GammaCodedSequence;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import javax.annotation.Nullable;
-import java.util.function.Consumer;
-
-@Singleton
-public class ResultValuator {
-    final static double scalingFactor = 500.;
-
-    private final TermCoherenceFactor termCoherenceFactor;
-
-    private static final Logger logger = LoggerFactory.getLogger(ResultValuator.class);
-
-    @Inject
-    public ResultValuator(TermCoherenceFactor termCoherenceFactor) {
-        this.termCoherenceFactor = termCoherenceFactor;
-    }
-
-    public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
-                                             CompiledQueryInt positionsCountQuery, CompiledQuery<GammaCodedSequence> positionsQuery, long documentMetadata,
-                                             int features,
-                                             int length,
-                                             int bestCoherence,
-                                             ResultRankingContext ctx,
-                                             @Nullable Consumer<ResultRankingDetails> detailsConsumer
-                                             )
-    {
-        if (wordFlagsQuery.isEmpty())
-            return Double.MAX_VALUE;
-
-        if (length < 0) {
-            length = 5000;
-        }
-
-        var rankingParams = ctx.params;
-
-        int rank = DocumentMetadata.decodeRank(documentMetadata);
-        int asl = DocumentMetadata.decodeAvgSentenceLength(documentMetadata);
-        int quality = DocumentMetadata.decodeQuality(documentMetadata);
-        int size = DocumentMetadata.decodeSize(documentMetadata);
-        int flagsPenalty = flagsPenalty(features, documentMetadata & 0xFF, size);
-        int topology = DocumentMetadata.decodeTopology(documentMetadata);
-        int year = DocumentMetadata.decodeYear(documentMetadata);
-
-        double averageSentenceLengthPenalty = (asl >= rankingParams.shortSentenceThreshold ? 0 : -rankingParams.shortSentencePenalty);
-
-        final double qualityPenalty = calculateQualityPenalty(size, quality, rankingParams);
-        final double rankingBonus = (255. - rank) * rankingParams.domainRankBonus;
-        final double topologyBonus = Math.log(1 + topology);
-        final double documentLengthPenalty = length > rankingParams.shortDocumentThreshold ? 0 : -rankingParams.shortDocumentPenalty;
-        final double temporalBias;
-
-        if (rankingParams.temporalBias == ResultRankingParameters.TemporalBias.RECENT) {
-            temporalBias = - Math.abs(year - PubDate.MAX_YEAR) * rankingParams.temporalBiasWeight;
-        } else if (rankingParams.temporalBias == ResultRankingParameters.TemporalBias.OLD) {
-            temporalBias = - Math.abs(year - PubDate.MIN_YEAR) * rankingParams.temporalBiasWeight;
-        } else {
-            temporalBias = 0;
-        }
-
-        double overallPart = averageSentenceLengthPenalty
-                           + documentLengthPenalty
-                           + qualityPenalty
-                           + rankingBonus
-                           + topologyBonus
-                           + temporalBias
-                           + flagsPenalty
-                           + bestCoherence;
-
-        // FIXME: need a weighting factor here
-        double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / termCoherenceFactor.calculateAvgMinDistance(positionsQuery, ctx));
-        double tcfFirstPosition = 0.;
-
-        double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25FullGraphVisitor(rankingParams.bm25Params, positionsCountQuery.data, length, ctx));
-
-        double overallPartPositive = Math.max(0, overallPart);
-        double overallPartNegative = -Math.min(0, overallPart);
-
-        if (null != detailsConsumer) {
-            var details = new ResultRankingDetails(
-                    new ResultRankingInputs(
-                            rank,
-                            asl,
-                            quality,
-                            size,
-                            topology,
-                            year,
-                            DocumentFlags.decode(documentMetadata).stream().map(Enum::name).toList()
-                    ),
-                    new ResultRankingOutputs(
-                            averageSentenceLengthPenalty,
-                            qualityPenalty,
-                            rankingBonus,
-                            topologyBonus,
-                            documentLengthPenalty,
-                            temporalBias,
-                            flagsPenalty,
-                            overallPart,
-                            bM25,
-                            tcfAvgDist,
-                            tcfFirstPosition)
-            );
-
-            detailsConsumer.accept(details);
-        }
-
-        // Renormalize to 0...15, where 0 is the best possible score;
-        // this is a historical artifact of the original ranking function
-        double ret = normalize(
-                  tcfAvgDist + tcfFirstPosition
-                      + bM25
-                      + overallPartPositive,
-                overallPartNegative);
-
-        if (Double.isNaN(ret)) {
-            if (getClass().desiredAssertionStatus()) {
-                throw new IllegalStateException("NaN in result value calculation");
-            }
-
-            return Double.MAX_VALUE;
-        }
-        else {
-            return ret;
-        }
-    }
-
-    private double calculateQualityPenalty(int size, int quality, ResultRankingParameters rankingParams) {
-        if (size < 400) {
-            if (quality < 5)
-                return 0;
-            return -quality * rankingParams.qualityPenalty;
-        }
-        else {
-            return -quality * rankingParams.qualityPenalty * 20;
-        }
-    }
-
-    private int flagsPenalty(int featureFlags, long docFlags, int size) {
-
-        // Short-circuit for index-service, which does not have the feature flags
-        if (featureFlags == 0)
-            return 0;
-
-        double penalty = 0;
-
-        boolean isForum = DocumentFlags.GeneratorForum.isPresent(docFlags);
-        boolean isWiki = DocumentFlags.GeneratorWiki.isPresent(docFlags);
-        boolean isDocs = DocumentFlags.GeneratorDocs.isPresent(docFlags);
-
-        // Penalize large sites harder for any bullshit as it's a strong signal of a low quality site
-        double largeSiteFactor = 1.;
-
-        if (!isForum && !isWiki && !isDocs && size > 400) {
-            // Long urls-that-look-like-this tend to be poor search results
-            if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.KEBAB_CASE_URL.getFeatureBit()))
-                penalty += 30.0;
-            else if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.LONG_URL.getFeatureBit()))
-                penalty += 30.;
-            else penalty += 5.;
-
-            largeSiteFactor = 2;
-        }
-
-        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.TRACKING_ADTECH.getFeatureBit()))
-            penalty += 7.5 * largeSiteFactor;
-
-        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.AFFILIATE_LINK.getFeatureBit()))
-            penalty += 5.0 * largeSiteFactor;
-
-        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.COOKIES.getFeatureBit()))
-            penalty += 2.5 * largeSiteFactor;
-
-        if (DocumentMetadata.hasFlags(featureFlags, HtmlFeature.TRACKING.getFeatureBit()))
-            penalty += 2.5 * largeSiteFactor;
-
-        if (isForum || isWiki) {
-            penalty = Math.min(0, penalty - 2);
-        }
-
-        return (int) -penalty;
-    }
-
-    public static double normalize(double value, double penalty) {
-        if (value < 0)
-            value = 0;
-
-        return Math.sqrt((1.0 + scalingFactor + 10 * penalty) / (1.0 + value));
-    }
-}
diff --git a/code/index/java/nu/marginalia/ranking/results/factors/Bm25PrioGraphVisitor.java b/code/index/java/nu/marginalia/ranking/results/factors/Bm25PrioGraphVisitor.java
deleted file mode 100644
index 1fb26f6b..00000000
--- a/code/index/java/nu/marginalia/ranking/results/factors/Bm25PrioGraphVisitor.java
+++ /dev/null
@@ -1,127 +0,0 @@
-package nu.marginalia.ranking.results.factors;
-
-import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
-import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
-import nu.marginalia.api.searchquery.model.compiled.CqExpression;
-import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
-import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
-
-import java.util.List;
-
-public class Bm25PrioGraphVisitor implements CqExpression.DoubleVisitor {
-    private static final long AVG_LENGTH = 5000;
-
-    private final CqDataLong wordMetaData;
-    private final CqDataInt frequencies;
-    private final Bm25Parameters bm25Parameters;
-
-    private final int docCount;
-
-    public Bm25PrioGraphVisitor(Bm25Parameters bm25Parameters,
-                                CqDataLong wordMetaData,
-                                ResultRankingContext ctx) {
-        this.bm25Parameters = bm25Parameters;
-        this.docCount = ctx.termFreqDocCount();
-        this.wordMetaData = wordMetaData;
-        this.frequencies = ctx.fullCounts;
-    }
-
-    @Override
-    public double onAnd(List<? extends CqExpression> parts) {
-        double value = 0;
-        for (var part : parts) {
-            value += part.visit(this);
-        }
-        return value;
-    }
-
-    @Override
-    public double onOr(List<? extends CqExpression> parts) {
-        double value = 0;
-        for (var part : parts) {
-            value = Math.max(value, part.visit(this));
-        }
-        return value;
-    }
-
-    @Override
-    public double onLeaf(int idx) {
-        double count = evaluatePriorityScore(wordMetaData.get(idx));
-
-        int freq = frequencies.get(idx);
-
-        // note we override b to zero for priority terms as they are independent of document length
-        return invFreq(docCount, freq) * f(bm25Parameters.k(), 0, count, 0);
-    }
-
-    private static double evaluatePriorityScore(long wordMeta) {
-        int pcount = Long.bitCount(WordMetadata.decodePositions(wordMeta));
-
-        double qcount = 0.;
-
-        if ((wordMeta & WordFlags.ExternalLink.asBit()) != 0) {
-
-            qcount += 2.5;
-
-            if ((wordMeta & WordFlags.UrlDomain.asBit()) != 0)
-                qcount += 2.5;
-            else if ((wordMeta & WordFlags.UrlPath.asBit()) != 0)
-                qcount += 1.5;
-
-            if ((wordMeta & WordFlags.Site.asBit()) != 0)
-                qcount += 1.25;
-            if ((wordMeta & WordFlags.SiteAdjacent.asBit()) != 0)
-                qcount += 1.25;
-        }
-        else {
-            if ((wordMeta & WordFlags.UrlDomain.asBit()) != 0)
-                qcount += 3;
-            else if ((wordMeta & WordFlags.UrlPath.asBit()) != 0)
-                qcount += 1;
-
-            if ((wordMeta & WordFlags.Site.asBit()) != 0)
-                qcount += 0.5;
-            if ((wordMeta & WordFlags.SiteAdjacent.asBit()) != 0)
-                qcount += 0.5;
-        }
-
-        if ((wordMeta & WordFlags.Title.asBit()) != 0)
-            qcount += 1.5;
-
-        if (pcount > 2) {
-            if ((wordMeta & WordFlags.Subjects.asBit()) != 0)
-                qcount += 1.25;
-            if ((wordMeta & WordFlags.NamesWords.asBit()) != 0)
-                qcount += 0.25;
-            if ((wordMeta & WordFlags.TfIdfHigh.asBit()) != 0)
-                qcount += 0.5;
-        }
-
-        return qcount;
-    }
-
-
-    /**
-     *
-     * @param docCount Number of documents
-     * @param freq Number of matching documents
-     */
-    private double invFreq(int docCount, int freq) {
-        return Math.log(1.0 + (docCount - freq + 0.5) / (freq + 0.5));
-    }
-
-    /**
-     *
-     * @param k  determines the size of the impact of a single term
-     * @param b  determines the magnitude of the length normalization
-     * @param count   number of occurrences in the document
-     * @param length  document length
-     */
-    private double f(double k, double b, double count, int length) {
-        final double lengthRatio = (double) length / AVG_LENGTH;
-
-        return (count * (k + 1)) / (count + k * (1 - b + b * lengthRatio));
-    }
-}
diff --git a/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java b/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java
deleted file mode 100644
index 2ebef7cd..00000000
--- a/code/index/java/nu/marginalia/ranking/results/factors/TermCoherenceFactor.java
+++ /dev/null
@@ -1,53 +0,0 @@
-package nu.marginalia.ranking.results.factors;
-
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.sequence.SequenceOperations;
-
-/** Rewards documents where terms appear frequently within the same sentences
- */
-public class TermCoherenceFactor {
-
-    public double calculateAvgMinDistance(CompiledQuery<GammaCodedSequence> positions, ResultRankingContext ctx) {
-        double sum = 0;
-        int cnt = 0;
-
-        for (int i = 0; i < positions.size(); i++) {
-
-            // Skip terms that are not in the regular mask
-            if (!ctx.regularMask.get(i))
-                continue;
-
-            var posi = positions.at(i);
-
-            // Skip terms that are not in the document
-            if (posi == null)
-                continue;
-
-            for (int j = i + 1; j < positions.size(); j++) {
-
-                // Skip terms that are not in the regular mask
-                if (!ctx.regularMask.get(j))
-                    continue;
-
-                var posj = positions.at(j);
-
-                // Skip terms that are not in the document
-                if (posj == null)
-                    continue;
-
-                int distance = SequenceOperations.minDistance(posi.iterator(), posj.iterator());
-                sum += distance;
-                cnt++;
-            }
-        }
-
-        if (cnt > 0) {
-            return sum / cnt;
-        } else {
-            return 1000.;
-        }
-    }
-
-}
\ No newline at end of file
diff --git a/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java b/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
index f4740e31..4966e5f0 100644
--- a/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
+++ b/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
@@ -25,7 +25,7 @@ class IndexResultDomainDeduplicatorTest {
     }
 
     SearchResultItem forId(int domain, int ordinal) {
-        return new SearchResultItem(UrlIdCodec.encodeId(domain, ordinal), 0, 0, List.of(), 4, false, Double.NaN);
+        return new SearchResultItem(UrlIdCodec.encodeId(domain, ordinal), 0, 0, List.of(),false, Double.NaN);
     }
 
 }
\ No newline at end of file
diff --git a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
index 901174f4..c7214060 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
@@ -87,7 +87,7 @@ public class SearchQueryIndexService {
                     detail.features,
                     DomainIndexingState.ACTIVE,
                     detail.rankingScore, // termScore
-                    detail.resultsFromDomain(),
+                    detail.resultsFromDomain,
                     getPositionsString(detail),
                     Long.bitCount(detail.bestPositions),
                     detail.rawIndexResult,
diff --git a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
index be3fe0b7..76fb62fc 100644
--- a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
+++ b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
@@ -103,6 +103,7 @@ public class SearchServicePaperDoll extends AbstractModule {
                 400,
                 positions,
                 score,
+                4,
                 null)
         );
     }

From ae87e41cece070abcb442bd0df5e63b9016cba9c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 16 Jul 2024 11:03:56 +0200
Subject: [PATCH 058/216] (index) Fix rare BitReader.takeWhileZero bug

Fix rare bug where the takeWhileZero method would fail to repopulate the underlying buffer.  This caused intermittent de-compression errors if takeWhileZero happened at a 64 bit boundary while the underlying buffer was empty.

The change also alters how sequence-lengths are encoded, to more consistently use the getGamma method instead of adding special significance to a zero first byte.

Finally, assertions are added checking the invariants of the gamma and delta coding logic as well as UrlIdCodec to earlier detect issues.
---
 .../nu/marginalia/model/id/UrlIdCodec.java    |  9 ++++-
 .../construction/prio/PrioPreindexTest.java   |  6 ++-
 .../sequence/GammaCodedSequence.java          | 26 ++----------
 .../nu/marginalia/sequence/io/BitReader.java  | 24 ++++++++---
 .../nu/marginalia/sequence/io/BitWriter.java  |  2 +
 .../nu/marginalia/sequence/BitReaderTest.java | 40 +++++++++----------
 .../EliasGammaSequenceIteratorTest.java       | 14 +++++++
 7 files changed, 68 insertions(+), 53 deletions(-)

diff --git a/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java b/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java
index a8c9af28..f9514c3a 100644
--- a/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java
+++ b/code/common/model/java/nu/marginalia/model/id/UrlIdCodec.java
@@ -37,11 +37,18 @@ public class UrlIdCodec {
         domainId &= 0x7FFF_FFFF;
         documentOrdinal &= 0x03FF_FFFF;
 
+        assert (domainId & 0x7FFF_FFFF) == domainId : "Domain id must be in [0, 2^31-1], was " + domainId;
+        assert (documentOrdinal & 0x03FF_FFFF) == documentOrdinal : "Document ordinal must be in [0, 2^26-1], was " + documentOrdinal;
+
         return ((long) domainId << 26) | documentOrdinal;
     }
 
     /** Encode a URL id with a ranking element */
     public static long encodeId(int rank, int domainId, int documentOrdinal) {
+        assert (rank & 0x3F) == rank : "Rank must be in [0, 63], was " + rank;
+        assert (domainId & 0x7FFF_FFFF) == domainId : "Domain id must be in [0, 2^31-1], was " + domainId;
+        assert (documentOrdinal & 0x03FF_FFFF) == documentOrdinal : "Document ordinal must be in [0, 2^26-1], was " + documentOrdinal;
+
         domainId &= 0x7FFF_FFFF;
         documentOrdinal &= 0x03FF_FFFF;
         rank &= 0x3F;
@@ -75,7 +82,7 @@ public class UrlIdCodec {
 
     /** Extract the document ordinal component from this URL id */
     public static int getRank(long combinedId) {
-        return (int) (combinedId >>> 57);
+        return (int) (combinedId >>> 57) & 0x3F;
     }
 
     /** Mask out the ranking element from this URL id */
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
index 5b323d73..413b5b8b 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
@@ -161,11 +161,13 @@ class PrioPreindexTest {
                     System.out.println("Mismatch at position " + (i + pos));
 
                     long prevValue = documentIds[i + pos - 1];
-
-                    assertTrue(currValue > prevValue, "Current value is not greater than previous value");
+                    long expectedValue = documentIds[i + pos];
 
                     System.out.println("Prev: " + prevValue + " -> " +  UrlIdCodec.getRank(prevValue) + " " + UrlIdCodec.getDomainId(prevValue) + " " + UrlIdCodec.getDocumentOrdinal(prevValue));
                     System.out.println("Curr: " + currValue + " -> " + UrlIdCodec.getRank(currValue) + " " + UrlIdCodec.getDomainId(currValue) + " " + UrlIdCodec.getDocumentOrdinal(currValue));
+                    System.out.println("Exp: " + expectedValue + " -> " + UrlIdCodec.getRank(expectedValue) + " " + UrlIdCodec.getDomainId(expectedValue) + " " + UrlIdCodec.getDocumentOrdinal(expectedValue));
+
+                    assertTrue(currValue > prevValue, "Current value is not greater than previous value");
 
                     Assertions.fail();
                 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 301b1c96..75eba781 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -138,10 +138,6 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         if (startPos == startLimit)
             return 0;
 
-        // if the first byte is zero, the sequence is empty and we can skip decoding
-        if (0 == raw.get(startPos))
-            return 0;
-
         return EliasGammaSequenceIterator.readCount(buffer());
     }
 
@@ -151,12 +147,9 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
      * or equal to zero.
      */
     public static ByteBuffer encode(ByteBuffer workArea, IntList sequence) {
-        if (sequence.isEmpty())
-            return ByteBuffer.allocate(0);
-
         var writer = new BitWriter(workArea);
 
-        writer.putGamma(sequence.size());
+        writer.putGamma(sequence.size() + 1);
 
         int last = 0;
 
@@ -216,14 +209,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
             reader = new BitReader(buffer);
 
             last = zero;
-            int bits = 1 + reader.takeWhileZero();
-
-            if (!reader.hasMore()) {
-                rem = 0;
-            }
-            else {
-                rem = reader.get(bits);
-            }
+            rem = reader.getGamma() - 1;
         }
 
         public EliasGammaSequenceIterator(ByteBuffer buffer) {
@@ -233,13 +219,7 @@ public class GammaCodedSequence implements BinarySerializable, Iterable<Integer>
         public static int readCount(ByteBuffer buffer) {
             var reader = new BitReader(buffer);
 
-            int bits = 1 + reader.takeWhileZero();
-            if (!reader.hasMore()) {
-                return 0;
-            }
-            else {
-                return reader.get(bits);
-            }
+            return reader.getGamma() - 1;
         }
 
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 524e2a6b..03f553c2 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -49,8 +49,10 @@ public class BitReader {
 
     /** Read the next width bits from the buffer */
     public int get(int width) {
-        if (width == 0)
+        if (width == 0) {
             return 0;
+        }
+        assert width <= 32;
 
         if (bitPosition <= 0) {
             readNext();
@@ -94,9 +96,7 @@ public class BitReader {
         do {
             // Ensure we have bits to read
             if (bitPosition <= 0) {
-                if (underlying.hasRemaining())
-                    readNext();
-                else break;
+                readNext();
             }
 
             // Count the number of leading zeroes in the current value
@@ -117,12 +117,24 @@ public class BitReader {
 
     public int getGamma() {
         int bits = takeWhileZero();
-        return get(bits + 1);
+        int ret = get(bits + 1);
+
+        // The highest bit in the gamma coded value must be set, we can use this invariant
+        // to detect data corruption early
+        assert (ret & (1 << bits)) != 0 : "Highest bit in gamma coded return value not set";
+
+        return ret;
     }
 
     public int getDelta() {
         int bits = getGamma();
-        return get(bits);
+        int ret = get(bits);
+
+        // The highest bit in the delta coded value must be set, we can use this invariant
+        // to detect data corruption early
+        assert (ret & (1 << (bits-1))) != 0 : "Highest bit in delta coded return value not set";
+
+        return ret;
     }
 
     public boolean hasMore() {
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
index 598f7594..57455541 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitWriter.java
@@ -101,6 +101,8 @@ public class BitWriter {
 
         int bits = numberOfSignificantBits(value);
 
+        assert bits >= 1; // invariant
+
         putGamma(bits);
         putBits(value, bits);
     }
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
index 9218e269..5488ffb8 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/BitReaderTest.java
@@ -1,6 +1,5 @@
 package nu.marginalia.sequence;
 
-import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.io.BitReader;
 import nu.marginalia.sequence.io.BitWriter;
 import org.junit.jupiter.api.Test;
@@ -11,15 +10,6 @@ import static org.junit.jupiter.api.Assertions.*;
 
 class BitReaderTest {
 
-
-    @Test
-    void emptySequence() {
-        var writer = new BitWriter(ByteBuffer.allocate(1024));
-        var buffer = writer.finish();
-
-        assertEquals(IntList.of(), new GammaCodedSequence(buffer).values());
-    }
-
     @Test
     void getBit() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
@@ -100,6 +90,25 @@ class BitReaderTest {
         }
     }
 
+    @Test
+    void getSevens2() {
+        // Fuzz test that probes int32 misalignments
+        var writer = new BitWriter(ByteBuffer.allocate(1024));
+
+        for (int i = 0; i < 729; i++) {
+            writer.putBits(73, 7);
+        }
+
+        var buffer = writer.finish();
+
+        var reader = new BitReader(buffer);
+
+        for (int i = 0; i < 729; i++) {
+            int val = reader.get(7);
+            assertEquals(0b1001001, val);
+        }
+    }
+
     @Test
     public void testTakeWhileZero() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
@@ -113,17 +122,6 @@ class BitReaderTest {
         assertTrue(reader.getBit());
     }
 
-    @Test
-    public void testTakeWhileZeroAllZero() {
-        var writer = new BitWriter(ByteBuffer.allocate(1024));
-        writer.putBits(0, 8);
-        var buffer = writer.finish();
-
-        var reader = new BitReader(buffer);
-        int val = reader.takeWhileZero();
-        assertEquals(8, val);
-    }
-
     @Test
     public void testTakeWhileZeroOverInt64() {
         var writer = new BitWriter(ByteBuffer.allocate(1024));
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java
index 1e48d0ae..518db595 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/EliasGammaSequenceIteratorTest.java
@@ -30,6 +30,20 @@ class EliasGammaSequenceIteratorTest {
         assertEquals(expected, decoded);
     }
 
+    @Test
+    public void testCodecEmpty() {
+        var ret = GammaCodedSequence.encode(work, new int[] { });
+
+        List<Integer> decoded = new ArrayList<>();
+        List<Integer> expected = List.of();
+
+        var sequence = new GammaCodedSequence.EliasGammaSequenceIterator(ret);
+        while (sequence.hasNext()) {
+            decoded.add(sequence.nextInt());
+        }
+
+        assertEquals(expected, decoded);
+    }
     @Test
     public void valueCount() {
         var ret = GammaCodedSequence.encode(work, new int[] { 1, 3, 5, 16, 32, 64 });

From 5c098005ccce10cfec20477070d3d71932e49bae Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 16 Jul 2024 12:37:59 +0200
Subject: [PATCH 059/216] (index) Fix broken test

Expected behavior changed since the ranking algorithm now takes into account the number of positions of the keyword, and the test loader was previously modified to generate positions based on prime factors of the document id.
---
 .../marginalia/index/IndexQueryServiceIntegrationSmokeTest.java | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 0be75487..e7e8ecfd 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -177,7 +177,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
                         ).build()
         );
 
-        int[] idxes = new int[] { 62, 222, 382, 60, 124, 220, 284, 380, 444, 122 };
+        int[] idxes = new int[] { 504, 360, 420, 480, 240, 180, 300, 120, 280, 440 };
         long[] ids = IntStream.of(idxes).mapToLong(Long::valueOf).toArray();
         long[] actual = rsp.results
                 .stream()

From 0b31c4cfbb8e7e0bee6d4962aeb68ccc80a6982f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 16 Jul 2024 14:37:50 +0200
Subject: [PATCH 060/216] (coded-sequence) Replace GCS usage with an interface

---
 .../keyword/model/DocumentKeywords.java       |  6 ++---
 .../model/DocumentKeywordsBuilder.java        |  3 ++-
 .../keyword/DocumentKeywordExtractorTest.java |  3 ++-
 .../forward/ForwardIndexConverterTest.java    |  3 ++-
 .../journal/model/IndexJournalEntryData.java  |  6 ++---
 .../model/IndexJournalEntryTermData.java      |  3 ++-
 .../IndexJournalWriterSingleFileImpl.java     |  4 ++--
 .../PositionsFileConstructor.java             |  1 -
 .../marginalia/index/positions/TermData.java  |  3 ++-
 .../results/IndexResultRankingService.java    |  4 ++--
 .../results/IndexResultScoreCalculator.java   | 12 +++++-----
 .../results/model/TermCoherenceGroupList.java |  8 +++----
 .../TermMetadataForCombinedDocumentIds.java   |  4 ++--
 .../results/model/ids/TermMetadataList.java   |  4 ++--
 .../nu/marginalia/sequence/CodedSequence.java | 23 +++++++++++++++++++
 .../sequence/GammaCodedSequence.java          |  3 +--
 .../model/processed/DocumentRecord.java       |  3 ++-
 .../DocumentRecordKeywordsProjection.java     |  3 ++-
 .../DocumentRecordParquetFileReaderTest.java  |  3 ++-
 .../writer/ConverterBatchWriter.java          |  4 ++--
 .../documents/KeywordLoaderService.java       |  4 ++--
 21 files changed, 68 insertions(+), 39 deletions(-)
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index e4916e31..40a51cd3 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,6 +1,6 @@
 package nu.marginalia.keyword.model;
 
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 
 import java.io.Serial;
 import java.io.Serializable;
@@ -12,11 +12,11 @@ public final class DocumentKeywords implements Serializable {
 
     public final String[] keywords;
     public final long[] metadata;
-    public final GammaCodedSequence[] positions;
+    public final CodedSequence[] positions;
 
     public DocumentKeywords(String[] keywords,
                             long[] metadata,
-                            GammaCodedSequence[] positions)
+                            CodedSequence[] positions)
     {
         this.keywords = keywords;
         this.metadata = metadata;
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index efb652af..90870c53 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -6,6 +6,7 @@ import it.unimi.dsi.fastutil.objects.Object2LongLinkedOpenHashMap;
 import lombok.Getter;
 import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -36,7 +37,7 @@ public class DocumentKeywordsBuilder {
     public DocumentKeywords build(ByteBuffer workArea) {
         final String[] wordArray = new String[wordToMeta.size()];
         final long[] meta = new long[wordToMeta.size()];
-        final GammaCodedSequence[] positions = new GammaCodedSequence[wordToMeta.size()];
+        final CodedSequence[] positions = new CodedSequence[wordToMeta.size()];
 
         var iter = wordToMeta.object2LongEntrySet().fastIterator();
 
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index ff95c847..0d731227 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -5,6 +5,7 @@ import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.jsoup.Jsoup;
@@ -93,7 +94,7 @@ class DocumentKeywordExtractorTest {
         var keywordsBuilt = keywords.build(ByteBuffer.allocate(1024));
 
         Map<String, WordMetadata> flags = new HashMap<>();
-        Map<String, GammaCodedSequence> positions = new HashMap<>();
+        Map<String, CodedSequence> positions = new HashMap<>();
 
         for (int i = 0; i < keywordsBuilt.size(); i++) {
             String keyword = keywordsBuilt.keywords[i];
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
index 5c02f648..39b8dec1 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
@@ -9,6 +9,7 @@ import nu.marginalia.index.journal.writer.IndexJournalWriter;
 import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.AfterEach;
@@ -84,7 +85,7 @@ class ForwardIndexConverterTest {
                 new IndexJournalEntryData(
                     new String[]{},
                     new long[]{},
-                    new GammaCodedSequence[]{}
+                    new CodedSequence[]{}
                 )
         );
     }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
index 71ef1d2a..6fc5e8cf 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
@@ -1,11 +1,11 @@
 package nu.marginalia.index.journal.model;
 
 import nu.marginalia.hash.MurmurHash3_128;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 
 public record IndexJournalEntryData(long[] termIds,
                                     long[] metadata,
-                                    GammaCodedSequence[] positions) {
+                                    CodedSequence[] positions) {
 
     public IndexJournalEntryData {
         assert termIds.length == metadata.length;
@@ -14,7 +14,7 @@ public record IndexJournalEntryData(long[] termIds,
 
     public IndexJournalEntryData(String[] keywords,
                                  long[] metadata,
-                                 GammaCodedSequence[] positions)
+                                 CodedSequence[] positions)
     {
         this(termIds(keywords), metadata, positions);
     }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
index cf6f7e52..3fec11a0 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.journal.model;
 
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.nio.ByteBuffer;
@@ -17,7 +18,7 @@ public record IndexJournalEntryTermData(
         long metadata,
         ByteBuffer positionsBuffer)
 {
-    public GammaCodedSequence positions() {
+    public CodedSequence positions() {
         return new GammaCodedSequence(positionsBuffer);
     }
 
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
index aae7e6f3..f12c92f6 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
@@ -5,7 +5,7 @@ import lombok.SneakyThrows;
 import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
 import nu.marginalia.index.journal.model.IndexJournalEntryData;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -81,7 +81,7 @@ public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
     {
         final long[] keywords = data.termIds();
         final long[] metadata = data.metadata();
-        final GammaCodedSequence[] positions = data.positions();
+        final CodedSequence[] positions = data.positions();
 
         int entrySize = 0;
         for (var position : positions) {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
index c5d4c15b..152188a9 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
@@ -1,7 +1,6 @@
 package nu.marginalia.index.construction;
 
 import nu.marginalia.index.positions.PositionCodec;
-import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.IOException;
 import java.nio.ByteBuffer;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java b/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
index 55458342..e86ba3e0 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.positions;
 
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.nio.ByteBuffer;
@@ -15,7 +16,7 @@ public class TermData {
         return buffer.get(0);
     }
 
-    public GammaCodedSequence positions() {
+    public CodedSequence positions() {
         return new GammaCodedSequence(buffer, 1, buffer.capacity());
     }
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 4b455580..3973b016 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -22,7 +22,7 @@ import nu.marginalia.index.results.model.ids.TermIdList;
 import nu.marginalia.index.results.model.ids.TermMetadataList;
 import nu.marginalia.linkdb.docs.DocumentDbReader;
 import nu.marginalia.linkdb.model.DocdbUrlDetail;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -75,7 +75,7 @@ public class IndexResultRankingService {
             // thrashing in there; out here we can rely on implicit array ordering to match up the data.
 
             long[] flags = new long[termCount];
-            GammaCodedSequence[] positions = new GammaCodedSequence[termCount];
+            CodedSequence[] positions = new CodedSequence[termCount];
 
             // Iterate over documents by their index in the combinedDocIds, as we need the index for the
             // term data arrays as well
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 20af5f92..997273b7 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -16,7 +16,7 @@ import nu.marginalia.model.idx.DocumentFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.index.query.limit.QueryStrategy;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.SequenceOperations;
 
 import javax.annotation.Nullable;
@@ -50,10 +50,10 @@ public class IndexResultScoreCalculator {
     public SearchResultItem calculateScore(long combinedId,
                                            QuerySearchTerms searchTerms,
                                            long[] wordFlags,
-                                           GammaCodedSequence[] positions)
+                                           CodedSequence[] positions)
     {
 
-        CompiledQuery<GammaCodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
+        CompiledQuery<CodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
 
         int[] counts = new int[compiledQuery.size()];
 
@@ -116,7 +116,7 @@ public class IndexResultScoreCalculator {
         return false;
     }
 
-    private boolean hasPrioTerm(QuerySearchTerms searchTerms, GammaCodedSequence[] positions) {
+    private boolean hasPrioTerm(QuerySearchTerms searchTerms, CodedSequence[] positions) {
         var allTerms = searchTerms.termIdsAll;
         var prioTerms = searchTerms.termIdsPrio;
 
@@ -166,7 +166,7 @@ public class IndexResultScoreCalculator {
 
     public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
                                              CompiledQueryInt positionsCountQuery,
-                                             CompiledQuery<GammaCodedSequence> positionsQuery, long documentMetadata,
+                                             CompiledQuery<CodedSequence> positionsQuery, long documentMetadata,
                                              int features,
                                              int length,
                                              int bestCoherence,
@@ -305,7 +305,7 @@ public class IndexResultScoreCalculator {
     }
 
 
-    public static double calculateAvgMinDistance(CompiledQuery<GammaCodedSequence> positions, ResultRankingContext ctx) {
+    public static double calculateAvgMinDistance(CompiledQuery<CodedSequence> positions, ResultRankingContext ctx) {
         double sum = 0;
         int cnt = 0;
 
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index de1818a5..b8cce960 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -4,7 +4,7 @@ import it.unimi.dsi.fastutil.ints.IntIterator;
 import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.index.model.SearchTermsUtil;
 import nu.marginalia.index.results.model.ids.TermIdList;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.SequenceOperations;
 
 import java.util.ArrayList;
@@ -28,7 +28,7 @@ public class TermCoherenceGroupList {
         }
     }
 
-    public boolean testMandatory(GammaCodedSequence[] positions) {
+    public boolean testMandatory(CodedSequence[] positions) {
         for (var coherenceSet : mandatoryGroups) {
             if (!coherenceSet.test(positions)) {
                 return false;
@@ -38,7 +38,7 @@ public class TermCoherenceGroupList {
         return true;
     }
 
-    public int testOptional(GammaCodedSequence[] positions) {
+    public int testOptional(CodedSequence[] positions) {
         int best = 0;
         for (var coherenceSet : mandatoryGroups) {
             if (coherenceSet.test(positions)) {
@@ -71,7 +71,7 @@ public class TermCoherenceGroupList {
             }
         }
 
-        public boolean test(GammaCodedSequence[] positions) {
+        public boolean test(CodedSequence[] positions) {
             IntIterator[] sequences = new IntIterator[present.cardinality()];
 
             for (int oi = 0, si = 0; oi < offsets.length; oi++) {
diff --git a/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java b/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java
index 20069a55..bf111386 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermMetadataForCombinedDocumentIds.java
@@ -5,7 +5,7 @@ import it.unimi.dsi.fastutil.longs.Long2ObjectOpenHashMap;
 import nu.marginalia.index.positions.TermData;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
 import nu.marginalia.index.results.model.ids.TermMetadataList;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 
 import javax.annotation.Nullable;
 
@@ -25,7 +25,7 @@ public class TermMetadataForCombinedDocumentIds {
     }
 
     @Nullable
-    public GammaCodedSequence getPositions(long termId, long combinedId) {
+    public CodedSequence getPositions(long termId, long combinedId) {
         var metaByCombinedId = termdocToMeta.get(termId);
 
         if (metaByCombinedId == null) {
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java b/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java
index dd7ebbcb..7342aaa6 100644
--- a/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java
+++ b/code/index/java/nu/marginalia/index/results/model/ids/TermMetadataList.java
@@ -1,7 +1,7 @@
 package nu.marginalia.index.results.model.ids;
 
 import nu.marginalia.index.positions.TermData;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 
 import javax.annotation.Nullable;
 import java.util.Arrays;
@@ -28,7 +28,7 @@ public final class TermMetadataList {
      * may be null if the term is not in the document
      */
     @Nullable
-    public GammaCodedSequence position(int i) {
+    public CodedSequence position(int i) {
         if (array[i] == null)
             return null;
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
new file mode 100644
index 00000000..1a543f69
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
@@ -0,0 +1,23 @@
+package nu.marginalia.sequence;
+
+import blue.strategic.parquet.BinarySerializable;
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
+
+import java.nio.ByteBuffer;
+
+public interface CodedSequence extends BinarySerializable  {
+    byte[] bytes();
+
+    IntIterator iterator();
+
+    IntIterator offsetIterator(int offset);
+
+    IntList values();
+
+    ByteBuffer buffer();
+
+    int bufferSize();
+
+    int valueCount();
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 75eba781..00ae3b23 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -1,6 +1,5 @@
 package nu.marginalia.sequence;
 
-import blue.strategic.parquet.BinarySerializable;
 import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
@@ -16,7 +15,7 @@ import java.util.StringJoiner;
  * and offers convenience methods for decoding and iterating
  * over the data.
  * */
-public class GammaCodedSequence implements BinarySerializable, Iterable<Integer> {
+public class GammaCodedSequence implements Iterable<Integer>, CodedSequence {
     private final ByteBuffer raw;
 
     private final int startPos;
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
index b7be75d8..70403c5e 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
@@ -6,6 +6,7 @@ import blue.strategic.parquet.ValueWriter;
 import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.*;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.apache.parquet.schema.MessageType;
 import org.apache.parquet.schema.Types;
@@ -59,7 +60,7 @@ public class DocumentRecord {
     @Nullable
     public TLongList metas;
     @Nullable
-    public List<GammaCodedSequence> positions;
+    public List<CodedSequence> positions;
 
     public static Hydrator<DocumentRecord, DocumentRecord> newHydrator() {
         return new DocumentDataHydrator();
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
index 9f332841..5940de7b 100644
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
+++ b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
@@ -4,6 +4,7 @@ import blue.strategic.parquet.Hydrator;
 import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import lombok.*;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.jetbrains.annotations.NotNull;
 
@@ -30,7 +31,7 @@ public class DocumentRecordKeywordsProjection {
 
     public List<String> words;
     public TLongList metas;
-    public List<GammaCodedSequence> positions;
+    public List<CodedSequence> positions;
 
     public boolean hasKeywords() {
         return words != null && metas != null;
diff --git a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
index 62a36fe4..21cc7e2b 100644
--- a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
+++ b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
@@ -2,6 +2,7 @@ package nu.marginalia.io.processed;
 
 import gnu.trove.list.array.TLongArrayList;
 import nu.marginalia.model.processed.DocumentRecord;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
@@ -73,7 +74,7 @@ class DocumentRecordParquetFileReaderTest {
         TLongArrayList metas = new TLongArrayList(LongStream.range(0, 100000).toArray());
 
         ByteBuffer workArea = ByteBuffer.allocate(1024);
-        List<GammaCodedSequence> poses = Stream.generate(() -> GammaCodedSequence.generate(workArea, 3, 4)).limit(100000).toList();
+        List<CodedSequence> poses = Stream.generate(() -> (CodedSequence) GammaCodedSequence.generate(workArea, 3, 4)).limit(100000).toList();
 
         var doc = new DocumentRecord(
                 "www.marginalia.nu",
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index 9833b8d0..4a20543a 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -16,7 +16,7 @@ import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.processed.DocumentRecord;
 import nu.marginalia.model.processed.DomainLinkRecord;
 import nu.marginalia.model.processed.DomainRecord;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -130,7 +130,7 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                 var wb = document.words.build(workArea);
                 List<String> words = Arrays.asList(wb.keywords);
                 TLongArrayList metas = new TLongArrayList(wb.metadata);
-                List<GammaCodedSequence> positions = Arrays.asList(wb.positions);
+                List<CodedSequence> positions = Arrays.asList(wb.positions);
 
                 documentWriter.write(new DocumentRecord(
                         domainName,
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index ebceb480..dc325b2b 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -10,7 +10,7 @@ import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.processed.DocumentRecordKeywordsProjection;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.CodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -68,7 +68,7 @@ public class KeywordLoaderService {
         var words = new DocumentKeywords(
                 projection.words.toArray(String[]::new),
                 projection.metas.toArray(),
-                projection.positions.toArray(GammaCodedSequence[]::new)
+                projection.positions.toArray(CodedSequence[]::new)
         );
 
         writer.putWords(combinedId,

From 0d227f35438ac4ea0d4b38adb99bc4d2f00a7b0d Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 17 Jul 2024 13:32:13 +0200
Subject: [PATCH 061/216] (cleanup) Remove next-prime library only used in
 tests

---
 code/libraries/btree/build.gradle             |  1 -
 .../BTreeReaderRejectRetainWithIndexTest.java |  1 -
 ...reeReaderRejectRetainWithoutIndexTest.java |  1 -
 .../nu/marginalia/btree}/NextPrimeUtil.java   |  2 +-
 code/libraries/next-prime/build.gradle        | 27 -----------------
 code/libraries/next-prime/readme.md           |  4 ---
 .../nu/marginalia/util/NextPrimeUtilTest.java | 29 -------------------
 settings.gradle                               |  1 -
 8 files changed, 1 insertion(+), 65 deletions(-)
 rename code/libraries/{next-prime/java/nu/marginalia/util => btree/test/nu/marginalia/btree}/NextPrimeUtil.java (96%)
 delete mode 100644 code/libraries/next-prime/build.gradle
 delete mode 100644 code/libraries/next-prime/readme.md
 delete mode 100644 code/libraries/next-prime/test/nu/marginalia/util/NextPrimeUtilTest.java

diff --git a/code/libraries/btree/build.gradle b/code/libraries/btree/build.gradle
index bdfb803d..39479864 100644
--- a/code/libraries/btree/build.gradle
+++ b/code/libraries/btree/build.gradle
@@ -12,7 +12,6 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
     implementation project(':code:libraries:array')
-    implementation project(':code:libraries:next-prime')
 
     implementation libs.bundles.slf4j
 
diff --git a/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithIndexTest.java b/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithIndexTest.java
index d847e3ad..b4bad4c1 100644
--- a/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithIndexTest.java
+++ b/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithIndexTest.java
@@ -4,7 +4,6 @@ import nu.marginalia.array.LongArray;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.btree.model.BTreeBlockSize;
 import nu.marginalia.btree.model.BTreeContext;
-import nu.marginalia.util.NextPrimeUtil;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 
diff --git a/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithoutIndexTest.java b/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithoutIndexTest.java
index db8d9460..c64658d5 100644
--- a/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithoutIndexTest.java
+++ b/code/libraries/btree/test/nu/marginalia/btree/BTreeReaderRejectRetainWithoutIndexTest.java
@@ -4,7 +4,6 @@ import nu.marginalia.array.LongArray;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.btree.model.BTreeBlockSize;
 import nu.marginalia.btree.model.BTreeContext;
-import nu.marginalia.util.NextPrimeUtil;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 
diff --git a/code/libraries/next-prime/java/nu/marginalia/util/NextPrimeUtil.java b/code/libraries/btree/test/nu/marginalia/btree/NextPrimeUtil.java
similarity index 96%
rename from code/libraries/next-prime/java/nu/marginalia/util/NextPrimeUtil.java
rename to code/libraries/btree/test/nu/marginalia/btree/NextPrimeUtil.java
index 183344b7..656f912e 100644
--- a/code/libraries/next-prime/java/nu/marginalia/util/NextPrimeUtil.java
+++ b/code/libraries/btree/test/nu/marginalia/btree/NextPrimeUtil.java
@@ -1,4 +1,4 @@
-package nu.marginalia.util;
+package nu.marginalia.btree;
 
 public class NextPrimeUtil {
 
diff --git a/code/libraries/next-prime/build.gradle b/code/libraries/next-prime/build.gradle
deleted file mode 100644
index 425d2c12..00000000
--- a/code/libraries/next-prime/build.gradle
+++ /dev/null
@@ -1,27 +0,0 @@
-plugins {
-    id 'java'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation libs.notnull
-
-    implementation libs.fastutil
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
-
-test {
-    useJUnitPlatform()
-}
diff --git a/code/libraries/next-prime/readme.md b/code/libraries/next-prime/readme.md
deleted file mode 100644
index a6b2a134..00000000
--- a/code/libraries/next-prime/readme.md
+++ /dev/null
@@ -1,4 +0,0 @@
-# Next Prime Util
-
-This is a brute force prime sieve. If finding many (or large) primes quickly 
-is important to you, don't use code like this.
\ No newline at end of file
diff --git a/code/libraries/next-prime/test/nu/marginalia/util/NextPrimeUtilTest.java b/code/libraries/next-prime/test/nu/marginalia/util/NextPrimeUtilTest.java
deleted file mode 100644
index 381490cf..00000000
--- a/code/libraries/next-prime/test/nu/marginalia/util/NextPrimeUtilTest.java
+++ /dev/null
@@ -1,29 +0,0 @@
-package nu.marginalia.util;
-
-import org.junit.jupiter.api.Assertions;
-import org.junit.jupiter.api.Test;
-
-class NextPrimeUtilTest {
-
-    @Test
-    void isPrime() {
-        Assertions.assertTrue(NextPrimeUtil.isPrime(1));
-        Assertions.assertTrue(NextPrimeUtil.isPrime(2));
-        Assertions.assertTrue(NextPrimeUtil.isPrime(3));
-        Assertions.assertFalse(NextPrimeUtil.isPrime(4));
-        Assertions.assertTrue(NextPrimeUtil.isPrime(5));
-        Assertions.assertFalse(NextPrimeUtil.isPrime(6));
-        Assertions.assertTrue(NextPrimeUtil.isPrime(7));
-        Assertions.assertFalse(NextPrimeUtil.isPrime(8));
-        Assertions.assertFalse(NextPrimeUtil.isPrime(9));
-        Assertions.assertFalse(NextPrimeUtil.isPrime(10));
-        Assertions.assertTrue(NextPrimeUtil.isPrime(11));
-    }
-
-    @Test
-    void nextPrime() {
-        System.out.println(NextPrimeUtil.nextPrime(1L<<31, -1));
-        System.out.println(NextPrimeUtil.nextPrime(1L<<31, 1));
-
-    }
-}
\ No newline at end of file
diff --git a/settings.gradle b/settings.gradle
index 3d710034..d25e4978 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -43,7 +43,6 @@ include 'code:libraries:btree'
 include 'code:libraries:easy-lsh'
 include 'code:libraries:guarded-regex'
 include 'code:libraries:random-write-funnel'
-include 'code:libraries:next-prime'
 include 'code:libraries:blocking-thread-pool'
 include 'code:libraries:braille-block-punch-cards'
 include 'code:libraries:language-processing'

From d36055a2d01378cac1554a850986abe777b408bc Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 17 Jul 2024 13:54:39 +0200
Subject: [PATCH 062/216] (keyword-extractor) Retire TfIdfHigh WordFlag

This will bring the word flags count down to 8, and let us pack every value in a byte.
---
 .../nu/marginalia/model/idx/WordFlags.java    |  4 ---
 .../keyword/DocumentKeywordExtractor.java     | 12 +++----
 .../marginalia/keyword/KeywordMetadata.java   | 15 +++------
 .../processor/logic/links/TopKeywords.java    |  4 +--
 .../index/IndexConstructorMain.java           | 31 +++----------------
 .../test/nu/marginalia/IntegrationTest.java   | 29 +++--------------
 6 files changed, 20 insertions(+), 75 deletions(-)

diff --git a/code/common/model/java/nu/marginalia/model/idx/WordFlags.java b/code/common/model/java/nu/marginalia/model/idx/WordFlags.java
index db54df77..f9016c48 100644
--- a/code/common/model/java/nu/marginalia/model/idx/WordFlags.java
+++ b/code/common/model/java/nu/marginalia/model/idx/WordFlags.java
@@ -4,16 +4,12 @@ package nu.marginalia.model.idx;
 import java.util.EnumSet;
 
 public enum WordFlags {
-
     /** Word appears in title */
     Title,
 
     /** Word appears to be the subject in several sentences */
     Subjects,
 
-    /** Word has high tf-idf */
-    TfIdfHigh,
-
     /** Word is a likely named object. This is a weaker version of Subjects. */
     NamesWords,
 
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index 61fbc0dd..facb601f 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -1,16 +1,16 @@
 package nu.marginalia.keyword;
 
+import com.google.inject.Inject;
 import nu.marginalia.WmsaHome;
 import nu.marginalia.keyword.extractors.*;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.WordRep;
-import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 
-import com.google.inject.Inject;
-
-import java.util.*;
+import java.util.Collection;
+import java.util.Comparator;
 import java.util.stream.Stream;
 
 
@@ -44,7 +44,6 @@ public class DocumentKeywordExtractor {
         var urlKeywords = new UrlKeywords(url);
 
         var keywordMetadata = KeywordMetadata.builder()
-                .tfIdfCounts(tfIdfCounts)
                 .titleKeywords(titleKeywords)
                 .nameLikeKeywords(nameLikeKeywords)
                 .subjectLikeKeywords(subjectLikeKeywords)
@@ -55,7 +54,6 @@ public class DocumentKeywordExtractor {
 
         createSimpleWords(wordsBuilder, keywordMetadata, dld);
 
-        createNGramTermsFromSet(wordsBuilder, keywordMetadata, tfIdfCounts);
         createNGramTermsFromSet(wordsBuilder, keywordMetadata, titleKeywords);
         createNGramTermsFromSet(wordsBuilder, keywordMetadata, subjectLikeKeywords);
         createNGramTermsFromSet(wordsBuilder, keywordMetadata, nameLikeKeywords);
@@ -69,7 +67,7 @@ public class DocumentKeywordExtractor {
     }
 
     private static Collection<String> getImportantWords(WordsTfIdfCounts tfIdfCounts, NameLikeKeywords nameLikeKeywords, SubjectLikeKeywords subjectLikeKeywords, DocumentKeywordsBuilder wordsBuilder) {
-        return Stream.of(tfIdfCounts, nameLikeKeywords, subjectLikeKeywords)
+        return Stream.of(nameLikeKeywords, subjectLikeKeywords)
                 .flatMap(k -> k.getReps().stream())
                 .filter(w -> {
                     if (w.word.length() < 3)
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
index 4394936b..0bf5043a 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
@@ -1,7 +1,10 @@
 package nu.marginalia.keyword;
 
 import lombok.Builder;
-import nu.marginalia.keyword.extractors.*;
+import nu.marginalia.keyword.extractors.NameLikeKeywords;
+import nu.marginalia.keyword.extractors.SubjectLikeKeywords;
+import nu.marginalia.keyword.extractors.TitleKeywords;
+import nu.marginalia.keyword.extractors.UrlKeywords;
 import nu.marginalia.model.idx.WordFlags;
 
 class KeywordMetadata {
@@ -10,32 +13,24 @@ class KeywordMetadata {
     private final NameLikeKeywords nameLikeKeywords;
     private final SubjectLikeKeywords subjectLikeKeywords;
     private final UrlKeywords urlKeywords;
-    private final WordsTfIdfCounts tfIdfCounts;
 
     @Builder
     public KeywordMetadata(
             TitleKeywords titleKeywords,
             NameLikeKeywords nameLikeKeywords,
             SubjectLikeKeywords subjectLikeKeywords,
-            UrlKeywords urlKeywords,
-            WordsTfIdfCounts tfIdfCounts)
+            UrlKeywords urlKeywords)
     {
         this.titleKeywords = titleKeywords;
         this.nameLikeKeywords = nameLikeKeywords;
         this.subjectLikeKeywords = subjectLikeKeywords;
         this.urlKeywords = urlKeywords;
-        this.tfIdfCounts = tfIdfCounts;
     }
 
     public long getMetadataForWord(String stemmed) {
 
-        int tfidf = tfIdfCounts.getTfIdf(stemmed);
         long flags = 0;
 
-        if (tfidf > 100) {
-            flags |= WordFlags.TfIdfHigh.asBit();
-        }
-
         if (subjectLikeKeywords.contains(stemmed)) {
             flags |= WordFlags.Subjects.asBit();
         }
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/links/TopKeywords.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/links/TopKeywords.java
index 89043750..4c646dd3 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/links/TopKeywords.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/links/TopKeywords.java
@@ -1,8 +1,8 @@
 package nu.marginalia.converting.processor.logic.links;
 
-import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.idx.WordFlags;
 
 import java.util.*;
 
@@ -13,7 +13,7 @@ public class TopKeywords {
         if (doc.details == null || doc.details.linksInternal == null)
             return;
 
-        List<String> topKeywords = doc.words.getWordsWithAnyFlag(WordFlags.TfIdfHigh.asBit() | WordFlags.Subjects.asBit());
+        List<String> topKeywords = doc.words.getWordsWithAnyFlag(WordFlags.Subjects.asBit());
 
         topKeywordsByUrl.put(doc.url, new HashSet<>(topKeywords));
     }
diff --git a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
index 34cd0738..4f7e9d90 100644
--- a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
+++ b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
@@ -6,18 +6,14 @@ import com.google.inject.Inject;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.ProcessConfiguration;
 import nu.marginalia.ProcessConfigurationModule;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.service.ProcessMainClass;
-import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.journal.reader.IndexJournalReader;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.mq.MessageQueueFactory;
 import nu.marginalia.mq.MqMessage;
 import nu.marginalia.mq.inbox.MqInboxResponse;
@@ -25,7 +21,9 @@ import nu.marginalia.mq.inbox.MqSingleShotInbox;
 import nu.marginalia.mqapi.index.CreateIndexRequest;
 import nu.marginalia.mqapi.index.IndexName;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
+import nu.marginalia.service.ProcessMainClass;
 import nu.marginalia.service.module.DatabaseModule;
+import nu.marginalia.storage.FileStorageService;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -36,7 +34,6 @@ import java.sql.SQLException;
 import java.util.Optional;
 import java.util.UUID;
 import java.util.concurrent.TimeUnit;
-import java.util.function.LongPredicate;
 
 import static nu.marginalia.mqapi.ProcessInboxNames.INDEX_CONSTRUCTOR_INBOX;
 
@@ -138,36 +135,16 @@ public class IndexConstructorMain extends ProcessMainClass {
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
-        // The priority index only includes words that have bits indicating they are
-        // important to the document.  This filter will act on the encoded {@see WordMetadata}
-        LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
-
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                (path) -> IndexJournalReader.singleFile(path).filtering(wordMetaFilter),
+                (path) -> IndexJournalReader.singleFile(path).filtering(r -> r != 0),
                 this::addRankToIdEncoding,
                 tmpDir);
 
         constructor.createReverseIndex(heartbeat, "createReverseIndexPrio", workDir);
     }
 
-    private static LongPredicate getPriorityIndexWordMetaFilter() {
-
-        long highPriorityFlags =
-                WordFlags.Title.asBit()
-                        | WordFlags.Subjects.asBit()
-                        | WordFlags.TfIdfHigh.asBit()
-                        | WordFlags.NamesWords.asBit()
-                        | WordFlags.UrlDomain.asBit()
-                        | WordFlags.UrlPath.asBit()
-                        | WordFlags.Site.asBit()
-                        | WordFlags.ExternalLink.asBit()
-                        | WordFlags.SiteAdjacent.asBit();
-
-        return r -> WordMetadata.hasAnyFlags(r, highPriorityFlags);
-    }
-
     private void createForwardIndex() throws IOException {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index ca6ab9cc..7f75409d 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -37,14 +37,14 @@ import nu.marginalia.loading.links.DomainLinksLoaderService;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorageBaseType;
 import nu.marginalia.test.IntegrationTestModule;
 import nu.marginalia.test.TestUtil;
-import org.junit.jupiter.api.*;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
 import org.mockito.Mockito;
 
 import java.io.IOException;
@@ -52,7 +52,6 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
 import java.util.List;
-import java.util.function.LongPredicate;
 
 import static nu.marginalia.index.journal.reader.IndexJournalReader.FILE_HEADER_SIZE_BYTES;
 import static nu.marginalia.linkdb.LinkdbFileNames.DOCDB_FILE_NAME;
@@ -265,36 +264,16 @@ public class IntegrationTest {
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path tmpDir = workDir.resolve("tmp");
 
-        // The priority index only includes words that have bits indicating they are
-        // important to the document.  This filter will act on the encoded {@see WordMetadata}
-        LongPredicate wordMetaFilter = getPriorityIndexWordMetaFilter();
-
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                (path) -> IndexJournalReader.singleFile(path).filtering(wordMetaFilter),
+                (path) -> IndexJournalReader.singleFile(path).filtering(r -> r != 0),
                 this::addRankToIdEncoding,
                 tmpDir);
 
         constructor.createReverseIndex(new FakeProcessHeartbeat(), "createReverseIndexPrio", workDir);
     }
 
-    private static LongPredicate getPriorityIndexWordMetaFilter() {
-
-        long highPriorityFlags =
-                WordFlags.Title.asBit()
-                        | WordFlags.Subjects.asBit()
-                        | WordFlags.TfIdfHigh.asBit()
-                        | WordFlags.NamesWords.asBit()
-                        | WordFlags.UrlDomain.asBit()
-                        | WordFlags.UrlPath.asBit()
-                        | WordFlags.Site.asBit()
-                        | WordFlags.ExternalLink.asBit()
-                        | WordFlags.SiteAdjacent.asBit();
-
-        return r -> WordMetadata.hasAnyFlags(r, highPriorityFlags);
-    }
-
     private void createForwardIndex() throws IOException {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);

From 22b35d5d91379da8038fcea0afad4da900b38691 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 18 Jul 2024 15:57:48 +0200
Subject: [PATCH 063/216] (sentence-extractor) Add tag information to document
 language data

Decorates DocumentSentences with information about which HTML tags they are nested in, and removes some redundant data on this rather memory hungry object.  Separator information is encoded as a bit set instead of an array of integers.

The change also cleans up the SentenceExtractor class a fair bit.  It no longer extracts ngrams, and a significant amount of redundant operations were removed as well.  This is still a pretty unpleasant class to work in, but this is the first step in making it a little bit better.
---
 .../marginalia/atags/AnchorTextKeywords.java  |   3 +-
 .../extractor/TermFrequencyExporter.java      |   5 -
 .../keyword/DocumentKeywordExtractor.java     |   9 -
 .../marginalia/keyword/KeywordExtractor.java  |  39 +-
 .../keyword/extractors/NameLikeKeywords.java  |   7 +-
 .../extractors/SubjectLikeKeywords.java       |   4 +-
 .../keyword/extractors/TitleKeywords.java     |   7 +-
 .../keyword/SentenceExtractorTest.java        |  10 +-
 .../keyword/extractors/TitleKeywordsTest.java |   4 +-
 .../query_parser/QueryTokenizer.java          |  26 +-
 .../language/model/DocumentLanguageData.java  |  38 +-
 .../language/model/DocumentSentence.java      |  70 ++--
 .../language/model/WordSeparator.java         |   6 -
 .../language/sentence/SentenceExtractor.java  | 388 +++++++++---------
 .../SentenceExtractorHtmlTagCleaner.java      |  40 --
 .../SentenceExtractorStringUtils.java         |  93 -----
 .../language/sentence/SentencePreCleaner.java |   6 +-
 .../sentence/SentenceSegmentSplitter.java     |  36 +-
 .../sentence/tag/HtmlStringTagger.java        | 122 ++++++
 .../language/sentence/tag/HtmlTag.java        |  21 +
 .../sentence/tag/HtmlTaggedString.java        |  33 ++
 .../SentenceExtractorHtmlTagCleanerTest.java  |  28 --
 .../sentence/SentenceExtractorTest.java       |  23 +-
 .../sentence/tag/HtmlStringTaggerTest.java    |  29 ++
 .../processor/logic/TitleExtractor.java       |   4 -
 25 files changed, 551 insertions(+), 500 deletions(-)
 delete mode 100644 code/libraries/language-processing/java/nu/marginalia/language/model/WordSeparator.java
 delete mode 100644 code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorHtmlTagCleaner.java
 delete mode 100644 code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorStringUtils.java
 create mode 100644 code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
 create mode 100644 code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
 create mode 100644 code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTaggedString.java
 delete mode 100644 code/libraries/language-processing/test/nu/marginalia/language/encoding/SentenceExtractorHtmlTagCleanerTest.java
 create mode 100644 code/libraries/language-processing/test/nu/marginalia/language/sentence/tag/HtmlStringTaggerTest.java

diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java b/code/features-convert/anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
index 95e37836..4b9ce5fb 100644
--- a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
+++ b/code/features-convert/anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
@@ -4,6 +4,7 @@ import com.google.inject.Inject;
 import nu.marginalia.atags.model.DomainLinks;
 import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.EdgeUrl;
 
 import java.io.BufferedReader;
@@ -55,7 +56,7 @@ public class AnchorTextKeywords {
             if (stopList.contains(keyword.text().toLowerCase()))
                 continue;
 
-            var sentence = sentenceExtractor.extractSentence(keyword.text());
+            var sentence = sentenceExtractor.extractSentence(keyword.text(), EnumSet.noneOf(HtmlTag.class));
             for (var wordSpan : keywordExtractor.getKeywordsFromSentence(sentence)) {
                 wordsWithCount.merge(sentence.constructWordFromSpan(wordSpan), 1, Integer::sum);
             }
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
index 3bcc9cf2..998e94a4 100644
--- a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
+++ b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
@@ -27,7 +27,6 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardCopyOption;
 import java.nio.file.attribute.PosixFilePermissions;
-import java.util.concurrent.ForkJoinPool;
 import java.util.concurrent.TimeUnit;
 import java.util.concurrent.atomic.AtomicInteger;
 
@@ -124,10 +123,6 @@ public class TermFrequencyExporter implements ExporterIf {
                     for (var word : sent) {
                         words.add(longHash(word.stemmed().getBytes(StandardCharsets.UTF_8)));
                     }
-
-                    for (var ngram : sent.ngramStemmed) {
-                        words.add(longHash(ngram.getBytes()));
-                    }
                 }
 
                 synchronized (counts) {
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index facb601f..ebaa76f5 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -134,15 +134,6 @@ public class DocumentKeywordExtractor {
                 wordsBuilder.addMeta(rep.word, meta);
             }
 
-            for (int i = 0; i < sent.ngrams.length; i++) {
-                var ngram = sent.ngrams[i];
-                var ngramStemmed = sent.ngramStemmed[i];
-
-                long meta = metadata.getMetadataForWord(ngramStemmed);
-
-                wordsBuilder.addMeta(ngram, meta);
-            }
-
         }
     }
 
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java
index e1990618..babd44d7 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java
@@ -3,7 +3,6 @@ package nu.marginalia.keyword;
 import nu.marginalia.language.WordPatterns;
 import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.model.WordSpan;
-import nu.marginalia.language.model.WordSeparator;
 
 import java.lang.ref.SoftReference;
 import java.util.ArrayList;
@@ -20,15 +19,15 @@ public class KeywordExtractor {
         }
 
         for (int i = 1; i < sentence.length(); i++) {
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { continue; }
 
             if (isProperNoun(i, sentence) && isProperNoun(i-1, sentence))
                 spans.add(new WordSpan(i-1, i+1));
         }
 
         for (int i = 2; i < sentence.length(); i++) {
-            if (sentence.separators[i-2] == WordSeparator.COMMA) { continue; }
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { i++; continue; }
+            if (sentence.isSeparatorComma(i-2)) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { i++; continue; }
 
             if (isProperNoun(i, sentence)
                 && (isJoiner(sentence, i-1) || isProperNoun(i-1, sentence))
@@ -37,9 +36,9 @@ public class KeywordExtractor {
         }
 
         for (int i = 3; i < sentence.length(); i++) {
-            if (sentence.separators[i-3] == WordSeparator.COMMA) { continue; }
-            if (sentence.separators[i-2] == WordSeparator.COMMA) { i++; continue; }
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { i+=2; continue; }
+            if (sentence.isSeparatorComma(i-3)) { continue; }
+            if (sentence.isSeparatorComma(i-2)) { i++; continue; }
+            if (sentence.isSeparatorComma(i-1)) { i+=2; continue; }
 
             if (isProperNoun(i, sentence) && isProperNoun(i-3, sentence)) {
                 if (isProperNoun(i - 1, sentence) && isProperNoun(i - 2, sentence))
@@ -66,7 +65,7 @@ public class KeywordExtractor {
         }
 
         for (int i = 1; i < sentence.length(); i++) {
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { continue; }
 
             if (isNoun(i, sentence)
                     && (isNoun(i-1, sentence)) || "JJ".equals(sentence.posTags[i-1])) {
@@ -75,8 +74,8 @@ public class KeywordExtractor {
         }
 
         for (int i = 2; i < sentence.length(); i++) {
-            if (sentence.separators[i-2] == WordSeparator.COMMA) { continue; }
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { i++; continue; }
+            if (sentence.isSeparatorComma(i-2)) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { i++; continue; }
 
             if ((isNoun(i, sentence))
                     && (isJoiner(sentence, i-1) || isNoun(i-1, sentence))
@@ -85,9 +84,9 @@ public class KeywordExtractor {
         }
 
         for (int i = 3; i < sentence.length(); i++) {
-            if (sentence.separators[i-3] == WordSeparator.COMMA) { continue; }
-            if (sentence.separators[i-2] == WordSeparator.COMMA) { i++; continue; }
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { i+=2; continue; }
+            if (sentence.isSeparatorComma(i-3)) { continue; }
+            if (sentence.isSeparatorComma(i-2)) { i++; continue; }
+            if (sentence.isSeparatorComma(i-1)) { i+=2; continue; }
 
             if (isNoun(i, sentence) && (isNoun(i-3, sentence) || "JJ".equals(sentence.posTags[i-3]))) {
                 if (isNoun(i - 1, sentence) && isNoun(i - 2, sentence))
@@ -119,7 +118,7 @@ public class KeywordExtractor {
         }
 
         for (int i = 1; i < sentence.length(); i++) {
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { continue; }
 
             if (isName(i, sentence)) {
                 if (isName(i - 1, sentence) || isTopAdj(i-1, sentence))
@@ -131,8 +130,8 @@ public class KeywordExtractor {
         }
 
         for (int i = 2; i < sentence.length(); i++) {
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { i++; continue; }
-            if (sentence.separators[i-2] == WordSeparator.COMMA) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { i++; continue; }
+            if (sentence.isSeparatorComma(i-2)) { continue; }
 
             if (isName(i, sentence)) {
                 if ((isName(i-1, sentence) || isTopAdj(i-1, sentence))
@@ -149,9 +148,9 @@ public class KeywordExtractor {
         }
 
         for (int i = 3; i < sentence.length(); i++) {
-            if (sentence.separators[i-1] == WordSeparator.COMMA) { i+=2; continue; }
-            if (sentence.separators[i-2] == WordSeparator.COMMA) { i++; continue; }
-            if (sentence.separators[i-3] == WordSeparator.COMMA) { continue; }
+            if (sentence.isSeparatorComma(i-1)) { i+=2; continue; }
+            if (sentence.isSeparatorComma(i-2)) { i++; continue; }
+            if (sentence.isSeparatorComma(i-3)) { continue; }
 
             if (isName(i, sentence) &&
                     (isName(i-1, sentence) || isTopAdj(i-1, sentence)) &&
@@ -217,7 +216,7 @@ public class KeywordExtractor {
     private boolean isViableSpanForWord(DocumentSentence sentence, WordSpan w) {
 
         for (int i = w.start; i < w.end-1; i++) {
-            if (sentence.separators[i] == WordSeparator.COMMA) {
+            if (sentence.isSeparatorComma(i)) {
                 return false;
             }
         }
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
index c033bdc1..9b2d8b85 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
@@ -1,13 +1,12 @@
 package nu.marginalia.keyword.extractors;
 
-import com.google.common.base.CharMatcher;
 import it.unimi.dsi.fastutil.objects.Object2IntMap;
 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.model.WordRep;
-import nu.marginalia.keyword.KeywordExtractor;
 
 import java.util.*;
 import java.util.stream.Collectors;
@@ -21,13 +20,11 @@ public class NameLikeKeywords implements WordReps {
         Object2IntOpenHashMap<String> counts = new Object2IntOpenHashMap<>(1000);
         HashMap<String, HashSet<WordRep>> instances = new HashMap<>(1000);
 
-        final var isUpperCase = CharMatcher.forPredicate(Character::isUpperCase);
-
         for (int i = 0; i < dld.sentences.length; i++) {
             DocumentSentence sent = dld.sentences[i];
             var keywords = keywordExtractor.getProperNames(sent);
             for (var span : keywords) {
-                if (span.size() <= 1 && isUpperCase.matchesAllOf(sent.words[span.start]))
+                if (span.size() <= 1 && sent.isAllCaps(span.start))
                     continue;
 
                 var stemmed = sent.constructStemmedWordFromSpan(span);
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
index d4a6e428..95dbf5bc 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
@@ -6,7 +6,6 @@ import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.WordRep;
 import nu.marginalia.language.model.WordSpan;
-import nu.marginalia.language.model.WordSeparator;
 import org.apache.commons.lang3.StringUtils;
 
 import java.util.*;
@@ -36,8 +35,7 @@ public class SubjectLikeKeywords implements WordReps {
                 if (kw.end + 2 >= sentence.length()) {
                     continue;
                 }
-                if (sentence.separators[kw.end] == WordSeparator.COMMA
-                        || sentence.separators[kw.end + 1] == WordSeparator.COMMA)
+                if (sentence.isSeparatorComma(kw.end) || sentence.isSeparatorComma(kw.end + 1))
                     continue;
 
                 String nextTag = sentence.posTags[kw.end];
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java
index e1c7eceb..846225c2 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java
@@ -1,11 +1,11 @@
 package nu.marginalia.keyword.extractors;
 
-import nu.marginalia.keyword.WordReps;
 import nu.marginalia.keyword.KeywordExtractor;
+import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.WordRep;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 
-import java.util.Arrays;
 import java.util.Collection;
 import java.util.Set;
 import java.util.stream.Collectors;
@@ -16,7 +16,8 @@ public class TitleKeywords implements WordReps {
     private final Set<String> stemmed;
 
     public TitleKeywords(KeywordExtractor keywordExtractor, DocumentLanguageData documentLanguageData) {
-        titleKeywords = Arrays.stream(documentLanguageData.titleSentences).flatMap(sent ->
+        titleKeywords = documentLanguageData.findSentencesForTag(HtmlTag.TITLE).stream()
+                .flatMap(sent ->
                         keywordExtractor.getWordsFromSentence(sent).stream().sorted().distinct().map(w -> new WordRep(sent, w)))
                 .limit(100)
                 .collect(Collectors.toSet());
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
index 34b1b7af..fe868e68 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
@@ -2,11 +2,11 @@ package nu.marginalia.keyword;
 
 import lombok.SneakyThrows;
 import nu.marginalia.LanguageModels;
-import nu.marginalia.language.sentence.SentenceExtractor;
-import nu.marginalia.segmentation.NgramLexicon;
-import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import nu.marginalia.WmsaHome;
+import nu.marginalia.language.sentence.SentenceExtractor;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import nu.marginalia.test.util.TestLanguageModels;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.Tag;
@@ -59,8 +59,8 @@ class SentenceExtractorTest {
 
     @Test
     public void testACDC() {
-        var ret = se.extractSentence("AC/DC is a rock band.");
-        assertEquals("AC/DC", ret.words[0]);
+        var ret = se.extractSentence("AC/DC is a rock band.", EnumSet.noneOf(HtmlTag.class));
+        assertEquals("ac/dc", ret.wordsLowerCase[0]);
     }
 
     final Pattern p = Pattern.compile("([, ]+)");
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java
index cac29c73..49a555de 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java
@@ -190,7 +190,9 @@ class TitleKeywordsTest {
     public void extractTitleWords() {
         var se = new SentenceExtractor(TestLanguageModels.getLanguageModels());
 
-        var reps = new TitleKeywords(new KeywordExtractor(), se.extractSentences(Jsoup.parse(document))).getReps();
+        var dld = se.extractSentences(Jsoup.parse(document));
+
+        var reps = new TitleKeywords(new KeywordExtractor(), dld).getReps();
         var words = reps.stream().map(rep -> rep.word).collect(Collectors.toSet());
 
         Set<String> expected = Set.of(
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java
index 80f05808..79179524 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java
@@ -2,10 +2,10 @@ package nu.marginalia.functions.searchquery.query_parser;
 
 import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
 import nu.marginalia.language.encoding.AsciiFlattener;
-import nu.marginalia.language.sentence.SentenceExtractorStringUtils;
 
 import java.util.ArrayList;
 import java.util.List;
+import java.util.Objects;
 import java.util.regex.Pattern;
 
 public class QueryTokenizer {
@@ -55,7 +55,7 @@ public class QueryTokenizer {
                 }
 
                 String displayStr = query.substring(i, end);
-                String str = SentenceExtractorStringUtils.toLowerCaseStripPossessive(displayStr);
+                String str = toLowerCaseStripPossessive(displayStr);
 
                 tokens.add(new QueryToken.LiteralTerm(str, displayStr));
 
@@ -65,5 +65,27 @@ public class QueryTokenizer {
         return tokens;
     }
 
+    public static String toLowerCaseStripPossessive(String word) {
+        String val = stripPossessive(word).toLowerCase();
 
+        if (Objects.equals(val, word)) {
+            return word;
+        }
+
+        return val;
+    }
+
+    public static String stripPossessive(String s) {
+        int end = s.length();
+
+        if (s.endsWith("'")) {
+            return s.substring(0, end-1);
+        }
+
+        if (s.endsWith("'s") || s.endsWith("'S")) {
+            return s.substring(0, end-2);
+        }
+
+        return s;
+    }
 }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java
index 2ad53f7a..99cdadeb 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java
@@ -1,49 +1,41 @@
 package nu.marginalia.language.model;
 
-import gnu.trove.map.hash.TObjectIntHashMap;
-import lombok.AllArgsConstructor;
 import nu.marginalia.language.sentence.SentenceExtractor;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.lsh.EasyLSH;
 
 import java.util.Arrays;
-import java.util.stream.Stream;
+import java.util.List;
 
-/**
+/** Holds the sentences and text of a document, decorated with
+ * HTML tags, POS tags, and other information.
+ *
  * @see SentenceExtractor
  */
-@AllArgsConstructor
 public class DocumentLanguageData {
     public final DocumentSentence[] sentences;
-    public final DocumentSentence[] titleSentences;
-    public final TObjectIntHashMap<String> wordCount;
     public final String text;
 
-    /** for test convenience */
-    public static DocumentLanguageData empty() {
-        return new DocumentLanguageData(
-                new DocumentSentence[0],
-                new DocumentSentence[0],
-                new TObjectIntHashMap<>(),
-                ""
-        );
+    public DocumentLanguageData(List<DocumentSentence> sentences,
+                                String text) {
+        this.sentences = sentences.toArray(DocumentSentence[]::new);
+        this.text = text;
+    }
+
+    public List<DocumentSentence> findSentencesForTag(HtmlTag tag) {
+        return Arrays.stream(sentences).filter(s -> s.htmlTags.contains(tag)).toList();
     }
 
     public int totalNumWords() {
         int ret = 0;
+
         for (int i = 0; i < sentences.length; i++) {
             ret += sentences[i].length();
         }
+
         return ret;
     }
 
-    public Stream<String> streamLowerCase() {
-        return Arrays.stream(sentences).map(sent -> sent.wordsLowerCase).flatMap(Arrays::stream);
-    }
-
-    public Stream<String> stream() {
-        return Arrays.stream(sentences).map(sent -> sent.words).flatMap(Arrays::stream);
-    }
-
     public long localitySensitiveHashCode() {
         var hash = new EasyLSH();
 
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java
index b9b4abce..4bd6ae1b 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java
@@ -2,52 +2,55 @@ package nu.marginalia.language.model;
 
 
 import nu.marginalia.language.WordPatterns;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import org.jetbrains.annotations.NotNull;
 
 import java.lang.ref.SoftReference;
 import java.util.BitSet;
+import java.util.EnumSet;
 import java.util.Iterator;
 import java.util.StringJoiner;
 
 public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
-    public final String originalSentence;
-    public final String[] words;
-    public final int[] separators;
+
+    /** A span of words in a sentence */
+
     public final String[] wordsLowerCase;
     public final String[] posTags;
     public final String[] stemmedWords;
-    public final String[] ngrams;
-    public final String[] ngramStemmed;
+
+    public final EnumSet<HtmlTag> htmlTags;
 
     private final BitSet isStopWord;
+    private final BitSet separators;
+    private final BitSet isCapitalized;
+    private final BitSet isAllCaps;
+
 
 
     public SoftReference<WordSpan[]> keywords;
 
-    public DocumentSentence(String originalSentence,
-                            String[] words,
-                            int[] separators,
+    public DocumentSentence(BitSet separators,
                             String[] wordsLowerCase,
                             String[] posTags,
                             String[] stemmedWords,
-                            String[] ngrams,
-                            String[] ngramsStemmed
+                            EnumSet<HtmlTag> htmlTags,
+                            BitSet isCapitalized,
+                            BitSet isAllCaps
                             )
     {
-        this.originalSentence = originalSentence;
-        this.words = words;
         this.separators = separators;
         this.wordsLowerCase = wordsLowerCase;
         this.posTags = posTags;
         this.stemmedWords = stemmedWords;
+        this.htmlTags = htmlTags;
+        this.isCapitalized = isCapitalized;
+        this.isAllCaps = isAllCaps;
 
-        isStopWord = new BitSet(words.length);
+        isStopWord = new BitSet(wordsLowerCase.length);
 
-        this.ngrams = ngrams;
-        this.ngramStemmed = ngramsStemmed;
-
-        for (int i = 0; i < words.length; i++) {
-            if (WordPatterns.isStopWord(words[i]))
+        for (int i = 0; i < wordsLowerCase.length; i++) {
+            if (WordPatterns.isStopWord(wordsLowerCase[i]))
                 isStopWord.set(i);
         }
     }
@@ -55,14 +58,22 @@ public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
     public boolean isStopWord(int idx) {
         return isStopWord.get(idx);
     }
-    public void setIsStopWord(int idx, boolean val) {
-        if (val)
-            isStopWord.set(idx);
-        else
-            isStopWord.clear();
-    }
+
     public int length() {
-        return words.length;
+        return wordsLowerCase.length;
+    }
+
+    public boolean isCapitalized(int i) {
+        return isCapitalized.get(i);
+    }
+    public boolean isAllCaps(int i) {
+        return isAllCaps.get(i);
+    }
+    public boolean isSeparatorSpace(int i) {
+        return separators.get(i);
+    }
+    public boolean isSeparatorComma(int i) {
+        return !separators.get(i);
     }
 
     public String constructWordFromSpan(WordSpan span) {
@@ -140,9 +151,9 @@ public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
     @Override
     public String toString() {
         StringBuilder sb = new StringBuilder();
-        for (int i = 0; i < words.length; i++) {
-            sb.append(words[i]).append('[').append(posTags[i]).append(']');
-            if (separators[i] == WordSeparator.COMMA) {
+        for (int i = 0; i < wordsLowerCase.length; i++) {
+            sb.append(wordsLowerCase[i]).append('[').append(posTags[i]).append(']');
+            if (isSeparatorComma(i)) {
                 sb.append(',');
             }
             else {
@@ -176,11 +187,10 @@ public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
             this.pos = pos;
         }
 
-        public String word() { return words[pos]; }
+        public String word() { return wordsLowerCase[pos]; }
         public String wordLowerCase() { return wordsLowerCase[pos]; }
         public String posTag() { return posTags[pos]; }
         public String stemmed() { return stemmedWords[pos]; }
-        public int separator() { return separators[pos]; }
         public boolean isStopWord() { return DocumentSentence.this.isStopWord(pos); }
 
         public WordRep rep() {
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/model/WordSeparator.java b/code/libraries/language-processing/java/nu/marginalia/language/model/WordSeparator.java
deleted file mode 100644
index 3476073f..00000000
--- a/code/libraries/language-processing/java/nu/marginalia/language/model/WordSeparator.java
+++ /dev/null
@@ -1,6 +0,0 @@
-package nu.marginalia.language.model;
-
-public final class WordSeparator {
-    public static final int COMMA = 0;
-    public static final int SPACE = 1;
-}
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
index 8dd818a3..48d709f3 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
@@ -1,23 +1,23 @@
 package nu.marginalia.language.sentence;
 
 import com.github.datquocnguyen.RDRPOSTagger;
-import gnu.trove.map.hash.TObjectIntHashMap;
+import com.google.inject.Inject;
 import lombok.SneakyThrows;
 import nu.marginalia.LanguageModels;
-import nu.marginalia.segmentation.NgramLexicon;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.DocumentSentence;
+import nu.marginalia.language.sentence.tag.HtmlStringTagger;
+import nu.marginalia.language.sentence.tag.HtmlTag;
+import nu.marginalia.language.sentence.tag.HtmlTaggedString;
+import nu.marginalia.segmentation.NgramLexicon;
 import opennlp.tools.sentdetect.SentenceDetectorME;
 import opennlp.tools.sentdetect.SentenceModel;
 import opennlp.tools.stemmer.PorterStemmer;
 import org.apache.commons.lang3.StringUtils;
-import org.jetbrains.annotations.NotNull;
 import org.jsoup.nodes.Document;
-import org.jsoup.nodes.Element;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
-import com.google.inject.Inject;
 import java.io.FileInputStream;
 import java.io.IOException;
 import java.io.InputStream;
@@ -38,14 +38,13 @@ public class SentenceExtractor {
     private final PorterStemmer porterStemmer = new PorterStemmer();
     private static final Logger logger = LoggerFactory.getLogger(SentenceExtractor.class);
 
-    private static final SentenceExtractorHtmlTagCleaner tagCleaner = new SentenceExtractorHtmlTagCleaner();
     private static final SentencePreCleaner sentencePrecleaner = new SentencePreCleaner();
 
     /* Truncate sentences longer than this.  This is mostly a defense measure against malformed data
      * that might otherwise use an undue amount of processing power. 250 words is about 10X longer than
      * this comment. */
-    private static final int MAX_SENTENCE_LENGTH = 250;
-    private static final int MAX_TEXT_LENGTH = 65536;
+    static final int MAX_SENTENCE_LENGTH = 250;
+    static final int MAX_SENTENCE_COUNT = 1000;
 
     @SneakyThrows @Inject
     public SentenceExtractor(LanguageModels models)
@@ -75,219 +74,224 @@ public class SentenceExtractor {
 
     }
 
+
+
     public DocumentLanguageData extractSentences(Document doc) {
-        var clone = doc.clone();
-        tagCleaner.clean(clone);
 
-        final String text = asText(clone);
-        final DocumentSentence[] textSentences = extractSentencesFromString(text);
+        final List<HtmlTaggedString> taggedStrings = HtmlStringTagger.tagDocumentStrings(doc);
+        final List<DocumentSentence> textSentences = new ArrayList<>();
 
-        String title = getTitle(clone, textSentences);
+        final int totalTextLength = taggedStrings.stream().mapToInt(HtmlTaggedString::length).sum();
+        final StringBuilder documentText = new StringBuilder(totalTextLength + taggedStrings.size());
 
-        TObjectIntHashMap<String> counts = calculateWordCounts(textSentences);
-        var titleSentences = extractSentencesFromString(title.toLowerCase());
-        return new DocumentLanguageData(textSentences, titleSentences, counts, text);
+        for (var taggedString : taggedStrings) {
+            String text = taggedString.string();
+
+            textSentences.addAll(
+                    extractSentencesFromString(text, taggedString.tags())
+            );
+
+            if (documentText.isEmpty()) {
+                documentText.append(text);
+            }
+            else {
+                documentText.append(' ').append(text);
+            }
+        }
+
+        return new DocumentLanguageData(textSentences, documentText.toString());
     }
 
     public DocumentLanguageData extractSentences(String text, String title) {
-        final DocumentSentence[] textSentences = extractSentencesFromString(text);
+        var textSentences = extractSentencesFromString(text, EnumSet.noneOf(HtmlTag.class));
+        var titleSentences = extractSentencesFromString(title.toLowerCase(), EnumSet.of(HtmlTag.TITLE));
 
-        TObjectIntHashMap<String> counts = calculateWordCounts(textSentences);
-        var titleSentences = extractSentencesFromString(title.toLowerCase());
-        return new DocumentLanguageData(textSentences, titleSentences, counts, text);
+        List<DocumentSentence> combined = new ArrayList<>(textSentences.size() + titleSentences.size());
+        combined.addAll(titleSentences);
+        combined.addAll(textSentences);
+
+        return new DocumentLanguageData(
+                combined,
+                text);
     }
 
-    private String getTitle(Document doc, DocumentSentence[] textSentences) {
-        String title = doc.getElementsByTag("title").text() + " . "  +
-                Optional.ofNullable(doc.getElementsByTag("h1").first()).map(Element::text).orElse("");
+    public DocumentSentence extractSentence(String text, EnumSet<HtmlTag> htmlTags) {
+        var wordsAndSeps = SentenceSegmentSplitter.splitSegment(text, MAX_SENTENCE_LENGTH);
 
-        if (title.trim().length() < 3) {
-            title = doc.getElementsByTag("h2").text();
-        }
+        String[] words = wordsAndSeps.words();
+        BitSet seps = wordsAndSeps.separators();
+        String[] lc = new String[words.length];
+        String[] stemmed = new String[words.length];
 
-        if (title.trim().length() < 3) {
-            for (DocumentSentence textSentence : textSentences) {
-                if (textSentence.length() > 0) {
-                    title = textSentence.originalSentence.toLowerCase();
-                    break;
-                }
+        BitSet isCapitalized = new BitSet(words.length);
+        BitSet isAllCaps = new BitSet(words.length);
+
+        for (int i = 0; i < words.length; i++) {
+            lc[i] = stripPossessive(words[i].toLowerCase());
+
+            if (words[i].length() > 0 && Character.isUpperCase(words[i].charAt(0))) {
+                isCapitalized.set(i);
             }
-        }
-
-        return title;
-    }
-
-
-    @NotNull
-    private TObjectIntHashMap<String> calculateWordCounts(DocumentSentence[] textSentences) {
-        TObjectIntHashMap<String> counts = new TObjectIntHashMap<>(textSentences.length*10, 0.5f, 0);
-
-        for (var sent : textSentences) {
-            for (var word : sent.stemmedWords) {
-                counts.adjustOrPutValue(word, 1, 1);
-            }
-        }
-        return counts;
-    }
-
-    public DocumentSentence extractSentence(String text) {
-        var wordsAndSeps = SentenceSegmentSplitter.splitSegment(text);
-
-        var words = wordsAndSeps.words;
-        var seps = wordsAndSeps.separators;
-        var lc = SentenceExtractorStringUtils.toLowerCaseStripPossessive(wordsAndSeps.words);
-
-        List<String[]> ngrams = ngramLexicon.findSegmentsStrings(2, 12, words);
-
-        String[] ngramsWords = new String[ngrams.size()];
-        String[] ngramsStemmedWords = new String[ngrams.size()];
-        for (int i = 0; i < ngrams.size(); i++) {
-            String[] ngram = ngrams.get(i);
-
-            StringJoiner ngramJoiner = new StringJoiner("_");
-            StringJoiner stemmedJoiner = new StringJoiner("_");
-            for (String s : ngram) {
-                ngramJoiner.add(s);
-                stemmedJoiner.add(porterStemmer.stem(s));
+            if (StringUtils.isAllUpperCase(words[i])) {
+                isAllCaps.set(i);
             }
 
-            ngramsWords[i] = ngramJoiner.toString();
-            ngramsStemmedWords[i] = stemmedJoiner.toString();
-        }
-
-
-        return new DocumentSentence(
-            SentenceExtractorStringUtils.sanitizeString(text),
-                words,
-                seps,
-                lc,
-                rdrposTagger.tagsForEnSentence(words),
-                stemSentence(lc),
-                ngramsWords,
-                ngramsStemmedWords
-        );
-    }
-
-    public DocumentSentence[] extractSentencesFromString(String text) {
-        String[] sentences;
-
-        String textNormalizedSpaces = SentenceExtractorStringUtils.normalizeSpaces(text);
-
-        try {
-            sentences = sentenceDetector.sentDetect(textNormalizedSpaces);
-        }
-        catch (Exception ex) {
-            // shitty fallback logic
-            sentences = StringUtils.split(textNormalizedSpaces, '.');
-        }
-
-        sentences = sentencePrecleaner.clean(sentences);
-
-        final String[][] tokens = new String[sentences.length][];
-        final int[][] separators = new int[sentences.length][];
-        final String[][] posTags = new String[sentences.length][];
-        final String[][] tokensLc = new String[sentences.length][];
-        final String[][] stemmedWords = new String[sentences.length][];
-
-        for (int i = 0; i < tokens.length; i++) {
-
-            var wordsAndSeps = SentenceSegmentSplitter.splitSegment(sentences[i]);
-            tokens[i] = wordsAndSeps.words;
-            separators[i] = wordsAndSeps.separators;
-
-            if (tokens[i].length > MAX_SENTENCE_LENGTH) {
-                tokens[i] = Arrays.copyOf(tokens[i], MAX_SENTENCE_LENGTH);
-                separators[i] = Arrays.copyOf(separators[i], MAX_SENTENCE_LENGTH);
-            }
-
-            for (int j = 0; j < tokens[i].length; j++) {
-                while (tokens[i][j].endsWith(".")) {
-                    tokens[i][j] = StringUtils.removeEnd(tokens[i][j], ".");
-                }
-            }
-        }
-
-        for (int i = 0; i < tokens.length; i++) {
-            posTags[i] = rdrposTagger.tagsForEnSentence(tokens[i]);
-        }
-
-        for (int i = 0; i < tokens.length; i++) {
-            tokensLc[i] = SentenceExtractorStringUtils.toLowerCaseStripPossessive(tokens[i]);
-        }
-
-        for (int i = 0; i < tokens.length; i++) {
-            stemmedWords[i] = stemSentence(tokensLc[i]);
-        }
-
-        DocumentSentence[] ret = new DocumentSentence[sentences.length];
-        for (int i = 0; i < ret.length; i++) {
-            String fullString;
-
-            if (i == 0) {
-                fullString = SentenceExtractorStringUtils.sanitizeString(sentences[i]);
-            }
-            else {
-                fullString = "";
-            }
-
-            List<String[]> ngrams = ngramLexicon.findSegmentsStrings(2, 12, tokens[i]);
-
-            String[] ngramsWords = new String[ngrams.size()];
-            String[] ngramsStemmedWords = new String[ngrams.size()];
-
-            for (int j = 0; j < ngrams.size(); j++) {
-                String[] ngram = ngrams.get(j);
-
-                StringJoiner ngramJoiner = new StringJoiner("_");
-                StringJoiner stemmedJoiner = new StringJoiner("_");
-                for (String s : ngram) {
-                    ngramJoiner.add(s);
-                    stemmedJoiner.add(porterStemmer.stem(s));
-                }
-
-                ngramsWords[j] = ngramJoiner.toString();
-                ngramsStemmedWords[j] = stemmedJoiner.toString();
-            }
-
-
-            ret[i] = new DocumentSentence(fullString,
-                    tokens[i],
-                    separators[i],
-                    tokensLc[i],
-                    posTags[i],
-                    stemmedWords[i],
-                    ngramsWords,
-                    ngramsStemmedWords
-                    );
-        }
-        return ret;
-    }
-
-    private String[] stemSentence(String[] strings) {
-        String[] stemmed = new String[strings.length];
-        for (int i = 0; i < stemmed.length; i++) {
-            var sent = SentenceExtractorStringUtils.stripPossessive(strings[i]);
             try {
-                stemmed[i] = porterStemmer.stem(sent);
+                stemmed[i] = porterStemmer.stem(lc[i]);
             }
             catch (Exception ex) {
                 stemmed[i] = "NN"; // ???
             }
         }
-        return stemmed;
+
+        return new DocumentSentence(
+                seps,
+                lc,
+                rdrposTagger.tagsForEnSentence(words),
+                stemmed,
+                htmlTags,
+                isCapitalized,
+                isAllCaps
+        );
     }
 
-    public String asText(Document dc) {
-        String text = dc.getElementsByTag("body").text();
+    public List<DocumentSentence> extractSentencesFromString(String text, EnumSet<HtmlTag> htmlTags) {
+        String[] sentences;
 
-        if (text.length() > MAX_TEXT_LENGTH) {
-            return text.substring(0, MAX_TEXT_LENGTH);
+        // Normalize spaces
+
+        text = normalizeSpaces(text);
+
+        // Split into sentences
+
+        try {
+            sentences = sentenceDetector.sentDetect(text);
+        }
+        catch (Exception ex) {
+            // shitty fallback logic
+            sentences = StringUtils.split(text, '.');
+        }
+
+        sentences = sentencePrecleaner.clean(sentences);
+
+        // Truncate the number of sentences if it exceeds the maximum, to avoid
+        // excessive processing time on malformed data
+
+        if (sentences.length > MAX_SENTENCE_COUNT) {
+            sentences = Arrays.copyOf(sentences, MAX_SENTENCE_COUNT);
+        }
+
+        final boolean isNaturalLanguage = htmlTags.stream().noneMatch(tag -> tag.nonLanguage);
+
+        List<DocumentSentence> ret = new ArrayList<>(sentences.length);
+
+        if (isNaturalLanguage) {
+            // Natural language text;  do POS tagging and stemming
+
+            for (String sent : sentences) {
+                var wordsAndSeps = SentenceSegmentSplitter.splitSegment(sent, MAX_SENTENCE_LENGTH);
+                var tokens = wordsAndSeps.words();
+                var separators = wordsAndSeps.separators();
+                var posTags = rdrposTagger.tagsForEnSentence(tokens);
+                var tokensLc = new String[tokens.length];
+                var stemmed = new String[tokens.length];
+
+                BitSet isCapitalized = new BitSet(tokens.length);
+                BitSet isAllCaps = new BitSet(tokens.length);
+
+                for (int i = 0; i < tokens.length; i++) {
+                    if (tokens[i].length() > 0 && Character.isUpperCase(tokens[i].charAt(0))) {
+                        isCapitalized.set(i);
+                    }
+                    if (StringUtils.isAllUpperCase(tokens[i])) {
+                        isAllCaps.set(i);
+                    }
+
+                    var originalVal = tokens[i];
+                    var newVal = stripPossessive(originalVal.toLowerCase());
+
+                    if (Objects.equals(originalVal, newVal)) {
+                        tokensLc[i] = originalVal;
+                    } else {
+                        tokensLc[i] = newVal;
+                    }
+
+                    try {
+                        stemmed[i] = porterStemmer.stem(tokens[i]);
+                    }
+                    catch (Exception ex) {
+                        stemmed[i] = "NN"; // ???
+                    }
+                }
+                ret.add(new DocumentSentence(separators, tokensLc, posTags, stemmed, htmlTags, isCapitalized, isAllCaps));
+            }
         }
         else {
-            return text.substring(0, (int) (text.length() * 0.95));
+            // non-language text, e.g. program code;  don't bother with POS tagging or stemming
+            // as this is not likely to be useful
+
+            for (String sent : sentences) {
+                var wordsAndSeps = SentenceSegmentSplitter.splitSegment(sent, MAX_SENTENCE_LENGTH);
+                var tokens = wordsAndSeps.words();
+                var separators = wordsAndSeps.separators();
+                var posTags = new String[tokens.length];
+                Arrays.fill(posTags, "X"); // Placeholder POS tag
+                var tokensLc = new String[tokens.length];
+                var stemmed = new String[tokens.length];
+
+                BitSet isCapitalized = new BitSet(tokens.length);
+                BitSet isAllCaps = new BitSet(tokens.length);
+
+                for (int i = 0; i < tokensLc.length; i++) {
+                    var originalVal = tokens[i];
+
+                    if (tokens[i].length() > 0 && Character.isUpperCase(tokens[i].charAt(0))) {
+                        isCapitalized.set(i);
+                    }
+                    if (StringUtils.isAllUpperCase(tokens[i])) {
+                        isAllCaps.set(i);
+                    }
+
+                    if (StringUtils.isAllLowerCase(originalVal)) {
+                        tokensLc[i] = originalVal;
+                    } else {
+                        tokensLc[i] = originalVal.toLowerCase();
+                    }
+                    stemmed[i] = tokensLc[i]; // we don't stem non-language words
+                }
+
+                ret.add(new DocumentSentence(separators, tokensLc, posTags, stemmed, htmlTags, isAllCaps, isCapitalized));
+            }
+
         }
+
+
+        return ret;
     }
 
 
+    public static String normalizeSpaces(String s) {
+        if (s.indexOf('\t') >= 0) {
+            s = s.replace('\t', ' ');
+        }
+        if (s.indexOf('\n') >= 0) {
+            s = s.replace('\n', ' ');
+        }
+        return s;
+    }
+
+    public static String stripPossessive(String s) {
+        int end = s.length();
+
+        if (s.endsWith("'")) {
+            return s.substring(0, end-1);
+        }
+
+        if (s.endsWith("'s") || s.endsWith("'S")) {
+            return s.substring(0, end-2);
+        }
+
+        return s;
+    }
 
 }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorHtmlTagCleaner.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorHtmlTagCleaner.java
deleted file mode 100644
index 63cd12e7..00000000
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorHtmlTagCleaner.java
+++ /dev/null
@@ -1,40 +0,0 @@
-package nu.marginalia.language.sentence;
-
-import org.jsoup.nodes.Document;
-import org.jsoup.nodes.TextNode;
-
-import java.util.regex.Pattern;
-
-public class SentenceExtractorHtmlTagCleaner {
-    public final int MAX_CODE_TAG_LENGTH = 32;
-    public final Pattern codeTagJunkPattern = Pattern.compile("(\\.|&lt;|&gt;|<|>|\\([^)]*\\)[;]?$)");
-
-    public void clean(Document doc) {
-        cleanCodeTags(doc);
-
-        doc.select("nav,form,input,code,body>title").remove();
-
-        // Create "sentences" out of elements that sometimes lack a period at the end to help
-        // NLP work better
-        doc.select("li,h1,h2,h3,h4,h5,h6,td,th,p,div,title").forEach(e -> e.appendText(". "));
-        doc.select("br,hr").forEach(e -> e.prependText(". "));
-    }
-
-    private void cleanCodeTags(Document doc) {
-        for (var codeTag : doc.getElementsByTag("code")) {
-            var text = codeTag.text();
-
-            if (text.length() <= MAX_CODE_TAG_LENGTH) {
-                codeTag.replaceWith(new TextNode(trimCodeTagContents(text)));
-            }
-            else {
-                codeTag.remove();
-            }
-
-        }
-    }
-
-    private String trimCodeTagContents(String text) {
-        return codeTagJunkPattern.matcher(text).replaceAll(" ");
-    }
-}
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorStringUtils.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorStringUtils.java
deleted file mode 100644
index 41f27c24..00000000
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractorStringUtils.java
+++ /dev/null
@@ -1,93 +0,0 @@
-package nu.marginalia.language.sentence;
-
-import java.util.Arrays;
-import java.util.Objects;
-
-public class SentenceExtractorStringUtils {
-
-    public static String sanitizeString(String s) {
-        char[] newChars = new char[s.length()];
-        int pi = 0;
-        boolean changed = false;
-        for (int i = 0; i < newChars.length; i++) {
-            char c = s.charAt(i);
-            if (!isBadChar(c)) {
-                newChars[pi++] = c;
-            }
-            else {
-                changed = true;
-                newChars[pi++] = ' ';
-            }
-        }
-
-        if (changed) {
-            s = new String(newChars, 0, pi);
-        }
-
-        if (s.startsWith(".")) {
-            s = s.substring(1);
-        }
-
-        if (s.isBlank()) {
-            return "";
-        }
-
-        return s;
-
-    }
-
-    private static boolean isBadChar(char c) {
-        if (c >= 'a' && c <= 'z') return false;
-        if (c >= 'A' && c <= 'Z') return false;
-        if (c >= '0' && c <= '9') return false;
-        if ("_#@.".indexOf(c) >= 0) return false;
-        if (c >= '\u00C0' && c <= '\u00D6') return false;
-        if (c >= '\u00D8' && c <= '\u00F6') return false;
-        if (c >= '\u00F8' && c <= '\u00FF') return false;
-
-        return true;
-    }
-
-    public static String normalizeSpaces(String s) {
-        if (s.indexOf('\t') >= 0) {
-            s = s.replace('\t', ' ');
-        }
-        if (s.indexOf('\n') >= 0) {
-            s = s.replace('\n', ' ');
-        }
-        return s;
-    }
-
-
-    public static String toLowerCaseStripPossessive(String word) {
-        String val = stripPossessive(word).toLowerCase();
-
-        if (Objects.equals(val, word)) {
-            return word;
-        }
-
-        return val;
-    }
-
-    public static String[] toLowerCaseStripPossessive(String[] words) {
-        String[] lc = new String[words.length];
-        Arrays.setAll(lc, i ->SentenceExtractorStringUtils.toLowerCaseStripPossessive(words[i]));
-        return lc;
-    }
-
-    public static String stripPossessive(String s) {
-        int end = s.length();
-
-        if (s.endsWith("'")) {
-            return s.substring(0, end-1);
-        }
-
-        if (s.endsWith("'s") || s.endsWith("'S")) {
-            return s.substring(0, end-2);
-        }
-
-        return s;
-    }
-
-
-}
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentencePreCleaner.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentencePreCleaner.java
index c8d7ec39..4fbcd061 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentencePreCleaner.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentencePreCleaner.java
@@ -7,12 +7,9 @@ import java.util.regex.Pattern;
 
 public class SentencePreCleaner {
     private static final Pattern splitPattern = Pattern.compile("( -|- |\\|)");
-    private final int maxSentenceCount = 250;
-    private final int maxTotalLength = 20 * maxSentenceCount;
 
     public String[] clean(String[] sentences) {
 
-        int totalLength = 0;
         int sentenceCount = 0;
 
         List<String> sentenceList = new ArrayList<>();
@@ -20,10 +17,9 @@ public class SentencePreCleaner {
 
             if (s.isBlank()) continue;
 
-            totalLength+=s.length();
             sentenceCount++;
 
-            if (totalLength > maxTotalLength && sentenceCount++ > maxSentenceCount) {
+            if (sentenceCount++ > SentenceExtractor.MAX_SENTENCE_COUNT) {
                 break;
             }
 
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceSegmentSplitter.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceSegmentSplitter.java
index 7a0b49be..531f5189 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceSegmentSplitter.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceSegmentSplitter.java
@@ -2,25 +2,18 @@ package nu.marginalia.language.sentence;
 
 import com.google.common.base.CharMatcher;
 import gnu.trove.list.array.TIntArrayList;
-import lombok.AllArgsConstructor;
-import lombok.Getter;
 import nu.marginalia.language.encoding.AsciiFlattener;
-import nu.marginalia.language.model.WordSeparator;
 
 import java.util.ArrayList;
+import java.util.BitSet;
 import java.util.List;
 import java.util.regex.Pattern;
 
-import static nu.marginalia.language.WordPatterns.*;
+import static nu.marginalia.language.WordPatterns.MAX_WORD_LENGTH;
 
 public class SentenceSegmentSplitter {
 
-    @AllArgsConstructor
-    @Getter
-    public static class SeparatedSentence {
-        String[] words;
-        int[] separators;
-    }
+    public record SeparatedSentence(String[] words, BitSet separators) { }
 
     private static final CharMatcher noiseCharacterMatcher = CharMatcher.anyOf("/*-");
 
@@ -43,7 +36,7 @@ public class SentenceSegmentSplitter {
      * @param segment The sentence to split
      * @return A list of words and separators
      */
-    public static SeparatedSentence splitSegment(String segment) {
+    public static SeparatedSentence splitSegment(String segment, int maxLength) {
         String flatSegment = AsciiFlattener.flattenUnicode(segment);
 
         var matcher = wordBreakPattern.matcher(flatSegment);
@@ -77,7 +70,7 @@ public class SentenceSegmentSplitter {
         }
 
         List<String> ret = new ArrayList<>(words.size());
-        TIntArrayList seps = new TIntArrayList(words.size());
+        BitSet seps = new BitSet(separators.size());
 
         String[] parts = words.toArray(String[]::new);
         for (int i = 0; i < parts.length; i++) {
@@ -89,7 +82,9 @@ public class SentenceSegmentSplitter {
                 continue;
 
             ret.add(parts[i]);
-            seps.add(separators.getQuick(i));
+            if (separators.getQuick(i) > 0) {
+                seps.set(i);
+            }
         }
 
         for (int i = 0; i < ret.size(); i++) {
@@ -101,13 +96,26 @@ public class SentenceSegmentSplitter {
             if (part.endsWith("'") && part.length() > 1) {
                 ret.set(i, part.substring(0, part.length()-1));
             }
+            while (part.endsWith(".")) {
+                part = part.substring(0, part.length()-1);
+                ret.set(i, part);
+            }
+        }
+
+        if (ret.size() > maxLength) {
+            ret.subList(maxLength, ret.size()).clear();
+            seps = seps.get(0, maxLength);
         }
 
         return new SeparatedSentence(
                 ret.toArray(String[]::new),
-                seps.toArray()
+                seps
         );
     }
 
 
+    public static final class WordSeparator {
+        public static final int COMMA = 0;
+        public static final int SPACE = 1;
+    }
 }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
new file mode 100644
index 00000000..2454e889
--- /dev/null
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
@@ -0,0 +1,122 @@
+package nu.marginalia.language.sentence.tag;
+
+import org.jsoup.nodes.Document;
+import org.jsoup.nodes.Element;
+import org.jsoup.nodes.Node;
+import org.jsoup.nodes.TextNode;
+import org.jsoup.select.NodeVisitor;
+
+import java.util.*;
+
+/** A class that tags strings in an HTML document with the HTML tags that are active at that point in the document. */
+public class HtmlStringTagger implements NodeVisitor {
+    private List<HtmlTag> tagStack = new ArrayList<>(8);
+    private Set<Element> stackTags = new HashSet<>(8);
+    private StringBuilder currentString = new StringBuilder(256);
+
+    HtmlStringTagger() {}
+
+    public static List<HtmlTaggedString> tagDocumentStrings(Document document) {
+        var tagger = new HtmlStringTagger();
+        document.traverse(tagger);
+        return tagger.getOutput();
+    }
+
+    private List<HtmlTaggedString> output = new ArrayList<>();
+
+    public List<HtmlTaggedString> getOutput() {
+        List<HtmlTaggedString> compactedOutput = new ArrayList<>(output.size());
+
+        for (var ts : output) {
+            if (compactedOutput.isEmpty()) {
+                compactedOutput.add(ts);
+            }
+            else {
+                var last = compactedOutput.getLast();
+                if (last.tags().equals(ts.tags())) {
+                    last.append(ts.string());
+                }
+                else {
+                    compactedOutput.add(ts);
+                }
+            }
+        }
+
+        return output;
+    }
+
+
+    @Override
+    public void head(Node node, int i) {
+        if (node instanceof Element el) {
+            String tagName = el.tagName();
+            switch (tagName) {
+                case "script" -> pushTag(HtmlTag.SCRIPT, el);
+                case "style" -> pushTag(HtmlTag.STYLE, el);
+                case "code" -> pushTag(HtmlTag.CODE, el);
+                case "title" -> pushTag(HtmlTag.TITLE, el);
+                case "nav" -> pushTag(HtmlTag.NAV, el);
+                case "header" -> pushTag(HtmlTag.HEADER, el);
+                case "footer" -> pushTag(HtmlTag.FOOTER, el);
+                case "h1", "h2", "h3", "h4", "h5", "h6" -> pushTag(HtmlTag.HEADING, el);
+            }
+        }
+        else if (node instanceof TextNode tn) {
+            if (shouldProcess()) {
+                String tnText = tn.text();
+                if (!tnText.isBlank()) {
+                    currentString = currentString.append(' ').append(tnText.trim());
+                }
+            }
+        }
+    }
+
+    @Override
+    public void tail(Node node, int i) {
+        if (!(node instanceof Element el))
+            return;
+
+        if (stackTags.remove(el)) {
+            output.add(new HtmlTaggedString(currentString, EnumSet.copyOf(tagStack)));
+            tagStack.removeLast();
+            currentString = new StringBuilder();
+        }
+        else if ("#root".equals(el.tagName())) {
+            closeOngoingTag();
+        }
+    }
+
+    private void pushTag(HtmlTag tag, Element el) {
+        closeOngoingTag();
+
+        tagStack.add(tag);
+        stackTags.add(el);
+    }
+
+    private void closeOngoingTag() {
+        if (currentString.isEmpty()) {
+            return;
+        }
+
+        EnumSet<HtmlTag> tags;
+        if (tagStack.isEmpty()) {
+            tags = EnumSet.noneOf(HtmlTag.class);
+        }
+        else {
+            tags = EnumSet.copyOf(tagStack);
+        }
+
+        output.add(new HtmlTaggedString(currentString, tags));
+        currentString = new StringBuilder();
+    }
+
+    public boolean shouldProcess() {
+        for (var tag : tagStack) {
+            if (tag.exclude) {
+                return false;
+            }
+        }
+        return true;
+    }
+
+}
\ No newline at end of file
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
new file mode 100644
index 00000000..bc26e93e
--- /dev/null
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
@@ -0,0 +1,21 @@
+package nu.marginalia.language.sentence.tag;
+
+public enum HtmlTag {
+    SCRIPT(true, false),
+    STYLE(true, false),
+    CODE(false, true),
+    PRE(false, true),
+    TITLE(false, false),
+    HEADING(false, false),
+    NAV(false, false),
+    HEADER(false, false),
+    FOOTER(false, false);
+
+    public boolean exclude;
+    public boolean nonLanguage;
+
+    HtmlTag(boolean exclude, boolean nonLanguage) {
+        this.exclude = exclude;
+        this.nonLanguage = nonLanguage;
+    }
+}
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTaggedString.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTaggedString.java
new file mode 100644
index 00000000..80e8f4ee
--- /dev/null
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTaggedString.java
@@ -0,0 +1,33 @@
+package nu.marginalia.language.sentence.tag;
+
+import java.util.EnumSet;
+
+public class HtmlTaggedString {
+    private StringBuilder string;
+    private final EnumSet<HtmlTag> tags;
+
+    public HtmlTaggedString(StringBuilder string, EnumSet<HtmlTag> tags) {
+        this.tags = tags;
+        this.string = string;
+    }
+
+    public String string() {
+        return string.toString();
+    }
+
+    public EnumSet<HtmlTag> tags() {
+        return tags;
+    }
+
+    public void append(String s) {
+        string.append(' ').append(s);
+    }
+
+    public String toString() {
+        return "[" + tags.toString() + ":" + string.toString() + "]";
+    }
+
+    public int length() {
+        return string.length();
+    }
+}
diff --git a/code/libraries/language-processing/test/nu/marginalia/language/encoding/SentenceExtractorHtmlTagCleanerTest.java b/code/libraries/language-processing/test/nu/marginalia/language/encoding/SentenceExtractorHtmlTagCleanerTest.java
deleted file mode 100644
index dc21d379..00000000
--- a/code/libraries/language-processing/test/nu/marginalia/language/encoding/SentenceExtractorHtmlTagCleanerTest.java
+++ /dev/null
@@ -1,28 +0,0 @@
-package nu.marginalia.language.encoding;
-
-import nu.marginalia.language.sentence.SentenceExtractorHtmlTagCleaner;
-import org.jsoup.Jsoup;
-import org.junit.jupiter.api.Test;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class SentenceExtractorHtmlTagCleanerTest {
-
-    final SentenceExtractorHtmlTagCleaner tagCleaner = new SentenceExtractorHtmlTagCleaner();
-
-    public String cleanTag(String text) {
-        var doc = Jsoup.parse(text);
-        tagCleaner.clean(doc);
-        return doc.text();
-    }
-
-    @Test
-    public void testBriefCodeTag() {
-        assertEquals("hello", cleanTag("<code>hello</code>"));
-        assertEquals("System out println", cleanTag("<code>System.out.println</code>"));
-        assertEquals("hello", cleanTag("<code>hello()</code>"));
-        assertEquals("hello", cleanTag("<code>&lt;hello&gt;</code>"));
-        assertEquals("hello", cleanTag("<code>hello(p,q)</code>"));
-        assertEquals("hello", cleanTag("<code>hello(p,q);</code>"));
-    }
-}
\ No newline at end of file
diff --git a/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java b/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java
index e4679db7..b6918eee 100644
--- a/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java
+++ b/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java
@@ -1,14 +1,17 @@
 package nu.marginalia.language.sentence;
 
 import nu.marginalia.WmsaHome;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.BeforeAll;
 import org.junit.jupiter.api.Test;
 
 import java.io.IOException;
+import java.util.EnumSet;
 import java.util.Objects;
 
-import static org.junit.jupiter.api.Assertions.*;
+import static org.junit.jupiter.api.Assertions.assertArrayEquals;
+import static org.junit.jupiter.api.Assertions.assertEquals;
 
 class SentenceExtractorTest {
     private static SentenceExtractor sentenceExtractor;
@@ -20,26 +23,25 @@ class SentenceExtractorTest {
 
     @Test
     void testParen() {
-        var dld = sentenceExtractor.extractSentence("I am (very) tall");
+        var dld = sentenceExtractor.extractSentence("I am (very) tall", EnumSet.noneOf(HtmlTag.class));
 
         System.out.println(dld);
     }
 
     @Test
     void testPolishArtist() {
-        var dld = sentenceExtractor.extractSentence("Uklański");
+        var dld = sentenceExtractor.extractSentence("Uklański", EnumSet.noneOf(HtmlTag.class));
 
-        assertEquals(1, dld.words.length);
-        assertEquals("Uklanski", dld.words[0]);
+        assertEquals(1, dld.wordsLowerCase.length);
         assertEquals("uklanski", dld.wordsLowerCase[0]);
     }
 
     @Test
     void testJava() {
-        var dld = sentenceExtractor.extractSentence("Foreign Function & Memory API");
+        var dld = sentenceExtractor.extractSentence("Foreign Function & Memory API", EnumSet.noneOf(HtmlTag.class));
 
-        assertEquals(4, dld.words.length);
-        assertArrayEquals(new String[] {"Foreign", "Function", "Memory", "API"}, dld.words);
+        assertEquals(4, dld.wordsLowerCase.length);
+        assertArrayEquals(new String[] {"foreign", "function", "memory", "api"}, dld.wordsLowerCase);
     }
 
     @Test
@@ -77,10 +79,9 @@ class SentenceExtractorTest {
     }
     @Test
     void testApostrophe() {
-        var dld = sentenceExtractor.extractSentence("duke nuke 'em's big ol' big gun");
-        assertEquals(7, dld.words.length);
+        var dld = sentenceExtractor.extractSentence("duke nuke 'em's big ol' big gun", EnumSet.noneOf(HtmlTag.class));
+        assertEquals(7, dld.wordsLowerCase.length);
 
-        assertArrayEquals(new String[] { "duke", "nuke", "em's", "big", "ol", "big", "gun"}, dld.words);
         assertArrayEquals(new String[] { "duke", "nuke", "em", "big", "ol", "big", "gun"}, dld.wordsLowerCase);
     }
 }
\ No newline at end of file
diff --git a/code/libraries/language-processing/test/nu/marginalia/language/sentence/tag/HtmlStringTaggerTest.java b/code/libraries/language-processing/test/nu/marginalia/language/sentence/tag/HtmlStringTaggerTest.java
new file mode 100644
index 00000000..d550ee1e
--- /dev/null
+++ b/code/libraries/language-processing/test/nu/marginalia/language/sentence/tag/HtmlStringTaggerTest.java
@@ -0,0 +1,29 @@
+package nu.marginalia.language.sentence.tag;
+
+import org.jsoup.Jsoup;
+import org.junit.jupiter.api.Test;
+
+class HtmlStringTaggerTest {
+    @Test
+    public void test() {
+        String html = """
+                <!DOCTYPE html>
+                <html>
+                <head>
+                <title>T Example</title>
+                </head>
+                <body>
+                <h1>H1 Example</h1>
+                <p>This is an example.</p>
+                <p>Here is more text.</p>
+                <p>And more text <a href="#">with a link</a> and more text.</p>
+                <code>#include &lt;stdlib.h&gt;</code>
+                <h3>Good bye</h3>
+                </body>
+                """;
+        var visitor = new HtmlStringTagger();
+        Jsoup.parse(html).traverse(visitor);
+
+        visitor.getOutput().forEach(ts -> System.out.println(ts.string() + " " + ts.tags()));
+    }
+}
\ No newline at end of file
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/TitleExtractor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/TitleExtractor.java
index 920da41c..b5570b86 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/TitleExtractor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/TitleExtractor.java
@@ -39,10 +39,6 @@ public class TitleExtractor {
         title = getFirstTagText(doc, "h5");
         if (title != null) return title;
 
-        if (dld.sentences.length > 0) {
-            return dld.sentences[0].originalSentence;
-        }
-
         return url;
     }
 

From b812e96c6d0f99e64c62ba7250dd2a28670906f3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 19 Jul 2024 12:22:32 +0200
Subject: [PATCH 064/216] (language-processing) Select the appropriate language
 filter

The incorrect filter was selected based on the provided parameter, this has been corrected.
---
 .../language/filter/FasttextLanguagePredictionModel.java  | 1 +
 .../nu/marginalia/language/filter/LanguageFilter.java     | 8 ++++----
 .../language/filter/UngaBungaLanguagePredictionModel.java | 6 +++++-
 3 files changed, 10 insertions(+), 5 deletions(-)

diff --git a/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java b/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java
index 5eca3c76..60a4ac87 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java
@@ -4,6 +4,7 @@ import com.github.jfasttext.JFastText;
 import nu.marginalia.LanguageModels;
 import nu.marginalia.language.model.DocumentLanguageData;
 
+/** A language prediction model that uses a FastText model to predict the language of a document */
 public class FasttextLanguagePredictionModel implements LanguagePredictionModel {
     private final JFastText jft = new JFastText();
 
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/filter/LanguageFilter.java b/code/libraries/language-processing/java/nu/marginalia/language/filter/LanguageFilter.java
index bf390e45..12dd45f9 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/filter/LanguageFilter.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/filter/LanguageFilter.java
@@ -1,5 +1,7 @@
 package nu.marginalia.language.filter;
 
+import com.google.inject.Inject;
+import com.google.inject.Singleton;
 import lombok.SneakyThrows;
 import nu.marginalia.LanguageModels;
 import nu.marginalia.language.encoding.UnicodeRanges;
@@ -8,8 +10,6 @@ import org.jsoup.nodes.Document;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
-import com.google.inject.Inject;
-import com.google.inject.Singleton;
 import java.util.Optional;
 import java.util.Set;
 
@@ -31,10 +31,10 @@ public class LanguageFilter {
         if(LANGUAGE_DETECTION_MODEL_VERSION < 0) return 1.0;
 
         if (LANGUAGE_DETECTION_MODEL_VERSION == 1) {
-            return languagePredictionModel2.predictEnglish(dld);
+            return languagePredictionModel1.predictEnglish(dld);
         }
         else if (LANGUAGE_DETECTION_MODEL_VERSION == 2) {
-            return languagePredictionModel1.predictEnglish(dld);
+            return languagePredictionModel2.predictEnglish(dld);
         }
         else { // default is to run both models
             if (languagePredictionModel1.predictEnglish(dld) < 0.1)
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java b/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java
index 8b3c4567..b27c1aaf 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java
@@ -8,10 +8,14 @@ import java.util.HashSet;
 import java.util.Objects;
 import java.util.Set;
 
+/** A simple language prediction model that uses a dictionary of English words
+ *  and requires that a certain fraction of the words in the document present in that
+ *  dictionary for the document to be considered English.
+ *  */
 public class UngaBungaLanguagePredictionModel implements LanguagePredictionModel {
     private static final Set<String> englishWords = new HashSet<>();
 
-    public UngaBungaLanguagePredictionModel() throws Exception {
+    public UngaBungaLanguagePredictionModel() {
         try (var resource = Objects.requireNonNull(ClassLoader.getSystemResourceAsStream("dictionary/en-1000"),
                 "Could not load word frequency table");
              var br = new BufferedReader(new InputStreamReader(resource))

From 7a1edc08802e45ad909bc297215bac3c88937511 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 19 Jul 2024 12:23:28 +0200
Subject: [PATCH 065/216] (term-freq) Reduce the number of low-relevance words
 in the dictionary

Using a statistical trick to reduce the number of low-frequency words in the dictionary, as they are numerous and not very informative.
---
 .../extractor/TermFrequencyExporter.java      | 32 ++++++++++++++++---
 1 file changed, 28 insertions(+), 4 deletions(-)

diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
index 998e94a4..4283a657 100644
--- a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
+++ b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
@@ -27,6 +27,7 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardCopyOption;
 import java.nio.file.attribute.PosixFilePermissions;
+import java.util.concurrent.ThreadLocalRandom;
 import java.util.concurrent.TimeUnit;
 import java.util.concurrent.atomic.AtomicInteger;
 
@@ -96,8 +97,13 @@ public class TermFrequencyExporter implements ExporterIf {
 
     }
 
-    private void processFile(Path crawlDataPath, TLongIntHashMap counts, AtomicInteger docCount, SentenceExtractor se) {
-        TLongHashSet words = new TLongHashSet(10_000);
+    private void processFile(Path crawlDataPath,
+                             TLongIntHashMap counts,
+                             AtomicInteger docCount,
+                             SentenceExtractor se)
+    {
+        TLongHashSet words = new TLongHashSet(1000);
+
         try (var stream = CrawledDomainReader.createDataStream(crawlDataPath)) {
             while (stream.hasNext()) {
                 if (Thread.interrupted())
@@ -119,15 +125,33 @@ public class TermFrequencyExporter implements ExporterIf {
                     return;
                 }
 
-                for (var sent : dld.sentences) {
+                for (var sent : dld) {
+                    // Skip sentences with non-language tags, e.g. program code
+                    if (sent.htmlTags.stream().anyMatch(t -> t.nonLanguage))
+                        continue;
+
                     for (var word : sent) {
                         words.add(longHash(word.stemmed().getBytes(StandardCharsets.UTF_8)));
                     }
                 }
 
+                var random = ThreadLocalRandom.current();
                 synchronized (counts) {
                     words.forEach(w -> {
-                        counts.adjustOrPutValue(w, 1, 1);
+                        // Mathematicians hate him for this one weird trick:
+                        //
+                        // We generally aren't interested in low-frequency entries,
+                        // but due to zipf's law, there are a lot of them, in fact
+                        // almost the entire term frequency dictionary is full of them.
+                        //
+                        // So we use a simple statistical trick to reduce the number
+                        // of nearly unique entries in the dictionary, while still keeping the
+                        // distribution of higher-frequency entries relatively intact
+
+                        if (random.nextDouble() < 0.2) {
+                            counts.adjustOrPutValue(w, 5, 5);
+                        }
+
                         return true;
                     });
                 }

From 2bb9f18411925c1b915b3c6a0257df8d2f59f7d1 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 19 Jul 2024 12:24:55 +0200
Subject: [PATCH 066/216] (dld) Refactor DocumentLanguageData

Reduce the usage of raw arrays
---
 .../keyword/DocumentKeywordExtractor.java     |  7 ++--
 .../keyword/extractors/ArtifactKeywords.java  |  9 +++--
 .../keyword/extractors/NameLikeKeywords.java  |  7 ++--
 .../extractors/SubjectLikeKeywords.java       |  2 +-
 .../keyword/extractors/WordsTfIdfCounts.java  | 11 ++++--
 .../nu/marginalia/topic/RecipeDetector.java   |  5 +--
 .../topic/TextileCraftDetector.java           |  5 +--
 .../marginalia/topic/WoodworkingDetector.java |  5 +--
 .../FasttextLanguagePredictionModel.java      |  2 +-
 .../UngaBungaLanguagePredictionModel.java     |  2 +-
 .../language/model/DocumentLanguageData.java  | 38 +++++++++++++------
 .../language/model/DocumentSentence.java      | 20 +++++++---
 .../language/sentence/SentenceExtractor.java  |  6 +--
 .../sentence/tag/HtmlStringTagger.java        | 12 +++---
 .../sentence/SentenceExtractorTest.java       |  4 +-
 .../processor/logic/DocumentLengthLogic.java  |  3 +-
 16 files changed, 80 insertions(+), 58 deletions(-)

diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index ebaa76f5..4c1f0edd 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -5,6 +5,7 @@ import nu.marginalia.WmsaHome;
 import nu.marginalia.keyword.extractors.*;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.model.DocumentLanguageData;
+import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.model.WordRep;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
@@ -100,13 +101,13 @@ public class DocumentKeywordExtractor {
 
     private void createSimpleWords(DocumentKeywordsBuilder wordsBuilder,
                                   KeywordMetadata metadata,
-                                  DocumentLanguageData documentLanguageData)
+                                  DocumentLanguageData dld)
     {
         // we use 1-based indexing since the data
         // will be gamma encoded, and it can't represent 0
         int pos = 1;
 
-        for (var sent : documentLanguageData.sentences) {
+        for (DocumentSentence sent : dld) {
 
             if (wordsBuilder.size() > 1500)
                 break;
@@ -119,7 +120,7 @@ public class DocumentKeywordExtractor {
                 String w = word.wordLowerCase();
                 if (matchesWordPattern(w)) {
                     /* Add information about term positions */
-                    wordsBuilder.addPos(word.wordLowerCase(), pos++);
+                    wordsBuilder.addPos(w, pos++);
 
                     /* Add metadata for word */
                     wordsBuilder.addMeta(w, metadata.getMetadataForWord(word.stemmed()));
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java
index fd66bed2..d8341731 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java
@@ -2,7 +2,9 @@ package nu.marginalia.keyword.extractors;
 
 import nu.marginalia.language.model.DocumentLanguageData;
 
-import java.util.*;
+import java.util.Collection;
+import java.util.HashSet;
+import java.util.Set;
 import java.util.regex.Pattern;
 
 public class ArtifactKeywords {
@@ -16,9 +18,8 @@ public class ArtifactKeywords {
 
     public ArtifactKeywords(DocumentLanguageData documentLanguageData) {
 
-        for (var sent : documentLanguageData.sentences) {
-            for (var word : sent) {
-                final String lc = word.wordLowerCase();
+        for (var sent : documentLanguageData) {
+            for (String lc : sent.wordsLowerCase) {
                 final int atIdx = lc.indexOf('@');
 
                 if (lc.length() < 6 || atIdx < 0 || !mailLikePattern.matcher(lc).matches()) {
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
index 9b2d8b85..3e5c67fe 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
@@ -17,11 +17,10 @@ public class NameLikeKeywords implements WordReps {
     private final Set<String> stemmed;
 
     public NameLikeKeywords(KeywordExtractor keywordExtractor, DocumentLanguageData dld, int minCount) {
-        Object2IntOpenHashMap<String> counts = new Object2IntOpenHashMap<>(1000);
-        HashMap<String, HashSet<WordRep>> instances = new HashMap<>(1000);
+        var counts = new Object2IntOpenHashMap<String>(100);
+        var instances = new HashMap<String, HashSet<WordRep>>(100);
 
-        for (int i = 0; i < dld.sentences.length; i++) {
-            DocumentSentence sent = dld.sentences[i];
+        for (DocumentSentence sent : dld) {
             var keywords = keywordExtractor.getProperNames(sent);
             for (var span : keywords) {
                 if (span.size() <= 1 && sent.isAllCaps(span.start))
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
index 95dbf5bc..1d88b5c1 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
@@ -29,7 +29,7 @@ public class SubjectLikeKeywords implements WordReps {
 
         Map<String, Set<WordRep>> instances = new HashMap<>();
 
-        for (var sentence : dld.sentences) {
+        for (var sentence : dld) {
             for (WordSpan kw : keywordExtractor.getNouns(sentence)) {
 
                 if (kw.end + 2 >= sentence.length()) {
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java
index 8904e16e..62ae5f6a 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java
@@ -1,14 +1,17 @@
 package nu.marginalia.keyword.extractors;
 
 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
+import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.keyword.WordReps;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.WordRep;
-import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.apache.commons.lang3.StringUtils;
 
-import java.util.*;
+import java.util.Collection;
+import java.util.Comparator;
+import java.util.HashSet;
+import java.util.Set;
 
 import static java.lang.Math.max;
 
@@ -46,7 +49,7 @@ public class WordsTfIdfCounts implements WordReps, Comparator<WordRep> {
         // Collect words with a high TF-IDF so that they can be marked with a bit flag
 
         tfIdfHigh = new HashSet<>(100);
-        for (var sent : dld.sentences) {
+        for (var sent : dld) {
             var keywords = keywordExtractor.getKeywordsFromSentence(sent);
             for (var span : keywords) {
                 if (highTfIdfInstances.contains(sent.constructStemmedWordFromSpan(span))) {
@@ -61,7 +64,7 @@ public class WordsTfIdfCounts implements WordReps, Comparator<WordRep> {
         Object2IntOpenHashMap<String> counts = new Object2IntOpenHashMap<>(10_000, 0.7f);
         counts.defaultReturnValue(0);
 
-        for (var sent : dld.sentences) {
+        for (var sent : dld) {
             var keywords = keywordExtractor.getKeywordsFromSentence(sent);
             for (var span : keywords) {
                 counts.addTo(sent.constructStemmedWordFromSpan(span), 1);
diff --git a/code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java b/code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java
index 2a71d27a..8633b4a0 100644
--- a/code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java
+++ b/code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java
@@ -211,12 +211,11 @@ public class RecipeDetector {
 
         Map<String, Double> values = new HashMap<>();
         int count = 0;
-        for (var sentence : dld.sentences) {
+        for (var sentence : dld) {
 
-            for (var word : sentence) {
+            for (var stemmed : sentence.stemmedWords) {
                 count++;
 
-                final String stemmed = word.stemmed();
                 final Double value = termValues.get(stemmed);
 
                 if (value != null) {
diff --git a/code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java b/code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java
index 64ccaf2e..6d8ccff0 100644
--- a/code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java
+++ b/code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java
@@ -135,12 +135,11 @@ public class TextileCraftDetector {
 
         Map<String, Double> values = new HashMap<>();
         int count = 0;
-        for (var sentence : dld.sentences) {
+        for (var sentence : dld) {
 
-            for (var word : sentence) {
+            for (var stemmed : sentence.stemmedWords) {
                 count++;
 
-                final String stemmed = word.stemmed();
                 final Double value = termValues.get(stemmed);
 
                 if (value != null) {
diff --git a/code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java b/code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java
index 32e362d2..416f103a 100644
--- a/code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java
+++ b/code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java
@@ -111,12 +111,11 @@ public class WoodworkingDetector {
 
         Map<String, Double> values = new HashMap<>();
         int count = 0;
-        for (var sentence : dld.sentences) {
+        for (var sentence : dld) {
 
-            for (var word : sentence) {
+            for (var stemmed : sentence.stemmedWords) {
                 count++;
 
-                final String stemmed = word.stemmed();
                 final Double value = termValues.get(stemmed);
 
                 if (value != null) {
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java b/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java
index 60a4ac87..3956680d 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/filter/FasttextLanguagePredictionModel.java
@@ -14,7 +14,7 @@ public class FasttextLanguagePredictionModel implements LanguagePredictionModel
 
     @Override
     public double predictEnglish(DocumentLanguageData dld) {
-        if ("__label__en".equals(jft.predict(dld.text))) {
+        if ("__label__en".equals(jft.predict(dld.text()))) {
             return 1.0;
         }
         return 0.;
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java b/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java
index b27c1aaf..6b72088f 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/filter/UngaBungaLanguagePredictionModel.java
@@ -37,7 +37,7 @@ public class UngaBungaLanguagePredictionModel implements LanguagePredictionModel
         Set<String> seenWords = new HashSet<>();
         int englishCount = 0;
 
-        for (var sent : dld.sentences) {
+        for (var sent : dld) {
             for (var word : sent.wordsLowerCase) {
                 if (seenWords.add(word) && englishWords.contains(word)) {
                     englishCount++;
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java
index 99cdadeb..6ef10c25 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentLanguageData.java
@@ -3,34 +3,40 @@ package nu.marginalia.language.model;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.lsh.EasyLSH;
+import org.jetbrains.annotations.NotNull;
 
-import java.util.Arrays;
+import java.util.Collections;
+import java.util.Iterator;
 import java.util.List;
+import java.util.stream.Stream;
 
 /** Holds the sentences and text of a document, decorated with
  * HTML tags, POS tags, and other information.
  *
  * @see SentenceExtractor
  */
-public class DocumentLanguageData {
-    public final DocumentSentence[] sentences;
-    public final String text;
+public record DocumentLanguageData(List<DocumentSentence> sentences, String text) implements Iterable<DocumentSentence> {
 
     public DocumentLanguageData(List<DocumentSentence> sentences,
-                                String text) {
-        this.sentences = sentences.toArray(DocumentSentence[]::new);
+                                String text)
+    {
+        this.sentences = Collections.unmodifiableList(sentences);
         this.text = text;
     }
 
     public List<DocumentSentence> findSentencesForTag(HtmlTag tag) {
-        return Arrays.stream(sentences).filter(s -> s.htmlTags.contains(tag)).toList();
+        return stream().filter(s -> s.htmlTags.contains(tag)).toList();
+    }
+
+    public int numSentences() {
+        return sentences.size();
     }
 
     public int totalNumWords() {
         int ret = 0;
 
-        for (int i = 0; i < sentences.length; i++) {
-            ret += sentences[i].length();
+        for (DocumentSentence sent : sentences) {
+            ret += sent.length();
         }
 
         return ret;
@@ -40,10 +46,20 @@ public class DocumentLanguageData {
         var hash = new EasyLSH();
 
         for (var sent : sentences) {
-            for (var word : sent) {
-                hash.addUnordered(word.word());
+            for (var word : sent.wordsLowerCase) {
+                hash.addUnordered(word);
             }
         }
         return hash.get();
     }
+
+    @NotNull
+    @Override
+    public Iterator<DocumentSentence> iterator() {
+        return sentences.iterator();
+    }
+
+    public Stream<DocumentSentence> stream() {
+        return sentences.stream();
+    }
 }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java
index 4bd6ae1b..d6b42911 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/model/DocumentSentence.java
@@ -11,21 +11,31 @@ import java.util.EnumSet;
 import java.util.Iterator;
 import java.util.StringJoiner;
 
-public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
+/** Represents a sentence in a document, with POS tags, HTML tags, and other information
+ *  about the words in the sentence.
+ * */
+public class DocumentSentence implements Iterable<DocumentSentence.SentencePos> {
 
     /** A span of words in a sentence */
-
     public final String[] wordsLowerCase;
-    public final String[] posTags;
     public final String[] stemmedWords;
+    public final String[] posTags;
 
+    /** A set of HTML tags that surround the sentence */
     public final EnumSet<HtmlTag> htmlTags;
 
+    /** A bitset indicating whether the word is a stop word */
     private final BitSet isStopWord;
-    private final BitSet separators;
+
+    /** A bitset indicating whether the word is capitalized */
     private final BitSet isCapitalized;
+
+    /** A bitset indicating whether the word is all caps */
     private final BitSet isAllCaps;
 
+    // Encode whether the words are separated by a comma or a space,
+    // where false = COMMA, true = SPACE
+    private final BitSet separators;
 
 
     public SoftReference<WordSpan[]> keywords;
@@ -69,6 +79,7 @@ public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
     public boolean isAllCaps(int i) {
         return isAllCaps.get(i);
     }
+
     public boolean isSeparatorSpace(int i) {
         return separators.get(i);
     }
@@ -187,7 +198,6 @@ public class DocumentSentence implements Iterable<DocumentSentence.SentencePos>{
             this.pos = pos;
         }
 
-        public String word() { return wordsLowerCase[pos]; }
         public String wordLowerCase() { return wordsLowerCase[pos]; }
         public String posTag() { return posTags[pos]; }
         public String stemmed() { return stemmedWords[pos]; }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
index 48d709f3..0a9ef2e3 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/SentenceExtractor.java
@@ -74,12 +74,10 @@ public class SentenceExtractor {
 
     }
 
-
-
     public DocumentLanguageData extractSentences(Document doc) {
-
-        final List<HtmlTaggedString> taggedStrings = HtmlStringTagger.tagDocumentStrings(doc);
         final List<DocumentSentence> textSentences = new ArrayList<>();
+        
+        final List<HtmlTaggedString> taggedStrings = HtmlStringTagger.tagDocumentStrings(doc);
 
         final int totalTextLength = taggedStrings.stream().mapToInt(HtmlTaggedString::length).sum();
         final StringBuilder documentText = new StringBuilder(totalTextLength + taggedStrings.size());
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
index 2454e889..283e8959 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
@@ -8,13 +8,14 @@ import org.jsoup.select.NodeVisitor;
 
 import java.util.*;
 
-/** A class that tags strings in an HTML document with the HTML tags that are active at that point in the document. */
+/** A class that tags strings in an HTML document with the HTML
+ * tags that are active at that point in the document.
+ */
 public class HtmlStringTagger implements NodeVisitor {
     private List<HtmlTag> tagStack = new ArrayList<>(8);
     private Set<Element> stackTags = new HashSet<>(8);
     private StringBuilder currentString = new StringBuilder(256);
-
-    HtmlStringTagger() {}
+    private List<HtmlTaggedString> output = new ArrayList<>();
 
     public static List<HtmlTaggedString> tagDocumentStrings(Document document) {
         var tagger = new HtmlStringTagger();
@@ -22,9 +23,7 @@ public class HtmlStringTagger implements NodeVisitor {
         return tagger.getOutput();
     }
 
-    private List<HtmlTaggedString> output = new ArrayList<>();
-
-    public List<HtmlTaggedString> getOutput() {
+    List<HtmlTaggedString> getOutput() {
         List<HtmlTaggedString> compactedOutput = new ArrayList<>(output.size());
 
         for (var ts : output) {
@@ -45,7 +44,6 @@ public class HtmlStringTagger implements NodeVisitor {
         return output;
     }
 
-
     @Override
     public void head(Node node, int i) {
         if (node instanceof Element el) {
diff --git a/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java b/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java
index b6918eee..38ccbe12 100644
--- a/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java
+++ b/code/libraries/language-processing/test/nu/marginalia/language/sentence/SentenceExtractorTest.java
@@ -52,7 +52,7 @@ class SentenceExtractorTest {
         {
             var doc = Jsoup.parse(new String(resource.readAllBytes()));
             var dld = sentenceExtractor.extractSentences(doc);
-            for (var sent : dld.sentences) {
+            for (var sent : dld) {
                 System.out.println(sent);
             }
 
@@ -69,7 +69,7 @@ class SentenceExtractorTest {
         {
             var doc = Jsoup.parse(new String(resource.readAllBytes()));
             var dld = sentenceExtractor.extractSentences(doc);
-            for (var sent : dld.sentences) {
+            for (var sent : dld) {
                 System.out.println(sent);
             }
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentLengthLogic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentLengthLogic.java
index aae0b24f..856e3407 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentLengthLogic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentLengthLogic.java
@@ -10,7 +10,6 @@ import nu.marginalia.language.model.DocumentLanguageData;
 public class DocumentLengthLogic {
     private final int minDocumentLength;
 
-
     @Inject
     public DocumentLengthLogic(@Named("min-document-length") Integer minDocumentLength) {
         this.minDocumentLength = minDocumentLength;
@@ -18,7 +17,7 @@ public class DocumentLengthLogic {
 
     public int getEncodedAverageLength(DocumentLanguageData dld) {
         int totalWords = dld.totalNumWords();
-        int numSentences = dld.sentences.length;
+        int numSentences = dld.numSentences();
 
         if (totalWords == 0 || numSentences == 0) {
             return 0;

From 2ad564404eafe67854930e49161f404d861754b7 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 23 Jul 2024 15:14:25 +0200
Subject: [PATCH 067/216] (loader) Add heartbeat to update domain-ids step

---
 .../nu/marginalia/loading/LoaderMain.java     |  6 +++---
 .../loading/domains/DomainLoaderService.java  | 20 +++++++++++++++++--
 2 files changed, 21 insertions(+), 5 deletions(-)

diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java
index 43b22168..4171337f 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderMain.java
@@ -8,8 +8,6 @@ import lombok.Getter;
 import lombok.SneakyThrows;
 import nu.marginalia.ProcessConfiguration;
 import nu.marginalia.ProcessConfigurationModule;
-import nu.marginalia.service.ProcessMainClass;
-import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.linkdb.docs.DocumentDbWriter;
 import nu.marginalia.loading.documents.DocumentLoaderService;
 import nu.marginalia.loading.documents.KeywordLoaderService;
@@ -22,7 +20,9 @@ import nu.marginalia.mq.MqMessageState;
 import nu.marginalia.mq.inbox.MqInboxResponse;
 import nu.marginalia.mq.inbox.MqSingleShotInbox;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
+import nu.marginalia.service.ProcessMainClass;
 import nu.marginalia.service.module.DatabaseModule;
+import nu.marginalia.storage.FileStorageService;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -103,7 +103,7 @@ public class LoaderMain extends ProcessMainClass {
     void run(LoadRequest instructions) {
         LoaderInputData inputData = instructions.getInputData();
 
-        DomainIdRegistry domainIdRegistry = domainService.getOrCreateDomainIds(inputData);
+        DomainIdRegistry domainIdRegistry = domainService.getOrCreateDomainIds(heartbeat, inputData);
 
         try {
             var results = ForkJoinPool.commonPool()
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
index 8d72a50a..342645dd 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
@@ -19,7 +19,9 @@ import java.io.IOException;
 import java.sql.Connection;
 import java.sql.PreparedStatement;
 import java.sql.SQLException;
-import java.util.*;
+import java.util.Collection;
+import java.util.HashSet;
+import java.util.Set;
 
 @Singleton
 public class DomainLoaderService {
@@ -36,21 +38,29 @@ public class DomainLoaderService {
         this.nodeId = processConfiguration.node();
     }
 
+    enum Steps {
+        PREP_DATA,
+        INSERT_NEW,
+        FETCH_ALL,
+        DONE
+    }
     /** Read the domain names from each parquet file
      *  compare with SQL domain database, fetch those
      *  that exist, insert those that don't.
      */
-    public DomainIdRegistry getOrCreateDomainIds(LoaderInputData inputData)
+    public DomainIdRegistry getOrCreateDomainIds(ProcessHeartbeatImpl heartbeat, LoaderInputData inputData)
             throws IOException, SQLException
     {
         Set<String> domainNamesAll = new HashSet<>(100_000);
         DomainIdRegistry ret = new DomainIdRegistry();
 
         try (var conn = dataSource.getConnection();
+             var taskHeartbeat = heartbeat.createProcessTaskHeartbeat(Steps.class, "DOMAIN_IDS");
              var selectStmt = conn.prepareStatement("""
                      SELECT ID FROM EC_DOMAIN WHERE DOMAIN_NAME=?
                      """)
         ) {
+            taskHeartbeat.progress(Steps.PREP_DATA);
 
             try (var inserter = new DomainInserter(conn, nodeId)) {
                 for (var domainWithIp : readBasicDomainInformation(inputData)) {
@@ -65,12 +75,16 @@ public class DomainLoaderService {
                 }
             }
 
+            taskHeartbeat.progress(Steps.INSERT_NEW);
+
             try (var updater = new DomainAffinityAndIpUpdater(conn, nodeId)) {
                 for (var domainWithIp : readBasicDomainInformation(inputData)) {
                     updater.accept(new EdgeDomain(domainWithIp.domain), domainWithIp.ip);
                 }
             }
 
+            taskHeartbeat.progress(Steps.FETCH_ALL);
+
             selectStmt.setFetchSize(1000);
             for (var domain : domainNamesAll) {
                 selectStmt.setString(1, domain);
@@ -82,6 +96,8 @@ public class DomainLoaderService {
                     logger.error("Unknown domain {}", domain);
                 }
             }
+
+            taskHeartbeat.progress(Steps.DONE);
         }
 
         return ret;

From 60ef826e07a52af6ad2a898eb4295fa2292b3be5 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 23 Jul 2024 15:14:25 +0200
Subject: [PATCH 068/216] (loader) Add heartbeat to update domain-ids step

---
 .../marginalia/loading/documents/DocumentLoaderService.java   | 3 +++
 .../nu/marginalia/loading/links/DomainLinksLoaderService.java | 4 ++++
 2 files changed, 7 insertions(+)

diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
index 5909a9aa..7cc9b522 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
@@ -50,6 +50,9 @@ public class DocumentLoaderService {
                 loadDocumentsFromFile(domainIdRegistry, file);
             }
             taskHeartbeat.progress("LOAD", processed, documentFiles.size());
+        } catch (IOException e) {
+            logger.error("Failed to load documents", e);
+            throw e;
         }
 
         logger.info("Finished");
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
index 06bf4c95..9d0a5384 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
@@ -44,6 +44,10 @@ public class DomainLinksLoaderService {
 
             task.progress("LOAD", processed, linkFiles.size());
         }
+        catch (IOException e) {
+            logger.error("Failed to load links", e);
+            throw e;
+        }
 
         logger.info("Finished");
         return true;

From 51a8a242ac0ce71cbb1711c1cb63891b41012813 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 25 Jul 2024 13:01:13 +0200
Subject: [PATCH 069/216] (slop) First commit of slop library

Slop is a low-abstraction data storage convention for column based storage of complex data.
---
 code/libraries/slop/build.gradle              |  45 +++
 .../marginalia/slop/column/ColumnReader.java  |  14 +
 .../marginalia/slop/column/ColumnWriter.java  |   4 +
 .../slop/column/array/ByteArrayColumn.java    | 101 ++++++
 .../column/array/ByteArrayColumnReader.java   |  20 ++
 .../column/array/ByteArrayColumnWriter.java   |  11 +
 .../slop/column/array/IntArrayColumn.java     |  97 ++++++
 .../column/array/IntArrayColumnReader.java    |  20 ++
 .../column/array/IntArrayColumnWriter.java    |  11 +
 .../slop/column/array/LongArrayColumn.java    |  97 ++++++
 .../column/array/LongArrayColumnReader.java   |  20 ++
 .../column/array/LongArrayColumnWriter.java   |  11 +
 .../column/dynamic/CustomBinaryColumn.java    | 127 ++++++++
 .../dynamic/CustomBinaryColumnReader.java     |  17 +
 .../dynamic/CustomBinaryColumnWriter.java     |  16 +
 .../slop/column/dynamic/VarintColumn.java     |  98 ++++++
 .../column/dynamic/VarintColumnReader.java    |  17 +
 .../column/dynamic/VarintColumnWriter.java    |   6 +
 .../slop/column/primitive/ByteColumn.java     |  72 ++++
 .../column/primitive/ByteColumnReader.java    |  10 +
 .../column/primitive/ByteColumnWriter.java    |  11 +
 .../slop/column/primitive/CharColumn.java     |  72 ++++
 .../column/primitive/CharColumnReader.java    |  10 +
 .../column/primitive/CharColumnWriter.java    |  11 +
 .../slop/column/primitive/DoubleColumn.java   |  72 ++++
 .../column/primitive/DoubleColumnReader.java  |  10 +
 .../column/primitive/DoubleColumnWriter.java  |  11 +
 .../slop/column/primitive/FloatColumn.java    |  73 +++++
 .../column/primitive/FloatColumnReader.java   |  10 +
 .../column/primitive/FloatColumnWriter.java   |  11 +
 .../slop/column/primitive/IntColumn.java      |  78 +++++
 .../column/primitive/IntColumnReader.java     |  10 +
 .../column/primitive/IntColumnWriter.java     |  13 +
 .../slop/column/primitive/LongColumn.java     | 109 +++++++
 .../column/primitive/LongColumnReader.java    |  10 +
 .../column/primitive/LongColumnWriter.java    |  10 +
 .../slop/column/string/EnumColumn.java        | 113 +++++++
 .../slop/column/string/StringColumn.java      | 211 ++++++++++++
 .../column/string/StringColumnReader.java     |  22 ++
 .../column/string/StringColumnWriter.java     |  12 +
 .../nu/marginalia/slop/desc/ColumnDesc.java   |  86 +++++
 .../marginalia/slop/desc/ColumnFunction.java  |  47 +++
 .../nu/marginalia/slop/desc/ColumnType.java   | 110 +++++++
 .../nu/marginalia/slop/desc/StorageType.java  |  28 ++
 .../storage/CompressingStorageReader.java     | 230 +++++++++++++
 .../storage/CompressingStorageWriter.java     | 210 ++++++++++++
 .../slop/storage/MmapStorageReader.java       | 149 +++++++++
 .../slop/storage/SimpleStorageReader.java     | 215 ++++++++++++
 .../slop/storage/SimpleStorageWriter.java     | 199 +++++++++++
 .../nu/marginalia/slop/storage/Storage.java   |  61 ++++
 .../slop/storage/StorageReader.java           |  50 +++
 .../slop/storage/StorageWriter.java           |  50 +++
 .../slop/column/ArrayColumnTest.java          |  78 +++++
 .../slop/column/CodedSequenceColumnTest.java  |  57 ++++
 .../slop/column/EnumColumnTest.java           |  93 ++++++
 .../marginalia/slop/column/IntColumnTest.java | 182 +++++++++++
 .../slop/column/VarintColumnTest.java         | 102 ++++++
 .../marginalia/slop/desc/ColumnDescTest.java  |  32 ++
 ...CompressingStorageWriterAndReaderTest.java | 308 ++++++++++++++++++
 .../SimpleStorageWriterAndMmapReaderTest.java | 307 +++++++++++++++++
 .../SimpleStorageWriterAndReaderTest.java     | 307 +++++++++++++++++
 settings.gradle                               |   1 +
 62 files changed, 4595 insertions(+)
 create mode 100644 code/libraries/slop/build.gradle
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java

diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
new file mode 100644
index 00000000..2ea970ad
--- /dev/null
+++ b/code/libraries/slop/build.gradle
@@ -0,0 +1,45 @@
+plugins {
+    id 'java'
+    id "me.champeau.jmh" version "0.6.6"
+}
+
+java {
+    toolchain {
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
+    }
+}
+
+
+apply from: "$rootProject.projectDir/srcsets.gradle"
+
+dependencies {
+    implementation libs.bundles.slf4j
+
+    implementation libs.notnull
+    implementation libs.commons.lang3
+    implementation libs.fastutil
+    implementation libs.lz4
+    implementation libs.guava
+    implementation libs.commons.compress
+
+    testImplementation libs.bundles.slf4j.test
+    testImplementation libs.bundles.junit
+    testImplementation libs.mockito
+
+    testImplementation libs.sqlite
+}
+
+jmh {
+    jvmArgs = [ "--enable-preview" ]
+}
+tasks.withType(me.champeau.jmh.WithJavaToolchain).configureEach {
+    javaLauncher.set(javaToolchains.launcherFor {
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
+    })
+}
+tasks.withType(me.champeau.jmh.JmhBytecodeGeneratorTask).configureEach {
+    jvmArgs = ["--enable-preview"]
+}
+test {
+    useJUnitPlatform()
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
new file mode 100644
index 00000000..89a87740
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
@@ -0,0 +1,14 @@
+package nu.marginalia.slop.column;
+
+import java.io.IOException;
+
+public interface ColumnReader {
+    long position() throws IOException;
+    void skip(long positions) throws IOException;
+
+    default void seek(long position) throws IOException {
+        throw new UnsupportedOperationException("Random access is not supported by " + getClass().getSimpleName());
+    }
+
+    boolean hasRemaining() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
new file mode 100644
index 00000000..00e06ae2
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
@@ -0,0 +1,4 @@
+package nu.marginalia.slop.column;
+
+public interface ColumnWriter {
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
new file mode 100644
index 00000000..24165be4
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
@@ -0,0 +1,101 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class ByteArrayColumn {
+
+    public static ByteArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
+        return new Reader(
+                Storage.reader(path, name, true),
+                VarintColumn.open(path,
+                        name.createDerivative(name.function().lengthsTable(),
+                                ColumnType.VARINT_LE,
+                                StorageType.PLAIN)
+                )
+        );
+    }
+
+    public static ByteArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
+        return new Writer(
+                Storage.writer(path, name),
+                VarintColumn.create(path,
+                        name.createDerivative(name.function().lengthsTable(),
+                                ColumnType.VARINT_LE,
+                                StorageType.PLAIN)
+                )
+        );
+    }
+
+    private static class Writer implements ByteArrayColumnWriter {
+        private final StorageWriter storage;
+        private final VarintColumnWriter lengthsWriter;
+
+        public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+            this.storage = storage;
+            this.lengthsWriter = lengthsWriter;
+        }
+
+        public void put(byte[] value) throws IOException {
+            storage.putBytes(value);
+            lengthsWriter.put(value.length);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+            lengthsWriter.close();
+        }
+    }
+
+    private static class Reader implements ByteArrayColumnReader {
+        private final StorageReader storage;
+        private final VarintColumnReader lengthsReader;
+
+        public Reader(StorageReader storage, VarintColumnReader lengthsReader) throws IOException {
+            this.storage = storage;
+            this.lengthsReader = lengthsReader;
+        }
+
+        public byte[] get() throws IOException {
+            int length = (int) lengthsReader.get();
+            byte[] ret = new byte[length];
+            storage.getBytes(ret);
+            return ret;
+        }
+
+        @Override
+        public long position() throws IOException {
+            return lengthsReader.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (int i = 0; i < positions; i++) {
+                int size = (int) lengthsReader.get();
+                storage.skip(size, 1);
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return lengthsReader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+            lengthsReader.close();
+        }
+    }
+
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
new file mode 100644
index 00000000..6a96ae12
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
@@ -0,0 +1,20 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface ByteArrayColumnReader extends ColumnReader, AutoCloseable {
+    byte[] get() throws IOException;
+    void close() throws IOException;
+
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
new file mode 100644
index 00000000..1efdff2d
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface ByteArrayColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(byte[] value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
new file mode 100644
index 00000000..4aeb1fcf
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
@@ -0,0 +1,97 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class IntArrayColumn {
+
+    public static IntArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
+        return new Reader(Storage.reader(path, name, true),
+                VarintColumn.open(path, name.createDerivative(name.function().lengthsTable(),
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    public static IntArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
+        return new Writer(Storage.writer(path, name),
+                VarintColumn.create(path, name.createDerivative(name.function().lengthsTable(),
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    private static class Writer implements IntArrayColumnWriter {
+        private final StorageWriter storage;
+        private final VarintColumnWriter lengthsWriter;
+
+        public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+            this.storage = storage;
+            this.lengthsWriter = lengthsWriter;
+        }
+
+        public void put(int[] value) throws IOException {
+            storage.putInts(value);
+            lengthsWriter.put(value.length);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+            lengthsWriter.close();
+        }
+    }
+
+    private static class Reader implements IntArrayColumnReader {
+        private final StorageReader storage;
+        private final VarintColumnReader lengthsReader;
+
+        public Reader(StorageReader storage, VarintColumnReader lengthsReader) {
+            this.storage = storage;
+            this.lengthsReader = lengthsReader;
+        }
+
+        public int[] get() throws IOException {
+            int length = (int) lengthsReader.get();
+            int[] ret = new int[length];
+            storage.getInts(ret);
+            return ret;
+        }
+
+        @Override
+        public long position() throws IOException {
+            return lengthsReader.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (int i = 0; i < positions; i++) {
+                int size = (int) lengthsReader.get();
+                storage.skip(size, Integer.BYTES);
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return lengthsReader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+            lengthsReader.close();
+        }
+    }
+
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
new file mode 100644
index 00000000..9377a171
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
@@ -0,0 +1,20 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface IntArrayColumnReader extends ColumnReader, AutoCloseable {
+    int[] get() throws IOException;
+    void close() throws IOException;
+
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
new file mode 100644
index 00000000..059a79f7
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface IntArrayColumnWriter  extends ColumnWriter, AutoCloseable {
+    void put(int[] value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
new file mode 100644
index 00000000..abe96f6e
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
@@ -0,0 +1,97 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class LongArrayColumn {
+
+    public static LongArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
+        return new LongArrayColumn.Reader(Storage.reader(path, name, true),
+                VarintColumn.open(path, name.createDerivative(name.function().lengthsTable(),
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    public static LongArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
+        return new LongArrayColumn.Writer(Storage.writer(path, name),
+                VarintColumn.create(path, name.createDerivative(name.function().lengthsTable(),
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    private static class Writer implements LongArrayColumnWriter {
+        private final StorageWriter storage;
+        private final VarintColumnWriter lengthsWriter;
+
+        public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+            this.storage = storage;
+            this.lengthsWriter = lengthsWriter;
+        }
+
+        public void put(long[] value) throws IOException {
+            storage.putLongs(value);
+            lengthsWriter.put(value.length);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+            lengthsWriter.close();
+        }
+    }
+
+    private static class Reader implements LongArrayColumnReader {
+        private final StorageReader storage;
+        private final VarintColumnReader lengthsReader;
+
+        public Reader(StorageReader storage, VarintColumnReader lengthsReader) {
+            this.storage = storage;
+            this.lengthsReader = lengthsReader;
+        }
+
+        public long[] get() throws IOException {
+            int length = (int) lengthsReader.get();
+            long[] ret = new long[length];
+            storage.getLongs(ret);
+            return ret;
+        }
+
+        @Override
+        public long position() throws IOException {
+            return lengthsReader.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (int i = 0; i < positions; i++) {
+                int size = (int) lengthsReader.get();
+                storage.skip(size, Long.BYTES);
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return lengthsReader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+            lengthsReader.close();
+        }
+    }
+
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
new file mode 100644
index 00000000..1a4194bd
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
@@ -0,0 +1,20 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface LongArrayColumnReader extends ColumnReader, AutoCloseable {
+    long[] get() throws IOException;
+    void close() throws IOException;
+
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
new file mode 100644
index 00000000..75413fb4
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface LongArrayColumnWriter  extends ColumnWriter, AutoCloseable {
+    void put(long[] value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
new file mode 100644
index 00000000..1bc8d350
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
@@ -0,0 +1,127 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class CustomBinaryColumn {
+
+    public static CustomBinaryColumnReader open(Path path, ColumnDesc name) throws IOException {
+        return new Reader(
+                Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
+                VarintColumn.open(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    public static CustomBinaryColumnWriter create(Path path, ColumnDesc name) throws IOException {
+        return new Writer(
+                Storage.writer(path, name),
+                VarintColumn.create(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    private static class Writer implements CustomBinaryColumnWriter {
+        private final VarintColumnWriter indexWriter;
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storage,
+                      VarintColumnWriter indexWriter)
+        {
+            this.storage = storage;
+
+            this.indexWriter = indexWriter;
+        }
+
+        @Override
+        public RecordWriter next() throws IOException {
+            return new RecordWriter() {
+                long pos = storage.position();
+
+                @Override
+                public StorageWriter writer() {
+                    return storage;
+                }
+
+                @Override
+                public void close() throws IOException {
+                    indexWriter.put((int) (storage.position() - pos));
+                }
+            };
+        }
+
+        public void close() throws IOException {
+            indexWriter.close();
+            storage.close();
+        }
+    }
+
+    private static class Reader implements CustomBinaryColumnReader {
+        private final VarintColumnReader indexReader;
+        private final StorageReader storage;
+
+        public Reader(StorageReader reader, VarintColumnReader indexReader) throws IOException {
+            this.storage = reader;
+            this.indexReader = indexReader;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (int i = 0; i < positions; i++) {
+                int size = (int) indexReader.get();
+                storage.skip(size, 1);
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return indexReader.hasRemaining();
+        }
+
+        public long position() throws IOException {
+            return indexReader.position();
+        }
+
+        @Override
+        public RecordReader next() throws IOException {
+            int size = (int) indexReader.get();
+
+            return new RecordReader() {
+                long origPos = storage.position();
+
+                @Override
+                public int size() {
+                    return size;
+                }
+
+                @Override
+                public StorageReader reader() {
+                    return storage;
+                }
+
+                @Override
+                public void close() throws IOException {
+                    assert storage.position() - origPos == size : "column reader caller did not read the entire record";
+                }
+            };
+        }
+
+        public void close() throws IOException {
+            indexReader.close();
+            storage.close();
+        }
+
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java
new file mode 100644
index 00000000..59caab19
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java
@@ -0,0 +1,17 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.storage.StorageReader;
+
+import java.io.IOException;
+
+public interface CustomBinaryColumnReader extends ColumnReader, AutoCloseable {
+    RecordReader next() throws IOException;
+    void close() throws IOException;
+
+    interface RecordReader extends AutoCloseable {
+        int size();
+        StorageReader reader();
+        void close() throws IOException;
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java
new file mode 100644
index 00000000..98328ae5
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java
@@ -0,0 +1,16 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+
+public interface CustomBinaryColumnWriter extends ColumnWriter {
+    RecordWriter next() throws IOException;
+    void close() throws IOException;
+
+    interface RecordWriter extends AutoCloseable {
+        StorageWriter writer();
+        void close() throws IOException;
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
new file mode 100644
index 00000000..c0236028
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
@@ -0,0 +1,98 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class VarintColumn {
+
+    public static VarintColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static VarintColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+
+    private static class Writer implements VarintColumnWriter {
+        private final StorageWriter writer;
+
+        public Writer(StorageWriter writer) throws IOException {
+            this.writer = writer;
+        }
+
+        public void put(long value) throws IOException {
+            while ((value & ~0x7F) != 0) {
+                writer.putByte((byte) (0x80 | (value & 0x7F)));
+                value >>>= 7;
+            }
+            writer.putByte((byte) (value & 0x7F));
+        }
+
+        public void put(long[] values) throws IOException {
+            for (long val : values) {
+                put(val);
+            }
+        }
+
+        public void close() throws IOException {
+            writer.close();
+        }
+    }
+
+    private static class Reader implements VarintColumnReader {
+        private final StorageReader reader;
+
+        private long position = 0;
+
+        public Reader(StorageReader reader) throws IOException {
+            this.reader = reader;
+        }
+
+        public long get() throws IOException {
+            long value = 0;
+            int shift = 0;
+
+            while (true) {
+                long b = reader.getByte();
+                value |= (b & 0x7F) << shift;
+                shift += 7;
+                if ((b & 0x80) == 0) {
+                    break;
+                }
+            }
+
+            position++;
+
+            return value;
+        }
+
+        @Override
+        public long position() {
+            return position;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (long i = 0; i < positions; i++) {
+                get();
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return reader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            reader.close();
+        }
+    }
+
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
new file mode 100644
index 00000000..fdb67be9
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
@@ -0,0 +1,17 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.slop.column.primitive.LongColumnReader;
+
+import java.io.IOException;
+
+public interface VarintColumnReader extends LongColumnReader {
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java
new file mode 100644
index 00000000..f42256ea
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java
@@ -0,0 +1,6 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.slop.column.primitive.LongColumnWriter;
+
+public interface VarintColumnWriter extends LongColumnWriter {
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
new file mode 100644
index 00000000..28c481f0
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
@@ -0,0 +1,72 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class ByteColumn {
+
+    public static ByteColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static ByteColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+    private static class Writer implements ByteColumnWriter {
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storageWriter) throws IOException {
+            this.storage = storageWriter;
+        }
+
+        public void put(byte value) throws IOException {
+            storage.putByte(value);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements ByteColumnReader {
+        private final StorageReader storage;
+
+        public Reader(StorageReader storage) throws IOException {
+            this.storage = storage;
+        }
+
+        public byte get() throws IOException {
+            return storage.getByte();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Byte.BYTES);
+        }
+
+        public void seek(long position) throws IOException {
+            storage.seek(position, Byte.BYTES);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java
new file mode 100644
index 00000000..872c17e5
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface ByteColumnReader extends ColumnReader, AutoCloseable {
+    byte get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java
new file mode 100644
index 00000000..a2dc2fe7
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface ByteColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(byte value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
new file mode 100644
index 00000000..f46fd783
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
@@ -0,0 +1,72 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class CharColumn {
+
+    public static CharColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static CharColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+    private static class Writer implements CharColumnWriter {
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storageWriter) throws IOException {
+            this.storage = storageWriter;
+        }
+
+        public void put(char value) throws IOException {
+            storage.putChar(value);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements CharColumnReader {
+        private final StorageReader storage;
+
+        public Reader(StorageReader storage) throws IOException {
+            this.storage = storage;
+        }
+
+        public char get() throws IOException {
+            return storage.getChar();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Character.BYTES);
+        }
+
+        public void seek(long position) throws IOException {
+            storage.seek(position, Character.BYTES);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java
new file mode 100644
index 00000000..7ca92020
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface CharColumnReader extends ColumnReader, AutoCloseable {
+    char get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java
new file mode 100644
index 00000000..fb35fdd5
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface CharColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(char value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
new file mode 100644
index 00000000..3faeaf09
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
@@ -0,0 +1,72 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class DoubleColumn {
+
+    public static DoubleColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static DoubleColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+    private static class Writer implements DoubleColumnWriter {
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storageWriter) throws IOException {
+            this.storage = storageWriter;
+        }
+
+        public void put(double value) throws IOException {
+            storage.putDouble(value);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements DoubleColumnReader {
+        private final StorageReader storage;
+
+        public Reader(StorageReader storage) throws IOException {
+            this.storage = storage;
+        }
+
+        public double get() throws IOException {
+            return storage.getDouble();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Double.BYTES);
+        }
+
+        public void seek(long position) throws IOException {
+            storage.seek(position, Double.BYTES);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java
new file mode 100644
index 00000000..aaf5b908
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface DoubleColumnReader extends ColumnReader, AutoCloseable {
+    double get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java
new file mode 100644
index 00000000..528949b6
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface DoubleColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(double value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
new file mode 100644
index 00000000..7a18f752
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
@@ -0,0 +1,73 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class FloatColumn {
+
+    public static FloatColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static FloatColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+
+    private static class Writer implements FloatColumnWriter {
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storageWriter) throws IOException {
+            this.storage = storageWriter;
+        }
+
+        public void put(float value) throws IOException {
+            storage.putFloat(value);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements FloatColumnReader {
+        private final StorageReader storage;
+
+        public Reader(StorageReader storage) throws IOException {
+            this.storage = storage;
+        }
+
+        public float get() throws IOException {
+            return storage.getFloat();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Float.BYTES);
+        }
+
+        public void seek(long position) throws IOException {
+            storage.seek(position, Float.BYTES);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java
new file mode 100644
index 00000000..b4705da8
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface FloatColumnReader extends ColumnReader, AutoCloseable {
+    float get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java
new file mode 100644
index 00000000..3debe6b4
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface FloatColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(float value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
new file mode 100644
index 00000000..4920c978
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
@@ -0,0 +1,78 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class IntColumn {
+
+    public static IntColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static IntColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+    private static class Writer implements IntColumnWriter {
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storageWriter) throws IOException {
+            this.storage = storageWriter;
+        }
+
+        public void put(int[] values) throws IOException {
+            for (int value : values) {
+                storage.putInt(value);
+            }
+        }
+
+        public void put(int value) throws IOException {
+            storage.putInt(value);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements IntColumnReader {
+        private final StorageReader storage;
+
+        public Reader(StorageReader storage) throws IOException {
+            this.storage = storage;
+        }
+
+        public int get() throws IOException {
+            return storage.getInt();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Integer.BYTES);
+        }
+
+        public void seek(long position) throws IOException {
+            storage.seek(position, Integer.BYTES);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java
new file mode 100644
index 00000000..b8936e4b
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface IntColumnReader extends ColumnReader, AutoCloseable {
+    int get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java
new file mode 100644
index 00000000..93dd42dc
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java
@@ -0,0 +1,13 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface IntColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(int value) throws IOException;
+    void put(int[] values) throws IOException;
+
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
new file mode 100644
index 00000000..e2eac930
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
@@ -0,0 +1,109 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class LongColumn {
+
+    public static LongColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(Storage.reader(path, columnDesc, true));
+    }
+
+    public static LongColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(Storage.writer(path, columnDesc));
+    }
+
+    private static class Writer implements LongColumnWriter {
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storageWriter) {
+            this.storage = storageWriter;
+        }
+
+        public void put(long value) throws IOException {
+            storage.putLong(value);
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements LongColumnReader {
+        private final StorageReader storage;
+
+        public Reader(StorageReader storage) throws IOException {
+            this.storage = storage;
+        }
+
+        public long get() throws IOException {
+            return storage.getLong();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Long.BYTES);
+        }
+
+        public void seek(long position) throws IOException {
+            storage.seek(position, Long.BYTES);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class VirtualColumnReader implements LongColumnReader  {
+        private long position = 0;
+        private final long size;
+
+        private VirtualColumnReader(long size) {
+            this.size = size;
+        }
+
+        @Override
+        public long get() {
+            return position++;
+        }
+
+        @Override
+        public void close() {}
+
+        @Override
+        public long position() {
+            return position;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            position += positions;
+        }
+
+        @Override
+        public void seek(long position) throws IOException {
+            this.position = position;
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return position < size;
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java
new file mode 100644
index 00000000..3f186dd3
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface LongColumnReader extends ColumnReader, AutoCloseable {
+    long get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java
new file mode 100644
index 00000000..72615f81
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface LongColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(long value) throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
new file mode 100644
index 00000000..0a4f2845
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
@@ -0,0 +1,113 @@
+package nu.marginalia.slop.column.string;
+
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.primitive.LongColumnReader;
+import nu.marginalia.slop.column.primitive.LongColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+
+public class EnumColumn {
+
+    public static StringColumnReader open(Path path, ColumnDesc name) throws IOException {
+        return new Reader(
+                StringColumn.open(path,
+                        name.createDerivative(
+                                ColumnFunction.DICT,
+                                ColumnType.TXTSTRING,
+                                StorageType.PLAIN)
+                ),
+                VarintColumn.open(path,
+                        name.createDerivative(
+                                ColumnFunction.DATA,
+                                ColumnType.ENUM_LE,
+                                StorageType.PLAIN
+                        )
+                )
+        );
+    }
+
+    public static StringColumnWriter create(Path path, ColumnDesc name) throws IOException {
+        return new Writer(
+                StringColumn.create(path, name.createDerivative(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
+                VarintColumn.create(path, name.createDerivative(ColumnFunction.DATA, ColumnType.ENUM_LE, StorageType.PLAIN))
+        );
+    }
+
+
+    private static class Writer implements StringColumnWriter {
+        private final StringColumnWriter dicionaryColumn;
+        private final LongColumnWriter dataColumn;
+        private final HashMap<String, Integer> dictionary = new HashMap<>();
+
+        public Writer(StringColumnWriter dicionaryColumn,
+                      LongColumnWriter dataColumn) throws IOException
+        {
+            this.dicionaryColumn = dicionaryColumn;
+            this.dataColumn = dataColumn;
+        }
+
+        public void put(String value) throws IOException {
+            Integer index = dictionary.get(value);
+            if (index == null) {
+                index = dictionary.size();
+                dictionary.put(value, index);
+                dicionaryColumn.put(value);
+            }
+            dataColumn.put(index);
+        }
+
+        public void close() throws IOException {
+            dataColumn.close();
+            dicionaryColumn.close();
+        }
+    }
+
+    private static class Reader implements StringColumnReader {
+        private final LongColumnReader dataColumn;
+        private final List<String> dictionary = new ArrayList<>();
+
+        public Reader(StringColumnReader dicionaryColumn,
+                      LongColumnReader dataColumn) throws IOException
+        {
+            this.dataColumn = dataColumn;
+            for (int i = 0; dicionaryColumn.hasRemaining(); i++) {
+                dictionary.add(dicionaryColumn.get());
+            }
+            dicionaryColumn.close();
+        }
+
+        public String get() throws IOException {
+            int index = (int) dataColumn.get();
+            return dictionary.get(index);
+        }
+
+        @Override
+        public long position() throws IOException {
+            return dataColumn.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            dataColumn.seek(positions);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return dataColumn.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            dataColumn.close();
+        }
+    }
+
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
new file mode 100644
index 00000000..32cdc99a
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
@@ -0,0 +1,211 @@
+package nu.marginalia.slop.column.string;
+
+import nu.marginalia.slop.column.array.ByteArrayColumn;
+import nu.marginalia.slop.column.array.ByteArrayColumnReader;
+import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class StringColumn {
+
+    public static StringColumnReader open(Path path, ColumnDesc name) throws IOException {
+        if (name.type().equals(ColumnType.STRING)) {
+            return new ArrayReader(ByteArrayColumn.open(path, name));
+        } else if (name.type().equals(ColumnType.CSTRING)) {
+            return new CStringReader(Storage.reader(path, name, true));
+        } else if (name.type().equals(ColumnType.TXTSTRING)) {
+            return new TxtStringReader(Storage.reader(path, name, true));
+        }
+        throw new IllegalArgumentException("Unsupported column type: " + name.type());
+    }
+
+    public static StringColumnWriter create(Path path, ColumnDesc name) throws IOException {
+        if (name.type().equals(ColumnType.STRING)) {
+            return new ArrayWriter(ByteArrayColumn.create(path, name));
+        } else if (name.type().equals(ColumnType.CSTRING)) {
+            return new CStringWriter(Storage.writer(path, name));
+        } else if (name.type().equals(ColumnType.TXTSTRING)) {
+            return new TxtStringWriter(Storage.writer(path, name));
+        }
+        throw new IllegalArgumentException("Unsupported column type: " + name.type());
+    }
+
+    private static class ArrayWriter implements StringColumnWriter {
+        private final ByteArrayColumnWriter backingColumn;
+
+        public ArrayWriter(ByteArrayColumnWriter backingColumn) throws IOException {
+            this.backingColumn = backingColumn;
+        }
+
+        public void put(String value) throws IOException {
+            backingColumn.put(value.getBytes());
+        }
+
+        public void close() throws IOException {
+            backingColumn.close();
+        }
+    }
+
+    private static class ArrayReader implements StringColumnReader {
+        private final ByteArrayColumnReader backingColumn;
+
+        public ArrayReader(ByteArrayColumnReader backingColumn) throws IOException {
+            this.backingColumn = backingColumn;
+        }
+
+        public String get() throws IOException {
+            return new String(backingColumn.get());
+        }
+
+        @Override
+        public long position() throws IOException {
+            return backingColumn.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            backingColumn.seek(positions);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return backingColumn.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            backingColumn.close();
+        }
+    }
+
+
+    private static class CStringWriter implements StringColumnWriter {
+        private final StorageWriter storageWriter;
+
+        public CStringWriter(StorageWriter storageWriter) throws IOException {
+            this.storageWriter = storageWriter;
+        }
+
+        public void put(String value) throws IOException {
+            assert value.indexOf('\0') == -1 : "Null byte not allowed in cstring";
+            storageWriter.putBytes(value.getBytes());
+            storageWriter.putByte((byte) 0);
+        }
+
+        public void close() throws IOException {
+            storageWriter.close();
+        }
+    }
+
+    private static class CStringReader implements StringColumnReader {
+        private final StorageReader storageReader;
+
+        public CStringReader(StorageReader storageReader) throws IOException {
+            this.storageReader = storageReader;
+        }
+
+        public String get() throws IOException {
+            StringBuilder sb = new StringBuilder();
+            byte b;
+            while (storageReader.hasRemaining() && (b = storageReader.getByte()) != 0) {
+                sb.append((char) b);
+            }
+            return sb.toString();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storageReader.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            int i = 0;
+
+            while (i < positions && storageReader.hasRemaining()) {
+                if (storageReader.getByte() == 0) {
+                    i++;
+                }
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storageReader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storageReader.close();
+        }
+    }
+
+
+    private static class TxtStringWriter implements StringColumnWriter {
+        private final StorageWriter storageWriter;
+
+        public TxtStringWriter(StorageWriter storageWriter) throws IOException {
+            this.storageWriter = storageWriter;
+        }
+
+        public void put(String value) throws IOException {
+            assert value.indexOf('\n') == -1 : "Newline not allowed in txtstring";
+
+            storageWriter.putBytes(value.getBytes());
+            storageWriter.putByte((byte) '\n');
+        }
+
+        public void close() throws IOException {
+            storageWriter.close();
+        }
+    }
+
+    private static class TxtStringReader implements StringColumnReader {
+        private final StorageReader storageReader;
+
+        public TxtStringReader(StorageReader storageReader) throws IOException {
+            this.storageReader = storageReader;
+        }
+
+        public String get() throws IOException {
+            StringBuilder sb = new StringBuilder();
+            byte b;
+            while (storageReader.hasRemaining() && (b = storageReader.getByte()) != '\n') {
+                sb.append((char) b);
+            }
+            return sb.toString();
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storageReader.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            int i = 0;
+
+            while (i < positions && storageReader.hasRemaining()) {
+                if (storageReader.getByte() == '\n') {
+                    i++;
+                }
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storageReader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storageReader.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
new file mode 100644
index 00000000..e0a732b3
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
@@ -0,0 +1,22 @@
+package nu.marginalia.slop.column.string;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface StringColumnReader extends ColumnReader, AutoCloseable {
+
+    String get() throws IOException;
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+
+    @Override
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
new file mode 100644
index 00000000..ac889be0
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
@@ -0,0 +1,12 @@
+package nu.marginalia.slop.column.string;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface StringColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(String value) throws IOException;
+
+    @Override
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
new file mode 100644
index 00000000..93d31a54
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
@@ -0,0 +1,86 @@
+package nu.marginalia.slop.desc;
+
+import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+import java.nio.ByteOrder;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+/** Describes a slop column.  A column is a named, typed, and paginated sequence of values.
+ *
+ * @param name the name of the column, must not contain dots
+ * @param page the page number of the column, 0 for the first page
+ * @param function the function of the column, {@link ColumnFunction}
+ * @param type the type of the column, {@link ColumnType}
+ * @param storageType the storage type of the column, {@link StorageType}
+ * @param <R> the reader type
+ * @param <W> the writer type
+ */
+public record ColumnDesc<R extends ColumnReader,
+        W extends ColumnWriter>(
+                String name,
+                int page,
+                ColumnFunction function,
+                ColumnType<R, W> type,
+                StorageType storageType) {
+
+    public ColumnDesc {
+        if (name.contains(".")) {
+            throw new IllegalArgumentException("Invalid column name: " + name);
+        }
+    }
+
+    public ColumnDesc(String name, ColumnType<R, W> type, StorageType storageType) {
+        this(name, 0, ColumnFunction.DATA, type, storageType);
+    }
+
+    public R open(Path path) throws IOException {
+        return type.open(path, this);
+    }
+
+    public W create(Path path) throws IOException {
+        return type.register(path, this);
+    }
+
+    public ColumnDesc createDerivative(
+            ColumnFunction function,
+            ColumnType type,
+            StorageType storageType)
+    {
+        return new ColumnDesc(name, page, function, type, storageType);
+    }
+
+    public ByteOrder byteOrder() {
+        return type.byteOrder();
+    }
+
+    public ColumnDesc<R, W> forPage(int page) {
+        return new ColumnDesc(name, page, function, type, storageType);
+    }
+
+    public boolean exists(Path base) {
+        return Files.exists(base.resolve(toString()));
+    }
+
+    public static ColumnDesc parse(String name) {
+        String[] parts = name.split("\\.");
+        if (parts.length != 5) {
+            throw new IllegalArgumentException("Invalid column name: " + name);
+        }
+
+        return new ColumnDesc(parts[0],
+                Integer.parseInt(parts[1]),
+                ColumnFunction.fromString(parts[2]),
+                ColumnType.byMnemonic(parts[3]),
+                StorageType.fromString(parts[4])
+        );
+    }
+
+    @Override
+    public String toString() {
+        return name + "." + page + "." +  function.nmnemonic + "." + type.mnemonic() + "." + storageType.nmnemonic;
+    }
+
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
new file mode 100644
index 00000000..6ea7f91f
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
@@ -0,0 +1,47 @@
+package nu.marginalia.slop.desc;
+
+/** The type of function that a column performs.
+ * This is used to determine how to interpret the
+ * data in the column.
+ */
+public enum ColumnFunction {
+    /** The principal data column. */
+    DATA("dat"),
+    /** The length column for the DATA column, in the case of variable-length records. */
+    DATA_LEN("dat-len"),
+    /** The dictionary column, in the case of a dictionary-encoded column. */
+    DICT("dic"),
+    /** The length column for the DICT column, in the case of variable-length dictionaries. */
+    DICT_LEN("dic-len"),
+    ;
+
+    public String nmnemonic;
+
+    ColumnFunction(String nmnemonic) {
+        this.nmnemonic = nmnemonic;
+    }
+
+    /** Return the appropriate column function for
+     * a length column corresponding to the current
+     * column function.
+     */
+    public ColumnFunction lengthsTable() {
+        switch (this) {
+            case DATA:
+                return DATA_LEN;
+            case DICT:
+                return DICT_LEN;
+            default:
+                throw new IllegalArgumentException("Cannot get length table type for " + this);
+        }
+    }
+
+    public static ColumnFunction fromString(String nmnemonic) {
+        for (ColumnFunction type : values()) {
+            if (type.nmnemonic.equals(nmnemonic)) {
+                return type;
+            }
+        }
+        throw new IllegalArgumentException("Unknown column function: " + nmnemonic);
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
new file mode 100644
index 00000000..d83096d8
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
@@ -0,0 +1,110 @@
+package nu.marginalia.slop.desc;
+
+import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.column.array.*;
+import nu.marginalia.slop.column.dynamic.*;
+import nu.marginalia.slop.column.primitive.*;
+import nu.marginalia.slop.column.string.EnumColumn;
+import nu.marginalia.slop.column.string.StringColumn;
+import nu.marginalia.slop.column.string.StringColumnReader;
+import nu.marginalia.slop.column.string.StringColumnWriter;
+
+import java.io.IOException;
+import java.nio.ByteOrder;
+import java.nio.file.Path;
+import java.util.HashMap;
+import java.util.Map;
+import java.util.Objects;
+
+public abstract class ColumnType<
+        R extends ColumnReader,
+        W extends ColumnWriter>
+{
+    private static Map<String, ColumnType<? extends ColumnReader,? extends ColumnWriter>> byMnemonic = new HashMap<>();
+
+    public abstract String mnemonic();
+    public abstract ByteOrder byteOrder();
+
+    abstract R open(Path path, ColumnDesc<R, W> desc) throws IOException;
+    abstract W register(Path path, ColumnDesc<R, W> desc) throws IOException;
+
+    public static ColumnType<? extends ColumnReader,? extends ColumnWriter> byMnemonic(String mnemonic) {
+        return byMnemonic.get(mnemonic);
+    }
+
+    public static ColumnType<ByteColumnReader, ByteColumnWriter> BYTE = register("s8", ByteOrder.nativeOrder(), ByteColumn::open, ByteColumn::create);
+    public static ColumnType<CharColumnReader, CharColumnWriter> CHAR_LE = register("u16le", ByteOrder.LITTLE_ENDIAN, CharColumn::open, CharColumn::create);
+    public static ColumnType<CharColumnReader, CharColumnWriter> CHAR_BE = register("u16be", ByteOrder.BIG_ENDIAN, CharColumn::open, CharColumn::create);
+    public static ColumnType<IntColumnReader, IntColumnWriter> INT_LE = register("s32le", ByteOrder.LITTLE_ENDIAN, IntColumn::open, IntColumn::create);
+    public static ColumnType<IntColumnReader, IntColumnWriter> INT_BE = register("s32be", ByteOrder.BIG_ENDIAN, IntColumn::open, IntColumn::create);
+    public static ColumnType<LongColumnReader, LongColumnWriter> LONG_LE = register("s64le", ByteOrder.LITTLE_ENDIAN, LongColumn::open, LongColumn::create);
+    public static ColumnType<LongColumnReader, LongColumnWriter> LONG_BE = register("s64be", ByteOrder.BIG_ENDIAN, LongColumn::open, LongColumn::create);
+    public static ColumnType<FloatColumnReader, FloatColumnWriter> FLOAT_LE = register("fp32le", ByteOrder.LITTLE_ENDIAN, FloatColumn::open, FloatColumn::create);
+    public static ColumnType<FloatColumnReader, FloatColumnWriter> FLOAT_BE = register("fp32be", ByteOrder.BIG_ENDIAN, FloatColumn::open, FloatColumn::create);
+    public static ColumnType<DoubleColumnReader, DoubleColumnWriter> DOUBLE_LE = register("fp64le", ByteOrder.LITTLE_ENDIAN, DoubleColumn::open, DoubleColumn::create);
+    public static ColumnType<DoubleColumnReader, DoubleColumnWriter> DOUBLE_BE = register("fp64be", ByteOrder.BIG_ENDIAN, DoubleColumn::open, DoubleColumn::create);
+    public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_LE = register("varintle", ByteOrder.LITTLE_ENDIAN, VarintColumn::open, VarintColumn::create);
+    public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_BE = register("varintbe", ByteOrder.BIG_ENDIAN, VarintColumn::open, VarintColumn::create);
+    public static ColumnType<CustomBinaryColumnReader, CustomBinaryColumnWriter> BYTE_ARRAY_CUSTOM = register("s8[]+custom", ByteOrder.nativeOrder(), CustomBinaryColumn::open, CustomBinaryColumn::create);
+    public static ColumnType<StringColumnReader, StringColumnWriter> STRING = register("s8[]+str", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
+    public static ColumnType<StringColumnReader, StringColumnWriter> CSTRING = register("s8+cstr", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
+    public static ColumnType<StringColumnReader, StringColumnWriter> TXTSTRING = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
+    public static ColumnType<StringColumnReader, StringColumnWriter> ENUM_LE = register("varintle+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open, EnumColumn::create);
+    public static ColumnType<StringColumnReader, StringColumnWriter> ENUM_BE = register("varintbe+enum", ByteOrder.BIG_ENDIAN, EnumColumn::open, EnumColumn::create);
+    public static ColumnType<ByteArrayColumnReader, ByteArrayColumnWriter> BYTE_ARRAY = register("s8[]", ByteOrder.nativeOrder(), ByteArrayColumn::open, ByteArrayColumn::create);
+    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_LE = register("s32le[]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
+    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_BE = register("s32be[]", ByteOrder.BIG_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
+    public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_LE = register("s64le[]", ByteOrder.LITTLE_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
+    public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_BE = register("s64be[]", ByteOrder.BIG_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
+
+    interface ColumnOpener<T extends ColumnReader> {
+        T open(Path path, ColumnDesc desc) throws IOException;
+    }
+    interface ColumnCreator<T extends ColumnWriter> {
+        T create(Path path, ColumnDesc desc) throws IOException;
+    }
+
+    private static <R extends ColumnReader,
+        W extends ColumnWriter,
+        T extends ColumnType<R,W>> ColumnType<R, W> register(
+                String mnemonic,
+                ByteOrder byteOrder,
+                ColumnOpener<R> readerCons,
+                ColumnCreator<W> writerCons) {
+
+        var ins = new ColumnType<R, W>() {
+            @Override
+            public String mnemonic() {
+                return mnemonic;
+            }
+
+            public ByteOrder byteOrder() {
+                return byteOrder;
+            }
+
+            @Override
+            public R open(Path path, ColumnDesc<R, W> desc) throws IOException {
+                return readerCons.open(path, desc);
+            }
+
+            @Override
+            public W register(Path path, ColumnDesc<R, W> desc) throws IOException {
+                return writerCons.create(path, desc);
+            }
+        };
+
+        byMnemonic.put(mnemonic, ins);
+        return ins;
+    }
+
+    public int hashCode() {
+        return mnemonic().hashCode();
+    }
+    public boolean equals(Object o) {
+        return o instanceof ColumnType ct &&  Objects.equals(ct.mnemonic(), mnemonic());
+    }
+    public String toString() {
+        return mnemonic();
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java
new file mode 100644
index 00000000..9b759aef
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java
@@ -0,0 +1,28 @@
+package nu.marginalia.slop.desc;
+
+/** The type of storage used for a column. */
+public enum StorageType {
+
+    /** The column is stored as an uncompressed binary file. */
+    PLAIN("bin"),
+    /** The column is stored as a compressed binary file using the GZIP algorithm. */
+    GZIP("gz"),
+    /** The column is stored as a compressed binary file using the ZSTD algorithm. */
+    ZSTD("zstd"),
+    ;
+
+    public String nmnemonic;
+
+    StorageType(String nmnemonic) {
+        this.nmnemonic = nmnemonic;
+    }
+
+    public static StorageType fromString(String nmnemonic) {
+        for (StorageType type : values()) {
+            if (type.nmnemonic.equals(nmnemonic)) {
+                return type;
+            }
+        }
+        throw new IllegalArgumentException("Unknown storage type: " + nmnemonic);
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
new file mode 100644
index 00000000..df093a32
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
@@ -0,0 +1,230 @@
+package nu.marginalia.slop.storage;
+
+import nu.marginalia.slop.desc.StorageType;
+import org.apache.commons.compress.compressors.zstandard.ZstdCompressorInputStream;
+
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.UnsupportedEncodingException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+import java.util.zip.GZIPInputStream;
+
+public class CompressingStorageReader implements StorageReader {
+    private final byte[] arrayBuffer;
+
+    private long position = 0;
+
+    private final InputStream is;
+    private final ByteBuffer buffer;
+
+    public CompressingStorageReader(Path path, StorageType storageType, ByteOrder order, int bufferSize) throws IOException {
+        is = switch (storageType) {
+            case GZIP -> new GZIPInputStream(Files.newInputStream(path, StandardOpenOption.READ));
+            case ZSTD -> new ZstdCompressorInputStream(Files.newInputStream(path, StandardOpenOption.READ));
+            default -> throw new UnsupportedEncodingException("Unsupported storage type: " + storageType);
+        };
+
+        this.arrayBuffer = new byte[bufferSize];
+        this.buffer = ByteBuffer.wrap(arrayBuffer).order(order);
+
+        buffer.position(0);
+        buffer.limit(0);
+    }
+
+    @Override
+    public byte getByte() throws IOException {
+        if (buffer.remaining() < Byte.BYTES) {
+            refill();
+        }
+
+        return buffer.get();
+    }
+
+    @Override
+    public short getShort() throws IOException {
+        if (buffer.remaining() < Short.BYTES) {
+            refill();
+        }
+
+        return buffer.getShort();
+    }
+
+    @Override
+    public char getChar() throws IOException {
+        if (buffer.remaining() < Character.BYTES) {
+            refill();
+        }
+
+        return buffer.getChar();
+    }
+
+    @Override
+    public int getInt() throws IOException {
+        if (buffer.remaining() < Integer.BYTES) {
+            refill();
+        }
+
+        return buffer.getInt();
+    }
+
+    @Override
+    public long getLong() throws IOException {
+        if (buffer.remaining() < Long.BYTES) {
+            refill();
+        }
+
+        return buffer.getLong();
+    }
+
+    @Override
+    public float getFloat() throws IOException {
+        if (buffer.remaining() < Float.BYTES) {
+            refill();
+        }
+
+        return buffer.getFloat();
+    }
+
+    @Override
+    public double getDouble() throws IOException {
+        if (buffer.remaining() < Double.BYTES) {
+            refill();
+        }
+
+        return buffer.getDouble();
+    }
+
+    @Override
+    public void getBytes(byte[] bytes) throws IOException {
+        getBytes(bytes, 0, bytes.length);
+    }
+
+    @Override
+    public void getBytes(byte[] bytes, int offset, int length) throws IOException {
+        if (buffer.remaining() >= length) {
+            buffer.get(bytes, offset, length);
+        } else {
+            int totalToRead = length;
+
+            while (totalToRead > 0) {
+                if (!buffer.hasRemaining()) {
+                    refill();
+                }
+
+                int toRead = Math.min(buffer.remaining(), totalToRead);
+                buffer.get(bytes, offset + length - totalToRead, toRead);
+                totalToRead -= toRead;
+            }
+        }
+    }
+
+    @Override
+    public void getBytes(ByteBuffer data) throws IOException {
+        if (data.remaining() < buffer.remaining()) {
+            int lim = buffer.limit();
+            buffer.limit(buffer.position() + data.remaining());
+            data.put(buffer);
+            buffer.limit(lim);
+        } else {
+            while (data.hasRemaining()) {
+                if (!buffer.hasRemaining()) {
+                    refill();
+                }
+
+                int lim = buffer.limit();
+                buffer.limit(Math.min(buffer.position() + data.remaining(), lim));
+                data.put(buffer);
+                buffer.limit(lim);
+            }
+        }
+    }
+
+    public void getInts(int[] ints) throws IOException {
+        if (buffer.remaining() >= ints.length * Integer.BYTES) {
+            // fast path: if we can read all the ints from the buffer and don't need to check for buffer boundaries
+            for (int i = 0; i < ints.length; i++) {
+                ints[i] = buffer.getInt();
+            }
+        }
+        else {
+            for (int i = 0; i < ints.length; i++) {
+                ints[i] = getInt();
+            }
+        }
+    }
+
+    public void getLongs(long[] longs) throws IOException {
+        if (buffer.remaining() >= longs.length * Long.BYTES) {
+            // fast path: if we can read all the longs from the buffer and don't need to check for buffer boundaries
+            for (int i = 0; i < longs.length; i++) {
+                longs[i] = buffer.getLong();
+            }
+        }
+        else {
+            for (int i = 0; i < longs.length; i++) {
+                longs[i] = getLong();
+            }
+        }
+    }
+
+    @Override
+    public void skip(long bytes, int stepSize) throws IOException {
+        long toSkip = bytes * stepSize;
+
+        if (buffer.remaining() < toSkip) {
+            toSkip -= buffer.remaining();
+
+            while (toSkip > 0) {
+                long rb = is.skip(toSkip);
+                toSkip -= rb;
+                position += rb;
+            }
+
+            buffer.position(0);
+            buffer.limit(0);
+        } else {
+            buffer.position(buffer.position() + (int) toSkip);
+        }
+    }
+
+    @Override
+    public void seek(long position, int stepSize) throws IOException {
+        throw new UnsupportedEncodingException("Seek not supported in GzipStorageReader");
+    }
+
+    private void refill() throws IOException {
+        buffer.compact();
+
+        while (buffer.hasRemaining()) {
+            int rb = is.read(arrayBuffer, buffer.position(), buffer.remaining());
+            if (rb < 0) {
+                break;
+            }
+            else {
+                position += rb;
+                buffer.position(buffer.position() + rb);
+            }
+        }
+
+        buffer.flip();
+    }
+
+    @Override
+    public long position() throws IOException {
+        return position - buffer.remaining();
+    }
+
+    @Override
+    public boolean hasRemaining() throws IOException {
+        return buffer.hasRemaining() || is.available() > 0;
+    }
+
+    @Override
+    public void close() throws IOException {
+        is.close();
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java
new file mode 100644
index 00000000..729498b5
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java
@@ -0,0 +1,210 @@
+package nu.marginalia.slop.storage;
+
+import nu.marginalia.slop.desc.StorageType;
+import org.apache.commons.compress.compressors.zstandard.ZstdCompressorOutputStream;
+
+import java.io.IOException;
+import java.io.OutputStream;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardCopyOption;
+import java.nio.file.StandardOpenOption;
+import java.util.zip.GZIPOutputStream;
+
+public class CompressingStorageWriter implements StorageWriter, AutoCloseable {
+    private final ByteBuffer buffer;
+    private final OutputStream os;
+    private byte[] arrayBuffer;
+
+    private long position = 0;
+
+    private final Path tempPath;
+    private final Path destPath;
+
+    public CompressingStorageWriter(Path path, StorageType storageType, ByteOrder order, int bufferSize) throws IOException {
+        tempPath = path.resolveSibling(path.getFileName() + ".tmp");
+        destPath = path;
+
+        os = switch (storageType) {
+            case GZIP -> new GZIPOutputStream(Files.newOutputStream(tempPath, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING, StandardOpenOption.WRITE));
+            case ZSTD -> new ZstdCompressorOutputStream(Files.newOutputStream(tempPath, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING, StandardOpenOption.WRITE));
+            default -> throw new IllegalArgumentException("Unsupported storage type: " + storageType);
+        };
+
+        arrayBuffer = new byte[bufferSize];
+        this.buffer = ByteBuffer.wrap(arrayBuffer).order(order);
+    }
+
+    @Override
+    public void putByte(byte b) throws IOException {
+        if (buffer.remaining() < Byte.BYTES) {
+            flush();
+        }
+
+        buffer.put(b);
+    }
+
+    @Override
+    public void putShort(short s) throws IOException {
+        if (buffer.remaining() < Short.BYTES) {
+            flush();
+        }
+
+        buffer.putShort(s);
+    }
+
+    @Override
+    public void putChar(char s) throws IOException {
+        if (buffer.remaining() < Character.BYTES) {
+            flush();
+        }
+
+        buffer.putChar(s);
+    }
+
+    @Override
+    public void putInt(int i) throws IOException {
+        if (buffer.remaining() < Integer.BYTES) {
+            flush();
+        }
+
+        buffer.putInt(i);
+    }
+
+    @Override
+    public void putLong(long l) throws IOException {
+        if (buffer.remaining() < Long.BYTES) {
+            flush();
+        }
+
+        buffer.putLong(l);
+    }
+
+    @Override
+    public void putInts(int[] values) throws IOException {
+        if (buffer.remaining() >= Integer.BYTES * values.length) {
+            for (int value : values) {
+                buffer.putInt(value);
+            }
+        }
+        else {
+            for (int value : values) {
+                putInt(value);
+            }
+        }
+    }
+
+    @Override
+    public void putLongs(long[] values) throws IOException {
+        if (buffer.remaining() >= Long.BYTES * values.length) {
+            for (long value : values) {
+                buffer.putLong(value);
+            }
+        }
+        else {
+            for (long value : values) {
+                putLong(value);
+            }
+        }
+    }
+
+    @Override
+    public void putBytes(byte[] bytes) throws IOException {
+        putBytes(bytes, 0, bytes.length);
+    }
+
+    @Override
+    public void putBytes(byte[] bytes, int offset, int length) throws IOException {
+        int totalToWrite = length;
+
+        if (totalToWrite < buffer.remaining()) {
+            buffer.put(bytes, offset, totalToWrite);
+        }
+        else { // case where the data is larger than the write buffer, so we need to write in chunks
+            while (totalToWrite > 0) {
+                if (!buffer.hasRemaining()) {
+                    flush();
+                }
+
+                // Write as much as possible to the buffer
+                int toWriteNow = Math.min(totalToWrite, buffer.remaining());
+                buffer.put(bytes, offset, toWriteNow);
+
+                // Update the remaining bytes and offset
+                totalToWrite -= toWriteNow;
+                offset += toWriteNow;
+            }
+        }
+    }
+
+    @Override
+    public void putBytes(ByteBuffer data) throws IOException {
+        if (data.remaining() < buffer.remaining()) {
+            buffer.put(data);
+        }
+        else { // case where the data is larger than the write buffer, so we need to write in chunks
+            while (data.hasRemaining()) {
+                if (!buffer.hasRemaining()) {
+                    flush();
+                }
+
+                // temporarily reduce the data buffer's limit to what's possible to write to the writer's buffer
+                int lim = data.limit();
+                data.limit(Math.min(data.position() + buffer.remaining(), lim));
+
+                // write the data to the buffer
+                buffer.put(data);
+
+                // restore the limit, so we can write the rest of the data
+                data.limit(lim);
+            }
+        }
+    }
+
+    @Override
+    public void putFloat(float f) throws IOException {
+        if (buffer.remaining() < Float.BYTES) {
+            flush();
+        }
+
+        buffer.putFloat(f);
+    }
+
+    @Override
+    public void putDouble(double d) throws IOException {
+        if (buffer.remaining() < Double.BYTES) {
+            flush();
+        }
+
+        buffer.putDouble(d);
+    }
+
+    private void flush() throws IOException {
+        buffer.flip();
+
+        int rem = buffer.remaining();
+        if (rem > 0) {
+            os.write(buffer.array(), buffer.position(), buffer.remaining());
+            buffer.limit(0);
+            position += rem;
+        }
+
+        buffer.clear();
+    }
+
+    public long position() throws IOException {
+        return position + buffer.position();
+    }
+
+    @Override
+    public void close() throws IOException {
+        flush();
+
+        os.flush();
+        os.close();
+
+        Files.move(tempPath, destPath, StandardCopyOption.REPLACE_EXISTING);
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
new file mode 100644
index 00000000..8b460e14
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
@@ -0,0 +1,149 @@
+package nu.marginalia.slop.storage;
+
+import java.io.IOException;
+import java.lang.foreign.Arena;
+import java.lang.foreign.MemorySegment;
+import java.lang.foreign.ValueLayout;
+import java.nio.ByteBuffer;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+@SuppressWarnings("preview") // for MemorySegment
+public class MmapStorageReader implements StorageReader {
+    private final MemorySegment segment;
+    private final Arena arena;
+
+    private long position = 0;
+
+    public MmapStorageReader(Path path) throws IOException {
+        arena = Arena.ofConfined();
+
+        try (var channel = (FileChannel) Files.newByteChannel(path, StandardOpenOption.READ)) {
+            this.segment = channel.map(FileChannel.MapMode.READ_ONLY, 0, channel.size(), arena);
+        }
+
+        position = 0;
+    }
+
+    @Override
+    public byte getByte() throws IOException {
+        return segment.get(ValueLayout.JAVA_BYTE, position++);
+    }
+
+    @Override
+    public short getShort() throws IOException {
+        short ret = segment.get(ValueLayout.JAVA_SHORT, position);
+        position += Short.BYTES;
+        return ret;
+
+    }
+
+    @Override
+    public char getChar() throws IOException {
+        char ret = segment.get(ValueLayout.JAVA_CHAR, position);
+        position += Character.BYTES;
+        return ret;
+    }
+
+    @Override
+    public int getInt() throws IOException {
+        int ret = segment.get(ValueLayout.JAVA_INT, position);
+        position += Integer.BYTES;
+        return ret;
+    }
+
+    @Override
+    public long getLong() throws IOException {
+        long ret = segment.get(ValueLayout.JAVA_LONG, position);
+        position += Long.BYTES;
+        return ret;
+    }
+
+    @Override
+    public float getFloat() throws IOException {
+        float ret = segment.get(ValueLayout.JAVA_FLOAT, position);
+        position += Float.BYTES;
+        return ret;
+    }
+
+    @Override
+    public double getDouble() throws IOException {
+        double ret = segment.get(ValueLayout.JAVA_DOUBLE, position);
+        position += Double.BYTES;
+        return ret;
+    }
+
+    @Override
+    public void getBytes(byte[] bytes) throws IOException {
+        if (position + bytes.length > segment.byteSize()) {
+            throw new ArrayIndexOutOfBoundsException();
+        }
+        for (int i = 0; i < bytes.length; i++) {
+            bytes[i] = segment.get(ValueLayout.JAVA_BYTE, position+i);
+        }
+        position += bytes.length;
+    }
+
+    @Override
+    public void getBytes(byte[] bytes, int offset, int length) throws IOException {
+        if (position + length > segment.byteSize()) {
+            throw new ArrayIndexOutOfBoundsException();
+        }
+        for (int i = 0; i < length; i++) {
+            bytes[offset + i] = segment.get(ValueLayout.JAVA_BYTE, position+i);
+        }
+        position += length;
+    }
+
+    @Override
+    public void getBytes(ByteBuffer buffer) throws IOException {
+        int toRead = buffer.remaining();
+        if (position + toRead > segment.byteSize()) {
+            throw new ArrayIndexOutOfBoundsException();
+        }
+
+        buffer.put(segment.asSlice(position, toRead).asByteBuffer());
+        position += toRead;
+    }
+
+    public void getInts(int[] ret) {
+        for (int i = 0; i < ret.length; i++) {
+            ret[i] = segment.get(ValueLayout.JAVA_INT, position);
+            position += Integer.BYTES;
+        }
+    }
+
+    public void getLongs(long[] ret) {
+        for (int i = 0; i < ret.length; i++) {
+            ret[i] = segment.get(ValueLayout.JAVA_LONG, position);
+            position += Long.BYTES;
+        }
+    }
+
+    @Override
+    public void skip(long bytes, int stepSize) throws IOException {
+        position += bytes * stepSize;
+    }
+
+    @Override
+    public void seek(long position, int stepSize) throws IOException {
+        this.position = position * stepSize;
+    }
+
+    @Override
+    public long position() throws IOException {
+        return position;
+    }
+
+    @Override
+    public boolean hasRemaining() throws IOException {
+        return position < segment.byteSize();
+    }
+
+    @Override
+    public void close() throws IOException {
+        arena.close();
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java
new file mode 100644
index 00000000..4f12eea4
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java
@@ -0,0 +1,215 @@
+package nu.marginalia.slop.storage;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+public class SimpleStorageReader implements StorageReader {
+    private final ByteBuffer buffer;
+    private final FileChannel channel;
+
+    public SimpleStorageReader(Path path, ByteOrder order, int bufferSize) throws IOException {
+        channel = (FileChannel) Files.newByteChannel(path, StandardOpenOption.READ);
+
+        this.buffer = ByteBuffer.allocateDirect(bufferSize).order(order);
+
+        buffer.position(0);
+        buffer.limit(0);
+    }
+
+    @Override
+    public byte getByte() throws IOException {
+        if (buffer.remaining() < Byte.BYTES) {
+            refill();
+        }
+
+        return buffer.get();
+    }
+
+    @Override
+    public short getShort() throws IOException {
+        if (buffer.remaining() < Short.BYTES) {
+            refill();
+        }
+
+        return buffer.getShort();
+    }
+
+    @Override
+    public char getChar() throws IOException {
+        if (buffer.remaining() < Character.BYTES) {
+            refill();
+        }
+
+        return buffer.getChar();
+    }
+
+    @Override
+    public int getInt() throws IOException {
+        if (buffer.remaining() < Integer.BYTES) {
+            refill();
+        }
+
+        return buffer.getInt();
+    }
+
+    @Override
+    public long getLong() throws IOException {
+        if (buffer.remaining() < Long.BYTES) {
+            refill();
+        }
+
+        return buffer.getLong();
+    }
+
+    @Override
+    public float getFloat() throws IOException {
+        if (buffer.remaining() < Float.BYTES) {
+            refill();
+        }
+
+        return buffer.getFloat();
+    }
+
+    @Override
+    public double getDouble() throws IOException {
+        if (buffer.remaining() < Double.BYTES) {
+            refill();
+        }
+
+        return buffer.getDouble();
+    }
+
+    @Override
+    public void getBytes(byte[] bytes) throws IOException {
+        getBytes(bytes, 0, bytes.length);
+    }
+
+    @Override
+    public void getBytes(byte[] bytes, int offset, int length) throws IOException {
+        if (buffer.remaining() >= length) {
+            buffer.get(bytes, offset, length);
+        } else {
+            int totalToRead = length;
+
+            while (totalToRead > 0) {
+                if (!buffer.hasRemaining()) {
+                    refill();
+                }
+
+                int toRead = Math.min(buffer.remaining(), totalToRead);
+                buffer.get(bytes, offset + length - totalToRead, toRead);
+                totalToRead -= toRead;
+            }
+        }
+    }
+
+    @Override
+    public void getBytes(ByteBuffer data) throws IOException {
+        if (data.remaining() < buffer.remaining()) {
+            int lim = buffer.limit();
+            buffer.limit(buffer.position() + data.remaining());
+            data.put(buffer);
+            buffer.limit(lim);
+        } else {
+            while (data.hasRemaining()) {
+                if (!buffer.hasRemaining()) {
+                    refill();
+                }
+
+                int lim = buffer.limit();
+                buffer.limit(Math.min(buffer.position() + data.remaining(), lim));
+                data.put(buffer);
+                buffer.limit(lim);
+            }
+        }
+    }
+
+    public void getInts(int[] ints) throws IOException {
+        if (buffer.remaining() >= ints.length * Integer.BYTES) {
+            // fast path: if we can read all the ints from the buffer and don't need to check for buffer boundaries
+            for (int i = 0; i < ints.length; i++) {
+                ints[i] = buffer.getInt();
+            }
+        }
+        else {
+            for (int i = 0; i < ints.length; i++) {
+                ints[i] = getInt();
+            }
+        }
+    }
+
+    public void getLongs(long[] longs) throws IOException {
+        if (buffer.remaining() >= longs.length * Long.BYTES) {
+            // fast path: if we can read all the longs from the buffer and don't need to check for buffer boundaries
+            for (int i = 0; i < longs.length; i++) {
+                longs[i] = buffer.getLong();
+            }
+        }
+        else {
+            for (int i = 0; i < longs.length; i++) {
+                longs[i] = getLong();
+            }
+        }
+    }
+
+    @Override
+    public void skip(long bytes, int stepSize) throws IOException {
+        long toSkip = bytes * stepSize;
+
+        if (buffer.remaining() < toSkip) {
+            channel.position(channel.position() - buffer.remaining() + toSkip);
+            buffer.position(0);
+            buffer.limit(0);
+        } else {
+            buffer.position(buffer.position() + (int) toSkip);
+        }
+    }
+
+    @Override
+    public void seek(long position, int stepSize) throws IOException {
+        position *= stepSize;
+
+        if (position > channel.position() - buffer.limit() && position < channel.position()) {
+            // If the position is within the buffer, we can just move the buffer position to the correct spot
+            buffer.position((int) (position - channel.position() + buffer.limit()));
+        }
+        else {
+            // Otherwise, we need to move the channel position and invalidate the buffer
+            channel.position(position);
+            buffer.position(0);
+            buffer.limit(0);
+        }
+    }
+
+    private void refill() throws IOException {
+        buffer.compact();
+
+        while (buffer.hasRemaining()) {
+            if (channel.read(buffer) == -1) {
+                break;
+            }
+        }
+
+        buffer.flip();
+    }
+
+    @Override
+    public long position() throws IOException {
+        return channel.position() - buffer.remaining();
+    }
+
+    @Override
+    public boolean hasRemaining() throws IOException {
+        return buffer.hasRemaining() || channel.position() < channel.size();
+    }
+
+    @Override
+    public void close() throws IOException {
+        channel.close();
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java b/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java
new file mode 100644
index 00000000..ead9457f
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java
@@ -0,0 +1,199 @@
+package nu.marginalia.slop.storage;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardCopyOption;
+import java.nio.file.StandardOpenOption;
+
+public class SimpleStorageWriter implements StorageWriter, AutoCloseable {
+    private final ByteBuffer buffer;
+    private final FileChannel channel;
+
+    private final Path tempPath;
+    private final Path destPath;
+
+    public SimpleStorageWriter(Path path, ByteOrder order, int bufferSize) throws IOException {
+        tempPath = path.resolveSibling(path.getFileName() + ".tmp");
+        destPath = path;
+
+        channel = (FileChannel) Files.newByteChannel(tempPath,
+                StandardOpenOption.CREATE,
+                StandardOpenOption.TRUNCATE_EXISTING,
+                StandardOpenOption.WRITE
+        );
+
+        this.buffer = ByteBuffer.allocate(bufferSize).order(order);
+    }
+
+    @Override
+    public void putByte(byte b) throws IOException {
+        if (buffer.remaining() < Byte.BYTES) {
+            flush();
+        }
+
+        buffer.put(b);
+    }
+
+    @Override
+    public void putShort(short s) throws IOException {
+        if (buffer.remaining() < Short.BYTES) {
+            flush();
+        }
+
+        buffer.putShort(s);
+    }
+
+    @Override
+    public void putChar(char s) throws IOException {
+        if (buffer.remaining() < Character.BYTES) {
+            flush();
+        }
+
+        buffer.putChar(s);
+    }
+
+    @Override
+    public void putInt(int i) throws IOException {
+        if (buffer.remaining() < Integer.BYTES) {
+            flush();
+        }
+
+        buffer.putInt(i);
+    }
+
+    @Override
+    public void putLong(long l) throws IOException {
+        if (buffer.remaining() < Long.BYTES) {
+            flush();
+        }
+
+        buffer.putLong(l);
+    }
+
+    @Override
+    public void putInts(int[] values) throws IOException {
+        if (buffer.remaining() >= Integer.BYTES * values.length) {
+            for (int value : values) {
+                buffer.putInt(value);
+            }
+        }
+        else {
+            for (int value : values) {
+                putInt(value);
+            }
+        }
+    }
+
+    @Override
+    public void putLongs(long[] values) throws IOException {
+        if (buffer.remaining() >= Long.BYTES * values.length) {
+            for (long value : values) {
+                buffer.putLong(value);
+            }
+        }
+        else {
+            for (long value : values) {
+                putLong(value);
+            }
+        }
+    }
+
+    @Override
+    public void putBytes(byte[] bytes) throws IOException {
+        putBytes(bytes, 0, bytes.length);
+    }
+
+    @Override
+    public void putBytes(byte[] bytes, int offset, int length) throws IOException {
+        int totalToWrite = length;
+
+        if (totalToWrite < buffer.remaining()) {
+            buffer.put(bytes, offset, totalToWrite);
+        }
+        else { // case where the data is larger than the write buffer, so we need to write in chunks
+            while (totalToWrite > 0) {
+                if (!buffer.hasRemaining()) {
+                    flush();
+                }
+
+                // Write as much as possible to the buffer
+                int toWriteNow = Math.min(totalToWrite, buffer.remaining());
+                buffer.put(bytes, offset, toWriteNow);
+
+                // Update the remaining bytes and offset
+                totalToWrite -= toWriteNow;
+                offset += toWriteNow;
+            }
+        }
+    }
+
+    @Override
+    public void putBytes(ByteBuffer data) throws IOException {
+        if (data.remaining() < buffer.remaining()) {
+            buffer.put(data);
+        }
+        else { // case where the data is larger than the write buffer, so we need to write in chunks
+            while (data.hasRemaining()) {
+                if (!buffer.hasRemaining()) {
+                    flush();
+                }
+
+                // temporarily reduce the data buffer's limit to what's possible to write to the writer's buffer
+                int lim = data.limit();
+                data.limit(Math.min(data.position() + buffer.remaining(), lim));
+
+                // write the data to the buffer
+                buffer.put(data);
+
+                // restore the limit, so we can write the rest of the data
+                data.limit(lim);
+            }
+        }
+    }
+
+    @Override
+    public void putFloat(float f) throws IOException {
+        if (buffer.remaining() < Float.BYTES) {
+            flush();
+        }
+
+        buffer.putFloat(f);
+    }
+
+    @Override
+    public void putDouble(double d) throws IOException {
+        if (buffer.remaining() < Double.BYTES) {
+            flush();
+        }
+
+        buffer.putDouble(d);
+    }
+
+    private void flush() throws IOException {
+        buffer.flip();
+
+        while (buffer.hasRemaining()) {
+            channel.write(buffer);
+        }
+
+        buffer.clear();
+    }
+
+    public long position() throws IOException {
+        return channel.position() + buffer.position();
+    }
+
+    @Override
+    public void close() throws IOException {
+        flush();
+
+        channel.force(false);
+        channel.close();
+
+        Files.move(tempPath, destPath, StandardCopyOption.REPLACE_EXISTING);
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java b/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
new file mode 100644
index 00000000..08de6027
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
@@ -0,0 +1,61 @@
+package nu.marginalia.slop.storage;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.ByteOrder;
+import java.nio.file.Path;
+
+public interface Storage {
+
+    /** Create a reader for the given column.
+     *
+     * @param path the directory containing the column data
+     * @param columnDesc the column descriptor
+     * @param aligned whether the data is aligned to the storage type, which can be used to optimize reading
+     * */
+    static StorageReader reader(Path path, ColumnDesc columnDesc, boolean aligned) throws IOException {
+        ByteOrder byteOrder = columnDesc.byteOrder();
+        StorageType storageType = columnDesc.storageType();
+
+        Path filePath = path.resolve(columnDesc.toString());
+
+        if (aligned && byteOrder.equals(ByteOrder.LITTLE_ENDIAN) && storageType.equals(StorageType.PLAIN)) {
+            // mmap is only supported for little-endian plain storage, but it's generally worth it in this case
+            return new MmapStorageReader(filePath);
+        } else {
+            final int bufferSize = switch(columnDesc.function()) {
+                case DATA -> 4096;
+                case DATA_LEN, DICT, DICT_LEN -> 1024;
+            };
+
+            return switch (storageType) {
+                case PLAIN -> new SimpleStorageReader(filePath, byteOrder, bufferSize);
+                case GZIP, ZSTD -> new CompressingStorageReader(filePath, storageType, byteOrder, bufferSize);
+            };
+        }
+    }
+
+    /** Create a writer for the given column.
+     *
+     * @param path the directory containing the column data
+     * @param columnDesc the column descriptor
+     * */
+    static StorageWriter writer(Path path, ColumnDesc columnDesc) throws IOException {
+        ByteOrder byteOrder = columnDesc.byteOrder();
+        StorageType storageType = columnDesc.storageType();
+
+        Path filePath = path.resolve(columnDesc.toString());
+
+        final int bufferSize = switch(columnDesc.function()) {
+            case DATA -> 4096;
+            case DATA_LEN, DICT, DICT_LEN -> 1024;
+        };
+
+        return switch (storageType) {
+            case PLAIN -> new SimpleStorageWriter(filePath, byteOrder, bufferSize);
+            case GZIP, ZSTD -> new CompressingStorageWriter(filePath, storageType, byteOrder, bufferSize);
+        };
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java
new file mode 100644
index 00000000..d6d10fdc
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java
@@ -0,0 +1,50 @@
+package nu.marginalia.slop.storage;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+
+public interface StorageReader extends AutoCloseable {
+    byte getByte() throws IOException;
+    short getShort() throws IOException;
+    char getChar() throws IOException;
+    int getInt() throws IOException;
+    long getLong() throws IOException;
+    float getFloat() throws IOException;
+    double getDouble() throws IOException;
+
+    void getBytes(byte[] bytes) throws IOException;
+    void getBytes(byte[] bytes, int offset, int length) throws IOException;
+    void getBytes(ByteBuffer buffer) throws IOException;
+
+    void getInts(int[] ints) throws IOException;
+    void getLongs(long[] longs) throws IOException;
+
+    default void getChars(char[] chars) throws IOException {
+        for (int i = 0; i < chars.length; i++) {
+            chars[i] = getChar();
+        }
+    }
+    default void getShorts(short[] shorts) throws IOException {
+        for (int i = 0; i < shorts.length; i++) {
+            shorts[i] = getShort();
+        }
+    }
+    default void getFloats(float[] floats) throws IOException {
+        for (int i = 0; i < floats.length; i++) {
+            floats[i] = getFloat();
+        }
+    }
+    default void getDoubles(double[] doubles) throws IOException {
+        for (int i = 0; i < doubles.length; i++) {
+            doubles[i] = getDouble();
+        }
+    }
+
+    void skip(long bytes, int stepSize) throws IOException;
+    void seek(long position, int stepSize) throws IOException;
+    long position() throws IOException;
+    boolean hasRemaining() throws IOException;
+
+    @Override
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java b/code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java
new file mode 100644
index 00000000..c8fe186d
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java
@@ -0,0 +1,50 @@
+package nu.marginalia.slop.storage;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+
+/** Interface for writing data to a storage. */
+public interface StorageWriter extends AutoCloseable {
+    void putByte(byte b) throws IOException;
+    void putShort(short s) throws IOException;
+    void putChar(char c) throws IOException;
+    void putInt(int i) throws IOException;
+    void putLong(long l) throws IOException;
+
+    void putFloat(float f) throws IOException;
+    void putDouble(double d) throws IOException;
+
+    void putBytes(byte[] bytes) throws IOException;
+    void putBytes(byte[] bytes, int offset, int length) throws IOException;
+    void putBytes(ByteBuffer buffer) throws IOException;
+
+    // Bulk operations, these can be more efficient than the single value operations
+    // if they are implemented in a way that minimizes the of bounds checks and other overhead
+
+    void putInts(int[] bytes) throws IOException;
+    void putLongs(long[] bytes) throws IOException;
+
+    default void putChars(char[] chars) throws IOException {
+        for (char c : chars) {
+            putChar(c);
+        }
+    }
+    default void putShorts(short[] shorts) throws IOException {
+        for (short s : shorts) {
+            putShort(s);
+        }
+    }
+    default void putFloats(float[] floats) throws IOException {
+        for (float f : floats) {
+            putFloat(f);
+        }
+    }
+    default void putDoubles(double[] doubles) throws IOException {
+        for (double d : doubles) {
+            putDouble(d);
+        }
+    }
+
+    long position() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java
new file mode 100644
index 00000000..2b44460a
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java
@@ -0,0 +1,78 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.column.array.IntArrayColumn;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.assertArrayEquals;
+
+class ArrayColumnTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    @Test
+    void test() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_ARRAY_LE,
+                StorageType.PLAIN
+        );
+
+
+        try (var column = IntArrayColumn.create(tempDir, name)) {
+            column.put(new int[] { 11, 22, 33});
+            column.put(new int[] { 2 });
+            column.put(new int[] { 444 });
+        }
+        try (var column = IntArrayColumn.open(tempDir, name)) {
+            assertArrayEquals(new int[] { 11, 22, 33}, column.get());
+            assertArrayEquals(new int[] { 2 }, column.get());
+            assertArrayEquals(new int[] { 444 }, column.get());
+        }
+    }
+
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java
new file mode 100644
index 00000000..f4d98359
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java
@@ -0,0 +1,57 @@
+package nu.marginalia.slop.column;
+
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+class CodedSequenceColumnTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    Path tempFile() {
+        try {
+            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java
new file mode 100644
index 00000000..ae21a691
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java
@@ -0,0 +1,93 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.column.string.EnumColumn;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+class EnumColumnTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    Path tempFile() {
+        try {
+            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    @Test
+    void test() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.ENUM_BE,
+                StorageType.PLAIN);
+
+        try (var column = EnumColumn.create(tempDir, name)) {
+            column.put("Foo");
+            column.put("Bar");
+            column.put("Baz");
+            column.put("Foo");
+            column.put("Foo");
+            column.put("Bar");
+            column.put("Baz");
+        }
+
+        try (var column = EnumColumn.open(tempDir, name)) {
+            assertEquals("Foo", column.get());
+            assertEquals("Bar", column.get());
+            assertEquals("Baz", column.get());
+            assertEquals("Foo", column.get());
+            assertEquals("Foo", column.get());
+            assertEquals("Bar", column.get());
+            assertEquals("Baz", column.get());
+        }
+    }
+
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
new file mode 100644
index 00000000..11c9a2c8
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
@@ -0,0 +1,182 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.column.primitive.IntColumn;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class IntColumnTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    @Test
+    void test() throws IOException {
+
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+        try (var column = IntColumn.create(tempDir, name)) {
+            column.put(42);
+            column.put(43);
+        }
+        try (var column = IntColumn.open(tempDir, name)) {
+            assertEquals(42, column.get());
+            assertEquals(43, column.get());
+        }
+    }
+
+
+    @Test
+    void testLarge() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+        try (var column = IntColumn.create(tempDir, name)) {
+            for (int i = 0; i < 64; i++) {
+                column.put(i);
+            }
+        }
+        try (var column = IntColumn.open(tempDir, name)) {
+            int i = 0;
+            while (column.hasRemaining()) {
+                assertEquals(i++, column.get());
+            }
+            assertEquals(64, i);
+        }
+    }
+
+    @Test
+    void testLargeBulk() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+
+        int[] values = new int[24];
+        for (int i = 0; i < values.length; i++) {
+            values[i] = i;
+        }
+        try (var column = IntColumn.create(tempDir, name)) {
+            column.put(values);
+            column.put(values);
+        }
+        try (var column = IntColumn.open(tempDir, name)) {
+            for (int i = 0; i < 2; i++) {
+                for (int j = 0; j < values.length; j++) {
+                    assertEquals(j, column.get());
+                }
+            }
+            assertFalse(column.hasRemaining());
+        }
+    }
+
+    @Test
+    void testSeek() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+
+        int[] values = new int[24];
+        for (int i = 0; i < values.length; i++) {
+            values[i] = i;
+        }
+        try (var column = IntColumn.create(tempDir, name)) {
+            column.put(values);
+            column.put(values);
+        }
+        try (var column = IntColumn.open(tempDir, name)) {
+            column.get();
+            column.seek(34);
+            assertEquals(10, column.get());
+
+            assertTrue(column.hasRemaining());
+        }
+    }
+    @Test
+    void testSkip() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+
+        int[] values = new int[24];
+        for (int i = 0; i < values.length; i++) {
+            values[i] = i;
+        }
+        try (var column = IntColumn.create(tempDir, name)) {
+            column.put(values);
+            column.put(values);
+        }
+        try (var column = IntColumn.open(tempDir, name)) {
+            column.get();
+            column.get();
+            column.skip(34);
+            assertEquals(12, column.get());
+
+            assertTrue(column.hasRemaining());
+        }
+    }
+
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
new file mode 100644
index 00000000..40669664
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
@@ -0,0 +1,102 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+class VarintColumnTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    @Test
+    void test() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.VARINT_LE,
+                StorageType.PLAIN);
+
+        try (var column = VarintColumn.create(tempDir, name)) {
+            column.put(42);
+            column.put(43);
+            column.put(65534);
+            column.put(1);
+            column.put(0);
+            column.put(6000000000L);
+            column.put(1);
+        }
+        try (var column = VarintColumn.open(tempDir, name)) {
+            assertEquals(42, column.get());
+            assertEquals(43, column.get());
+            assertEquals(65534, column.get());
+            assertEquals(1, column.get());
+            assertEquals(0, column.get());
+            assertEquals(6000000000L, column.get());
+            assertEquals(1, column.get());
+        }
+    }
+
+    @Test
+    void test22() throws IOException {
+        var name = new ColumnDesc("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.VARINT_LE,
+                StorageType.PLAIN);
+
+        try (var column = VarintColumn.create(tempDir, name)) {
+            column.put(2);
+            column.put(2);
+        }
+        try (var column = VarintColumn.open(tempDir, name)) {
+            assertEquals(2, column.get());
+            assertEquals(2, column.get());
+        }
+    }
+
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java b/code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java
new file mode 100644
index 00000000..ac0ded30
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java
@@ -0,0 +1,32 @@
+package nu.marginalia.slop.desc;
+
+import org.junit.jupiter.api.Test;
+
+import java.nio.ByteOrder;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+class ColumnDescTest {
+    @Test
+    void testParse() {
+        ColumnDesc name = ColumnDesc.parse("foo.0.dat.s32le.bin");
+        assertEquals("foo.0.dat.s32le.bin", name.toString());
+        assertEquals("foo", name.name());
+        assertEquals(0, name.page());
+        assertEquals(ByteOrder.LITTLE_ENDIAN, name.byteOrder());
+        assertEquals(ColumnFunction.DATA, name.function());
+        assertEquals(ColumnType.INT_LE, name.type());
+        assertEquals(StorageType.PLAIN, name.storageType());
+
+        name = ColumnDesc.parse("bar.1.dat-len.fp32be.gz");
+        assertEquals("bar.1.dat-len.fp32be.gz", name.toString());
+        assertEquals("bar", name.name());
+        assertEquals(1, name.page());
+        assertEquals(ByteOrder.BIG_ENDIAN, name.byteOrder());
+        assertEquals(ColumnFunction.DATA_LEN, name.function());
+        assertEquals(ColumnType.FLOAT_BE, name.type());
+        assertEquals(StorageType.GZIP, name.storageType());
+
+
+    }
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java b/code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java
new file mode 100644
index 00000000..36ff48e5
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java
@@ -0,0 +1,308 @@
+package nu.marginalia.slop.storage;
+
+import nu.marginalia.slop.desc.StorageType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class CompressingStorageWriterAndReaderTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    Path tempFile() {
+        try {
+            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    StorageWriter writer(Path path) {
+        try {
+            return new CompressingStorageWriter(path, StorageType.GZIP, ByteOrder.LITTLE_ENDIAN, 63);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    StorageReader reader(Path path) {
+        try {
+            return new CompressingStorageReader(path, StorageType.GZIP, ByteOrder.LITTLE_ENDIAN, 63);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+
+    @Test
+    void putByte() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, writer.position());
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertTrue(reader.hasRemaining());
+                assertEquals(i, reader.position());
+
+                assertEquals((byte) i, reader.getByte());
+            }
+            assertFalse(reader.hasRemaining());
+        }
+    }
+
+    @Test
+    void putByteSkipReader() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, writer.position());
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            assertEquals(0, reader.position());
+            assertEquals((byte) 0, reader.getByte());
+            assertEquals(1, reader.position());
+            assertEquals((byte) 1, reader.getByte());
+            reader.skip(64, 1);
+            assertEquals(66, reader.position());
+            assertEquals((byte) 66, reader.getByte());
+            assertEquals(67, reader.position());
+            reader.skip(2, 3);
+            assertEquals(73, reader.position());
+            assertEquals((byte) 73, reader.getByte());
+        }
+    }
+    @Test
+    void putShort() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals((byte) i, reader.getByte());
+            }
+        }
+    }
+
+    @Test
+    void putChar() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putChar((char) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals((char) i, reader.getChar());
+            }
+        }
+    }
+
+    @Test
+    void putInt() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putInt(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getInt());
+            }
+        }
+    }
+
+    @Test
+    void putLong() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putLong(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getLong());
+            }
+        }
+    }
+
+    @Test
+    void putFloat() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putFloat(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getFloat());
+            }
+        }
+    }
+
+    @Test
+    void putDouble() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putDouble(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getDouble());
+            }
+        }
+    }
+
+    @Test
+    void putBytes() throws IOException  {
+        Path p = tempFile();
+
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[2];
+                data[0] = (byte) i;
+                data[1] = (byte) (i + 1);
+                writer.putBytes(data);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[2];
+                reader.getBytes(data);
+                assertEquals((byte) i, data[0]);
+                assertEquals((byte) (i + 1), data[1]);
+            }
+        }
+    }
+
+    @Test
+    void testPutBytes() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[4];
+                data[1] = (byte) i;
+                data[2] = (byte) (i + 1);
+                writer.putBytes(data, 1, 2);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[4];
+                reader.getBytes(data, 1, 2);
+                assertEquals((byte) i, data[1]);
+                assertEquals((byte) (i + 1), data[2]);
+            }
+        }
+    }
+
+    @Test
+    void testPutBytesViaBuffer() throws IOException {
+        Path p = tempFile();
+
+        ByteBuffer buffer = ByteBuffer.allocate(4);
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                buffer.clear();
+                buffer.put(new byte[] { (byte) i, (byte) (i+1), (byte) (i + 2), (byte) (i+3) });
+                buffer.flip();
+                writer.putBytes(buffer);
+
+                assertFalse(buffer.hasRemaining());
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                buffer.clear();
+                reader.getBytes(buffer);
+                buffer.flip();
+
+                assertEquals(4, buffer.remaining());
+
+                assertEquals((byte) i, buffer.get());
+                assertEquals((byte) (i + 1), buffer.get());
+                assertEquals((byte) (i + 2), buffer.get());
+                assertEquals((byte) (i + 3), buffer.get());
+
+                assertFalse(buffer.hasRemaining());
+            }
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java b/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java
new file mode 100644
index 00000000..c564ff15
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java
@@ -0,0 +1,307 @@
+package nu.marginalia.slop.storage;
+
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class SimpleStorageWriterAndMmapReaderTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    Path tempFile() {
+        try {
+            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    StorageWriter writer(Path path) {
+        try {
+            return new SimpleStorageWriter(path, ByteOrder.LITTLE_ENDIAN, 63);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    StorageReader reader(Path path) {
+        try {
+            return new MmapStorageReader(path);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    @Test
+    void putByte() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, writer.position());
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertTrue(reader.hasRemaining());
+                assertEquals(i, reader.position());
+
+                assertEquals((byte) i, reader.getByte());
+            }
+            assertFalse(reader.hasRemaining());
+        }
+    }
+
+    @Test
+    void putByteSkipReader() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, writer.position());
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            assertEquals(0, reader.position());
+            assertEquals((byte) 0, reader.getByte());
+            assertEquals(1, reader.position());
+            assertEquals((byte) 1, reader.getByte());
+            reader.skip(64, 1);
+            assertEquals(66, reader.position());
+            assertEquals((byte) 66, reader.getByte());
+            assertEquals(67, reader.position());
+            reader.skip(2, 3);
+            assertEquals(73, reader.position());
+            assertEquals((byte) 73, reader.getByte());
+        }
+    }
+
+    @Test
+    void putShort() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals((byte) i, reader.getByte());
+            }
+        }
+    }
+
+    @Test
+    void putChar() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putChar((char) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals((char) i, reader.getChar());
+            }
+        }
+    }
+
+    @Test
+    void putInt() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putInt(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getInt());
+            }
+        }
+    }
+
+    @Test
+    void putLong() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putLong(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getLong());
+            }
+        }
+    }
+
+    @Test
+    void putFloat() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putFloat(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getFloat());
+            }
+        }
+    }
+
+    @Test
+    void putDouble() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putDouble(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getDouble());
+            }
+        }
+    }
+
+    @Test
+    void putBytes() throws IOException  {
+        Path p = tempFile();
+
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[2];
+                data[0] = (byte) i;
+                data[1] = (byte) (i + 1);
+                writer.putBytes(data);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[2];
+                reader.getBytes(data);
+                assertEquals((byte) i, data[0]);
+                assertEquals((byte) (i + 1), data[1]);
+            }
+        }
+    }
+
+    @Test
+    void testPutBytes() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[4];
+                data[1] = (byte) i;
+                data[2] = (byte) (i + 1);
+                writer.putBytes(data, 1, 2);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[4];
+                reader.getBytes(data, 1, 2);
+                assertEquals((byte) i, data[1]);
+                assertEquals((byte) (i + 1), data[2]);
+            }
+        }
+    }
+
+    @Test
+    void testPutBytesViaBuffer() throws IOException {
+        Path p = tempFile();
+
+        ByteBuffer buffer = ByteBuffer.allocate(4);
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                buffer.clear();
+                buffer.put(new byte[] { (byte) i, (byte) (i+1), (byte) (i + 2), (byte) (i+3) });
+                buffer.flip();
+                writer.putBytes(buffer);
+
+                assertFalse(buffer.hasRemaining());
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                buffer.clear();
+                reader.getBytes(buffer);
+                buffer.flip();
+
+                assertEquals(4, buffer.remaining());
+
+                assertEquals((byte) i, buffer.get());
+                assertEquals((byte) (i + 1), buffer.get());
+                assertEquals((byte) (i + 2), buffer.get());
+                assertEquals((byte) (i + 3), buffer.get());
+
+                assertFalse(buffer.hasRemaining());
+            }
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java b/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java
new file mode 100644
index 00000000..b8acd2f6
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java
@@ -0,0 +1,307 @@
+package nu.marginalia.slop.storage;
+
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class SimpleStorageWriterAndReaderTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    Path tempFile() {
+        try {
+            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    StorageWriter writer(Path path) {
+        try {
+            return new SimpleStorageWriter(path, ByteOrder.LITTLE_ENDIAN, 63);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    StorageReader reader(Path path) {
+        try {
+            return new SimpleStorageReader(path, ByteOrder.LITTLE_ENDIAN, 63);
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    @Test
+    void putByte() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, writer.position());
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertTrue(reader.hasRemaining());
+                assertEquals(i, reader.position());
+
+                assertEquals((byte) i, reader.getByte());
+            }
+            assertFalse(reader.hasRemaining());
+        }
+    }
+
+    @Test
+    void putByteSkipReader() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, writer.position());
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            assertEquals(0, reader.position());
+            assertEquals((byte) 0, reader.getByte());
+            assertEquals(1, reader.position());
+            assertEquals((byte) 1, reader.getByte());
+            reader.skip(64, 1);
+            assertEquals(66, reader.position());
+            assertEquals((byte) 66, reader.getByte());
+            assertEquals(67, reader.position());
+            reader.skip(2, 3);
+            assertEquals(73, reader.position());
+            assertEquals((byte) 73, reader.getByte());
+        }
+    }
+
+    @Test
+    void putShort() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putByte((byte) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals((byte) i, reader.getByte());
+            }
+        }
+    }
+
+    @Test
+    void putChar() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putChar((char) i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals((char) i, reader.getChar());
+            }
+        }
+    }
+
+    @Test
+    void putInt() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putInt(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getInt());
+            }
+        }
+    }
+
+    @Test
+    void putLong() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putLong(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getLong());
+            }
+        }
+    }
+
+    @Test
+    void putFloat() throws IOException {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putFloat(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getFloat());
+            }
+        }
+    }
+
+    @Test
+    void putDouble() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                writer.putDouble(i);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                assertEquals(i, reader.getDouble());
+            }
+        }
+    }
+
+    @Test
+    void putBytes() throws IOException  {
+        Path p = tempFile();
+
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[2];
+                data[0] = (byte) i;
+                data[1] = (byte) (i + 1);
+                writer.putBytes(data);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[2];
+                reader.getBytes(data);
+                assertEquals((byte) i, data[0]);
+                assertEquals((byte) (i + 1), data[1]);
+            }
+        }
+    }
+
+    @Test
+    void testPutBytes() throws IOException  {
+        Path p = tempFile();
+
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[4];
+                data[1] = (byte) i;
+                data[2] = (byte) (i + 1);
+                writer.putBytes(data, 1, 2);
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                byte[] data = new byte[4];
+                reader.getBytes(data, 1, 2);
+                assertEquals((byte) i, data[1]);
+                assertEquals((byte) (i + 1), data[2]);
+            }
+        }
+    }
+
+    @Test
+    void testPutBytesViaBuffer() throws IOException {
+        Path p = tempFile();
+
+        ByteBuffer buffer = ByteBuffer.allocate(4);
+        try (var writer = writer(p)) {
+            for (int i = 0; i < 127; i++) {
+                buffer.clear();
+                buffer.put(new byte[] { (byte) i, (byte) (i+1), (byte) (i + 2), (byte) (i+3) });
+                buffer.flip();
+                writer.putBytes(buffer);
+
+                assertFalse(buffer.hasRemaining());
+            }
+        }
+
+        try (var reader = reader(p)) {
+            for (int i = 0; i < 127; i++) {
+                buffer.clear();
+                reader.getBytes(buffer);
+                buffer.flip();
+
+                assertEquals(4, buffer.remaining());
+
+                assertEquals((byte) i, buffer.get());
+                assertEquals((byte) (i + 1), buffer.get());
+                assertEquals((byte) (i + 2), buffer.get());
+                assertEquals((byte) (i + 3), buffer.get());
+
+                assertFalse(buffer.hasRemaining());
+            }
+        }
+    }
+}
\ No newline at end of file
diff --git a/settings.gradle b/settings.gradle
index d25e4978..b62fba21 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -40,6 +40,7 @@ include 'code:libraries:array:cpp'
 include 'code:libraries:coded-sequence'
 include 'code:libraries:geo-ip'
 include 'code:libraries:btree'
+include 'code:libraries:slop'
 include 'code:libraries:easy-lsh'
 include 'code:libraries:guarded-regex'
 include 'code:libraries:random-write-funnel'

From 4123e994697c906543c35fbcef4635c99def1570 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 25 Jul 2024 18:26:13 +0200
Subject: [PATCH 070/216] (slop) Handle empty compressed files correctly

The CompressingStorageReader would incorrectly report having data when a file was empty.  Preemptively attempting to fill the backing buffer fixes the behavior.
---
 .../storage/CompressingStorageReader.java     |   4 +
 .../slop/column/StringColumnTest.java         | 112 ++++++++++++++++++
 2 files changed, 116 insertions(+)
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java

diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
index df093a32..e71d6259 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
@@ -33,6 +33,10 @@ public class CompressingStorageReader implements StorageReader {
 
         buffer.position(0);
         buffer.limit(0);
+
+        // read the first chunk, this is needed for InputStream otherwise we don't handle empty files
+        // correctly
+        refill();
     }
 
     @Override
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
new file mode 100644
index 00000000..486bc191
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
@@ -0,0 +1,112 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
+
+class StringColumnTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    @Test
+    void testArrayStr() throws IOException {
+        var name = new ColumnDesc<>("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.STRING,
+                StorageType.GZIP);
+
+        try (var column = name.create(tempDir)) {
+            column.put("Lorem");
+            column.put("Ipsum");
+        }
+        try (var column = name.open(tempDir)) {
+            assertEquals("Lorem", column.get());
+            assertEquals("Ipsum", column.get());
+            assertFalse(column.hasRemaining());
+        }
+    }
+
+    @Test
+    void testCStr() throws IOException {
+        var name = new ColumnDesc<>("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.CSTRING,
+                StorageType.GZIP);
+
+        try (var column = name.create(tempDir)) {
+            column.put("Lorem");
+            column.put("Ipsum");
+        }
+        try (var column = name.open(tempDir)) {
+            assertEquals("Lorem", column.get());
+            assertEquals("Ipsum", column.get());
+            assertFalse(column.hasRemaining());
+        }
+    }
+
+    @Test
+    void testTxtStr() throws IOException {
+        var name = new ColumnDesc<>("test",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.TXTSTRING,
+                StorageType.GZIP);
+
+        try (var column = name.create(tempDir)) {
+            column.put("Lorem");
+            column.put("Ipsum");
+        }
+        try (var column = name.open(tempDir)) {
+            assertEquals("Lorem", column.get());
+            assertEquals("Ipsum", column.get());
+            assertFalse(column.hasRemaining());
+        }
+    }
+}
\ No newline at end of file

From 52a9a0d4101d00a5ed4c094181434bb52f022200 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 25 Jul 2024 18:26:41 +0200
Subject: [PATCH 071/216] (slop) Translate nulls to empty strings when passed
 to the StringColumnWriters.

---
 .../slop/column/string/StringColumn.java      | 22 +++++++++++++++++--
 1 file changed, 20 insertions(+), 2 deletions(-)

diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
index 32cdc99a..14424f71 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
@@ -44,6 +44,10 @@ public class StringColumn {
         }
 
         public void put(String value) throws IOException {
+            if (null == value) {
+                value = "";
+            }
+
             backingColumn.put(value.getBytes());
         }
 
@@ -93,6 +97,10 @@ public class StringColumn {
         }
 
         public void put(String value) throws IOException {
+            if (null == value) {
+                value = "";
+            }
+
             assert value.indexOf('\0') == -1 : "Null byte not allowed in cstring";
             storageWriter.putBytes(value.getBytes());
             storageWriter.putByte((byte) 0);
@@ -155,6 +163,10 @@ public class StringColumn {
         }
 
         public void put(String value) throws IOException {
+            if (null == value) {
+                value = "";
+            }
+
             assert value.indexOf('\n') == -1 : "Newline not allowed in txtstring";
 
             storageWriter.putBytes(value.getBytes());
@@ -176,8 +188,14 @@ public class StringColumn {
         public String get() throws IOException {
             StringBuilder sb = new StringBuilder();
             byte b;
-            while (storageReader.hasRemaining() && (b = storageReader.getByte()) != '\n') {
-                sb.append((char) b);
+            while (storageReader.hasRemaining()) {
+                b = storageReader.getByte();
+                if (b == '\n') {
+                    break;
+                }
+                else {
+                    sb.append((char) b);
+                }
             }
             return sb.toString();
         }

From aebb2652e83c6f775044105a7e3933dab31acdd1 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 27 Jul 2024 11:44:13 +0200
Subject: [PATCH 072/216] (wip) Extract and encode spans data

Refactoring keyword extraction to extract spans information.

Modifying the intermediate storage of converted data to use the new slop library, which is allows for easier storage of ad-hoc binary data like spans and positions.

This is a bit of a katamari damacy commit that ended up dragging along a bunch of other fairly tangentially related changes that are hard to break out into separate commits after the fact.  Will push as-is to get back to being able to do more isolated work.
---
 code/common/model/build.gradle                |   1 +
 .../marginalia/model/idx/CodedWordSpan.java   |  32 ++
 .../nu/marginalia/model/idx/WordFlags.java    |  18 +-
 .../nu/marginalia/model/idx/WordMetadata.java |  89 ----
 .../nu/marginalia/model/WordMetadataTest.java |  41 --
 code/execution/build.gradle                   |   6 +-
 .../actor/task/ConvertAndLoadActor.java       |  36 +-
 .../java/nu/marginalia/svc/BackupService.java |  38 +-
 .../data-extractors/build.gradle              |   2 +-
 .../nu/marginalia/extractor/AtagExporter.java |   6 +-
 .../nu/marginalia/extractor/FeedExporter.java |   6 +-
 .../extractor/TermFrequencyExporter.java      |   4 +-
 .../keyword/DocumentKeywordExtractor.java     |  61 ++-
 .../marginalia/keyword/KeywordMetadata.java   |   4 +-
 .../keyword/model/DocumentKeywords.java       |  30 +-
 .../model/DocumentKeywordsBuilder.java        |  80 ++--
 .../keyword/DocumentKeywordExtractorTest.java |  37 +-
 .../api/searchquery/QueryProtobufCodec.java   |   9 +-
 .../results/SearchResultKeywordScore.java     |  21 +-
 .../api/src/main/protobuf/query-api.proto     |   3 +-
 code/index/build.gradle                       |   4 +-
 code/index/index-forward/build.gradle         |   3 +
 .../index/forward/ForwardIndexConverter.java  |  83 +++-
 .../index/forward/ForwardIndexFileNames.java  |   5 +
 .../index/forward/ForwardIndexParameters.java |   4 +-
 .../index/forward/ForwardIndexReader.java     |  15 +-
 .../forward/ForwardIndexSpansReader.java      |  63 +++
 .../forward/ForwardIndexSpansWriter.java      |  53 +++
 .../forward/ForwardIndexConverterTest.java    |  62 +--
 .../forward/ForwardIndexSpansReaderTest.java  |  63 +++
 .../test/nu/marginalia/test/TestUtil.java     |  43 --
 code/index/index-journal/build.gradle         |   2 +
 .../index/journal/IndexJournal.java           |  53 +++
 .../index/journal/IndexJournalFileNames.java  |  30 --
 .../index/journal/IndexJournalPage.java       |  76 +++
 .../index/journal/IndexJournalSlopWriter.java | 105 ++++
 .../journal/model/IndexJournalEntryData.java  |  36 --
 .../model/IndexJournalEntryHeader.java        |  35 --
 .../model/IndexJournalEntryTermData.java      |  25 -
 .../journal/model/IndexJournalFileHeader.java |  10 -
 .../journal/reader/IndexJournalReadEntry.java | 111 -----
 .../journal/reader/IndexJournalReader.java    |  73 ---
 .../reader/IndexJournalReaderPagingImpl.java  |  43 --
 .../reader/IndexJournalReaderSingleFile.java  | 116 -----
 .../reader/pointer/IndexJournalPointer.java   | 202 --------
 .../journal/writer/IndexJournalWriter.java    |  17 -
 .../writer/IndexJournalWriterPagingImpl.java  |  68 ---
 .../IndexJournalWriterSingleFileImpl.java     | 155 ------
 .../index/journal/IndexJournalWriterTest.java | 448 ------------------
 code/index/index-reverse/build.gradle         |   3 +
 .../construction/JournalReaderSource.java     |  10 -
 .../full/FullIndexConstructor.java            |  23 +-
 .../index/construction/full/FullPreindex.java |  10 +-
 .../full/FullPreindexDocuments.java           |  39 +-
 .../full/FullPreindexReference.java           |   2 +-
 .../full/FullPreindexWordSegments.java        |  12 +-
 .../prio/PrioIndexConstructor.java            |  23 +-
 .../index/construction/prio/PrioPreindex.java |  13 +-
 .../prio/PrioPreindexDocuments.java           |  34 +-
 .../prio/PrioPreindexReference.java           |   2 +-
 .../prio/PrioPreindexWordSegments.java        |  18 +-
 .../index/FullReverseIndexReaderTest.java     |  25 +-
 .../full/FullPreindexDocsTest.java            |  33 +-
 .../full/FullPreindexFinalizeTest.java        |  18 +-
 .../full/FullPreindexMergeTest.java           | 435 -----------------
 .../full/FullPreindexWordSegmentsTest.java    | 231 ---------
 .../construction/full/TestJournalFactory.java |  99 ++--
 .../construction/full/TestSegmentData.java    |   6 +-
 .../construction/prio/PrioPreindexTest.java   |  14 +-
 .../test/nu/marginalia/test/TestUtil.java     |  43 --
 .../nu/marginalia/index/IndexFactory.java     |   7 +-
 .../nu/marginalia/index/IndexGrpcService.java |  12 +-
 .../marginalia/index/index/StatefulIndex.java |   2 +-
 .../results/IndexResultScoreCalculator.java   |  29 +-
 .../index/CombinedIndexReaderTest.java        |  52 +-
 ...IndexQueryServiceIntegrationSmokeTest.java | 104 ++--
 .../IndexQueryServiceIntegrationTest.java     |  73 +--
 ...ndexQueryServiceIntegrationTestModule.java |  24 +-
 .../nu/marginalia/index/util/TestUtil.java    |  44 --
 code/libraries/array/build.gradle             |   2 +
 .../array/algo/LongArraySortNTest.java        |   4 +-
 .../array/algo/LongArraySortTest.java         |   2 +-
 .../nu/marginalia/util/test/TestUtil.java     |  43 --
 .../nu/marginalia/sequence/CodedSequence.java |   3 +-
 .../sequence/GammaCodedSequence.java          |   2 +-
 .../language/sentence/tag/HtmlTag.java        |  23 +-
 code/libraries/slop/build.gradle              |   3 +
 .../dynamic/GammaCodedSequenceColumn.java     | 121 +++++
 .../dynamic/GammaCodedSequenceReader.java     |  34 ++
 .../dynamic/GammaCodedSequenceWriter.java     |  11 +
 .../nu/marginalia/slop/desc/ColumnType.java   |   1 +
 .../java}/nu/marginalia/test/TestUtil.java    |   4 +-
 code/process-models/crawl-spec/build.gradle   |  32 --
 code/process-models/crawl-spec/readme.md      |  16 -
 .../DocumentRecordParquetFileReader.java      |  37 --
 .../DocumentRecordParquetFileWriter.java      |  24 -
 .../DomainLinkRecordParquetFileReader.java    |  30 --
 .../DomainLinkRecordParquetFileWriter.java    |  24 -
 .../DomainRecordParquetFileReader.java        |  31 --
 .../DomainRecordParquetFileWriter.java        |  24 -
 .../io/processed/ProcessedDataFileNames.java  |  73 ---
 .../model/processed/DocumentRecord.java       | 185 --------
 .../DocumentRecordKeywordsProjection.java     |  97 ----
 .../DocumentRecordMetadataProjection.java     | 100 ----
 .../model/processed/DomainLinkRecord.java     |  97 ----
 .../model/processed/DomainRecord.java         | 148 ------
 .../model/processed/DomainWithIp.java         |  15 -
 .../DocumentRecordParquetFileReaderTest.java  | 107 -----
 ...DomainLinkRecordParquetFileReaderTest.java |  49 --
 .../DomainRecordParquetFileReaderTest.java    |  69 ---
 code/process-models/work-log/build.gradle     |  24 -
 .../processes/converting-process/build.gradle |   9 +-
 .../marginalia/converting/ConverterMain.java  |  18 +-
 .../model/DisqualifiedException.java          |   2 +-
 .../converting/processor/AcceptableAds.java   |   2 +-
 .../processor/DocumentProcessor.java          |  15 +-
 .../converting/processor/DomainProcessor.java |  14 +-
 .../processor/logic/DocumentValuator.java     |   4 +-
 .../AbstractDocumentProcessorPlugin.java      |  20 +-
 .../plugin/HtmlDocumentProcessorPlugin.java   |  36 +-
 .../PlainTextDocumentProcessorPlugin.java     |  24 +-
 .../sideload/SideloaderProcessing.java        |   2 +-
 .../writer/ConverterBatchWriter.java          |  89 ++--
 .../converting-process/model}/build.gradle    |   3 +
 .../io/processed/ProcessedDataFileNames.java  |  16 +
 .../model/processed/SlopDocumentRecord.java   | 395 +++++++++++++++
 .../model/processed/SlopDomainLinkRecord.java |  83 ++++
 .../model/processed/SlopDomainRecord.java     | 240 ++++++++++
 .../model/processed/SlopPageRef.java          |   6 +
 .../marginalia/worklog/BatchingWorkLog.java   |   0
 .../worklog/BatchingWorkLogImpl.java          |   0
 .../worklog/BatchingWorkLogInspector.java     |   0
 .../converting-process/model}/readme.md       |   0
 .../worklog/BatchingWorkLogImplTest.java      |   0
 .../converting/ConvertingIntegrationTest.java |  12 +-
 ...CrawlingThenConvertingIntegrationTest.java |  10 +-
 code/processes/crawling-process/build.gradle  |   6 +-
 .../java/nu/marginalia/crawl/CrawlerMain.java |  20 +-
 .../crawl/retreival/CrawlDataReference.java   |   4 +-
 .../retreival/CrawledDocumentFactory.java     |   6 +-
 .../crawl/retreival/CrawlerRetreiver.java     |  11 +-
 .../retreival/CrawlerWarcResynchronizer.java  |   4 +-
 .../crawl/retreival/DomainProber.java         |   2 +-
 .../retreival/fetcher/ContentTypeProber.java  |   2 +-
 .../crawl/retreival/fetcher/HttpFetcher.java  |   2 +-
 .../retreival/fetcher/HttpFetcherImpl.java    |   6 +-
 .../retreival/fetcher/warc/WarcRecorder.java  |   2 +-
 .../retreival/revisit/CrawlerRevisitor.java   |   4 +-
 .../revisit/DocumentWithReference.java        |   8 +-
 .../crawling-process/model}/build.gradle      |   3 +
 .../crawlspec/CrawlSpecFileNames.java         |   0
 .../crawlspec/CrawlSpecGenerator.java         |   0
 .../io/crawldata}/CrawledDomainReader.java    |   7 +-
 .../io/crawldata}/CrawlerOutputFile.java      |   2 +-
 .../SerializableCrawlDataStream.java          |   4 +-
 .../ParquetSerializableCrawlDataStream.java   |  10 +-
 .../CrawlSpecRecordParquetFileReader.java     |   0
 .../CrawlSpecRecordParquetFileWriter.java     |   0
 .../model}/body/ContentTypeLogic.java         |   2 +-
 .../model}/body/DocumentBodyExtractor.java    |   4 +-
 .../model}/body/DocumentBodyResult.java       |   4 +-
 .../model}/body/HttpFetchResult.java          |   4 +-
 .../model/crawldata}/CrawledDocument.java     |   2 +-
 .../model/crawldata}/CrawledDomain.java       |   2 +-
 .../crawldata}/CrawlerDocumentStatus.java     |   2 +-
 .../model/crawldata}/CrawlerDomainStatus.java |   2 +-
 .../crawldata}/SerializableCrawlData.java     |   2 +-
 .../model/crawlspec/CrawlSpecRecord.java      |   0
 .../CrawledDocumentParquetRecord.java         |   4 +-
 ...rawledDocumentParquetRecordFileReader.java |   2 +-
 ...rawledDocumentParquetRecordFileWriter.java |   8 +-
 .../jwarc/WarcXCookieInformationHeader.java   |   0
 .../netpreserve/jwarc/WarcXEntityRefused.java |   0
 .../jwarc/WarcXResponseReference.java         |   0
 .../crawling-process/model}/readme.md         |   0
 .../crawling/model/CrawledDocumentTest.java   |   4 +-
 ...edDocumentParquetRecordFileWriterTest.java |  10 +-
 ...edDocumentParquetRecordFileWriterTest.java |   2 +-
 .../retreival/fetcher/WarcRecorderTest.java   |   9 +-
 .../revisit/DocumentWithReferenceTest.java    |   2 +-
 .../marginalia/crawling/HttpFetcherTest.java  |   6 +-
 .../retreival/CrawlerMockFetcherTest.java     |  13 +-
 .../retreival/CrawlerRetreiverTest.java       |  12 +-
 .../index-constructor-process/build.gradle    |   2 +-
 .../index/IndexConstructorMain.java           |   9 +-
 code/processes/loading-process/build.gradle   |   7 +-
 .../loading/LoaderIndexJournalWriter.java     |  62 ++-
 .../marginalia/loading/LoaderInputData.java   |  28 +-
 .../documents/DocumentLoaderService.java      |  61 ++-
 .../documents/KeywordLoaderService.java       |  66 +--
 .../loading/domains/DomainLoaderService.java  | 113 +++--
 .../links/DomainLinksLoaderService.java       |  31 +-
 .../domains/DomainLoaderServiceTest.java      | 102 ----
 .../process-mq-api}/build.gradle              |   2 +
 .../marginalia/mqapi/ProcessInboxNames.java   |   0
 .../mqapi/converting/ConvertAction.java       |   0
 .../mqapi/converting/ConvertRequest.java      |   0
 .../mqapi/crawling/CrawlRequest.java          |   0
 .../mqapi/index/CreateIndexRequest.java       |   0
 .../nu/marginalia/mqapi/index/IndexName.java  |   0
 .../marginalia/mqapi/loading/LoadRequest.java |   0
 .../nu/marginalia/api/ApiSearchOperator.java  |  14 +-
 .../search/model/ClusteredUrlDetails.java     |   3 -
 .../control-service/build.gradle              |   4 +-
 .../executor-service/build.gradle             |   6 +-
 code/tools/experiment-runner/build.gradle     |   2 +-
 .../java/nu/marginalia/tools/Experiment.java  |   2 +-
 .../tools/ExperimentRunnerMain.java           |   5 +-
 .../nu/marginalia/tools/LegacyExperiment.java |   6 +-
 .../tools/experiments/AdblockExperiment.java  |   4 +-
 .../tools/experiments/AtagsExperiment.java    |   2 +-
 .../experiments/DebugConverterExperiment.java |   2 +-
 .../ExportExternalLinksExperiment.java        |   4 +-
 .../SentenceStatisticsExperiment.java         |   3 +-
 .../experiments/SiteStatisticsExperiment.java |   2 +-
 .../tools/experiments/TestExperiment.java     |   2 +-
 .../tools/experiments/TopicExperiment.java    |   2 +-
 code/tools/integration-test/build.gradle      |   8 +-
 .../test/nu/marginalia/IntegrationTest.java   |  23 +-
 .../test/IntegrationTestModule.java           |   8 +-
 settings.gradle                               |  11 +-
 221 files changed, 2584 insertions(+), 4613 deletions(-)
 create mode 100644 code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
 delete mode 100644 code/common/model/java/nu/marginalia/model/idx/WordMetadata.java
 delete mode 100644 code/common/model/test/nu/marginalia/model/WordMetadataTest.java
 create mode 100644 code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java
 create mode 100644 code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java
 create mode 100644 code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
 delete mode 100644 code/index/index-forward/test/nu/marginalia/test/TestUtil.java
 create mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalFileNames.java
 create mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
 create mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalFileHeader.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java
 delete mode 100644 code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
 delete mode 100644 code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
 delete mode 100644 code/index/index-reverse/java/nu/marginalia/index/construction/JournalReaderSource.java
 delete mode 100644 code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
 delete mode 100644 code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java
 delete mode 100644 code/index/index-reverse/test/nu/marginalia/test/TestUtil.java
 delete mode 100644 code/index/test/nu/marginalia/index/util/TestUtil.java
 delete mode 100644 code/libraries/array/test/nu/marginalia/util/test/TestUtil.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java
 rename code/{tools/integration-test/test => libraries/test-helpers/java}/nu/marginalia/test/TestUtil.java (94%)
 delete mode 100644 code/process-models/crawl-spec/build.gradle
 delete mode 100644 code/process-models/crawl-spec/readme.md
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileReader.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileReader.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileWriter.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileReader.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileWriter.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/io/processed/ProcessedDataFileNames.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordMetadataProjection.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/model/processed/DomainLinkRecord.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/model/processed/DomainRecord.java
 delete mode 100644 code/process-models/processed-data/java/nu/marginalia/model/processed/DomainWithIp.java
 delete mode 100644 code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
 delete mode 100644 code/process-models/processed-data/test/nu/marginalia/io/processed/DomainLinkRecordParquetFileReaderTest.java
 delete mode 100644 code/process-models/processed-data/test/nu/marginalia/io/processed/DomainRecordParquetFileReaderTest.java
 delete mode 100644 code/process-models/work-log/build.gradle
 rename code/{process-models/processed-data => processes/converting-process/model}/build.gradle (86%)
 create mode 100644 code/processes/converting-process/model/java/nu/marginalia/io/processed/ProcessedDataFileNames.java
 create mode 100644 code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
 create mode 100644 code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
 create mode 100644 code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
 create mode 100644 code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java
 rename code/{process-models/work-log => processes/converting-process/model}/java/nu/marginalia/worklog/BatchingWorkLog.java (100%)
 rename code/{process-models/work-log => processes/converting-process/model}/java/nu/marginalia/worklog/BatchingWorkLogImpl.java (100%)
 rename code/{process-models/work-log => processes/converting-process/model}/java/nu/marginalia/worklog/BatchingWorkLogInspector.java (100%)
 rename code/{process-models/processed-data => processes/converting-process/model}/readme.md (100%)
 rename code/{process-models/work-log => processes/converting-process/model}/test/nu/marginalia/worklog/BatchingWorkLogImplTest.java (100%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/build.gradle (93%)
 rename code/{process-models/crawl-spec => processes/crawling-process/model}/java/nu/marginalia/crawlspec/CrawlSpecFileNames.java (100%)
 rename code/{process-models/crawl-spec => processes/crawling-process/model}/java/nu/marginalia/crawlspec/CrawlSpecGenerator.java (100%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/io => processes/crawling-process/model/java/nu/marginalia/io/crawldata}/CrawledDomainReader.java (86%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/io => processes/crawling-process/model/java/nu/marginalia/io/crawldata}/CrawlerOutputFile.java (98%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/io => processes/crawling-process/model/java/nu/marginalia/io/crawldata}/SerializableCrawlDataStream.java (94%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/io => processes/crawling-process/model/java/nu/marginalia/io/crawldata}/format/ParquetSerializableCrawlDataStream.java (95%)
 rename code/{process-models/crawl-spec => processes/crawling-process/model}/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileReader.java (100%)
 rename code/{process-models/crawl-spec => processes/crawling-process/model}/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileWriter.java (100%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling => processes/crawling-process/model/java/nu/marginalia/model}/body/ContentTypeLogic.java (98%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling => processes/crawling-process/model/java/nu/marginalia/model}/body/DocumentBodyExtractor.java (96%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling => processes/crawling-process/model/java/nu/marginalia/model}/body/DocumentBodyResult.java (95%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling => processes/crawling-process/model/java/nu/marginalia/model}/body/HttpFetchResult.java (99%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/model => processes/crawling-process/model/java/nu/marginalia/model/crawldata}/CrawledDocument.java (98%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/model => processes/crawling-process/model/java/nu/marginalia/model/crawldata}/CrawledDomain.java (94%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/model => processes/crawling-process/model/java/nu/marginalia/model/crawldata}/CrawlerDocumentStatus.java (80%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/model => processes/crawling-process/model/java/nu/marginalia/model/crawldata}/CrawlerDomainStatus.java (64%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/model => processes/crawling-process/model/java/nu/marginalia/model/crawldata}/SerializableCrawlData.java (63%)
 rename code/{process-models/crawl-spec => processes/crawling-process/model}/java/nu/marginalia/model/crawlspec/CrawlSpecRecord.java (100%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/parquet => processes/crawling-process/model/java/nu/marginalia/parquet/crawldata}/CrawledDocumentParquetRecord.java (97%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/parquet => processes/crawling-process/model/java/nu/marginalia/parquet/crawldata}/CrawledDocumentParquetRecordFileReader.java (97%)
 rename code/{process-models/crawling-model/java/nu/marginalia/crawling/parquet => processes/crawling-process/model/java/nu/marginalia/parquet/crawldata}/CrawledDocumentParquetRecordFileWriter.java (97%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/java/org/netpreserve/jwarc/WarcXCookieInformationHeader.java (100%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/java/org/netpreserve/jwarc/WarcXEntityRefused.java (100%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/java/org/netpreserve/jwarc/WarcXResponseReference.java (100%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/readme.md (100%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/test/nu/marginalia/crawling/model/CrawledDocumentTest.java (94%)
 rename code/{process-models/crawling-model => processes/crawling-process/model}/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java (90%)
 delete mode 100644 code/processes/loading-process/test/nu/marginalia/loading/domains/DomainLoaderServiceTest.java
 rename code/{process-mqapi => processes/process-mq-api}/build.gradle (91%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/ProcessInboxNames.java (100%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/converting/ConvertAction.java (100%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/converting/ConvertRequest.java (100%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/crawling/CrawlRequest.java (100%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/index/CreateIndexRequest.java (100%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/index/IndexName.java (100%)
 rename code/{process-mqapi => processes/process-mq-api}/java/nu/marginalia/mqapi/loading/LoadRequest.java (100%)

diff --git a/code/common/model/build.gradle b/code/common/model/build.gradle
index a424efca..3b9d87c3 100644
--- a/code/common/model/build.gradle
+++ b/code/common/model/build.gradle
@@ -14,6 +14,7 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
     implementation project(':code:libraries:braille-block-punch-cards')
+    implementation project(':code:libraries:coded-sequence')
 
     implementation libs.bundles.slf4j
 
diff --git a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
new file mode 100644
index 00000000..70a3e832
--- /dev/null
+++ b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
@@ -0,0 +1,32 @@
+package nu.marginalia.model.idx;
+
+import nu.marginalia.sequence.CodedSequence;
+
+import java.util.List;
+
+public record CodedWordSpan(byte code, CodedSequence spans) {
+    public static SplitSpansList fromSplit(String codes, List<CodedSequence> spans) {
+        return new SplitSpansList(codes, spans);
+    }
+    public static SplitSpansList split(List<CodedWordSpan> spanList) {
+        return new SplitSpansList(
+                spanList.stream()
+                    .map(CodedWordSpan::code)
+                    .collect(StringBuilder::new, StringBuilder::append, StringBuilder::append).toString(),
+                spanList.stream()
+                        .map(CodedWordSpan::spans)
+                        .toList()
+            );
+    }
+
+    public record SplitSpansList(String codes, List<CodedSequence> spans) {
+        public List<CodedWordSpan> unite() {
+            if (null == codes) {
+                return List.of();
+            }
+            else {
+                return codes.chars().mapToObj(c -> new CodedWordSpan((byte) c, spans.get(codes.indexOf(c)))).toList();
+            }
+        }
+    }
+}
diff --git a/code/common/model/java/nu/marginalia/model/idx/WordFlags.java b/code/common/model/java/nu/marginalia/model/idx/WordFlags.java
index f9016c48..77baed4c 100644
--- a/code/common/model/java/nu/marginalia/model/idx/WordFlags.java
+++ b/code/common/model/java/nu/marginalia/model/idx/WordFlags.java
@@ -38,19 +38,27 @@ public enum WordFlags {
     ExternalLink
     ;
 
-    public int asBit() {
-        return 1 << ordinal();
+    public byte asBit() {
+        return (byte) (1 << ordinal());
     }
 
-    public boolean isPresent(long value) {
+    public boolean isPresent(byte value) {
         return (asBit() & value) > 0;
     }
 
-    public boolean isAbsent(long value) {
+    public boolean isAbsent(byte value) {
         return (asBit() & value) == 0;
     }
 
-    public static EnumSet<WordFlags> decode(long encodedValue) {
+    public static byte encode(EnumSet<WordFlags> flags) {
+        byte ret = 0;
+        for (WordFlags f : flags) {
+            ret |= f.asBit();
+        }
+        return ret;
+    }
+
+    public static EnumSet<WordFlags> decode(byte encodedValue) {
         EnumSet<WordFlags> ret = EnumSet.noneOf(WordFlags.class);
 
         for (WordFlags f : values()) {
diff --git a/code/common/model/java/nu/marginalia/model/idx/WordMetadata.java b/code/common/model/java/nu/marginalia/model/idx/WordMetadata.java
deleted file mode 100644
index 1f1add44..00000000
--- a/code/common/model/java/nu/marginalia/model/idx/WordMetadata.java
+++ /dev/null
@@ -1,89 +0,0 @@
-package nu.marginalia.model.idx;
-
-
-import nu.marginalia.bbpc.BrailleBlockPunchCards;
-
-import java.util.EnumSet;
-import java.util.Set;
-
-/** Word level metadata designed to fit in a single 64 bit long.
- *
- * @param positions bitmask of term positions within the document
- * @param flags word flags (see {@link WordFlags})
- */
-public record WordMetadata(long positions,
-                           int flags) {
-
-    public static final long FLAGS_MASK = (1L << WordFlags.values().length) - 1;
-    public static final int POSITIONS_COUNT = 64 - WordFlags.values().length;
-    public static final int POSITIONS_SHIFT = WordFlags.values().length;
-    public static final long POSITIONS_MASK = ~0L >>> POSITIONS_SHIFT;
-
-
-
-    public WordMetadata() {
-        this(emptyValue());
-    }
-
-    public WordMetadata(long value) {
-        this(
-                ((value >>> POSITIONS_SHIFT) & POSITIONS_MASK),
-                (int)(value & FLAGS_MASK)
-        );
-    }
-
-    public WordMetadata(long positions,
-                        Set<WordFlags> flags)
-    {
-        this(positions, encodeFlags(flags));
-    }
-
-    private static int encodeFlags(Set<WordFlags> flags) {
-        int ret = 0;
-        for (var flag : flags) { ret |= flag.asBit(); }
-        return ret;
-    }
-
-    public static boolean hasFlags(long encoded, long metadataBitMask) {
-        return (encoded & metadataBitMask) == metadataBitMask;
-    }
-    public static boolean hasAnyFlags(long encoded, long metadataBitMask) {
-        return (encoded & metadataBitMask) != 0;
-    }
-    public static long decodePositions(long meta) {
-        return (meta >>> POSITIONS_SHIFT) & POSITIONS_MASK;
-    }
-
-    public boolean hasFlag(WordFlags flag) {
-        return (flags & flag.asBit()) != 0;
-    }
-
-    public String toString() {
-        return "[positions=%s; %s]".formatted(BrailleBlockPunchCards.printBits(positions, 56), flagSet());
-    }
-
-    /* Encoded in a 64 bit long
-     */
-    public long encode() {
-        long ret = 0;
-
-        ret |= Integer.toUnsignedLong(flags) & FLAGS_MASK;
-        ret |= (positions & POSITIONS_MASK) << POSITIONS_SHIFT;
-
-        return ret;
-    }
-
-    public boolean isEmpty() {
-        return positions == 0 && flags == 0;
-    }
-
-    public static long emptyValue() {
-        return 0L;
-    }
-
-
-    public EnumSet<WordFlags> flagSet() {
-        return WordFlags.decode(flags);
-    }
-
-}
diff --git a/code/common/model/test/nu/marginalia/model/WordMetadataTest.java b/code/common/model/test/nu/marginalia/model/WordMetadataTest.java
deleted file mode 100644
index 6de3179b..00000000
--- a/code/common/model/test/nu/marginalia/model/WordMetadataTest.java
+++ /dev/null
@@ -1,41 +0,0 @@
-package nu.marginalia.model;
-
-import nu.marginalia.bbpc.BrailleBlockPunchCards;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
-import org.junit.jupiter.api.Test;
-
-import java.util.EnumSet;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class WordMetadataTest {
-
-    @Test
-    public void codecTest() {
-        verifyCodec("Vanilla case", new WordMetadata(0x7f0f0000L,  EnumSet.allOf(WordFlags.class)));
-        verifyCodec("Position 32bit", new WordMetadata(0xff0f0000L,  EnumSet.allOf(WordFlags.class)));
-        verifyCodec("Position all", new WordMetadata(0xffff_ff0f_0000L,  EnumSet.allOf(WordFlags.class)));
-        verifyCodec("No flags", new WordMetadata( 0xff0f0000L, EnumSet.noneOf(WordFlags.class)));
-        verifyCodec("No flags, some bits", new WordMetadata(0x3f_7f7f_7f7f_7f7fL, EnumSet.noneOf(WordFlags.class)));
-        verifyCodec("No flags, all bits", new WordMetadata( 0x3f_ffff_ffff_ffffL, EnumSet.noneOf(WordFlags.class)));
-        verifyCodec("All flags, all bits", new WordMetadata( 0x3f_ffff_ffff_ffffL, EnumSet.allOf(WordFlags.class)));
-        System.out.println(new WordMetadata(0x7f0f0005L, EnumSet.allOf(WordFlags.class)));
-        System.out.println(new WordMetadata(0xff0f0013L,  EnumSet.noneOf(WordFlags.class)));
-        System.out.println(new WordMetadata(0xf0f000ff0f0013L,  EnumSet.allOf(WordFlags.class)));
-        System.out.println(new WordMetadata(0xf0f000ff0f0013L,  (byte)-1));
-        System.out.println(new WordMetadata(0x3f_ffff_ffff_ffffL,  (byte)0));
-        System.out.println(new WordMetadata(0x3f_ffff_ffff_ffffL,  (byte)0));
-        System.out.println(BrailleBlockPunchCards.printBits(new WordMetadata(~0L, (byte) 0).encode(), 64));
-        System.out.println(BrailleBlockPunchCards.printBits(new WordMetadata(0, (byte) 0xff).encode(), 64));
-        System.out.println(BrailleBlockPunchCards.printBits(131973L, 64));
-        System.out.println(new WordMetadata(131973L));
-    }
-
-    public void verifyCodec(String message, WordMetadata data) {
-        System.out.println(BrailleBlockPunchCards.printBits(data.encode(), 64));
-        assertEquals(data, new WordMetadata(data.encode()), message);
-    }
-
-
-}
\ No newline at end of file
diff --git a/code/execution/build.gradle b/code/execution/build.gradle
index 973f13c9..354334f3 100644
--- a/code/execution/build.gradle
+++ b/code/execution/build.gradle
@@ -38,15 +38,15 @@ dependencies {
     implementation project(':code:functions:search-query')
     implementation project(':code:execution:api')
 
-    implementation project(':code:process-models:crawl-spec')
-    implementation project(':code:process-models:crawling-model')
+    implementation project(':code:processes:crawling-process:model')
+    implementation project(':code:processes:crawling-process:model')
     implementation project(':code:features-crawl:link-parser')
     implementation project(':code:features-convert:data-extractors')
     implementation project(':code:features-convert:stackexchange-xml')
     implementation project(':code:features-convert:reddit-json')
     implementation project(':code:index:index-journal')
     implementation project(':code:index:api')
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
     implementation project(':third-party:encyclopedia-marginalia-nu')
 
     implementation libs.bundles.slf4j
diff --git a/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java b/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
index 45b7d77a..b508d84e 100644
--- a/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
+++ b/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
@@ -6,19 +6,11 @@ import com.google.inject.Singleton;
 import lombok.AllArgsConstructor;
 import lombok.NoArgsConstructor;
 import lombok.With;
+import nu.marginalia.IndexLocations;
 import nu.marginalia.actor.prototype.RecordActorPrototype;
 import nu.marginalia.actor.state.ActorResumeBehavior;
 import nu.marginalia.actor.state.ActorStep;
 import nu.marginalia.actor.state.Resume;
-import nu.marginalia.nodecfg.NodeConfigurationService;
-import nu.marginalia.process.ProcessOutboxes;
-import nu.marginalia.process.ProcessService;
-import nu.marginalia.service.module.ServiceConfiguration;
-import nu.marginalia.storage.model.FileStorageState;
-import nu.marginalia.svc.BackupService;
-import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.storage.model.FileStorageId;
-import nu.marginalia.storage.model.FileStorageType;
 import nu.marginalia.index.api.IndexMqClient;
 import nu.marginalia.index.api.IndexMqEndpoints;
 import nu.marginalia.mq.MqMessageState;
@@ -27,9 +19,20 @@ import nu.marginalia.mqapi.converting.ConvertRequest;
 import nu.marginalia.mqapi.index.CreateIndexRequest;
 import nu.marginalia.mqapi.index.IndexName;
 import nu.marginalia.mqapi.loading.LoadRequest;
+import nu.marginalia.nodecfg.NodeConfigurationService;
+import nu.marginalia.process.ProcessOutboxes;
+import nu.marginalia.process.ProcessService;
+import nu.marginalia.service.module.ServiceConfiguration;
+import nu.marginalia.storage.FileStorageService;
+import nu.marginalia.storage.model.FileStorageId;
+import nu.marginalia.storage.model.FileStorageState;
+import nu.marginalia.storage.model.FileStorageType;
+import nu.marginalia.svc.BackupService;
+import org.apache.commons.io.FileUtils;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
+import java.nio.file.Files;
 import java.sql.SQLException;
 import java.util.List;
 
@@ -113,6 +116,21 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
                 yield new Load(List.of(processedId));
             }
             case Load(List<FileStorageId> processedIds, long msgId) when msgId < 0 -> {
+                // clear the output directory of the loader from any debris from partial jobs that have been aborted
+                Files.list(IndexLocations.getIndexConstructionArea(storageService)).forEach(path -> {
+                    try {
+                        if (Files.isDirectory(path)) {
+                            FileUtils.deleteDirectory(path.toFile());
+                        }
+                        else if (Files.isRegularFile(path)) {
+                            Files.delete(path);
+                        }
+                    } catch (Exception e) {
+                        logger.error("Error clearing staging area", e);
+                    }
+                });
+
+
                 long id = mqLoaderOutbox.sendAsync(new LoadRequest(processedIds));
 
                 yield new Load(processedIds, id);
diff --git a/code/execution/java/nu/marginalia/svc/BackupService.java b/code/execution/java/nu/marginalia/svc/BackupService.java
index 23b95f6c..e6c2f0da 100644
--- a/code/execution/java/nu/marginalia/svc/BackupService.java
+++ b/code/execution/java/nu/marginalia/svc/BackupService.java
@@ -2,22 +2,25 @@ package nu.marginalia.svc;
 
 import com.github.luben.zstd.ZstdInputStream;
 import com.github.luben.zstd.ZstdOutputStream;
+import com.google.inject.Inject;
 import nu.marginalia.IndexLocations;
+import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.linkdb.LinkdbFileNames;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorageId;
 import nu.marginalia.storage.model.FileStorageType;
-import nu.marginalia.index.journal.IndexJournalFileNames;
+import org.apache.commons.io.FileUtils;
 import org.apache.commons.io.IOUtils;
 
-import com.google.inject.Inject;
+import java.io.FileNotFoundException;
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.sql.SQLException;
 import java.time.LocalDateTime;
 import java.util.List;
+import java.util.Optional;
 
 public class BackupService {
 
@@ -97,35 +100,20 @@ public class BackupService {
 
     private void backupJournal(Path inputStorage, Path backupStorage) throws IOException
     {
-        for (var source : IndexJournalFileNames.findJournalFiles(inputStorage)) {
-            var dest = backupStorage.resolve(source.toFile().getName());
-
-            try (var is = Files.newInputStream(source);
-                 var os = Files.newOutputStream(dest)
-            ) {
-                IOUtils.copyLarge(is, os);
-            }
+        Optional<IndexJournal> journal = IndexJournal.findJournal(inputStorage);
+        if (journal.isEmpty()) {
+            throw new FileNotFoundException("No journal found in input storage");
         }
 
+        FileUtils.copyDirectory(journal.get().journalDir().toFile(), backupStorage.resolve(journal.get().journalDir().getFileName()).toFile());
     }
 
     private void restoreJournal(Path destStorage, Path backupStorage) throws IOException {
-
-        // Remove any old journal files first to avoid them getting loaded
-        for (var garbage : IndexJournalFileNames.findJournalFiles(destStorage)) {
-            Files.delete(garbage);
+        Optional<IndexJournal> journal = IndexJournal.findJournal(backupStorage);
+        if (journal.isEmpty()) {
+            throw new FileNotFoundException("No journal found in backup");
         }
-
-        for (var source : IndexJournalFileNames.findJournalFiles(backupStorage)) {
-            var dest = destStorage.resolve(source.toFile().getName());
-
-            try (var is = Files.newInputStream(source);
-                 var os = Files.newOutputStream(dest)
-            ) {
-                IOUtils.copyLarge(is, os);
-            }
-        }
-
+        FileUtils.copyDirectory(backupStorage.resolve(journal.get().journalDir().getFileName()).toFile(), destStorage.toFile());
     }
 
     private void backupFileCompressed(String fileName, Path inputStorage, Path backupStorage) throws IOException
diff --git a/code/features-convert/data-extractors/build.gradle b/code/features-convert/data-extractors/build.gradle
index f8841120..82bf536a 100644
--- a/code/features-convert/data-extractors/build.gradle
+++ b/code/features-convert/data-extractors/build.gradle
@@ -24,7 +24,7 @@ dependencies {
     implementation project(':code:libraries:blocking-thread-pool')
     implementation project(':code:features-crawl:link-parser')
     implementation project(':code:features-convert:anchor-keywords')
-    implementation project(':code:process-models:crawling-model')
+    implementation project(':code:processes:crawling-process:model')
     implementation project(':code:processes:converting-process')
     implementation project(':third-party:commons-codec')
 
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/AtagExporter.java b/code/features-convert/data-extractors/java/nu/marginalia/extractor/AtagExporter.java
index acc3a417..d2f2c91b 100644
--- a/code/features-convert/data-extractors/java/nu/marginalia/extractor/AtagExporter.java
+++ b/code/features-convert/data-extractors/java/nu/marginalia/extractor/AtagExporter.java
@@ -3,13 +3,13 @@ package nu.marginalia.extractor;
 import com.google.inject.Inject;
 import gnu.trove.set.hash.TLongHashSet;
 import lombok.SneakyThrows;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
 import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.process.log.WorkLog;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorage;
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/FeedExporter.java b/code/features-convert/data-extractors/java/nu/marginalia/extractor/FeedExporter.java
index fa925b39..547b810b 100644
--- a/code/features-convert/data-extractors/java/nu/marginalia/extractor/FeedExporter.java
+++ b/code/features-convert/data-extractors/java/nu/marginalia/extractor/FeedExporter.java
@@ -2,13 +2,13 @@ package nu.marginalia.extractor;
 
 import com.google.inject.Inject;
 import lombok.SneakyThrows;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.link_parser.FeedExtractor;
 import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.process.log.WorkLog;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorage;
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
index 4283a657..2545d666 100644
--- a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
+++ b/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
@@ -5,11 +5,11 @@ import gnu.trove.map.hash.TLongIntHashMap;
 import gnu.trove.set.hash.TLongHashSet;
 import nu.marginalia.WmsaHome;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.model.CrawledDocument;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
 import nu.marginalia.language.filter.LanguageFilter;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.sentence.SentenceExtractor;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.process.log.WorkLog;
 import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.FileStorage;
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index 4c1f0edd..8e28b550 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -7,14 +7,16 @@ import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.model.WordRep;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 
+import java.util.ArrayList;
 import java.util.Collection;
 import java.util.Comparator;
+import java.util.List;
 import java.util.stream.Stream;
 
-
 public class DocumentKeywordExtractor {
 
     private final KeywordExtractor keywordExtractor;
@@ -93,7 +95,7 @@ public class DocumentKeywordExtractor {
             var word = rep.word;
 
             if (!word.isBlank()) {
-                long meta = metadata.getMetadataForWord(rep.stemmed);
+                byte meta = metadata.getMetadataForWord(rep.stemmed);
                 wordsBuilder.addMeta(word, meta);
             }
         }
@@ -105,7 +107,13 @@ public class DocumentKeywordExtractor {
     {
         // we use 1-based indexing since the data
         // will be gamma encoded, and it can't represent 0
-        int pos = 1;
+        int pos = 0;
+
+        List<SpanRecorder> spanRecorders = List.of(
+                new SpanRecorder(HtmlTag.TITLE),
+                new SpanRecorder(HtmlTag.HEADING),
+                new SpanRecorder(HtmlTag.CODE)
+        );
 
         for (DocumentSentence sent : dld) {
 
@@ -113,6 +121,12 @@ public class DocumentKeywordExtractor {
                 break;
 
             for (var word : sent) {
+                pos++;
+
+                for (var recorder : spanRecorders) {
+                    recorder.update(sent, pos);
+                }
+
                 if (word.isStopWord()) {
                     continue;
                 }
@@ -120,7 +134,7 @@ public class DocumentKeywordExtractor {
                 String w = word.wordLowerCase();
                 if (matchesWordPattern(w)) {
                     /* Add information about term positions */
-                    wordsBuilder.addPos(w, pos++);
+                    wordsBuilder.addPos(w, pos);
 
                     /* Add metadata for word */
                     wordsBuilder.addMeta(w, metadata.getMetadataForWord(word.stemmed()));
@@ -130,11 +144,16 @@ public class DocumentKeywordExtractor {
             for (var names : keywordExtractor.getProperNames(sent)) {
                 var rep = new WordRep(sent, names);
 
-                long meta = metadata.getMetadataForWord(rep.stemmed);
+                byte meta = metadata.getMetadataForWord(rep.stemmed);
 
                 wordsBuilder.addMeta(rep.word, meta);
             }
+        }
 
+        pos++; // we need to add one more position to account for the last word in the document
+
+        for (var recorder : spanRecorders) {
+            wordsBuilder.addSpans(recorder.finish(pos));
         }
     }
 
@@ -176,4 +195,36 @@ public class DocumentKeywordExtractor {
 
         return false;
     }
+
+    /** Helper class to record spans of words */
+    private static class SpanRecorder {
+        private List<DocumentKeywordsBuilder.DocumentWordSpan> spans = new ArrayList<>();
+        private final HtmlTag htmlTag;
+        private int start = 0;
+
+        public SpanRecorder(HtmlTag htmlTag) {
+            this.htmlTag = htmlTag;
+        }
+
+        public void update(DocumentSentence sentence, int pos) {
+            assert pos > 0;
+
+            if (sentence.htmlTags.contains(htmlTag)) {
+                if (start <= 0) start = pos;
+            }
+            else {
+                if (start > 0) {
+                    spans.add(new DocumentKeywordsBuilder.DocumentWordSpan(htmlTag, start, pos));
+                    start = -1;
+                }
+            }
+        }
+
+        public List<DocumentKeywordsBuilder.DocumentWordSpan> finish(int length) {
+            if (start > 0) {
+                spans.add(new DocumentKeywordsBuilder.DocumentWordSpan(htmlTag, start, length));
+            }
+            return spans;
+        }
+    }
 }
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
index 0bf5043a..b27e0676 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
@@ -27,9 +27,9 @@ class KeywordMetadata {
         this.urlKeywords = urlKeywords;
     }
 
-    public long getMetadataForWord(String stemmed) {
+    public byte getMetadataForWord(String stemmed) {
 
-        long flags = 0;
+        byte flags = 0;
 
         if (subjectLikeKeywords.contains(stemmed)) {
             flags |= WordFlags.Subjects.asBit();
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index 40a51cd3..d8167422 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,36 +1,36 @@
 package nu.marginalia.keyword.model;
 
+import nu.marginalia.model.idx.CodedWordSpan;
 import nu.marginalia.sequence.CodedSequence;
 
-import java.io.Serial;
-import java.io.Serializable;
+import java.util.List;
 
-public final class DocumentKeywords implements Serializable {
+public final class DocumentKeywords {
 
-    @Serial
-    private static final long serialVersionUID = 1387282293082091432L;
+    public final List<String> keywords;
+    public final byte[] metadata;
+    public final List<CodedSequence> positions;
+    public final List<CodedWordSpan> spans;
 
-    public final String[] keywords;
-    public final long[] metadata;
-    public final CodedSequence[] positions;
-
-    public DocumentKeywords(String[] keywords,
-                            long[] metadata,
-                            CodedSequence[] positions)
+    public DocumentKeywords(List<String> keywords,
+                            byte[] metadata,
+                            List<CodedSequence> positions,
+                            List<CodedWordSpan> spans)
     {
         this.keywords = keywords;
         this.metadata = metadata;
         this.positions = positions;
+        this.spans = spans;
 
-        assert keywords.length == metadata.length;
+        assert keywords.size() == metadata.length;
     }
 
     public boolean isEmpty() {
-        return keywords.length == 0;
+        return keywords.isEmpty();
     }
 
     public int size() {
-        return keywords.length;
+        return keywords.size();
     }
 
 }
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 90870c53..49d090d0 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -1,11 +1,13 @@
 package nu.marginalia.keyword.model;
 
+import gnu.trove.list.array.TByteArrayList;
 import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntList;
-import it.unimi.dsi.fastutil.objects.Object2LongLinkedOpenHashMap;
+import it.unimi.dsi.fastutil.objects.Object2ByteOpenHashMap;
 import lombok.Getter;
+import nu.marginalia.language.sentence.tag.HtmlTag;
+import nu.marginalia.model.idx.CodedWordSpan;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
@@ -16,8 +18,9 @@ import java.util.*;
 
 @Getter
 public class DocumentKeywordsBuilder {
-    public final Object2LongLinkedOpenHashMap<String> wordToMeta;
+    public final Object2ByteOpenHashMap<String> wordToMeta;
     public final HashMap<String, IntList> wordToPos;
+    public final Map<Character, List<DocumentWordSpan>> wordSpans = new HashMap<>();
 
     /** These ware keywords that had signals of high relevance */
     public final Set<String> importantWords = new HashSet<>();
@@ -35,17 +38,17 @@ public class DocumentKeywordsBuilder {
     }
 
     public DocumentKeywords build(ByteBuffer workArea) {
-        final String[] wordArray = new String[wordToMeta.size()];
-        final long[] meta = new long[wordToMeta.size()];
-        final CodedSequence[] positions = new CodedSequence[wordToMeta.size()];
+        final List<String> wordArray = new ArrayList<>(wordToMeta.size());
+        final TByteArrayList meta = new TByteArrayList(wordToMeta.size());
+        final List<CodedSequence> positions = new ArrayList<>(wordToMeta.size());
 
-        var iter = wordToMeta.object2LongEntrySet().fastIterator();
+        var iter = wordToMeta.object2ByteEntrySet().fastIterator();
 
-        for (int i = 0; iter.hasNext(); i++) {
+        while (iter.hasNext()) {
             var entry = iter.next();
 
-            meta[i] = entry.getLongValue();
-            wordArray[i] = entry.getKey();
+            meta.add(entry.getByteValue());
+            wordArray.add(entry.getKey());
 
             var posList = wordToPos.getOrDefault(entry.getKey(), IntList.of());
 
@@ -53,18 +56,33 @@ public class DocumentKeywordsBuilder {
                 posList.subList(MAX_POSITIONS_PER_WORD, posList.size()).clear();
             }
 
-            positions[i] = GammaCodedSequence.generate(workArea, posList);
+            positions.add(GammaCodedSequence.generate(workArea, posList));
         }
 
-        return new DocumentKeywords(wordArray, meta, positions);
+        // Encode spans
+        List<CodedWordSpan> spans = new ArrayList<>(wordSpans.size());
+
+        wordSpans.forEach((tag, spansForTag) -> {
+            spansForTag.sort(Comparator.comparingInt(DocumentWordSpan::start));
+
+            var positionsForTag = new IntArrayList(spansForTag.size()*2);
+            for (var span : spansForTag) {
+                positionsForTag.add(span.start());
+                positionsForTag.add(span.end());
+            }
+
+            spans.add(new CodedWordSpan((byte) tag.charValue(), GammaCodedSequence.generate(workArea, positionsForTag)));
+        });
+
+        return new DocumentKeywords(wordArray, meta.toArray(), positions, spans);
     }
 
     public DocumentKeywordsBuilder(int capacity) {
-        wordToMeta  = new Object2LongLinkedOpenHashMap<>(capacity);
+        wordToMeta  = new Object2ByteOpenHashMap<>(capacity);
         wordToPos = new HashMap<>(capacity);
     }
 
-    public void addMeta(String word, long meta) {
+    public void addMeta(String word, byte meta) {
         if (word.length() > MAX_WORD_LENGTH)
             return;
 
@@ -84,12 +102,12 @@ public class DocumentKeywordsBuilder {
 
     public void setFlagOnMetadataForWords(WordFlags flag, Collection<String> flagWords) {
         flagWords.forEach(word ->
-            wordToMeta.mergeLong(word, flag.asBit(), (a, b) -> a|b)
+            wordToMeta.mergeByte(word, flag.asBit(), (a, b) -> (byte)(a|b))
         );
     }
 
     public void addAllSyntheticTerms(Collection<String> newWords) {
-        long meta = WordFlags.Synthetic.asBit();
+        byte meta = WordFlags.Synthetic.asBit();
 
         // Only add the synthetic flag if the words aren't already present
 
@@ -97,17 +115,17 @@ public class DocumentKeywordsBuilder {
     }
 
     public void addAnchorTerms(Map<String, Integer> keywords) {
-        long flagA = WordFlags.ExternalLink.asBit();
-        long flagB = flagA | WordFlags.Site.asBit();
-        long flagC = flagB | WordFlags.SiteAdjacent.asBit();
+        byte flagA = WordFlags.ExternalLink.asBit();
+        byte flagB = (byte) (flagA | WordFlags.Site.asBit());
+        byte flagC = (byte) (flagB | WordFlags.SiteAdjacent.asBit());
 
         keywords.forEach((word, count) -> {
             if (count > 5) {
-                wordToMeta.mergeLong(word, flagC, (a, b) -> a|b);
+                wordToMeta.mergeByte(word, flagC, (a, b) -> (byte) (a|b));
             } else if (count > 2) {
-                wordToMeta.mergeLong(word, flagB, (a, b) -> a|b);
+                wordToMeta.mergeByte(word, flagB, (a, b) -> (byte) (a|b));
             } else {
-                wordToMeta.mergeLong(word, flagA, (a, b) -> a|b);
+                wordToMeta.mergeByte(word, flagA, (a, b) -> (byte) (a|b));
             }
         });
     }
@@ -115,9 +133,9 @@ public class DocumentKeywordsBuilder {
     public List<String> getWordsWithAnyFlag(long flags) {
         List<String> ret = new ArrayList<>();
 
-        for (var iter = wordToMeta.object2LongEntrySet().fastIterator(); iter.hasNext();) {
+        for (var iter = wordToMeta.object2ByteEntrySet().fastIterator(); iter.hasNext();) {
             var entry = iter.next();
-            if ((flags & entry.getLongValue()) != 0) {
+            if ((flags & entry.getByteValue()) != 0) {
                 ret.add(entry.getKey());
             }
         }
@@ -125,21 +143,27 @@ public class DocumentKeywordsBuilder {
         return ret;
     }
 
+    public void addSpans(List<DocumentWordSpan> newSpans) {
+        for (var span : newSpans) {
+            wordSpans.computeIfAbsent(span.tag().code, k -> new ArrayList<>()).add(span);
+        }
+    }
+
     public int size() {
         return Math.max(wordToMeta.size(), wordToPos.size());
     }
 
-    public WordMetadata getMetaForWord(String word) {
-        return new WordMetadata(wordToMeta.getLong(word));
-    }
 
     @Override
     public String toString() {
         StringBuilder sb = new StringBuilder("[ ");
+
         wordToMeta.forEach((word, meta) -> {
-            sb.append(word).append("->").append(new WordMetadata(meta).flagSet()).append(',').append(wordToPos.getOrDefault(word, new IntArrayList())).append(' ');
+            sb.append(word).append("->").append(WordFlags.decode(meta)).append(',').append(wordToPos.getOrDefault(word, new IntArrayList())).append(' ');
         });
         return sb.append(']').toString();
     }
 
+    public record DocumentWordSpan(HtmlTag tag, int start, int end) {
+    }
 }
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index 0d731227..71c3befe 100644
--- a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -4,9 +4,8 @@ import nu.marginalia.WmsaHome;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.Assertions;
@@ -53,30 +52,11 @@ class DocumentKeywordExtractorTest {
 
         keywords.getWordToMeta().forEach((k, v) -> {
             if (k.contains("_")) {
-                System.out.println(k + " " + new WordMetadata(v));
+                System.out.println(k + " " + WordFlags.decode(v));
             }
         });
     }
-    @Test
-    public void testKeyboards() throws IOException, URISyntaxException {
-        var resource = Objects.requireNonNull(ClassLoader.getSystemResourceAsStream("test-data/keyboards.html"),
-                "Could not load word frequency table");
-        String html = new String(resource.readAllBytes(), Charset.defaultCharset());
-        var doc = Jsoup.parse(html);
-        doc.filter(new DomPruningFilter(0.5));
 
-        var keywords = extractor.extractKeywords(se.extractSentences(doc), new EdgeUrl("https://pmortensen.eu/world2/2021/12/24/rapoo-mechanical-keyboards-gotchas-and-setup/"));
-        System.out.println(keywords.getMetaForWord("mechanical"));
-        System.out.println(keywords.getMetaForWord("keyboard"));
-        System.out.println(keywords.getMetaForWord("keyboards"));
-
-        System.out.println(new WordMetadata(8894889328781L));
-        System.out.println(new WordMetadata(4294967297L));
-        System.out.println(new WordMetadata(566820053975498886L));
-        // -
-        System.out.println(new WordMetadata(1198298103937L));
-        System.out.println(new WordMetadata(1103808168065L));
-    }
 
     @Test
     public void testMadonna() throws IOException, URISyntaxException {
@@ -93,16 +73,17 @@ class DocumentKeywordExtractorTest {
 
         var keywordsBuilt = keywords.build(ByteBuffer.allocate(1024));
 
-        Map<String, WordMetadata> flags = new HashMap<>();
+        Map<String, Byte> flags = new HashMap<>();
         Map<String, CodedSequence> positions = new HashMap<>();
 
         for (int i = 0; i < keywordsBuilt.size(); i++) {
-            String keyword = keywordsBuilt.keywords[i];
-            long metadata = keywordsBuilt.metadata[i];
+            String keyword = keywordsBuilt.keywords.get(i);
+            byte metadata = keywordsBuilt.metadata[i]
+                    ;
 
             if (Set.of("dirty", "blues").contains(keyword)) {
-                flags.put(keyword, new WordMetadata(metadata));
-                positions.put(keyword, keywordsBuilt.positions[i]);
+                flags.put(keyword, metadata);
+                positions.put(keyword, keywordsBuilt.positions.get(i));
 
             }
         }
@@ -127,7 +108,5 @@ class DocumentKeywordExtractorTest {
                 new TermFrequencyDict(WmsaHome.getLanguageModels()));
         SentenceExtractor se = new SentenceExtractor(WmsaHome.getLanguageModels());
 
-        var keywords = extractor.extractKeywords(se.extractSentences(doc), new EdgeUrl("https://math.byu.edu/wiki/index.php/All_You_Need_To_Know_About_Earning_Money_Online"));
-        System.out.println(keywords.getMetaForWord("knitting"));
     }
 }
\ No newline at end of file
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
index 46681de4..691d374a 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
@@ -1,6 +1,9 @@
 package nu.marginalia.api.searchquery;
 
 import lombok.SneakyThrows;
+import nu.marginalia.api.searchquery.model.query.ProcessedQuery;
+import nu.marginalia.api.searchquery.model.query.QueryParams;
+import nu.marginalia.api.searchquery.model.query.QueryResponse;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -11,9 +14,6 @@ import nu.marginalia.api.searchquery.model.results.debug.ResultRankingInputs;
 import nu.marginalia.api.searchquery.model.results.debug.ResultRankingOutputs;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.api.searchquery.model.query.ProcessedQuery;
-import nu.marginalia.api.searchquery.model.query.QueryParams;
-import nu.marginalia.api.searchquery.model.query.QueryResponse;
 
 import java.util.ArrayList;
 
@@ -197,7 +197,8 @@ public class QueryProtobufCodec {
         return new SearchResultKeywordScore(
                 keywordScores.getKeyword(),
                 -1, // termId is internal to index service
-                keywordScores.getEncodedWordMetadata()
+                (byte) keywordScores.getFlags(),
+                keywordScores.getPositions()
         );
     }
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultKeywordScore.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultKeywordScore.java
index 212b2302..b04d65df 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultKeywordScore.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultKeywordScore.java
@@ -1,40 +1,32 @@
 package nu.marginalia.api.searchquery.model.results;
 
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
 
 import java.util.Objects;
 
 public final class SearchResultKeywordScore {
     public final long termId;
     public final String keyword;
-    private final long encodedWordMetadata;
+    public byte flags;
+    public int positionCount;
 
     public SearchResultKeywordScore(String keyword,
                                     long termId,
-                                    long encodedWordMetadata) {
+                                    byte flags,
+                                    int positionCount) {
         this.termId = termId;
         this.keyword = keyword;
-        this.encodedWordMetadata = encodedWordMetadata;
     }
 
     public boolean hasTermFlag(WordFlags flag) {
-        return WordMetadata.hasFlags(encodedWordMetadata, flag.asBit());
+        return (flags & flag.asBit()) != 0;
     }
 
 
-    public long positions() {
-        return WordMetadata.decodePositions(encodedWordMetadata);
-    }
-
     public boolean isKeywordSpecial() {
         return keyword.contains(":") || hasTermFlag(WordFlags.Synthetic);
     }
 
-    public long encodedWordMetadata() {
-        return encodedWordMetadata;
-    }
-
     @Override
     public boolean equals(Object obj) {
         if (obj == this) return true;
@@ -51,8 +43,7 @@ public final class SearchResultKeywordScore {
     @Override
     public String toString() {
         return "SearchResultKeywordScore[" +
-                "keyword=" + keyword + ", " +
-                "encodedWordMetadata=" + new WordMetadata(encodedWordMetadata) + ']';
+                "keyword=" + keyword + ']';
     }
 
 }
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index 642b28ed..ee6e669b 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -108,7 +108,8 @@ message RpcRawResultItem {
 /* Information about how well a keyword matches a query */
 message RpcResultKeywordScore {
   string keyword = 1; // the keyword
-  int64 encodedWordMetadata = 2; // bit encoded word metadata
+  int32 flags = 2;
+  int32 positions = 3;
 }
 
 /* Query execution parameters */
diff --git a/code/index/build.gradle b/code/index/build.gradle
index 2f1cde13..db4dab20 100644
--- a/code/index/build.gradle
+++ b/code/index/build.gradle
@@ -30,8 +30,9 @@ dependencies {
     implementation project(':code:common:linkdb')
     implementation project(':code:common:service')
 
-    implementation project(':code:functions:search-query:api')
+    implementation project(':code:processes:converting-process:model')
 
+    implementation project(':code:functions:search-query:api')
     implementation project(':code:index:index-forward')
     implementation project(':code:index:index-reverse')
     implementation project(':code:index:query')
@@ -73,4 +74,5 @@ dependencies {
     testImplementation project(':code:libraries:test-helpers')
     testImplementation project(':code:libraries:term-frequency-dict')
     testImplementation project(':code:libraries:braille-block-punch-cards')
+    testImplementation project(':code:libraries:test-helpers')
 }
diff --git a/code/index/index-forward/build.gradle b/code/index/index-forward/build.gradle
index 83e0cdc2..3506281f 100644
--- a/code/index/index-forward/build.gradle
+++ b/code/index/index-forward/build.gradle
@@ -15,11 +15,13 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
+    implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:index:query')
     implementation project(':code:index:index-journal')
     implementation project(':code:common:model')
     implementation project(':code:common:process')
+    implementation project(':code:processes:converting-process:model')
 
     implementation libs.bundles.slf4j
 
@@ -28,6 +30,7 @@ dependencies {
     implementation libs.fastutil
     implementation libs.trove
 
+    testImplementation project(':code:libraries:test-helpers')
     testImplementation libs.bundles.slf4j.test
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
index 7c3704ba..2edc283f 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
@@ -1,19 +1,21 @@
 package nu.marginalia.index.forward;
 
 import it.unimi.dsi.fastutil.longs.Long2IntOpenHashMap;
+import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.array.LongArray;
+import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.slop.column.primitive.LongColumnReader;
 import org.roaringbitmap.longlong.LongConsumer;
 import org.roaringbitmap.longlong.Roaring64Bitmap;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
@@ -23,22 +25,25 @@ public class ForwardIndexConverter {
 
     private final Logger logger = LoggerFactory.getLogger(getClass());
 
-    private final IndexJournalReader journalReader;
     private final Path outputFileDocsId;
     private final Path outputFileDocsData;
     private final DomainRankings domainRankings;
 
+    private final Path outputFileSpansData;
+    private final IndexJournal journal;
 
     public ForwardIndexConverter(ProcessHeartbeat heartbeat,
-                                 IndexJournalReader journalReader,
                                  Path outputFileDocsId,
                                  Path outputFileDocsData,
+                                 Path outputFileSpansData,
+                                 IndexJournal journal,
                                  DomainRankings domainRankings
                                  ) {
         this.heartbeat = heartbeat;
-        this.journalReader = journalReader;
         this.outputFileDocsId = outputFileDocsId;
         this.outputFileDocsData = outputFileDocsData;
+        this.outputFileSpansData = outputFileSpansData;
+        this.journal = journal;
         this.domainRankings = domainRankings;
     }
 
@@ -58,7 +63,7 @@ public class ForwardIndexConverter {
         try (var progress = heartbeat.createProcessTaskHeartbeat(TaskSteps.class, "forwardIndexConverter")) {
             progress.progress(TaskSteps.GET_DOC_IDS);
 
-            LongArray docsFileId = getDocIds(outputFileDocsId, journalReader);
+            LongArray docsFileId = getDocIds(outputFileDocsId, journal);
 
             progress.progress(TaskSteps.GATHER_OFFSETS);
 
@@ -73,20 +78,55 @@ public class ForwardIndexConverter {
 
             LongArray docFileData = LongArrayFactory.mmapForWritingConfined(outputFileDocsData, ForwardIndexParameters.ENTRY_SIZE * docsFileId.size());
 
-            var pointer = journalReader.newPointer();
-            while (pointer.nextDocument()) {
-                long docId = pointer.documentId();
-                int domainId = UrlIdCodec.getDomainId(docId);
+            ByteBuffer workArea = ByteBuffer.allocate(65536);
+            for (var instance : journal.pages()) {
+                try (var docIdReader = instance.openCombinedId();
+                     var metaReader = instance.openDocumentMeta();
+                     var featuresReader = instance.openFeatures();
+                     var sizeReader = instance.openSize();
 
-                long entryOffset = (long) ForwardIndexParameters.ENTRY_SIZE * docIdToIdx.get(docId);
+                     var spansCodesReader = instance.openSpanCodes();
+                     var spansSeqReader = instance.openSpans();
+                     var spansWriter = new ForwardIndexSpansWriter(outputFileSpansData)
+                     )
+                {
+                    while (docIdReader.hasRemaining()) {
+                        long docId = docIdReader.get();
+                        int domainId = UrlIdCodec.getDomainId(docId);
 
-                int ranking = domainRankings.getRanking(domainId);
-                long meta = DocumentMetadata.encodeRank(pointer.documentMeta(), ranking);
+                        long entryOffset = (long) ForwardIndexParameters.ENTRY_SIZE * docIdToIdx.get(docId);
 
-                long features = pointer.documentFeatures() | ((long) pointer.documentSize() << 32L);
+                        int ranking = domainRankings.getRanking(domainId);
+                        long meta = DocumentMetadata.encodeRank(metaReader.get(), ranking);
 
-                docFileData.set(entryOffset + ForwardIndexParameters.METADATA_OFFSET, meta);
-                docFileData.set(entryOffset + ForwardIndexParameters.FEATURES_OFFSET, features);
+                        final int docFeatures = featuresReader.get();
+                        final int docSize = sizeReader.get();
+
+                        long features = docFeatures | ((long) docSize << 32L);
+
+                        // Write spans data
+                        byte[] spansCodes = spansCodesReader.get();
+
+                        spansWriter.beginRecord(spansCodes.length);
+
+                        for (int i = 0; i < spansCodes.length; i++) {
+                            workArea.clear();
+                            spansSeqReader.getData(workArea);
+                            workArea.flip();
+
+                            spansWriter.writeSpan(spansCodes[i], workArea);
+                        }
+
+                        long encodedSpansOffset = spansWriter.endRecord();
+
+
+                        // Write the principal forward documents file
+                        docFileData.set(entryOffset + ForwardIndexParameters.METADATA_OFFSET, meta);
+                        docFileData.set(entryOffset + ForwardIndexParameters.FEATURES_OFFSET, features);
+                        docFileData.set(entryOffset + ForwardIndexParameters.SPANS_OFFSET, encodedSpansOffset);
+
+                    }
+                }
             }
 
             progress.progress(TaskSteps.FORCE);
@@ -104,9 +144,16 @@ public class ForwardIndexConverter {
         }
     }
 
-    private LongArray getDocIds(Path outputFileDocs, IndexJournalReader journalReader) throws IOException {
+    private LongArray getDocIds(Path outputFileDocs, IndexJournal journalReader) throws IOException {
         Roaring64Bitmap rbm = new Roaring64Bitmap();
-        journalReader.forEachDocId(rbm::add);
+
+        for (var instance : journalReader.pages()) {
+            try (LongColumnReader idReader = instance.openCombinedId()) {
+                while (idReader.hasRemaining()) {
+                    rbm.add(idReader.get());
+                }
+            }
+        }
 
         LongArray ret = LongArrayFactory.mmapForWritingConfined(outputFileDocs, rbm.getIntCardinality());
         rbm.forEach(new LongConsumer() {
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexFileNames.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexFileNames.java
index e16e8618..6231256e 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexFileNames.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexFileNames.java
@@ -13,6 +13,10 @@ public class ForwardIndexFileNames {
                 case NEXT -> basePath.resolve("fwd-doc-data.dat.next");
                 case CURRENT -> basePath.resolve("fwd-doc-data.dat");
             };
+            case SPANS_DATA -> switch (version) {
+                case NEXT -> basePath.resolve("fwd-spans.dat.next");
+                case CURRENT -> basePath.resolve("fwd-spans.dat");
+            };
         };
     }
 
@@ -23,6 +27,7 @@ public class ForwardIndexFileNames {
 
     public enum FileIdentifier {
         DOC_DATA,
+        SPANS_DATA,
         DOC_ID
     }
 }
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java
index 0b306050..cef76eb0 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java
@@ -1,8 +1,8 @@
 package nu.marginalia.index.forward;
 
 class ForwardIndexParameters {
-    public static final int ENTRY_SIZE = 2;
+    public static final int ENTRY_SIZE = 3;
     public static final int METADATA_OFFSET = 0;
     public static final int FEATURES_OFFSET = 1;
-
+    public static final int SPANS_OFFSET = 2;
 }
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
index f9393b45..902c7344 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
@@ -29,19 +29,31 @@ public class ForwardIndexReader {
     private final TLongIntHashMap idToOffset;
     private final LongArray data;
 
+    private final ForwardIndexSpansReader spansReader;
     private final Logger logger = LoggerFactory.getLogger(getClass());
 
-    public ForwardIndexReader(Path idsFile, Path dataFile) throws IOException {
+    public ForwardIndexReader(Path idsFile,
+                              Path dataFile,
+                              Path spansFile) throws IOException {
         if (!Files.exists(dataFile)) {
             logger.warn("Failed to create ForwardIndexReader, {} is absent", dataFile);
             idToOffset = null;
             data = null;
+            spansReader = null;
             return;
         }
         else if (!Files.exists(idsFile)) {
             logger.warn("Failed to create ForwardIndexReader, {} is absent", idsFile);
             idToOffset = null;
             data = null;
+            spansReader = null;
+            return;
+        }
+        else if (!Files.exists(spansFile)) {
+            logger.warn("Failed to create ForwardIndexReader, {} is absent", spansFile);
+            idToOffset = null;
+            data = null;
+            spansReader = null;
             return;
         }
 
@@ -49,6 +61,7 @@ public class ForwardIndexReader {
 
         idToOffset = loadIds(idsFile);
         data = loadData(dataFile);
+        spansReader = new ForwardIndexSpansReader(spansFile);
     }
 
     private static TLongIntHashMap loadIds(Path idsFile) throws IOException {
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java
new file mode 100644
index 00000000..a670658d
--- /dev/null
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java
@@ -0,0 +1,63 @@
+package nu.marginalia.index.forward;
+
+import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.sequence.GammaCodedSequence;
+
+import java.io.IOException;
+import java.lang.foreign.Arena;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+import java.util.ArrayList;
+import java.util.List;
+
+@SuppressWarnings("preview")
+public class ForwardIndexSpansReader implements AutoCloseable {
+    private final FileChannel spansFileChannel;
+
+    public ForwardIndexSpansReader(Path spansFile) throws IOException {
+        this.spansFileChannel = (FileChannel) Files.newByteChannel(spansFile, StandardOpenOption.READ);
+    }
+
+    public List<SpanData> readSpans(Arena arena, long encodedOffset) throws IOException {
+        long size = encodedOffset & 0xFFF_FFFF;
+        long offset = encodedOffset >>> 28;
+
+        var buffer = arena.allocate(size).asByteBuffer();
+        buffer.clear();
+        while (buffer.hasRemaining()) {
+            spansFileChannel.read(buffer, offset + buffer.position());
+        }
+        buffer.flip();
+
+        int count = buffer.get();
+
+        List<SpanData> ret = new ArrayList<>();
+        while (count-- > 0) {
+            byte code = buffer.get();
+            short len = buffer.getShort();
+
+            final int pos = buffer.position();
+
+            // Decode the gamma-coded sequence; this will advance the buffer position
+            // in a not entirely predictable way, so we need to save the position
+            buffer.limit(buffer.position() + len);
+            var sequence = new GammaCodedSequence(buffer).values();
+            ret.add(new SpanData(code, sequence));
+
+            // Reset the buffer position to the end of the span
+            buffer.position(pos + len);
+            buffer.limit(buffer.capacity());
+        }
+
+        return ret;
+    }
+
+    @Override
+    public void close() throws IOException {
+        spansFileChannel.close();
+    }
+
+    public record SpanData(byte code, IntList data) {}
+}
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java
new file mode 100644
index 00000000..973257c0
--- /dev/null
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java
@@ -0,0 +1,53 @@
+package nu.marginalia.index.forward;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.channels.FileChannel;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.StandardOpenOption;
+
+public class ForwardIndexSpansWriter implements AutoCloseable {
+    private final FileChannel outputChannel;
+    private final ByteBuffer work = ByteBuffer.allocate(32);
+
+    private long stateStartOffset = -1;
+    private int stateLength = -1;
+
+    public ForwardIndexSpansWriter(Path outputFileSpansData) throws IOException {
+        this.outputChannel = (FileChannel) Files.newByteChannel(outputFileSpansData, StandardOpenOption.READ, StandardOpenOption.WRITE, StandardOpenOption.CREATE);
+    }
+
+    public void beginRecord(int count) throws IOException {
+        stateStartOffset = outputChannel.position();
+        stateLength = 0;
+
+        work.clear();
+        work.put((byte) count);
+        work.flip();
+
+        while (work.hasRemaining())
+            stateLength += outputChannel.write(work);
+    }
+
+    public void writeSpan(byte spanCode, ByteBuffer sequenceData) throws IOException {
+        work.clear();
+        work.put(spanCode);
+        work.putShort((short) sequenceData.remaining());
+        work.flip();
+
+        while (work.hasRemaining() || sequenceData.hasRemaining()) {
+            stateLength += (int) outputChannel.write(new ByteBuffer[]{work, sequenceData});
+        }
+    }
+
+    public long endRecord() {
+        return stateStartOffset << 28 | stateLength;
+
+    }
+
+    @Override
+    public void close() throws IOException {
+        outputChannel.close();
+    }
+}
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
index 39b8dec1..0c5255d5 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
@@ -2,15 +2,11 @@ package nu.marginalia.index.forward;
 
 import lombok.SneakyThrows;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
-import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
-import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
@@ -21,85 +17,94 @@ import org.slf4j.LoggerFactory;
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
-import java.util.stream.IntStream;
+import java.util.List;
 
 import static org.junit.jupiter.api.Assertions.assertEquals;
 
 class ForwardIndexConverterTest {
 
-    IndexJournalWriter writer;
+    IndexJournalSlopWriter writer;
 
-    Path indexFile;
     Path wordsFile1;
     Path urlsFile1;
     Path dictionaryFile;
 
+    Path workDir;
+
     private final Logger logger = LoggerFactory.getLogger(getClass());
 
     Path dataDir;
     private Path docsFileId;
     private Path docsFileData;
+    private Path docsSpanData;
 
     int workSetSize = 512;
     @BeforeEach
     @SneakyThrows
     void setUp() {
+
+        workDir = Files.createTempDirectory(getClass().getSimpleName());
+
         dictionaryFile = Files.createTempFile("tmp", ".dict");
         dictionaryFile.toFile().deleteOnExit();
 
-        indexFile = Files.createTempFile("tmp", ".idx");
-        indexFile.toFile().deleteOnExit();
-        writer = new IndexJournalWriterSingleFileImpl(indexFile);
-
         wordsFile1 = Files.createTempFile("words1", ".idx");
         urlsFile1 = Files.createTempFile("urls1", ".idx");
 
         dataDir = Files.createTempDirectory(getClass().getSimpleName());
 
-        for (int i = 1; i < workSetSize; i++) {
-            createEntry(writer, i);
+        try (var writer = new IndexJournalSlopWriter(IndexJournal.allocateName(workDir), 0)) {
+            for (int i = 1; i < workSetSize; i++) {
+                createEntry(writer, i);
+            }
         }
 
-        writer.close();
-
-
         docsFileId = dataDir.resolve("docs-i.dat");
         docsFileData = dataDir.resolve("docs-d.dat");
+        docsSpanData = dataDir.resolve("docs-s.dat");
     }
 
     @AfterEach
     public void tearDown() {
         TestUtil.clearTempDir(dataDir);
+        TestUtil.clearTempDir(workDir);
     }
 
     long createId(long url, long domain) {
         return UrlIdCodec.encodeId((int) domain, (int) url);
     }
 
-    public void createEntry(IndexJournalWriter writer, int id) {
+    public void createEntry(IndexJournalSlopWriter writer, int id) {
         writer.put(
-                new IndexJournalEntryHeader(createId(id, id/20),
+                createId(id, id/20),
+                new SlopDocumentRecord.KeywordsProjection(
+                        "",
+                        -1,
                         id%3,
+                        id%5,
                         15,
-                        (id % 5)),
-                new IndexJournalEntryData(
-                    new String[]{},
-                    new long[]{},
-                    new CodedSequence[]{}
+                        List.of(),
+                        new byte[0],
+                        List.of(),
+                        new byte[0],
+                        List.of()
                 )
         );
+
+
     }
 
     @Test
     void testForwardIndex() throws IOException {
 
         new ForwardIndexConverter(new FakeProcessHeartbeat(),
-                new IndexJournalReaderSingleFile(indexFile),
                 docsFileId,
                 docsFileData,
+                docsSpanData,
+                IndexJournal.findJournal(workDir).orElseThrow(),
                 new DomainRankings()).convert();
 
-        var forwardReader = new ForwardIndexReader(docsFileId, docsFileData);
+        var forwardReader = new ForwardIndexReader(docsFileId, docsFileData, docsSpanData);
 
         for (int i = 36; i < workSetSize; i++) {
             long docId = createId(i, i/20);
@@ -108,5 +113,4 @@ class ForwardIndexConverterTest {
             assertEquals(i/20, UrlIdCodec.getDomainId(docId));
         }
     }
-
 }
\ No newline at end of file
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
new file mode 100644
index 00000000..b77a0f5a
--- /dev/null
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
@@ -0,0 +1,63 @@
+package nu.marginalia.index.forward;
+
+import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.sequence.GammaCodedSequence;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.lang.foreign.Arena;
+import java.nio.ByteBuffer;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+class ForwardIndexSpansReaderTest {
+    Path testFile = Files.createTempFile("test", ".idx");
+
+    ForwardIndexSpansReaderTest() throws IOException {
+    }
+
+    @AfterEach
+    public void tearDown() throws IOException {
+        Files.deleteIfExists(testFile);
+    }
+
+    @Test
+    void testSunnyDay() throws IOException {
+        ByteBuffer wa = ByteBuffer.allocate(32);
+
+        long offset1;
+        long offset2;
+        try (var writer = new ForwardIndexSpansWriter(testFile)) {
+            writer.beginRecord(1);
+            writer.writeSpan((byte) 'a', GammaCodedSequence.generate(wa, 1, 3, 5).buffer());
+            offset1 = writer.endRecord();
+
+            writer.beginRecord(2);
+            writer.writeSpan((byte) 'b', GammaCodedSequence.generate(wa, 2, 4, 6).buffer());
+            writer.writeSpan((byte) 'c', GammaCodedSequence.generate(wa, 3, 5, 7).buffer());
+            offset2 = writer.endRecord();
+        }
+
+        try (var reader = new ForwardIndexSpansReader(testFile);
+             var arena = Arena.ofConfined()
+        ) {
+            var spans1 = reader.readSpans(arena, offset1);
+            var spans2 = reader.readSpans(arena, offset2);
+
+            assertEquals(1, spans1.size());
+
+            assertEquals('a', spans1.get(0).code());
+            assertEquals(IntList.of(1, 3, 5), spans1.get(0).data());
+
+            assertEquals(2, spans2.size());
+
+            assertEquals('b', spans2.get(0).code());
+            assertEquals(IntList.of(2, 4, 6), spans2.get(0).data());
+            assertEquals('c', spans2.get(1).code());
+            assertEquals(IntList.of(3, 5, 7), spans2.get(1).data());
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/index/index-forward/test/nu/marginalia/test/TestUtil.java b/code/index/index-forward/test/nu/marginalia/test/TestUtil.java
deleted file mode 100644
index 8fbf6b54..00000000
--- a/code/index/index-forward/test/nu/marginalia/test/TestUtil.java
+++ /dev/null
@@ -1,43 +0,0 @@
-package nu.marginalia.test;
-
-
-import java.io.File;
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.Arrays;
-
-public class TestUtil {
-    public static void clearTempDir(Path dir) {
-        if (Files.isDirectory(dir)) {
-            for (File f : dir.toFile().listFiles()) {
-                File[] files = f.listFiles();
-                if (files != null) {
-                    Arrays.stream(files).map(File::toPath).forEach(TestUtil::clearTempDir);
-                }
-                System.out.println("Deleting " + f + " (" + fileSize(f.toPath()) + ")");
-                f.delete();
-            }
-        }
-        System.out.println("Deleting " + dir);
-        dir.toFile().delete();
-    }
-
-    private static String fileSize(Path path) {
-        try {
-            long sizeBytes = Files.size(path);
-
-            if (sizeBytes > 1024 * 1024 * 1024) return round(sizeBytes / 1073741824.) + "Gb";
-            if (sizeBytes > 1024 * 1024) return round(sizeBytes / 1048576.) + "Mb";
-            if (sizeBytes > 1024) return round(sizeBytes / 1024.) + "Kb";
-            return sizeBytes + "b";
-        }
-        catch (IOException ex) {
-            throw new RuntimeException(ex);
-        }
-    }
-
-    private static String round(double d) {
-        return String.format("%.2f", d);
-    }
-}
diff --git a/code/index/index-journal/build.gradle b/code/index/index-journal/build.gradle
index 7274b8b2..b63f2b23 100644
--- a/code/index/index-journal/build.gradle
+++ b/code/index/index-journal/build.gradle
@@ -15,7 +15,9 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:array')
+    implementation project(':code:libraries:slop')
     implementation project(':code:common:model')
+    implementation project(':code:processes:converting-process:model')
     implementation project(':third-party:parquet-floor')
     implementation project(':third-party:commons-codec')
 
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
new file mode 100644
index 00000000..aca9b060
--- /dev/null
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
@@ -0,0 +1,53 @@
+package nu.marginalia.index.journal;
+
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Optional;
+
+public record IndexJournal(Path journalDir) {
+
+    public static final String JOURNAL_FILE_NAME = "index-journal";
+
+    public static Path allocateName(Path base) {
+        return base.resolve(JOURNAL_FILE_NAME);
+    }
+
+    /** Returns the journal file in the base directory. */
+    public static Optional<IndexJournal> findJournal(Path baseDirectory) {
+        Path journal = baseDirectory.resolve(JOURNAL_FILE_NAME);
+        if (Files.isDirectory(journal)) {
+            return Optional.of(new IndexJournal(journal));
+        }
+        return Optional.empty();
+    }
+
+    /** Returns the number of versions of the journal file in the base directory. */
+    public static int numPages(Path baseDirectory) {
+        for (int version = 0; ; version++) {
+            if (!IndexJournalPage.combinedId.forPage(version).exists(baseDirectory)) {
+                return version;
+            }
+        }
+
+    }
+
+    public IndexJournal {
+        if (!journalDir.toFile().isDirectory()) {
+            throw new IllegalArgumentException("Invalid journal directory: " + journalDir);
+        }
+    }
+
+    public List<IndexJournalPage> pages() {
+        int pages = numPages(journalDir);
+
+        List<IndexJournalPage> instances = new ArrayList<>(pages);
+
+        for (int version = 0; version < pages; version++) {
+            instances.add(new IndexJournalPage(journalDir, version));
+        }
+
+        return instances;
+    }
+}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalFileNames.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalFileNames.java
deleted file mode 100644
index 8702be34..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalFileNames.java
+++ /dev/null
@@ -1,30 +0,0 @@
-package nu.marginalia.index.journal;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-
-public class IndexJournalFileNames {
-    public static Path allocateName(Path base, int idx) {
-        return base.resolve(String.format("page-index-%04d.dat", idx));
-    }
-
-    public static List<Path> findJournalFiles(Path baseDirectory) throws IOException {
-        List<Path> ret = new ArrayList<>();
-
-        try (var listStream = Files.list(baseDirectory)) {
-            listStream
-                    .filter(IndexJournalFileNames::isJournalFile)
-                    .sorted()
-                    .forEach(ret::add);
-        }
-
-        return ret;
-    }
-
-    public static boolean isJournalFile(Path file) {
-        return file.toFile().getName().matches("page-index-\\d{4}.dat");
-    }
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
new file mode 100644
index 00000000..8b8d7c2e
--- /dev/null
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -0,0 +1,76 @@
+package nu.marginalia.index.journal;
+
+import nu.marginalia.slop.column.array.ByteArrayColumnReader;
+import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
+import nu.marginalia.slop.column.dynamic.GammaCodedSequenceReader;
+import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.column.primitive.*;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public record IndexJournalPage(Path baseDir, int page) {
+    public static final ColumnDesc<IntColumnReader, IntColumnWriter> features = new ColumnDesc<>("features", ColumnType.INT_LE, StorageType.PLAIN);
+    public static final ColumnDesc<IntColumnReader, IntColumnWriter> size = new ColumnDesc<>("size", ColumnType.INT_LE, StorageType.PLAIN);
+    public static final ColumnDesc<LongColumnReader, LongColumnWriter> combinedId = new ColumnDesc<>("combinedId", ColumnType.LONG_LE, StorageType.PLAIN);
+    public static final ColumnDesc<LongColumnReader, LongColumnWriter> documentMeta = new ColumnDesc<>("documentMeta", ColumnType.LONG_LE, StorageType.PLAIN);
+
+    public static final ColumnDesc<VarintColumnReader, VarintColumnWriter> termCounts = new ColumnDesc<>("termCounts", ColumnType.VARINT_LE, StorageType.PLAIN);
+    public static final ColumnDesc<LongColumnReader, LongColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnType.LONG_LE, StorageType.ZSTD);
+    public static final ColumnDesc<ByteColumnReader, ByteColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnType.BYTE, StorageType.ZSTD);
+    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> positions = new ColumnDesc<>("termPositions", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+
+    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodes = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spans = new ColumnDesc<>("spans", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+
+    public IndexJournalPage {
+        if (!baseDir.toFile().isDirectory()) {
+            throw new IllegalArgumentException("Invalid base directory: " + baseDir);
+        }
+    }
+
+    public LongColumnReader openCombinedId() throws IOException {
+        return combinedId.forPage(page).open(baseDir);
+    }
+
+    public LongColumnReader openDocumentMeta() throws IOException {
+        return documentMeta.forPage(page).open(baseDir);
+    }
+
+    public IntColumnReader openFeatures() throws IOException {
+        return features.forPage(page).open(baseDir);
+    }
+
+    public IntColumnReader openSize() throws IOException {
+        return size.forPage(page).open(baseDir);
+    }
+
+    public LongColumnReader openTermCounts() throws IOException {
+        return termCounts.forPage(page).open(baseDir);
+    }
+
+    public LongColumnReader openTermIds() throws IOException {
+        return termIds.forPage(page).open(baseDir);
+    }
+
+    public ByteColumnReader openTermMetadata() throws IOException {
+        return termMeta.forPage(page).open(baseDir);
+    }
+
+    public GammaCodedSequenceReader openTermPositions() throws IOException {
+        return positions.forPage(page).open(baseDir);
+    }
+
+    public GammaCodedSequenceReader openSpans() throws IOException {
+        return spans.forPage(page).open(baseDir);
+    }
+
+    public ByteArrayColumnReader openSpanCodes() throws IOException {
+        return spanCodes.forPage(page).open(baseDir);
+    }
+}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
new file mode 100644
index 00000000..10e4edd6
--- /dev/null
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -0,0 +1,105 @@
+package nu.marginalia.index.journal;
+
+import lombok.SneakyThrows;
+import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.model.processed.SlopDocumentRecord;
+import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
+import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
+import nu.marginalia.slop.column.primitive.ByteColumnWriter;
+import nu.marginalia.slop.column.primitive.IntColumnWriter;
+import nu.marginalia.slop.column.primitive.LongColumnWriter;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.List;
+
+public class IndexJournalSlopWriter implements AutoCloseable {
+
+    private final IntColumnWriter featuresWriter;
+    private final IntColumnWriter sizeWriter;
+    private final LongColumnWriter combinedIdWriter;
+    private final LongColumnWriter documentMetaWriter;
+
+    private final LongColumnWriter termCountsWriter;
+    private final LongColumnWriter termIdsWriter;
+    private final ByteColumnWriter termMetadataWriter;
+    private final GammaCodedSequenceWriter termPositionsWriter;
+
+    private final GammaCodedSequenceWriter spansWriter;
+    private final ByteArrayColumnWriter spanCodesWriter;
+
+    private static final MurmurHash3_128 hash = new MurmurHash3_128();
+
+    public IndexJournalSlopWriter(Path dir, int page) throws IOException {
+        if (!Files.exists(dir)) {
+            Files.createDirectory(dir);
+        }
+
+
+        featuresWriter = IndexJournalPage.features.forPage(page).create(dir);
+        sizeWriter = IndexJournalPage.size.forPage(page).create(dir);
+
+        combinedIdWriter = IndexJournalPage.combinedId.forPage(page).create(dir);
+        documentMetaWriter = IndexJournalPage.documentMeta.forPage(page).create(dir);
+
+        termCountsWriter = IndexJournalPage.termCounts.forPage(page).create(dir);
+        termIdsWriter = IndexJournalPage.termIds.forPage(page).create(dir);
+        termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(dir);
+        termPositionsWriter = IndexJournalPage.positions.forPage(page).create(dir);
+
+        spansWriter = IndexJournalPage.spans.forPage(page).create(dir);
+        spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(dir);
+    }
+
+    @SneakyThrows
+    public void put(long combinedId, SlopDocumentRecord.KeywordsProjection keywordsProjection) {
+
+        combinedIdWriter.put(combinedId);
+        featuresWriter.put(keywordsProjection.htmlFeatures());
+        sizeWriter.put(keywordsProjection.length());
+        documentMetaWriter.put(keywordsProjection.documentMetadata());
+
+        // -- write keyword data --
+
+        final List<String> keywords = keywordsProjection.words();
+        byte[] termMetadata = keywordsProjection.metas();
+
+        termCountsWriter.put(keywords.size());
+
+        // termIds are the special hashes of the keywords
+        long[] termIds = new long[keywordsProjection.words().size()];
+        for (int i = 0; i < termIds.length; i++) {
+            termIds[i] = hash.hashKeyword(keywords.get(i));
+        }
+
+        List<CodedSequence> termPositions = keywordsProjection.positions();
+        for (int i = 0; i < termMetadata.length; i++) {
+            termMetadataWriter.put(termMetadata[i]);
+            termIdsWriter.put(termIds[i]);
+            termPositionsWriter.put((GammaCodedSequence) termPositions.get(i));
+        }
+
+        // -- write spans --
+
+        spanCodesWriter.put(keywordsProjection.spanCodes());
+        for (var span : keywordsProjection.spans()) {
+            spansWriter.put((GammaCodedSequence) span);
+        }
+    }
+
+    public void close() throws IOException {
+        featuresWriter.close();
+        sizeWriter.close();
+        combinedIdWriter.close();
+        documentMetaWriter.close();
+        termCountsWriter.close();
+        termIdsWriter.close();
+        termMetadataWriter.close();
+        termPositionsWriter.close();
+        spansWriter.close();
+        spanCodesWriter.close();
+    }
+}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
deleted file mode 100644
index 6fc5e8cf..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryData.java
+++ /dev/null
@@ -1,36 +0,0 @@
-package nu.marginalia.index.journal.model;
-
-import nu.marginalia.hash.MurmurHash3_128;
-import nu.marginalia.sequence.CodedSequence;
-
-public record IndexJournalEntryData(long[] termIds,
-                                    long[] metadata,
-                                    CodedSequence[] positions) {
-
-    public IndexJournalEntryData {
-        assert termIds.length == metadata.length;
-        assert termIds.length == positions.length;
-    }
-
-    public IndexJournalEntryData(String[] keywords,
-                                 long[] metadata,
-                                 CodedSequence[] positions)
-    {
-        this(termIds(keywords), metadata, positions);
-    }
-
-    private static final MurmurHash3_128 hash = new MurmurHash3_128();
-
-    public int size() {
-        return termIds.length;
-    }
-
-
-    private static long[] termIds(String[] keywords) {
-        long[] termIds = new long[keywords.length];
-        for (int i = 0; i < keywords.length; i++) {
-            termIds[i] = hash.hashKeyword(keywords[i]);
-        }
-        return termIds;
-    }
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java
deleted file mode 100644
index 82dc904a..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java
+++ /dev/null
@@ -1,35 +0,0 @@
-package nu.marginalia.index.journal.model;
-
-import nu.marginalia.model.crawl.HtmlFeature;
-import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.idx.DocumentMetadata;
-
-/** The header of an index journal entry.
- *
- * @param entrySize the size of the entry
- * @param documentFeatures the features of the document, as an encoded HtmlFeature
- * @param combinedId the combined document id, encoded with UrlIdCodec
- * @param documentMeta the metadata of the document, as an encoded DocumentMetadata
- *
- * @see DocumentMetadata
- * @see HtmlFeature
- * @see UrlIdCodec
- */
-public record IndexJournalEntryHeader(int entrySize,
-                                      int documentFeatures,
-                                      int documentSize,
-                                      long combinedId,
-                                      long documentMeta) {
-
-    public IndexJournalEntryHeader(long combinedId,
-                                   int documentFeatures,
-                                   int documentSize,
-                                   long documentMeta) {
-        this(-1,
-                documentFeatures,
-                documentSize,
-                combinedId,
-                documentMeta);
-    }
-
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
deleted file mode 100644
index 3fec11a0..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalEntryTermData.java
+++ /dev/null
@@ -1,25 +0,0 @@
-package nu.marginalia.index.journal.model;
-
-import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
-
-import java.nio.ByteBuffer;
-
-/** Data corresponding to a term in a document in the index journal.
- *
- * @param termId the id of the term
- * @param metadata the metadata of the term
- * @param positionsBuffer buffer holding positions of the word in the document, gamma coded
- *
- * @see GammaCodedSequence
- */
-public record IndexJournalEntryTermData(
-        long termId,
-        long metadata,
-        ByteBuffer positionsBuffer)
-{
-    public CodedSequence positions() {
-        return new GammaCodedSequence(positionsBuffer);
-    }
-
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalFileHeader.java b/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalFileHeader.java
deleted file mode 100644
index 7a4ca7e0..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/model/IndexJournalFileHeader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.index.journal.model;
-
-/** The header of an index journal file.  This is the first 16 bytes of the file,
- * and is not compressed.
- *
- * @param fileSizeRecords the size of the file in number of records
- * @param reserved should be 0
- */
-public record IndexJournalFileHeader(long fileSizeRecords, long reserved) {
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
deleted file mode 100644
index e5756bf4..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReadEntry.java
+++ /dev/null
@@ -1,111 +0,0 @@
-package nu.marginalia.index.journal.reader;
-
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
-import nu.marginalia.model.id.UrlIdCodec;
-
-import java.io.DataInputStream;
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.util.Iterator;
-
-public class IndexJournalReadEntry implements Iterable<IndexJournalEntryTermData> {
-    public final IndexJournalEntryHeader header;
-
-    private final ByteBuffer buffer;
-
-    private final int initialPos;
-
-    public IndexJournalReadEntry(IndexJournalEntryHeader header, ByteBuffer buffer) {
-        this.header = header;
-        this.buffer = buffer;
-        this.initialPos = buffer.position();
-    }
-
-    public static IndexJournalReadEntry read(DataInputStream inputStream) throws IOException {
-
-        final int entrySize = (inputStream.readShort() & 0xFFFF);
-        final int docSize = inputStream.readShort();
-        final int docFeatures = inputStream.readInt();
-        final long docId = inputStream.readLong();
-        final long meta = inputStream.readLong();
-
-        var header = new IndexJournalEntryHeader(
-                entrySize,
-                docFeatures,
-                docSize,
-                docId,
-                meta);
-
-        byte[] buffer = new byte[entrySize];
-        inputStream.readFully(buffer);
-        return new IndexJournalReadEntry(header, ByteBuffer.wrap(buffer));
-    }
-
-    public long docId() {
-        return header.combinedId();
-    }
-
-    public long docMeta() {
-        return header.documentMeta();
-    }
-
-    public int documentFeatures() {
-        return header.documentFeatures();
-    }
-
-    public int documentSize() {
-        return header.documentSize();
-    }
-
-    public int domainId() {
-        return UrlIdCodec.getDomainId(docId());
-    }
-
-    public void reset() {
-        buffer.position(initialPos);
-    }
-
-    public Iterator<IndexJournalEntryTermData> iterator() {
-        return new TermDataIterator(buffer, initialPos);
-    }
-
-}
-
-class TermDataIterator implements Iterator<IndexJournalEntryTermData> {
-    private final ByteBuffer buffer;
-
-    // Pointer alias to buffer, used to reduce slice() allocation overhead in the iterator
-    private final ByteBuffer alias;
-
-    TermDataIterator(ByteBuffer buffer, int initialPos) {
-        this.buffer = buffer;
-        this.buffer.position(initialPos);
-        this.alias = buffer.duplicate();
-    }
-
-    @Override
-    public boolean hasNext() {
-        return buffer.position() < buffer.limit();
-    }
-
-    @Override
-    public IndexJournalEntryTermData next() {
-        // read the metadata for the term
-        long termId = buffer.getLong();
-        long meta = buffer.getShort();
-
-        // read the size of the sequence data
-        int size = buffer.getShort() & 0xFFFF;
-
-        // position the alias buffer to the term data
-        alias.limit(buffer.position() + size);
-        alias.position(buffer.position());
-
-        // advance the buffer position to the next term
-        buffer.position(buffer.position() + size);
-
-        return new IndexJournalEntryTermData(termId, meta, alias);
-    }
-
-}
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
deleted file mode 100644
index a0cbe2e0..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReader.java
+++ /dev/null
@@ -1,73 +0,0 @@
-package nu.marginalia.index.journal.reader;
-
-import nu.marginalia.index.journal.reader.pointer.IndexJournalPointer;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.function.LongConsumer;
-import java.util.function.LongPredicate;
-
-/** Tools for reading the index journal. */
-public interface IndexJournalReader {
-    int FILE_HEADER_SIZE_LONGS = 2;
-    int FILE_HEADER_SIZE_BYTES = 8 * FILE_HEADER_SIZE_LONGS;
-
-    int DOCUMENT_HEADER_SIZE_BYTES = 24;
-    int TERM_HEADER_SIZE_BYTES = 12;
-
-    /** Create a reader for a single file. */
-    static IndexJournalReader singleFile(Path fileName) throws IOException {
-        return new IndexJournalReaderSingleFile(fileName);
-    }
-
-    /** Create a reader for a set of files. */
-    static IndexJournalReader paging(Path baseDir) throws IOException {
-        return new IndexJournalReaderPagingImpl(baseDir);
-    }
-
-    default void forEachWordId(LongConsumer consumer) {
-        var ptr = this.newPointer();
-        while (ptr.nextDocument()) {
-            for (var termData : ptr) {
-                consumer.accept(termData.termId());
-            }
-        }
-    }
-
-    default void forEachDocId(LongConsumer consumer) throws IOException {
-        try (var ptr = this.newPointer()) {
-            while (ptr.nextDocument()) {
-                consumer.accept(ptr.documentId());
-            }
-        }
-    }
-
-    /** Create a new pointer to the journal.  The IndexJournalPointer is
-     * a two-tiered iterator that allows both iteration over document records
-     * and the terms within each document.
-     */
-    IndexJournalPointer newPointer();
-
-    /** Reader that filters the entries based on the term metadata. */
-    default IndexJournalReader filtering(LongPredicate termMetaFilter) {
-        return new FilteringIndexJournalReader(this, termMetaFilter);
-    }
-
-}
-
-class FilteringIndexJournalReader implements IndexJournalReader {
-    private final IndexJournalReader base;
-    private final LongPredicate termMetaFilter;
-
-    FilteringIndexJournalReader(IndexJournalReader base, LongPredicate termMetaFilter) {
-        this.base = base;
-        this.termMetaFilter = termMetaFilter;
-    }
-
-    @Override
-    public IndexJournalPointer newPointer() {
-        return base
-                .newPointer()
-                .filterWordMeta(termMetaFilter);
-    }
-}
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java
deleted file mode 100644
index 8a4361fa..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderPagingImpl.java
+++ /dev/null
@@ -1,43 +0,0 @@
-package nu.marginalia.index.journal.reader;
-
-import nu.marginalia.index.journal.reader.pointer.IndexJournalPointer;
-import nu.marginalia.index.journal.IndexJournalFileNames;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-
-public class IndexJournalReaderPagingImpl implements IndexJournalReader {
-
-    private static final Logger logger = LoggerFactory.getLogger(IndexJournalReaderPagingImpl.class);
-    private final List<IndexJournalReader> readers;
-
-    public IndexJournalReaderPagingImpl(Path baseDir) throws IOException {
-        this(IndexJournalFileNames.findJournalFiles(baseDir));
-
-        if (readers.isEmpty())
-            logger.warn("Creating paging index journal file in {}, found no inputs!", baseDir);
-        else
-            logger.info("Creating paging index journal reader for {} inputs", readers.size());
-    }
-
-    public IndexJournalReaderPagingImpl(List<Path> inputFiles) throws IOException {
-        this.readers = new ArrayList<>(inputFiles.size());
-
-        for (var inputFile : inputFiles) {
-            readers.add(new IndexJournalReaderSingleFile(inputFile));
-        }
-    }
-
-    @Override
-    public IndexJournalPointer newPointer() {
-        return IndexJournalPointer.concatenate(
-                readers.stream()
-                        .map(IndexJournalReader::newPointer)
-                        .toArray(IndexJournalPointer[]::new)
-        );
-    }
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
deleted file mode 100644
index 4598a538..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/IndexJournalReaderSingleFile.java
+++ /dev/null
@@ -1,116 +0,0 @@
-package nu.marginalia.index.journal.reader;
-
-import com.github.luben.zstd.ZstdInputStream;
-import lombok.SneakyThrows;
-import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
-import nu.marginalia.index.journal.model.IndexJournalFileHeader;
-import nu.marginalia.index.journal.reader.pointer.IndexJournalPointer;
-import org.jetbrains.annotations.NotNull;
-
-import java.io.*;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardOpenOption;
-import java.util.Iterator;
-
-public class IndexJournalReaderSingleFile implements IndexJournalReader {
-
-    private final Path journalFile;
-    public final IndexJournalFileHeader fileHeader;
-
-    @Override
-    public String toString() {
-        return "IndexJournalReaderSingleCompressedFile{" + journalFile + " }";
-    }
-
-    public IndexJournalReaderSingleFile(Path file) throws IOException {
-        this.journalFile = file;
-
-        fileHeader = readHeader(file);
-    }
-
-    private static IndexJournalFileHeader readHeader(Path file) throws IOException {
-        try (var raf = new RandomAccessFile(file.toFile(), "r")) {
-            long recordCount = raf.readLong();
-            long unused = raf.readLong();
-
-            return new IndexJournalFileHeader(recordCount, unused);
-        }
-    }
-
-    private static DataInputStream createInputStream(Path file) throws IOException {
-        var fileInputStream = Files.newInputStream(file, StandardOpenOption.READ);
-
-        // skip the header
-        fileInputStream.skipNBytes(16);
-
-        return new DataInputStream(new ZstdInputStream(new BufferedInputStream(fileInputStream)));
-    }
-
-    @SneakyThrows
-    @Override
-    public IndexJournalPointer newPointer() {
-        return new SingleFileJournalPointer(fileHeader, createInputStream(journalFile));
-    }
-
-}
-
-class SingleFileJournalPointer implements IndexJournalPointer {
-
-    private final IndexJournalFileHeader fileHeader;
-    private final DataInputStream dataInputStream;
-    private IndexJournalReadEntry entry;
-    private int docIdx = -1;
-
-    public SingleFileJournalPointer(
-            IndexJournalFileHeader fileHeader,
-            DataInputStream dataInputStream)
-    {
-        this.fileHeader = fileHeader;
-        this.dataInputStream = dataInputStream;
-    }
-
-    @SneakyThrows
-    @Override
-    public boolean nextDocument() {
-        if (++docIdx < fileHeader.fileSizeRecords()) {
-            entry = IndexJournalReadEntry.read(dataInputStream);
-            return true;
-        }
-
-        dataInputStream.close();
-
-        return false;
-    }
-
-    @Override
-    public long documentId() {
-        return entry.docId();
-    }
-
-    @Override
-    public long documentMeta() {
-        return entry.docMeta();
-    }
-
-
-    @Override
-    public int documentFeatures() { return entry.documentFeatures(); }
-
-    @Override
-    public int documentSize() { return entry.documentSize(); }
-
-    /** Return an iterator over the terms in the current document.
-     *  This iterator is not valid after calling nextDocument().
-     */
-    @NotNull
-    @Override
-    public Iterator<IndexJournalEntryTermData> iterator() {
-        return entry.iterator();
-    }
-
-    @Override
-    public void close() throws IOException {
-        dataInputStream.close();
-    }
-}
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java b/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
deleted file mode 100644
index 68d21360..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/reader/pointer/IndexJournalPointer.java
+++ /dev/null
@@ -1,202 +0,0 @@
-package nu.marginalia.index.journal.reader.pointer;
-
-import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
-import org.jetbrains.annotations.NotNull;
-
-import java.io.IOException;
-import java.util.Iterator;
-import java.util.function.LongPredicate;
-
-/**
- * This is something like a double iterator.  The Index Journal consists of
- * blocks of words and word-metadata for each document and document metadata.
- * <br>
- *
- * Perhaps best conceptualized as something like
- *
- * <pre>[doc1: word1 word2 word3 word4] [doc2: word1 word2 word3 ]</pre>
- * nextDocument() will move the pointer from doc1 to doc2;<br>
- * nextRecord() will move the pointer from word1 to word2...<br>
- */
-public interface IndexJournalPointer extends Iterable<IndexJournalEntryTermData>, AutoCloseable {
-    /**
-     * Advance to the next document in the journal,
-     * returning true if such a document exists.
-     * Resets the record index to before the first
-     * record (if it exists).
-     */
-    boolean nextDocument();
-
-    /**
-     * Get the id associated with the current document
-     */
-    long documentId();
-
-    /**
-     * Get the metadata associated with the current document
-     */
-    long documentMeta();
-
-    /**
-     * Get the documentFeatures associated with the current record
-     */
-    int documentFeatures();
-
-    int documentSize();
-
-    /** Concatenate a number of journal pointers */
-    static IndexJournalPointer concatenate(IndexJournalPointer... pointers) {
-        if (pointers.length == 1)
-            return pointers[0];
-
-        return new JoiningJournalPointer(pointers);
-    }
-
-    /** Add a filter on word metadata to the pointer */
-    default IndexJournalPointer filterWordMeta(LongPredicate filter) {
-        return new FilteringJournalPointer(this, filter);
-    }
-
-    void close() throws IOException;
-}
-
-class JoiningJournalPointer implements IndexJournalPointer {
-    private final IndexJournalPointer[] pointers;
-    private int pIndex = 0;
-
-    JoiningJournalPointer(IndexJournalPointer[] pointers) {
-        this.pointers = pointers;
-    }
-
-    @Override
-    public boolean nextDocument() {
-
-        while (pIndex < pointers.length) {
-            if (pointers[pIndex].nextDocument())
-                return true;
-            else pIndex++;
-        }
-
-        return false;
-    }
-
-    @Override
-    public long documentId() {
-        return pointers[pIndex].documentId();
-    }
-
-    @Override
-    public long documentMeta() {
-        return pointers[pIndex].documentMeta();
-    }
-
-
-    @Override
-    public int documentFeatures() {
-        return pointers[pIndex].documentFeatures();
-    }
-
-    @Override
-    public int documentSize() {
-        return pointers[pIndex].documentSize();
-    }
-
-    @NotNull
-    @Override
-    public Iterator<IndexJournalEntryTermData> iterator() {
-        return pointers[pIndex].iterator();
-    }
-
-    public void close() {
-        for (var p : pointers) {
-            try {
-                p.close();
-            } catch (Exception e) {
-                e.printStackTrace();
-            }
-        }
-
-    }
-}
-
-class FilteringJournalPointer implements IndexJournalPointer {
-    private final IndexJournalPointer base;
-    private final LongPredicate filter;
-
-    FilteringJournalPointer(IndexJournalPointer base, LongPredicate filter) {
-        this.base = base;
-        this.filter = filter;
-    }
-
-    @Override
-    public boolean nextDocument() {
-        while (base.nextDocument()) {
-            if (iterator().hasNext()) {
-                return true;
-            }
-        }
-        return false;
-    }
-
-    @Override
-    public long documentId() {
-        return base.documentId();
-    }
-
-    @Override
-    public long documentMeta() {
-        return base.documentMeta();
-    }
-
-    @Override
-    public int documentFeatures() {
-        return base.documentFeatures();
-    }
-
-
-    @Override
-    public int documentSize() {
-        return base.documentSize();
-    }
-
-    @NotNull
-    @Override
-    public Iterator<IndexJournalEntryTermData> iterator() {
-
-        return new Iterator<>() {
-            private final Iterator<IndexJournalEntryTermData> baseIter = base.iterator();
-            private IndexJournalEntryTermData value = null;
-
-            @Override
-            public boolean hasNext() {
-                if (value != null) {
-                    return true;
-                }
-                while (baseIter.hasNext()) {
-                    value = baseIter.next();
-                    if (filter.test(value.metadata())) {
-                        return true;
-                    }
-                }
-                value = null;
-                return false;
-            }
-
-            @Override
-            public IndexJournalEntryTermData next() {
-                if (hasNext()) {
-                    var ret = value;
-                    value = null;
-                    return ret;
-                } else {
-                    throw new IllegalStateException("No more elements");
-                }
-            }
-        };
-    }
-
-    @Override
-    public void close() throws IOException {
-        base.close();
-    }
-}
\ No newline at end of file
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
deleted file mode 100644
index 916cf7a6..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriter.java
+++ /dev/null
@@ -1,17 +0,0 @@
-package nu.marginalia.index.journal.writer;
-
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-
-import java.io.IOException;
-
-/** Responsible for writing to the index journal.
- * <p></p>
- * @see IndexJournalWriterSingleFileImpl
- * @see IndexJournalWriterPagingImpl
- */
-public interface IndexJournalWriter extends AutoCloseable {
-    void close() throws IOException;
-
-    int put(IndexJournalEntryHeader header, IndexJournalEntryData data);
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java
deleted file mode 100644
index 919a8326..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterPagingImpl.java
+++ /dev/null
@@ -1,68 +0,0 @@
-package nu.marginalia.index.journal.writer;
-
-import lombok.SneakyThrows;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.IndexJournalFileNames;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-/** IndexJournalWriter implementation that creates a sequence of journal files,
- * delegating to IndexJournalWriterSingleFileImpl to write the individual files.
- *
- */
-public class IndexJournalWriterPagingImpl implements IndexJournalWriter {
-    private final Path outputDir;
-    private int fileNumber = 0;
-
-    /** The maximum size of a journal file, in uncompressed bytes.
-     *  This should be safely below 2 GB, since we assume in the construction
-     *  of the index that this is the case!  The smaller these files are, the
-     *  slower the index construction will be, but at the same time, if 2 GB
-     *  is exceeded, the index construction will *quietly* fail.
-     *
-     *  Flap flap, Icarus!
-     */
-    private static final long sizeLimitBytes = 1_000_000_000; // 1 GB
-
-
-    private final Logger logger = LoggerFactory.getLogger(getClass());
-    private IndexJournalWriter currentWriter = null;
-    private long bytesWritten = 0;
-
-    public IndexJournalWriterPagingImpl(Path outputDir) throws IOException {
-        this.outputDir = outputDir;
-        switchToNextWriter();
-
-        logger.info("Creating Journal Writer {}", outputDir);
-    }
-
-    private void switchToNextWriter() throws IOException {
-        if (currentWriter != null)
-            currentWriter.close();
-
-        currentWriter = new IndexJournalWriterSingleFileImpl(IndexJournalFileNames.allocateName(outputDir, fileNumber++));
-    }
-
-    @Override
-    @SneakyThrows
-    public int put(IndexJournalEntryHeader header, IndexJournalEntryData data)
-    {
-        if (bytesWritten >= sizeLimitBytes) {
-            bytesWritten = 0;
-            switchToNextWriter();
-        }
-
-        int writtenNow = currentWriter.put(header, data);
-        bytesWritten += writtenNow;
-
-        return writtenNow;
-    }
-
-    public void close() throws IOException {
-        currentWriter.close();
-    }
-}
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java b/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
deleted file mode 100644
index f12c92f6..00000000
--- a/code/index/index-journal/java/nu/marginalia/index/journal/writer/IndexJournalWriterSingleFileImpl.java
+++ /dev/null
@@ -1,155 +0,0 @@
-package nu.marginalia.index.journal.writer;
-
-import com.github.luben.zstd.ZstdDirectBufferCompressingStream;
-import lombok.SneakyThrows;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.sequence.CodedSequence;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import java.io.*;
-import java.nio.ByteBuffer;
-import java.nio.channels.FileChannel;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardOpenOption;
-import java.nio.file.attribute.PosixFilePermissions;
-
-/** IndexJournalWriter implementation that creates a single journal file */
-public class IndexJournalWriterSingleFileImpl implements IndexJournalWriter{
-
-    private static final int ZSTD_BUFFER_SIZE = 1<<16;
-    private static final int DATA_BUFFER_SIZE = 1<<16;
-
-    private final ByteBuffer dataBuffer = ByteBuffer.allocateDirect(DATA_BUFFER_SIZE);
-
-    private final ZstdDirectBufferCompressingStream compressingStream;
-    private final FileChannel fileChannel;
-
-    private int numEntries = 0;
-    private boolean closed = false;
-
-    private final Logger logger = LoggerFactory.getLogger(getClass());
-
-    public IndexJournalWriterSingleFileImpl(Path outputFile) throws IOException {
-
-        logger.info("Creating Journal Writer {}", outputFile);
-
-        Files.deleteIfExists(outputFile);
-        Files.createFile(outputFile, PosixFilePermissions.asFileAttribute(PosixFilePermissions.fromString("rw-r--r--")));
-
-        fileChannel = FileChannel.open(outputFile, StandardOpenOption.CREATE,
-                StandardOpenOption.WRITE, StandardOpenOption.TRUNCATE_EXISTING);
-
-        writeHeaderPlaceholder(fileChannel);
-
-        compressingStream = new ZstdDirectBufferCompressingStream(ByteBuffer.allocateDirect(ZSTD_BUFFER_SIZE), 3) {
-            protected ByteBuffer flushBuffer(ByteBuffer toFlush) throws IOException {
-                toFlush.flip();
-                while (toFlush.hasRemaining()) {
-                    fileChannel.write(toFlush);
-                }
-                toFlush.clear();
-
-                return toFlush;
-            }
-        };
-    }
-
-    /** The file has a non-compressed header at the beginning of the file.
-     * Write a placeholder first to reserve the bytes, and position the
-     * channel after the header
-     */
-    private static void writeHeaderPlaceholder(FileChannel fileStream) throws IOException {
-        var buffer = ByteBuffer.allocate(IndexJournalReader.FILE_HEADER_SIZE_BYTES);
-
-        buffer.position(0);
-        buffer.limit(buffer.capacity());
-
-        while (buffer.hasRemaining())
-            fileStream.write(buffer, buffer.position());
-
-        fileStream.position(IndexJournalReader.FILE_HEADER_SIZE_BYTES);
-    }
-
-    @Override
-    @SneakyThrows
-    public int put(IndexJournalEntryHeader header,
-                   IndexJournalEntryData data)
-    {
-        final long[] keywords = data.termIds();
-        final long[] metadata = data.metadata();
-        final CodedSequence[] positions = data.positions();
-
-        int entrySize = 0;
-        for (var position : positions) {
-            entrySize += IndexJournalReader.TERM_HEADER_SIZE_BYTES + position.bufferSize();
-        }
-        int totalSize = IndexJournalReader.DOCUMENT_HEADER_SIZE_BYTES + entrySize;
-
-        if (entrySize > DATA_BUFFER_SIZE) {
-            // This should never happen, but if it does, we should log it and deal with it in a way that doesn't corrupt the file
-            // (64 KB is *a lot* of data for a single document, larger than the uncompressed HTML in like the 95%th percentile of web pages)
-            logger.error("Omitting entry: Record size {} exceeds maximum representable size of {}", entrySize, DATA_BUFFER_SIZE);
-            return 0;
-        }
-
-        if (dataBuffer.remaining() < totalSize) {
-            dataBuffer.flip();
-            compressingStream.compress(dataBuffer);
-            dataBuffer.clear();
-        }
-
-        if (dataBuffer.remaining() < totalSize) {
-            logger.error("Omitting entry: Record size {} exceeds buffer size of {}", totalSize, dataBuffer.capacity());
-            return 0;
-        }
-
-        assert entrySize < (1 << 16) : "Entry size must not exceed USHORT_MAX";
-
-        dataBuffer.putShort((short) entrySize);
-        dataBuffer.putShort((short) Math.clamp(header.documentSize(), 0, Short.MAX_VALUE));
-        dataBuffer.putInt(header.documentFeatures());
-        dataBuffer.putLong(header.combinedId());
-        dataBuffer.putLong(header.documentMeta());
-
-        for (int i = 0; i < keywords.length; i++) {
-            dataBuffer.putLong(keywords[i]);
-            dataBuffer.putShort((short) metadata[i]);
-            dataBuffer.putShort((short) positions[i].bufferSize());
-            dataBuffer.put(positions[i].buffer());
-        }
-
-        numEntries++;
-
-        return totalSize;
-    }
-
-    public void close() throws IOException {
-        if (closed)
-            return;
-        else
-            closed = true;
-
-        dataBuffer.flip();
-        compressingStream.compress(dataBuffer);
-        dataBuffer.clear();
-        compressingStream.flush();
-        compressingStream.close();
-
-
-        // Finalize the file by writing a header in the beginning
-        ByteBuffer header = ByteBuffer.allocate(IndexJournalReader.FILE_HEADER_SIZE_BYTES);
-        header.putLong(numEntries);
-        header.putLong(0);  // reserved for future use
-        header.flip();
-
-        while (header.position() < header.limit()) {
-            fileChannel.write(header, header.position());
-        }
-
-        fileChannel.close();
-    }
-}
diff --git a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java b/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
deleted file mode 100644
index 5aa24ff7..00000000
--- a/code/index/index-journal/test/nu/marginalia/index/journal/IndexJournalWriterTest.java
+++ /dev/null
@@ -1,448 +0,0 @@
-package nu.marginalia.index.journal;
-
-import it.unimi.dsi.fastutil.ints.IntList;
-import it.unimi.dsi.fastutil.longs.LongArrayList;
-import it.unimi.dsi.fastutil.longs.LongList;
-import nu.marginalia.hash.MurmurHash3_128;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.model.IndexJournalEntryTermData;
-import nu.marginalia.index.journal.reader.IndexJournalReaderPagingImpl;
-import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
-import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
-import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
-import nu.marginalia.sequence.GammaCodedSequence;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.Assertions;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.*;
-import java.util.stream.Collectors;
-import java.util.stream.IntStream;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-public class IndexJournalWriterTest {
-    Path tempFile;
-    Path tempFile2;
-    ByteBuffer workArea = ByteBuffer.allocate(1024);
-
-    @BeforeEach
-    public void setUp() throws IOException {
-        tempFile = Files.createTempFile(getClass().getSimpleName(), ".dat");
-        tempFile2 = Files.createTempFile(getClass().getSimpleName(), ".dat");
-    }
-    @AfterEach
-    public void tearDown() throws IOException {
-        Files.delete(tempFile);
-        Files.delete(tempFile2);
-    }
-
-    private GammaCodedSequence gcs(int... values) {
-        return GammaCodedSequence.generate(workArea, values);
-    }
-
-    static MurmurHash3_128 hasher = new MurmurHash3_128();
-    static long wordId(String str) {
-        return hasher.hashKeyword(str);
-    }
-
-    @Test
-    public void testSingleFile() {
-        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
-            // Write two documents with two terms each
-            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
-                    new IndexJournalEntryData(
-                        new String[]{"word1", "word2"},
-                        new long[]{44, 55},
-                        new GammaCodedSequence[]{
-                                gcs(1, 3, 5),
-                                gcs(2, 4, 6),
-                        })
-                    );
-            writer.put(new IndexJournalEntryHeader(12, 23, 11, 34),
-                    new IndexJournalEntryData(
-                        new String[]{"word1", "word2"},
-                        new long[]{45, 56},
-                        new GammaCodedSequence[]{
-                                gcs(2, 4, 6),
-                                gcs(3, 5, 7),
-                        })
-                    );
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-
-        // Read the journal back
-
-        try {
-            var reader = new IndexJournalReaderSingleFile(tempFile);
-
-            Iterator<IndexJournalEntryTermData> iter;
-            IndexJournalEntryTermData termData;
-
-            try (var ptr = reader.newPointer()) {
-
-                /** DOCUMENT 1 */
-                assertTrue(ptr.nextDocument());
-                assertEquals(11, ptr.documentId());
-                assertEquals(22, ptr.documentFeatures());
-                assertEquals(33, ptr.documentMeta());
-                assertEquals(10, ptr.documentSize());
-
-                iter = ptr.iterator();
-
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(44, termData.metadata());
-                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
-
-                // Term 2
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word2"), termData.termId());
-                assertEquals(55, termData.metadata());
-                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
-
-                // No more terms
-
-                assertFalse(iter.hasNext());
-
-                /** DOCUMENT 2 */
-                assertTrue(ptr.nextDocument());
-                assertEquals(12, ptr.documentId());
-                assertEquals(23, ptr.documentFeatures());
-                assertEquals(34, ptr.documentMeta());
-                assertEquals(11, ptr.documentSize());
-
-                iter = ptr.iterator();
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(45, termData.metadata());
-                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
-
-                // Term 2
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word2"), termData.termId());
-                assertEquals(56, termData.metadata());
-                assertEquals(IntList.of(3, 5, 7), termData.positions().values());
-
-                // No more terms
-                assertFalse(iter.hasNext());
-
-                // No more documents
-                assertFalse(ptr.nextDocument());
-            }
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-    }
-
-    @Test
-    public void testMultiFile() {
-        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
-            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
-                    new IndexJournalEntryData(
-                        new String[]{"word1", "word2"},
-                        new long[]{44, 55},
-                        new GammaCodedSequence[]{
-                                gcs(1, 3, 5),
-                                gcs(2, 4, 6),
-                        })
-                    );
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-
-        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile2)) {
-            writer.put(new IndexJournalEntryHeader(12, 23, 11, 34),
-                    new IndexJournalEntryData(
-                        new String[]{"word1", "word2"},
-                        new long[]{45, 56},
-                        new GammaCodedSequence[]{
-                                gcs(2, 4, 6),
-                                gcs(3, 5, 7),
-                        })
-                    );
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-
-        // Read the journal back
-
-        try {
-            var reader = new IndexJournalReaderPagingImpl(List.of(tempFile, tempFile2));
-
-            Iterator<IndexJournalEntryTermData> iter;
-            IndexJournalEntryTermData termData;
-
-            try (var ptr = reader.newPointer()) {
-
-                /** DOCUMENT 1 */
-                assertTrue(ptr.nextDocument());
-                assertEquals(11, ptr.documentId());
-                assertEquals(22, ptr.documentFeatures());
-                assertEquals(33, ptr.documentMeta());
-                assertEquals(10, ptr.documentSize());
-
-                iter = ptr.iterator();
-
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(44, termData.metadata());
-                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
-
-                // Term 2
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word2"), termData.termId());
-                assertEquals(55, termData.metadata());
-                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
-
-                // No more terms
-
-                assertFalse(iter.hasNext());
-
-                /** DOCUMENT 2 */
-                assertTrue(ptr.nextDocument());
-                assertEquals(12, ptr.documentId());
-                assertEquals(23, ptr.documentFeatures());
-                assertEquals(34, ptr.documentMeta());
-                assertEquals(11, ptr.documentSize());
-
-                iter = ptr.iterator();
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(45, termData.metadata());
-                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
-
-                // Term 2
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word2"), termData.termId());
-                assertEquals(56, termData.metadata());
-                assertEquals(IntList.of(3, 5, 7), termData.positions().values());
-
-                // No more terms
-                assertFalse(iter.hasNext());
-
-                // No more documents
-                assertFalse(ptr.nextDocument());
-            }
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-    }
-
-    @Test
-    public void testSingleFileIterTwice() {
-        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
-            // Write two documents with two terms each
-            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
-                    new IndexJournalEntryData(
-                        new String[]{"word1", "word2"},
-                        new long[]{44, 55},
-                        new GammaCodedSequence[]{
-                                gcs(1, 3, 5),
-                                gcs(2, 4, 6),
-                        })
-                    );
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-
-        // Read the journal back
-
-        try {
-            var reader = new IndexJournalReaderSingleFile(tempFile);
-
-            Iterator<IndexJournalEntryTermData> iter;
-            IndexJournalEntryTermData termData;
-
-            try (var ptr = reader.newPointer()) {
-
-                /** DOCUMENT 1 */
-                assertTrue(ptr.nextDocument());
-                assertEquals(11, ptr.documentId());
-                assertEquals(22, ptr.documentFeatures());
-                assertEquals(10, ptr.documentSize());
-                assertEquals(33, ptr.documentMeta());
-
-                iter = ptr.iterator();
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(44, termData.metadata());
-                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
-
-                // Ensure we can iterate again over the same document without persisting state or closing the pointer
-
-                iter = ptr.iterator();
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(44, termData.metadata());
-                assertEquals(IntList.of(1, 3, 5), termData.positions().values());
-            }
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-    }
-
-    @Test
-    public void testFiltered() {
-        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
-            // Write two documents with two terms each
-            writer.put(new IndexJournalEntryHeader(11, 22, 10, 33),
-                    new IndexJournalEntryData(
-                        new String[]{"word1", "word2"},
-                        new long[]{44, 55},
-                        new GammaCodedSequence[]{
-                                gcs(1, 3, 5),
-                                gcs(2, 4, 6),
-                        })
-                    );
-            writer.put(new IndexJournalEntryHeader(12, 23, 11, 34),
-                    new IndexJournalEntryData(
-                            new String[]{"word1", "word2"},
-                        new long[]{45, 56},
-                        new GammaCodedSequence[]{
-                                gcs(2, 4, 6),
-                                gcs(3, 5, 7),
-                        }
-                    ));
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-
-        // Read the journal back
-
-        try {
-            var reader = new IndexJournalReaderSingleFile(tempFile).filtering(meta -> meta == 45);
-
-            Iterator<IndexJournalEntryTermData> iter;
-            IndexJournalEntryTermData termData;
-
-            try (var ptr = reader.newPointer()) {
-                /** DOCUMENT 2 */
-                assertTrue(ptr.nextDocument());
-                assertEquals(12, ptr.documentId());
-                assertEquals(23, ptr.documentFeatures());
-                assertEquals(34, ptr.documentMeta());
-                assertEquals(11, ptr.documentSize());
-
-                iter = ptr.iterator();
-                // Term 1
-                assertTrue(iter.hasNext());
-                termData = iter.next();
-                assertEquals(wordId("word1"), termData.termId());
-                assertEquals(45, termData.metadata());
-                assertEquals(IntList.of(2, 4, 6), termData.positions().values());
-
-                // No more terms
-                assertFalse(iter.hasNext());
-                // No more documents
-                assertFalse(ptr.nextDocument());
-            }
-        }
-        catch (IOException ex) {
-            Assertions.fail(ex);
-        }
-    }
-
-    @Test
-    public void testIntegrationScenario() throws IOException {
-        Map<Long, Integer> wordMap = new HashMap<>();
-        for (int i = 0; i < 512; i++) {
-            wordMap.put(hasher.hashKeyword(Integer.toString(i)), i);
-        }
-        try (var writer = new IndexJournalWriterSingleFileImpl(tempFile)) {
-            for (int idc = 1; idc < 512; idc++) {
-                int id = idc;
-                int[] factors = IntStream
-                        .rangeClosed(1, id)
-                        .filter(v -> (id % v) == 0)
-                        .toArray();
-
-                System.out.println("id:" + id + " factors: " + Arrays.toString(factors));
-
-                long fullId = UrlIdCodec.encodeId((32 - (id % 32)), id);
-
-                var header = new IndexJournalEntryHeader(factors.length, 0, 100, fullId, new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode());
-
-                String[] keywords = IntStream.of(factors).mapToObj(Integer::toString).toArray(String[]::new);
-                long[] metadata = new long[factors.length];
-                for (int i = 0; i < factors.length; i++) {
-                    metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
-                }
-                GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
-                ByteBuffer wa = ByteBuffer.allocate(16);
-                for (int i = 0; i < factors.length; i++) {
-                    positions[i] = GammaCodedSequence.generate(wa, i + 1);
-                }
-
-                writer.put(header, new IndexJournalEntryData(keywords, metadata, positions));
-            }
-        }
-
-        try (var ptr = new IndexJournalReaderSingleFile(tempFile).newPointer()) {
-            while (ptr.nextDocument()) {
-                int ordinal = UrlIdCodec.getDocumentOrdinal(ptr.documentId());
-                System.out.println(ordinal);
-
-                var expectedFactors =
-                        new LongArrayList(IntStream
-                        .rangeClosed(1, ordinal)
-                        .filter(v -> (ordinal % v) == 0)
-                        .mapToObj(Integer::toString)
-                        .mapToLong(hasher::hashKeyword)
-                        .toArray());
-
-                LongList foundIds = new LongArrayList();
-
-                var iter = ptr.iterator();
-                while (iter.hasNext()) {
-                    var termData = iter.next();
-                    foundIds.add(termData.termId());
-                }
-
-                if (!expectedFactors.equals(foundIds)) {
-                    System.out.println("Found: ");
-                    System.out.println(foundIds.stream().map(fac -> wordMap.getOrDefault(fac, -1)).map(Objects::toString).collect(Collectors.joining(",")));
-                    System.out.println("Expected: ");
-                    System.out.println(expectedFactors.stream().map(fac -> wordMap.getOrDefault(fac, -1)).map(Objects::toString).collect(Collectors.joining(",")));
-                    fail();
-                }
-                assertEquals(expectedFactors, foundIds);
-            }
-        }
-    }
-
-}
diff --git a/code/index/index-reverse/build.gradle b/code/index/index-reverse/build.gradle
index 1ba91c19..eb83d6ce 100644
--- a/code/index/index-reverse/build.gradle
+++ b/code/index/index-reverse/build.gradle
@@ -16,11 +16,13 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
+    implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:random-write-funnel')
     implementation project(':code:index:query')
     implementation project(':code:index:index-journal')
     implementation project(':code:common:model')
+    implementation project(':code:processes:converting-process:model')
     implementation project(':code:common:process')
 
     implementation project(':third-party:parquet-floor')
@@ -34,5 +36,6 @@ dependencies {
     testImplementation libs.bundles.slf4j.test
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
+    testImplementation project(':code:libraries:test-helpers')
 }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/JournalReaderSource.java b/code/index/index-reverse/java/nu/marginalia/index/construction/JournalReaderSource.java
deleted file mode 100644
index b565206d..00000000
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/JournalReaderSource.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.index.construction;
-
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public interface JournalReaderSource {
-    IndexJournalReader construct(Path sourceFile) throws IOException;
-}
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
index db7d5604..c1ce1b5c 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
@@ -2,10 +2,10 @@ package nu.marginalia.index.construction.full;
 
 import lombok.SneakyThrows;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.JournalReaderSource;
 import nu.marginalia.index.construction.PositionsFileConstructor;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.index.journal.IndexJournalFileNames;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -26,20 +26,17 @@ public class FullIndexConstructor {
     private final Path outputFileDocs;
     private final Path outputFileWords;
     private final Path outputFilePositions;
-    private final JournalReaderSource readerSource;
     private final DocIdRewriter docIdRewriter;
     private final Path tmpDir;
 
     public FullIndexConstructor(Path outputFileDocs,
                                 Path outputFileWords,
                                 Path outputFilePositions,
-                                JournalReaderSource readerSource,
                                 DocIdRewriter docIdRewriter,
                                 Path tmpDir) {
         this.outputFileDocs = outputFileDocs;
         this.outputFileWords = outputFileWords;
         this.outputFilePositions = outputFilePositions;
-        this.readerSource = readerSource;
         this.docIdRewriter = docIdRewriter;
         this.tmpDir = tmpDir;
     }
@@ -48,8 +45,8 @@ public class FullIndexConstructor {
                                    String processName,
                                    Path sourceBaseDir) throws IOException
     {
-        var inputs = IndexJournalFileNames.findJournalFiles(sourceBaseDir);
-        if (inputs.isEmpty()) {
+        var journal = IndexJournal.findJournal(sourceBaseDir);
+        if (journal.isEmpty()) {
             logger.error("No journal files in base dir {}", sourceBaseDir);
             return;
         }
@@ -62,10 +59,12 @@ public class FullIndexConstructor {
 
             AtomicInteger progress = new AtomicInteger(0);
 
-            inputs
-                .parallelStream()
+            var journalVersions = journal.get().pages();
+
+            journalVersions
+                .stream()
                 .map(in -> {
-                    preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
+                    preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), journalVersions.size());
                     return construct(in, posConstructor);
                 })
                 .reduce(this::merge)
@@ -80,9 +79,9 @@ public class FullIndexConstructor {
     }
 
     @SneakyThrows
-    private FullPreindexReference construct(Path input, PositionsFileConstructor positionsFileConstructor) {
+    private FullPreindexReference construct(IndexJournalPage journalInstance, PositionsFileConstructor positionsFileConstructor) {
         return FullPreindex
-                .constructPreindex(readerSource.construct(input), positionsFileConstructor, docIdRewriter, tmpDir)
+                .constructPreindex(journalInstance, positionsFileConstructor, docIdRewriter, tmpDir)
                 .closeToReference();
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
index 063324d2..50f3a4bb 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
@@ -8,7 +8,7 @@ import nu.marginalia.index.construction.CountToOffsetTransformer;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.IndexSizeEstimator;
 import nu.marginalia.index.construction.PositionsFileConstructor;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournalPage;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -43,7 +43,7 @@ public class FullPreindex {
     /** Constructs a new preindex with the data associated with reader.  The backing files
      * will have randomly assigned names.
      */
-    public static FullPreindex constructPreindex(IndexJournalReader reader,
+    public static FullPreindex constructPreindex(IndexJournalPage journalInstance,
                                                  PositionsFileConstructor positionsFileConstructor,
                                                  DocIdRewriter docIdRewriter,
                                                  Path workDir) throws IOException
@@ -52,13 +52,13 @@ public class FullPreindex {
         Path segmentCountsFile = Files.createTempFile(workDir, "segment_counts", ".dat");
         Path docsFile = Files.createTempFile(workDir, "docs", ".dat");
 
-        var segments = FullPreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
-        var docs = FullPreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, positionsFileConstructor, segments);
+        var segments = FullPreindexWordSegments.construct(journalInstance, segmentWordsFile, segmentCountsFile);
+        var docs = FullPreindexDocuments.construct(docsFile, workDir, journalInstance, docIdRewriter, positionsFileConstructor, segments);
         return new FullPreindex(segments, docs);
     }
 
     /**  Close the associated memory mapped areas and return
-     * a dehydrated version of this object that can be re-opened
+     * a dehydrated page of this object that can be re-opened
      * later.
      */
     public FullPreindexReference closeToReference() {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index bae7990a..9cadeb41 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -5,12 +5,13 @@ import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.rwf.RandomFileAssembler;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.nio.ByteBuffer;
 import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
@@ -39,13 +40,13 @@ public class FullPreindexDocuments {
     public static FullPreindexDocuments construct(
             Path docsFile,
             Path workDir,
-            IndexJournalReader reader,
+            IndexJournalPage journalInstance,
             DocIdRewriter docIdRewriter,
             PositionsFileConstructor positionsFileConstructor,
             FullPreindexWordSegments segments) throws IOException {
         FullPreindexDocuments.positionsFileConstructor = positionsFileConstructor;
 
-        createUnsortedDocsFile(docsFile, workDir, reader, segments, docIdRewriter);
+        createUnsortedDocsFile(docsFile, workDir, journalInstance, segments, docIdRewriter);
 
         LongArray docsFileMap = LongArrayFactory.mmapForModifyingShared(docsFile);
         sortDocsFile(docsFileMap, segments);
@@ -68,28 +69,42 @@ public class FullPreindexDocuments {
 
     private static void createUnsortedDocsFile(Path docsFile,
                                                Path workDir,
-                                               IndexJournalReader reader,
+                                               IndexJournalPage journalInstance,
                                                FullPreindexWordSegments segments,
                                                DocIdRewriter docIdRewriter) throws IOException {
 
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
+        final ByteBuffer tempBuffer = ByteBuffer.allocate(65536);
+
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var pointer = reader.newPointer())
+             var docIds = journalInstance.openCombinedId();
+             var termCounts = journalInstance.openTermCounts();
+             var termIds = journalInstance.openTermIds();
+             var termMeta = journalInstance.openTermMetadata();
+             var positions = journalInstance.openTermPositions())
         {
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
 
-            while (pointer.nextDocument()) {
-                long rankEncodedId = docIdRewriter.rewriteDocId(pointer.documentId());
-                for (var termData : pointer) {
-                    long termId = termData.termId();
+            while (termCounts.hasRemaining()) {
+                long docId = docIds.get();
+                long rankEncodedId = docIdRewriter.rewriteDocId(docId);
+
+                long termCount = termCounts.get();
+
+                for (int termIdx = 0; termIdx < termCount; termIdx++) {
+                    long termId = termIds.get();
+                    byte meta = termMeta.get();
+
+                    // Read positions
+                    tempBuffer.clear();
+                    positions.getData(tempBuffer);
+                    tempBuffer.flip();
 
                     long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
-
-                    // write position data to the positions file and get the offset
-                    long encodedPosOffset = positionsFileConstructor.add((byte) termData.metadata(), termData.positionsBuffer());
+                    long encodedPosOffset = positionsFileConstructor.add(meta, tempBuffer);
 
                     assembly.put(offset + 0, rankEncodedId);
                     assembly.put(offset + 1, encodedPosOffset);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java
index 9045b0c7..73bd03b2 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexReference.java
@@ -5,7 +5,7 @@ import nu.marginalia.array.LongArrayFactory;
 import java.io.IOException;
 import java.nio.file.Path;
 
-/** This is a dehydrated version of a FullPreIndex, that only
+/** This is a dehydrated page of a FullPreIndex, that only
  * keeps references to its location on disk but does not hold associated
  * memory maps.
  */
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index eb744616..120b1326 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -5,7 +5,7 @@ import it.unimi.dsi.fastutil.longs.Long2LongOpenHashMap;
 import it.unimi.dsi.fastutil.longs.LongIterator;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournalPage;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -51,14 +51,20 @@ public class FullPreindexWordSegments {
         return ret;
     }
 
-    public static FullPreindexWordSegments construct(IndexJournalReader reader,
+    public static FullPreindexWordSegments construct(IndexJournalPage journalInstance,
                                                      Path wordIdsFile,
                                                      Path countsFile)
     throws IOException
     {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
-        reader.forEachWordId(wordId -> countsMap.addTo(wordId, 1));
+
+        try (var termIds = journalInstance.openTermIds()) {
+            while (termIds.hasRemaining()) {
+                countsMap.addTo(termIds.get(), 1);
+            }
+        }
+
 
         LongArray words = LongArrayFactory.mmapForWritingConfined(wordIdsFile, countsMap.size());
         LongArray counts = LongArrayFactory.mmapForWritingConfined(countsFile, countsMap.size());
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
index 93616e88..f382f91b 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
@@ -2,8 +2,8 @@ package nu.marginalia.index.construction.prio;
 
 import lombok.SneakyThrows;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.JournalReaderSource;
-import nu.marginalia.index.journal.IndexJournalFileNames;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -24,18 +24,15 @@ public class PrioIndexConstructor {
 
     private final Path outputFileDocs;
     private final Path outputFileWords;
-    private final JournalReaderSource readerSource;
     private final DocIdRewriter docIdRewriter;
     private final Path tmpDir;
 
     public PrioIndexConstructor(Path outputFileDocs,
                                 Path outputFileWords,
-                                JournalReaderSource readerSource,
                                 DocIdRewriter docIdRewriter,
                                 Path tmpDir) {
         this.outputFileDocs = outputFileDocs;
         this.outputFileWords = outputFileWords;
-        this.readerSource = readerSource;
         this.docIdRewriter = docIdRewriter;
         this.tmpDir = tmpDir;
     }
@@ -44,8 +41,8 @@ public class PrioIndexConstructor {
                                    String processName,
                                    Path sourceBaseDir) throws IOException
     {
-        var inputs = IndexJournalFileNames.findJournalFiles(sourceBaseDir);
-        if (inputs.isEmpty()) {
+        var journal = IndexJournal.findJournal(sourceBaseDir);
+        if (journal.isEmpty()) {
             logger.error("No journal files in base dir {}", sourceBaseDir);
             return;
         }
@@ -57,10 +54,12 @@ public class PrioIndexConstructor {
 
             AtomicInteger progress = new AtomicInteger(0);
 
-            inputs
-                .parallelStream()
+            var journalVersions = journal.get().pages();
+
+            journalVersions
+                .stream()
                 .map(in -> {
-                    preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), inputs.size());
+                    preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), journalVersions.size());
                     return construct(in);
                 })
                 .reduce(this::merge)
@@ -75,9 +74,9 @@ public class PrioIndexConstructor {
     }
 
     @SneakyThrows
-    private PrioPreindexReference construct(Path input) {
+    private PrioPreindexReference construct(IndexJournalPage journalInstance) {
         return PrioPreindex
-                .constructPreindex(readerSource.construct(input), docIdRewriter, tmpDir)
+                .constructPreindex(journalInstance, docIdRewriter, tmpDir)
                 .closeToReference();
     }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index a9ac2337..ee1ab3ac 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -6,7 +6,7 @@ import nu.marginalia.btree.BTreeWriter;
 import nu.marginalia.index.ReverseIndexParameters;
 import nu.marginalia.index.construction.CountToOffsetTransformer;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournalPage;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -16,7 +16,8 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
 
-import static nu.marginalia.array.algo.TwoArrayOperations.*;
+import static nu.marginalia.array.algo.TwoArrayOperations.countDistinctElements;
+import static nu.marginalia.array.algo.TwoArrayOperations.mergeArrays;
 
 /** Contains the data that would go into a reverse index,
  * that is, a mapping from words to documents, minus the actual
@@ -41,7 +42,7 @@ public class PrioPreindex {
     /** Constructs a new preindex with the data associated with reader.  The backing files
      * will have randomly assigned names.
      */
-    public static PrioPreindex constructPreindex(IndexJournalReader reader,
+    public static PrioPreindex constructPreindex(IndexJournalPage indexJournalPage,
                                                  DocIdRewriter docIdRewriter,
                                                  Path workDir) throws IOException
     {
@@ -49,13 +50,13 @@ public class PrioPreindex {
         Path segmentCountsFile = Files.createTempFile(workDir, "segment_counts", ".dat");
         Path docsFile = Files.createTempFile(workDir, "docs", ".dat");
 
-        var segments = PrioPreindexWordSegments.construct(reader, segmentWordsFile, segmentCountsFile);
-        var docs = PrioPreindexDocuments.construct(docsFile, workDir, reader, docIdRewriter, segments);
+        var segments = PrioPreindexWordSegments.construct(indexJournalPage, segmentWordsFile, segmentCountsFile);
+        var docs = PrioPreindexDocuments.construct(docsFile, workDir, indexJournalPage, docIdRewriter, segments);
         return new PrioPreindex(segments, docs);
     }
 
     /**  Close the associated memory mapped areas and return
-     * a dehydrated version of this object that can be re-opened
+     * a dehydrated page of this object that can be re-opened
      * later.
      */
     public PrioPreindexReference closeToReference() {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index 186d0d65..bdda5a4f 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -4,7 +4,7 @@ import lombok.SneakyThrows;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.rwf.RandomFileAssembler;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -37,11 +37,11 @@ public class PrioPreindexDocuments {
     public static PrioPreindexDocuments construct(
             Path docsFile,
             Path workDir,
-            IndexJournalReader reader,
+            IndexJournalPage journalInstance,
             DocIdRewriter docIdRewriter,
             PrioPreindexWordSegments segments) throws IOException {
 
-        createUnsortedDocsFile(docsFile, workDir, reader, segments, docIdRewriter);
+        createUnsortedDocsFile(docsFile, workDir, journalInstance, segments, docIdRewriter);
 
         LongArray docsFileMap = LongArrayFactory.mmapForModifyingShared(docsFile);
         sortDocsFile(docsFileMap, segments);
@@ -54,37 +54,41 @@ public class PrioPreindexDocuments {
     }
 
 
-    public LongArray slice(long start, long end) {
-        return documents.range(start, end);
-    }
-
     public long size() {
         return documents.size();
     }
 
     private static void createUnsortedDocsFile(Path docsFile,
                                                Path workDir,
-                                               IndexJournalReader reader,
+                                               IndexJournalPage journalInstance,
                                                PrioPreindexWordSegments segments,
                                                DocIdRewriter docIdRewriter) throws IOException {
 
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var pointer = reader.newPointer())
+             var docIds = journalInstance.openCombinedId();
+             var termIdsCounts = journalInstance.openTermCounts();
+             var termIds = journalInstance.openTermIds();
+             var termMeta = journalInstance.openTermMetadata())
         {
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
 
-            while (pointer.nextDocument()) {
-                long rankEncodedId = docIdRewriter.rewriteDocId(pointer.documentId());
-                for (var termData : pointer) {
-                    long termId = termData.termId();
+            while (docIds.hasRemaining()) {
+                long docId = docIds.get();
+                long rankEncodedId = docIdRewriter.rewriteDocId(docId);
 
-                    long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
+                long termCount = termIdsCounts.get();
+                for (int termIdx = 0; termIdx < termCount; termIdx++) {
+                    long termId = termIds.get();
+                    byte meta = termMeta.get();
 
-                    assembly.put(offset, rankEncodedId);
+                    if (meta != 0) {
+                        long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
+                        assembly.put(offset, rankEncodedId);
+                    }
                 }
             }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java
index 10b590dd..f2ccd8df 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexReference.java
@@ -5,7 +5,7 @@ import nu.marginalia.array.LongArrayFactory;
 import java.io.IOException;
 import java.nio.file.Path;
 
-/** This is a dehydrated version of a PrioPreIndex, that only
+/** This is a dehydrated page of a PrioPreIndex, that only
  * keeps references to its location on disk but does not hold associated
  * memory maps.
  */
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
index 512f10ff..c2fe2e96 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -5,7 +5,7 @@ import it.unimi.dsi.fastutil.longs.Long2LongOpenHashMap;
 import it.unimi.dsi.fastutil.longs.LongIterator;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournalPage;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -51,14 +51,26 @@ public class PrioPreindexWordSegments {
         return ret;
     }
 
-    public static PrioPreindexWordSegments construct(IndexJournalReader reader,
+    public static PrioPreindexWordSegments construct(IndexJournalPage journalInstance,
                                                      Path wordIdsFile,
                                                      Path countsFile)
     throws IOException
     {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
-        reader.forEachWordId(wordId -> countsMap.addTo(wordId, 1));
+
+        try (var termIds = journalInstance.openTermIds();
+             var termMetas = journalInstance.openTermMetadata()) {
+
+            while (termIds.hasRemaining()) {
+                long data = termIds.get();
+                byte meta = termMetas.get();
+
+                if (meta != 0) {
+                    countsMap.addTo(data, 1);
+                }
+            }
+        }
 
         LongArray words = LongArrayFactory.mmapForWritingConfined(wordIdsFile, countsMap.size());
         LongArray counts = LongArrayFactory.mmapForWritingConfined(countsFile, countsMap.size());
diff --git a/code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java
index 6cf4349c..d77d2133 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/FullReverseIndexReaderTest.java
@@ -2,6 +2,7 @@ package nu.marginalia.index;
 
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.array.page.LongQueryBuffer;
+import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.construction.full.FullPreindex;
@@ -45,6 +46,11 @@ class FullReverseIndexReaderTest {
         Files.delete(tempDir);
     }
 
+    MurmurHash3_128 hash = new MurmurHash3_128();
+    long termId(String keyword) {
+        return hash.hashKeyword(keyword);
+    }
+
     @Test
     public void testSimple() throws IOException {
 
@@ -52,18 +58,19 @@ class FullReverseIndexReaderTest {
                 new EntryDataWithWordMeta(100, 101, wm(50, 51, 1, 3, 5))
         );
 
-        assertEquals(1, indexReader.numDocuments(50));
+        assertEquals(1, indexReader.numDocuments(termId("50")));
 
-        var positions = indexReader.getTermData(Arena.global(), 50, new long[] { 100 });
+        var positions = indexReader.getTermData(Arena.global(), termId("50"), new long[] { 100 });
 
         assertEquals(1, positions.length);
         assertNotNull(positions[0]);
         assertEquals((byte) 51, positions[0].flags());
         assertEquals(IntList.of(1, 3, 5), positions[0].positions().values());
 
-        assertArrayEquals(new long[] { 100 }, readEntries(indexReader, 50));
+        assertArrayEquals(new long[] { 100 }, readEntries(indexReader, termId("50")));
     }
 
+
     @Test
     public void test2x2() throws IOException {
 
@@ -72,13 +79,13 @@ class FullReverseIndexReaderTest {
                 new EntryDataWithWordMeta(101, 101, wm(51, 53), wm(52, 54))
         );
 
-        assertEquals(1, indexReader.numDocuments(50));
-        assertEquals(2, indexReader.numDocuments(51));
-        assertEquals(1, indexReader.numDocuments(52));
+        assertEquals(1, indexReader.numDocuments(termId("50")));
+        assertEquals(2, indexReader.numDocuments(termId("51")));
+        assertEquals(1, indexReader.numDocuments(termId("52")));
 
-        assertArrayEquals(new long[] { 100 }, readEntries(indexReader, 50));
-        assertArrayEquals(new long[] { 100, 101 }, readEntries(indexReader, 51));
-        assertArrayEquals(new long[] { 101 }, readEntries(indexReader, 52));
+        assertArrayEquals(new long[] { 100 }, readEntries(indexReader, termId("50")));
+        assertArrayEquals(new long[] { 100, 101 }, readEntries(indexReader, termId("51")));
+        assertArrayEquals(new long[] { 101 }, readEntries(indexReader, termId("52")));
 
     }
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java
index a5c87f0f..8f6e6a14 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexDocsTest.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.construction.full;
 
+import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import org.junit.jupiter.api.AfterEach;
@@ -53,33 +54,9 @@ class FullPreindexDocsTest {
         Files.delete(tempDir);
     }
 
-    @Test
-    public void testDocs() throws IOException {
-        var reader = journalFactory.createReader(
-                new EntryData(-0xF00BA3L, 0, 10, 40, -100, 33)
-        );
-
-        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var docs = FullPreindexDocuments.construct(docsFile, tempDir, reader, DocIdRewriter.identity(), new PositionsFileConstructor(positionsFile), segments);
-
-        List<TestSegmentData> expected = List.of(
-                new TestSegmentData(-100, 0, 2, new long[] { -0xF00BA3L, 0 }),
-                new TestSegmentData(10, 2, 4, new long[] { -0xF00BA3L, 0 }),
-                new TestSegmentData(33, 4, 6, new long[] { -0xF00BA3L, 0 }),
-                new TestSegmentData(40, 6, 8, new long[] { -0xF00BA3L, 0 })
-        );
-
-        List<TestSegmentData> actual = new ArrayList<>();
-
-        var iter = segments.iterator(2);
-        while (iter.next()) {
-            long[] data = new long[(int) (iter.endOffset - iter.startOffset)];
-            docs.slice(iter.startOffset, iter.endOffset).get(0, data);
-            actual.add(new TestSegmentData(iter.wordId, iter.startOffset, iter.endOffset,
-                    data));
-        }
-
-        assertEquals(expected, actual);
+    MurmurHash3_128 hash = new MurmurHash3_128();
+    long termId(String keyword) {
+        return hash.hashKeyword(keyword);
     }
 
     @Test
@@ -94,7 +71,7 @@ class FullPreindexDocsTest {
                 segments);
 
         List<TestSegmentData> expected = List.of(
-                new TestSegmentData(4, 0, 4, new long[] { -0xF00BA3L, 0, -0xF00BA3L, 0 })
+                new TestSegmentData(termId("4"), 0, 4, new long[] { -0xF00BA3L, 0, -0xF00BA3L, 0 })
         );
 
         List<TestSegmentData> actual = new ArrayList<>();
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java
index 411f2cdc..253e0d52 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexFinalizeTest.java
@@ -3,6 +3,7 @@ package nu.marginalia.index.construction.full;
 
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.btree.model.BTreeHeader;
+import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import org.junit.jupiter.api.AfterEach;
@@ -12,9 +13,11 @@ import org.junit.jupiter.api.Test;
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
-import java.util.*;
+import java.util.ArrayList;
+import java.util.List;
 
-import static nu.marginalia.index.construction.full.TestJournalFactory.*;
+import static nu.marginalia.index.construction.full.TestJournalFactory.EntryDataWithWordMeta;
+import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertTrue;
 
@@ -51,6 +54,11 @@ class FullPreindexFinalizeTest {
         Files.delete(tempDir);
     }
 
+    MurmurHash3_128 hash = new MurmurHash3_128();
+    long termId(String keyword) {
+        return hash.hashKeyword(keyword);
+    }
+
     @Test
     public void testFinalizeSimple() throws IOException {
         var reader = journalFactory.createReader(new EntryDataWithWordMeta(100, 101, wm(50, 51)));
@@ -81,7 +89,7 @@ class FullPreindexFinalizeTest {
         assertEquals(1, wordsHeader.numEntries());
 
         assertEquals(100, docsArray.get(docsHeader.dataOffsetLongs() + 0));
-        assertEquals(50, wordsArray.get(wordsHeader.dataOffsetLongs()));
+        assertEquals(termId("50"), wordsArray.get(wordsHeader.dataOffsetLongs()));
     }
 
 
@@ -121,8 +129,8 @@ class FullPreindexFinalizeTest {
         long offset1 = wordsArray.get(wordsHeader.dataOffsetLongs() + 1);
         long offset2 = wordsArray.get(wordsHeader.dataOffsetLongs() + 3);
 
-        assertEquals(50, wordsArray.get(wordsHeader.dataOffsetLongs()));
-        assertEquals(50, wordsArray.get(wordsHeader.dataOffsetLongs()));
+        assertEquals(termId("50"), wordsArray.get(wordsHeader.dataOffsetLongs()));
+        assertEquals(termId("50"), wordsArray.get(wordsHeader.dataOffsetLongs()));
 
         BTreeHeader docsHeader;
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
deleted file mode 100644
index 85796e41..00000000
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexMergeTest.java
+++ /dev/null
@@ -1,435 +0,0 @@
-
-package nu.marginalia.index.construction.full;
-
-import nu.marginalia.index.construction.DocIdRewriter;
-import nu.marginalia.index.construction.PositionsFileConstructor;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Disabled;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.*;
-
-import static nu.marginalia.index.construction.full.TestJournalFactory.*;
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class FullPreindexMergeTest {
-    TestJournalFactory journalFactory;
-    Path countsFile;
-    Path wordsIdFile;
-    Path docsFile;
-    Path tempDir;
-    Path positionsFile;
-
-    @BeforeEach
-    public void setUp() throws IOException  {
-        journalFactory = new TestJournalFactory();
-
-        positionsFile = Files.createTempFile("positions", ".dat");
-        countsFile = Files.createTempFile("counts", ".dat");
-        wordsIdFile = Files.createTempFile("words", ".dat");
-        docsFile = Files.createTempFile("docs", ".dat");
-        tempDir = Files.createTempDirectory("sort");
-    }
-
-    @AfterEach
-    public void tearDown() throws IOException {
-        journalFactory.clear();
-
-        Files.deleteIfExists(countsFile);
-        Files.deleteIfExists(wordsIdFile);
-        List<Path> contents = new ArrayList<>();
-        Files.list(tempDir).forEach(contents::add);
-        for (var tempFile : contents) {
-            Files.delete(tempFile);
-        }
-        Files.delete(tempDir);
-    }
-
-    public FullPreindex runMergeScenario(
-            List<EntryDataWithWordMeta> leftData,
-            List<EntryDataWithWordMeta> rightData
-    ) throws IOException {
-        var reader1 = journalFactory.createReader(leftData.toArray(EntryDataWithWordMeta[]::new));
-        var reader2 = journalFactory.createReader(rightData.toArray(EntryDataWithWordMeta[]::new));
-
-        var left = FullPreindex.constructPreindex(reader1, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
-        var right = FullPreindex.constructPreindex(reader2, new PositionsFileConstructor(positionsFile), DocIdRewriter.identity(), tempDir);
-        return FullPreindex.merge(tempDir, left, right);
-    }
-
-    private List<TestSegmentData> getData(FullPreindex merged) {
-        var iter = merged.segments.iterator(2);
-        List<TestSegmentData> actual = new ArrayList<>();
-        while (iter.next()) {
-            long[] data = new long[(int) (iter.endOffset - iter.startOffset)];
-            merged.documents.slice(iter.startOffset, iter.endOffset).get(0, data);
-            actual.add(new TestSegmentData(iter.wordId, iter.startOffset, iter.endOffset,
-                    data));
-        }
-        return actual;
-    }
-
-    @Test
-    @Disabled
-    public void testDocsMergeSingleNoOverlap() throws IOException {
-
-        IdSequence docIds = new IdSequence();
-        IdSequence docMetas = new IdSequence();
-        IdSequence wordMetas = new IdSequence();
-        IdSequence wordIds = new IdSequence();
-
-        var leftSequence = List.of(new EntryDataWithWordMeta(docIds.nextUnique(), docMetas.nextUnique(), wm(wordIds.nextUnique(), wordMetas.nextUnique())));
-        var rightSequence = List.of(new EntryDataWithWordMeta(docIds.nextUnique(), docMetas.nextUnique(), wm(wordIds.nextUnique(), wordMetas.nextUnique())));
-
-        var merged = runMergeScenario(
-                leftSequence,
-                rightSequence
-        );
-
-        var actual = getData(merged);
-
-        var expected = simulateMerge(leftSequence, rightSequence);
-
-        System.out.println(actual);
-        assertEquals(expected, actual);
-    }
-
-    @Test
-    @Disabled
-    public void testDocsMergeSingleOnlyOverlap() throws IOException {
-
-        IdSequence docIds = new IdSequence();
-        IdSequence docMetas = new IdSequence();
-        IdSequence wordMetas = new IdSequence();
-        IdSequence wordIds = new IdSequence();
-
-        var leftSequence = List.of(new EntryDataWithWordMeta(docIds.nextUnique(), docMetas.nextUnique(), wm(wordIds.nextUnique(), wordMetas.nextUnique())));
-        var rightSequence = List.of(new EntryDataWithWordMeta(docIds.nextUnique(), docMetas.nextUnique(), wm(wordIds.alreadySeenSameSequence(), wordMetas.nextUnique())));
-
-        var merged = runMergeScenario(
-                leftSequence,
-                rightSequence
-        );
-
-        var actual = getData(merged);
-
-        var expected = simulateMerge(leftSequence, rightSequence);
-
-        System.out.println(actual);
-        assertEquals(expected, actual);
-    }
-
-    @Test
-    @Disabled
-    public void testDocsMergeSingleOnlyOverlap2() throws IOException {
-
-        long wid1 = 1;
-        long wid2 = 2;
-        IdSequence docIds = new IdSequence();
-        IdSequence docMetas = new IdSequence();
-        IdSequence wordMetas = new IdSequence();
-
-        var leftSequence = List.of(new EntryDataWithWordMeta(docIds.nextUnique(), docMetas.nextUnique(),
-                wm(wid1, wordMetas.nextUnique()),
-                wm(wid2, wordMetas.nextUnique())
-                ));
-        var rightSequence = List.of(new EntryDataWithWordMeta(docIds.nextUnique(), docMetas.nextUnique(),
-                wm(wid1, wordMetas.nextUnique()),
-                wm(wid2, wordMetas.nextUnique())
-        ));
-
-        var merged = runMergeScenario(
-                leftSequence,
-                rightSequence
-        );
-
-        var actual = getData(merged);
-
-        var expected = simulateMerge(leftSequence, rightSequence);
-
-        System.out.println(actual);
-        assertEquals(expected, actual);
-    }
-
-    @Test
-    @Disabled
-    public void testBadCase1() throws IOException {
-        long wordId = 0xF00F00BA3L;
-
-        List<EntryDataWithWordMeta> leftSequence = List.of(new EntryDataWithWordMeta(40, 50,
-                wm(wordId, 5))
-        );
-        List<EntryDataWithWordMeta> rightSequence = List.of(new EntryDataWithWordMeta(41, 51,
-                wm(wordId, 3),
-                wm(wordId, 4))
-        );
-
-        var mergedLR = runMergeScenario(
-                leftSequence,
-                rightSequence
-        );
-        var mergedRL = runMergeScenario(
-                rightSequence,
-                leftSequence
-        );
-
-        var actualLR = getData(mergedLR);
-        var actualRL = getData(mergedRL);
-
-        var expected = simulateMerge(leftSequence, rightSequence);
-
-        assertEquals(actualLR, actualRL);
-
-        if (!expected.equals(actualLR)) {
-            System.out.println("*fail*");
-            System.out.println(leftSequence);
-            System.out.println(rightSequence);
-        }
-        else {
-            System.out.println("*pass*");
-        }
-
-        assertEquals(expected, actualLR);
-
-    }
-
-    @Test
-    @Disabled
-    public void testBadCase2() throws IOException {
-        long wordId = 100;
-
-        List<EntryDataWithWordMeta> leftSequence = List.of(
-                new EntryDataWithWordMeta(1, 50, wm(wordId, 5)),
-                new EntryDataWithWordMeta(2, 50, wm(wordId, 5))
-
-        );
-        List<EntryDataWithWordMeta> rightSequence = List.of(
-                new EntryDataWithWordMeta(3, 50, wm(wordId, 5))
-        );
-
-        var mergedLR = runMergeScenario(
-                leftSequence,
-                rightSequence
-        );
-        var mergedRL = runMergeScenario(
-                rightSequence,
-                leftSequence
-        );
-
-        var actualLR = getData(mergedLR);
-        var actualRL = getData(mergedRL);
-
-        var expected = simulateMerge(leftSequence, rightSequence);
-
-        assertEquals(actualLR, actualRL);
-
-        if (!expected.equals(actualLR)) {
-            System.out.println("*fail*");
-            System.out.println(leftSequence);
-            System.out.println(rightSequence);
-        }
-        else {
-            System.out.println("*pass*");
-        }
-
-        assertEquals(expected, actualLR);
-
-    }
-
-    @Test
-    @Disabled
-    public void testFuzz() throws IOException {
-        Random r = new Random();
-        int maxDocs = 150;
-        int maxWords = 160;
-        int nIters = 1000;
-
-        for (int i = 0; i < nIters; i++) {
-            int nLeft = 1 + r.nextInt(maxDocs);
-            int nRight = 1 + r.nextInt(maxDocs);
-
-            IdSequence docIdsLeft = new IdSequence();
-            IdSequence docIdsRight = new IdSequence();
-            IdSequence docMetas = new IdSequence();
-            IdSequence wordMetas = new IdSequence();
-            IdSequence wordIds = new IdSequence();
-
-            List<EntryDataWithWordMeta> leftSequence = new ArrayList<>(nLeft);
-            for (int j = 0; j < nLeft; j++) {
-                WordWithMeta[] words = new WordWithMeta[maxWords == 1 ? 1 : r.nextInt(1, maxWords)];
-                Arrays.setAll(words, idx -> {
-                    long wordId = wordIds.seenWithP(1.0);
-                    long wordMeta = wordMetas.nextUniqueAssociatedWithKey(wordId);
-                    return wm(wordId, wordMeta);
-                });
-
-                long docId = docIdsLeft.nextUnique();
-                long docMeta = docMetas.nextUniqueAssociatedWithKey(docId);
-                leftSequence.add(new EntryDataWithWordMeta(docId, docMeta, words));
-            }
-
-            List<EntryDataWithWordMeta> rightSequence = new ArrayList<>(nLeft);
-            for (int j = 0; j < nRight; j++) {
-                WordWithMeta[] words = new WordWithMeta[maxWords == 1 ? 1 : r.nextInt(1, maxWords)];
-                Arrays.setAll(words, idx -> {
-                    long wordId = wordIds.seenWithP(1.0);
-                    long wordMeta = wordMetas.nextUniqueAssociatedWithKey(wordId);
-                    return wm(wordId, wordMeta);
-                });
-
-                long docId = docIdsRight.seenWithP(docIdsLeft, 0.1);
-                long docMeta = docMetas.nextUniqueAssociatedWithKey(docId);
-                rightSequence.add(new EntryDataWithWordMeta(docId, docMeta, words));
-            }
-
-            var mergedLR = runMergeScenario(
-                    leftSequence,
-                    rightSequence
-            );
-            var mergedRL = runMergeScenario(
-                    rightSequence,
-                    leftSequence
-            );
-
-            var actualLR = getData(mergedLR);
-            var actualRL = getData(mergedRL);
-
-            var expected = simulateMerge(leftSequence, rightSequence);
-
-            assertEquals(actualLR, actualRL);
-
-            if (!expected.equals(actualLR)) {
-                System.out.println("*fail*");
-                System.out.println(leftSequence);
-                System.out.println(rightSequence);
-            }
-            else {
-                System.out.println("*pass*");
-            }
-
-            assertEquals(expected, actualLR);
-
-        }
-    }
-
-
-    public List<TestSegmentData> simulateMerge(
-            Collection<EntryDataWithWordMeta> leftInputs,
-            Collection<EntryDataWithWordMeta> rightInputs
-            ) {
-        TreeMap<Long, List<DocWithMeta>> wordToDocs = new TreeMap<>();
-
-        for (var entry : leftInputs) {
-            for (var wm : entry.wordIds()) {
-                wordToDocs.computeIfAbsent(wm.wordId(), w -> new ArrayList<>()).add(
-                        new DocWithMeta(entry.docId(), wm.meta())
-                );
-            }
-        }
-        for (var entry : rightInputs) {
-            for (var wm : entry.wordIds()) {
-                wordToDocs.computeIfAbsent(wm.wordId(), w -> new ArrayList<>()).add(
-                        new DocWithMeta(entry.docId(), wm.meta())
-                );
-            }
-        }
-
-        List<TestSegmentData> ret = new ArrayList<>();
-        int[] start = new int[1];
-        wordToDocs.forEach((wordId, docsList) -> {
-            docsList.sort(Comparator.naturalOrder());
-            var iter = docsList.iterator();
-            DocWithMeta prevVal = null;
-            DocWithMeta currentVal;
-            while (iter.hasNext()) {
-                currentVal = iter.next();
-                if (prevVal != null) {
-                    if (currentVal.docId == prevVal.docId) {
-                        iter.remove();
-                    }
-                }
-                prevVal = currentVal;
-
-            }
-            long[] data = new long[docsList.size()*2];
-            for (int i = 0; i < docsList.size(); i++) {
-                data[2*i] = docsList.get(i).docId;
-                data[2*i + 1] = docsList.get(i).meta;
-            }
-            ret.add(new TestSegmentData(wordId, start[0], start[0] + data.length, data));
-
-            start[0] += data.length;
-        });
-        return ret;
-    }
-
-
-    record DocWithMeta(long docId, long meta) implements Comparable<DocWithMeta> {
-
-        @Override
-        public int compareTo(DocWithMeta o) {
-            return Long.compare(docId, o.docId);
-        }
-    }
-
-    class IdSequence {
-        Set<Long> seen = new HashSet<>();
-        Map<Long, Long> associatedValues = new HashMap<>();
-        private Random random = new Random();
-
-        /** Return alreadySeen() with probability p,
-         * else nextUnique()
-         */
-        public long seenWithP(double p) {
-            if (isEmpty() || random.nextDouble() > p)
-                return nextUnique();
-
-            return alreadySeenSameSequence();
-        }
-
-        public long seenWithP(IdSequence other, double p) {
-            if (isEmpty() || random.nextDouble() > p)
-                return nextUnique();
-
-            return alreadySeenOtherSequence(other);
-        }
-
-        public long nextUnique() {
-            for (;;) {
-                long val = random.nextLong();
-                if (seen.add(val)) {
-                    return val;
-                }
-            }
-        }
-
-        public long nextUniqueAssociatedWithKey(long key) {
-            return associatedValues.computeIfAbsent(key, k -> nextUnique());
-        }
-
-        public long alreadySeenSameSequence() {
-            long[] values = seen.stream().mapToLong(Long::longValue).toArray();
-            int idx = random.nextInt(0, values.length);
-            return values[idx];
-        }
-
-        public long alreadySeenOtherSequence(IdSequence other) {
-            List<Long> values = new ArrayList<>(other.seen);
-            Collections.shuffle(values);
-            for (Long maybe : values) {
-                if (seen.add(maybe))
-                    return maybe;
-            }
-            return nextUnique();
-        }
-
-        public boolean isEmpty() {
-            return seen.isEmpty();
-        }
-    }
-
-}
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java
deleted file mode 100644
index 72c13207..00000000
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/FullPreindexWordSegmentsTest.java
+++ /dev/null
@@ -1,231 +0,0 @@
-package nu.marginalia.index.construction.full;
-
-import nu.marginalia.array.LongArray;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-
-import static nu.marginalia.index.construction.full.TestJournalFactory.*;
-import static org.junit.jupiter.api.Assertions.*;
-
-class FullPreindexWordSegmentsTest {
-    Path countsFile;
-    Path wordsIdFile;
-    Path docsFile;
-    Path tempDir;
-
-    TestJournalFactory journalFactory;
-
-    @BeforeEach
-    public void setUp() throws IOException  {
-        journalFactory = new TestJournalFactory();
-
-        countsFile = Files.createTempFile("counts", ".dat");
-        wordsIdFile = Files.createTempFile("words", ".dat");
-        docsFile = Files.createTempFile("docs", ".dat");
-        tempDir = Files.createTempDirectory("sort");
-    }
-
-    @AfterEach
-    public void tearDown() throws IOException {
-        journalFactory.clear();
-
-        Files.deleteIfExists(countsFile);
-        Files.deleteIfExists(wordsIdFile);
-        List<Path> contents = new ArrayList<>();
-        Files.list(tempDir).forEach(contents::add);
-        for (var tempFile : contents) {
-            Files.delete(tempFile);
-        }
-        Files.delete(tempDir);
-    }
-    @Test
-    public void testWordSegmentsLongWordId() throws IOException {
-        var reader = journalFactory.createReader(
-                new EntryData(-0xF00BA3L, 0, 1L<<33)
-        );
-
-        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var iter = segments.iterator(1);
-
-        List<TestSegmentData> expected = List.of(
-                new TestSegmentData(1L<<33, 0, 1)
-        );
-
-        List<TestSegmentData> actual = new ArrayList<>();
-
-        while (iter.next()) {
-            actual.add(new TestSegmentData(iter.wordId, iter.startOffset, iter.endOffset));
-        }
-
-        assertEquals(expected, actual);
-    }
-    @Test
-    public void testWordSegmentsRepeatedWordId() throws IOException {
-        var reader = journalFactory.createReader(
-                new EntryData(-0xF00BA3L, 0, 5, 5)
-        );
-
-        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var iter = segments.iterator(1);
-
-        List<TestSegmentData> expected = List.of(
-                new TestSegmentData(5, 0, 2)
-        );
-
-        List<TestSegmentData> actual = new ArrayList<>();
-
-        while (iter.next()) {
-            actual.add(new TestSegmentData(iter.wordId, iter.startOffset, iter.endOffset));
-        }
-
-        assertEquals(expected, actual);
-    }
-
-    @Test
-    public void testWordSegments1() throws IOException {
-        var reader = journalFactory.createReader(
-                new EntryData(-0xF00BA3L, 0, 10, 40, -100, 33)
-        );
-
-        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var iter = segments.iterator(1);
-
-        List<TestSegmentData> expected = List.of(
-                new TestSegmentData(-100, 0, 1),
-                new TestSegmentData(10, 1, 2),
-                new TestSegmentData(33, 2, 3),
-                new TestSegmentData(40, 3, 4)
-        );
-
-        List<TestSegmentData> actual = new ArrayList<>();
-
-        while (iter.next()) {
-            actual.add(new TestSegmentData(iter.wordId, iter.startOffset, iter.endOffset));
-        }
-
-        assertEquals(expected, actual);
-    }
-
-    @Test
-    public void testWordSegments2() throws IOException {
-        var reader = journalFactory.createReader(
-                new EntryData(-0xF00BA3L, 0, 10, 40, -100, 33),
-                new EntryData(0xF00BA4L, 0, 15, 30, -100, 33)
-        );
-
-        var segments = FullPreindexWordSegments.construct(reader, wordsIdFile, countsFile);
-        var iter = segments.iterator(1);
-
-        List<TestSegmentData> expected = List.of(
-                new TestSegmentData(-100, 0, 2),
-                new TestSegmentData(10, 2, 3),
-                new TestSegmentData(15, 3, 4),
-                new TestSegmentData(30, 4, 5),
-                new TestSegmentData(33, 5, 7),
-                new TestSegmentData(40, 7, 8)
-        );
-
-        List<TestSegmentData> actual = new ArrayList<>();
-
-        while (iter.next()) {
-            actual.add(new TestSegmentData(iter.wordId, iter.startOffset, iter.endOffset));
-        }
-
-        assertEquals(expected, actual);
-    }
-
-
-    @Test
-    public void testWordSegments_ReadIterator() {
-        LongArray wordsArray = LongArray.allocate(4);
-        LongArray countsArray = LongArray.allocate(4);
-        wordsArray.set(0, -1, -2, -3, -4);
-        countsArray.set(0, 2, 1, 3, 5);
-        var segments = new FullPreindexWordSegments(wordsArray, countsArray, null, null);
-
-        var ritr = segments.iterator(1);
-        assertTrue(ritr.hasMorePositions());
-        assertTrue(ritr.next());
-        assertTrue(ritr.isPositionBeforeEnd());
-        assertEquals(-1, ritr.wordId);
-        assertEquals(0, ritr.idx());
-        assertEquals(0, ritr.startOffset);
-        assertEquals(2, ritr.endOffset);
-
-        assertTrue(ritr.hasMorePositions());
-        assertTrue(ritr.next());
-        assertTrue(ritr.isPositionBeforeEnd());
-        assertEquals(-2, ritr.wordId);
-        assertEquals(1, ritr.idx());
-        assertEquals(2, ritr.startOffset);
-        assertEquals(3, ritr.endOffset);
-
-        assertTrue(ritr.hasMorePositions());
-        assertTrue(ritr.next());
-        assertTrue(ritr.isPositionBeforeEnd());
-        assertEquals(-3, ritr.wordId);
-        assertEquals(2, ritr.idx());
-        assertEquals(3, ritr.startOffset);
-        assertEquals(6, ritr.endOffset);
-
-        assertTrue(ritr.hasMorePositions());
-        assertTrue(ritr.next());
-        assertTrue(ritr.isPositionBeforeEnd());
-        assertEquals(-4, ritr.wordId);
-        assertEquals(3, ritr.idx());
-        assertEquals(6, ritr.startOffset);
-        assertEquals(11, ritr.endOffset);
-
-        assertFalse(ritr.hasMorePositions());
-        assertFalse(ritr.next());
-        assertFalse(ritr.isPositionBeforeEnd());
-
-        assertEquals(Long.MIN_VALUE, ritr.wordId);
-    }
-
-
-    @Test
-    public void testWordSegments_ConstructionIterator() {
-        LongArray wordsArray = LongArray.allocate(4);
-        LongArray countsArray = LongArray.allocate(4);
-        wordsArray.set(0, -1, -2, -3, -4);
-        var segments = new FullPreindexWordSegments(wordsArray, countsArray, null, null);
-
-        var citr = segments.constructionIterator(1);
-        assertEquals(-1, citr.wordId);
-        assertEquals(0, citr.idx());
-        assertTrue(citr.canPutMore());
-        assertTrue(citr.putNext(1));
-        assertEquals(1, countsArray.get(0));
-
-        assertEquals(-2, citr.wordId);
-        assertEquals(1, citr.idx());
-        assertTrue(citr.canPutMore());
-        assertTrue(citr.putNext(2));
-        assertEquals(2, countsArray.get(1));
-
-        assertEquals(-3, citr.wordId);
-        assertEquals(2, citr.idx());
-        assertTrue(citr.canPutMore());
-        assertTrue(citr.putNext(3));
-        assertEquals(3, countsArray.get(2));
-
-        assertEquals(-4, citr.wordId);
-        assertEquals(3, citr.idx());
-        assertTrue(citr.canPutMore());
-        assertFalse(citr.putNext(4));
-        assertEquals(4, countsArray.get(3));
-
-        assertEquals(4, citr.idx());
-        assertFalse(citr.canPutMore());
-        assertEquals(Long.MIN_VALUE, citr.wordId);
-    }
-
-}
\ No newline at end of file
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
index f34dcd9c..80c0970c 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
@@ -1,17 +1,15 @@
 package nu.marginalia.index.construction.full;
 
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.index.journal.reader.IndexJournalReaderSingleFile;
-import nu.marginalia.index.journal.writer.IndexJournalWriterSingleFileImpl;
+import nu.marginalia.index.journal.IndexJournalPage;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
+import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.test.TestUtil;
 
 import java.io.IOException;
 import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
-import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.List;
 import java.util.Objects;
@@ -22,17 +20,13 @@ public class TestJournalFactory {
     public TestJournalFactory() throws IOException {}
 
     public void clear() throws IOException {
-        List<Path> toDelete = new ArrayList<>();
-        try (var dirStream = Files.list(tempDir)) {
-            dirStream.forEach(toDelete::add);
-        }
-        for (var tempFile : toDelete) {
-            Files.delete(tempFile);
-        }
-        Files.delete(tempDir);
+        TestUtil.clearTempDir(tempDir);
     }
 
-    public record EntryData(long docId, long docMeta, long... wordIds) {
+    public record EntryData(long docId, long docMeta, String... wordIds) {
+        public EntryData(long docId, long docMeta, long... wordIds) {
+            this(docId, docMeta, Arrays.stream(wordIds).mapToObj(String::valueOf).toArray(String[]::new));
+        }
         @Override
         public String toString() {
             return "EntryData{" +
@@ -52,19 +46,23 @@ public class TestJournalFactory {
                     '}';
         }
     }
-    public record WordWithMeta(long wordId, long meta, GammaCodedSequence gcs) {}
-
-    public static WordWithMeta wm(long wordId, long meta, int... positions) {
-        return new WordWithMeta(wordId, meta, GammaCodedSequence.generate(ByteBuffer.allocate(128), positions));
+    public record WordWithMeta(String wordId, byte meta, GammaCodedSequence gcs) {
+        public WordWithMeta(long wordId, byte meta, GammaCodedSequence gcs) {
+            this(String.valueOf(wordId), meta, gcs);
+        }
     }
 
-    public IndexJournalReader createReader(EntryData... entries) throws IOException {
-        Path jf = Files.createTempFile(tempDir, "journal", ".dat");
+    public static WordWithMeta wm(long wordId, int meta, int... positions) {
+        return new WordWithMeta(wordId, (byte) meta, GammaCodedSequence.generate(ByteBuffer.allocate(128), positions));
+    }
 
-        var writer = new IndexJournalWriterSingleFileImpl(jf);
+    public IndexJournalPage createReader(EntryData... entries) throws IOException {
+        Path ji = Files.createTempDirectory(tempDir, "journal");
+
+        var writer = new IndexJournalSlopWriter(ji, 0);
         for (var entry : entries) {
-            long[] termIds = new long[entry.wordIds.length];
-            long[] meta = new long[entry.wordIds.length];
+            String[] termIds = new String[entry.wordIds.length];
+            byte[] meta = new byte[entry.wordIds.length];
 
             GammaCodedSequence[] positions = new GammaCodedSequence[entry.wordIds.length];
             for (int i = 0; i < entry.wordIds.length; i++) {
@@ -73,22 +71,35 @@ public class TestJournalFactory {
                 positions[i] = new GammaCodedSequence(new byte[1]);
             }
 
-            writer.put(new IndexJournalEntryHeader(entries.length, 0, 15, entry.docId, entry.docMeta),
-                    new IndexJournalEntryData(termIds, meta, positions));
+            writer.put(
+                    entry.docId,
+                    new SlopDocumentRecord.KeywordsProjection(
+                            "test",
+                            -1,
+                            0,
+                            entry.docMeta,
+                            15,
+                            Arrays.asList(termIds),
+                            meta,
+                            Arrays.asList(positions),
+                            new byte[0],
+                            List.of()
+                    )
+            );
         }
         writer.close();
-        var ret = new IndexJournalReaderSingleFile(jf);
-        return ret;
+
+        return new IndexJournalPage(ji, 0);
     }
 
-    public IndexJournalReader createReader(EntryDataWithWordMeta... entries) throws IOException {
-        Path jf = Files.createTempFile(tempDir, "journal", ".dat");
+    public IndexJournalPage createReader(EntryDataWithWordMeta... entries) throws IOException {
+        Path ji = Files.createTempDirectory(tempDir, "journal");
 
-        var writer = new IndexJournalWriterSingleFileImpl(jf);
+        var writer = new IndexJournalSlopWriter(ji, 0);
         for (var entry : entries) {
 
-            long[] termIds = new long[entry.wordIds.length];
-            long[] meta = new long[entry.wordIds.length];
+            String[] termIds = new String[entry.wordIds.length];
+            byte[] meta = new byte[entry.wordIds.length];
             GammaCodedSequence[] positions = new GammaCodedSequence[entry.wordIds.length];
             for (int i = 0; i < entry.wordIds.length; i++) {
                 termIds[i] = entry.wordIds[i].wordId;
@@ -96,11 +107,25 @@ public class TestJournalFactory {
                 positions[i] = Objects.requireNonNullElseGet(entry.wordIds[i].gcs, () -> new GammaCodedSequence(new byte[1]));
             }
 
-            writer.put(new IndexJournalEntryHeader(entries.length, 0, 15, entry.docId, entry.docMeta),
-                    new IndexJournalEntryData(termIds, meta, positions));
+            writer.put(
+                    entry.docId,
+                    new SlopDocumentRecord.KeywordsProjection(
+                            "test",
+                            -1,
+                            0,
+                            entry.docMeta,
+                            15,
+                            Arrays.asList(termIds),
+                            meta,
+                            Arrays.asList(positions),
+                            new byte[0],
+                            List.of()
+                    )
+            );
+
         }
         writer.close();
-        var ret = new IndexJournalReaderSingleFile(jf);
-        return ret;
+
+        return new IndexJournalPage(ji, 0);
     }
 }
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java
index f37b5975..d325e029 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestSegmentData.java
@@ -2,8 +2,8 @@ package nu.marginalia.index.construction.full;
 
 import java.util.Arrays;
 
-record TestSegmentData(long wordId, long start, long end, long[] data) {
-    public TestSegmentData(long wordId, long start, long end) {
+record TestSegmentData(String wordId, long start, long end, long[] data) {
+    public TestSegmentData(String wordId, long start, long end) {
         this(wordId, start, end, null);
     }
 
@@ -22,7 +22,7 @@ record TestSegmentData(long wordId, long start, long end, long[] data) {
 
     @Override
     public int hashCode() {
-        int result = (int) (wordId ^ (wordId >>> 32));
+        int result = wordId.hashCode();
         result = 31 * result + (int) (start ^ (start >>> 32));
         result = 31 * result + (int) (end ^ (end >>> 32));
         result = 31 * result + Arrays.hashCode(data);
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
index 413b5b8b..6075fa8a 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/prio/PrioPreindexTest.java
@@ -1,6 +1,7 @@
 package nu.marginalia.index.construction.prio;
 
 import nu.marginalia.array.page.LongQueryBuffer;
+import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.PrioReverseIndexReader;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.full.TestJournalFactory;
@@ -17,7 +18,7 @@ import java.util.ArrayList;
 import java.util.List;
 import java.util.Random;
 
-import static nu.marginalia.index.construction.full.TestJournalFactory.*;
+import static nu.marginalia.index.construction.full.TestJournalFactory.EntryDataWithWordMeta;
 import static nu.marginalia.index.construction.full.TestJournalFactory.wm;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertTrue;
@@ -59,6 +60,11 @@ class PrioPreindexTest {
         Files.delete(tempDir);
     }
 
+    MurmurHash3_128 hash = new MurmurHash3_128();
+    long termId(String keyword) {
+        return hash.hashKeyword(keyword);
+    }
+
     @Test
     public void testFinalizeSimple() throws IOException {
         var journalReader = journalFactory.createReader(
@@ -79,7 +85,7 @@ class PrioPreindexTest {
 
         var indexReader = new PrioReverseIndexReader("test", wordsFile, docsFile);
 
-        var entrySource = indexReader.documents(50);
+        var entrySource = indexReader.documents(termId("50"));
         var lqb = new LongQueryBuffer(32);
         entrySource.read(lqb);
 
@@ -139,10 +145,10 @@ class PrioPreindexTest {
 
         var indexReader = new PrioReverseIndexReader("test", wordsFile, docsFile);
 
-        int items = indexReader.numDocuments(50);
+        int items = indexReader.numDocuments(termId("50"));
         assertEquals(documentIds.length, items);
 
-        var entrySource = indexReader.documents(50);
+        var entrySource = indexReader.documents(termId("50"));
         var lqb = new LongQueryBuffer(32);
 
         for (int pos = 0; pos < documentIds.length;) {
diff --git a/code/index/index-reverse/test/nu/marginalia/test/TestUtil.java b/code/index/index-reverse/test/nu/marginalia/test/TestUtil.java
deleted file mode 100644
index 8fbf6b54..00000000
--- a/code/index/index-reverse/test/nu/marginalia/test/TestUtil.java
+++ /dev/null
@@ -1,43 +0,0 @@
-package nu.marginalia.test;
-
-
-import java.io.File;
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.Arrays;
-
-public class TestUtil {
-    public static void clearTempDir(Path dir) {
-        if (Files.isDirectory(dir)) {
-            for (File f : dir.toFile().listFiles()) {
-                File[] files = f.listFiles();
-                if (files != null) {
-                    Arrays.stream(files).map(File::toPath).forEach(TestUtil::clearTempDir);
-                }
-                System.out.println("Deleting " + f + " (" + fileSize(f.toPath()) + ")");
-                f.delete();
-            }
-        }
-        System.out.println("Deleting " + dir);
-        dir.toFile().delete();
-    }
-
-    private static String fileSize(Path path) {
-        try {
-            long sizeBytes = Files.size(path);
-
-            if (sizeBytes > 1024 * 1024 * 1024) return round(sizeBytes / 1073741824.) + "Gb";
-            if (sizeBytes > 1024 * 1024) return round(sizeBytes / 1048576.) + "Mb";
-            if (sizeBytes > 1024) return round(sizeBytes / 1024.) + "Kb";
-            return sizeBytes + "b";
-        }
-        catch (IOException ex) {
-            throw new RuntimeException(ex);
-        }
-    }
-
-    private static String round(double d) {
-        return String.format("%.2f", d);
-    }
-}
diff --git a/code/index/java/nu/marginalia/index/IndexFactory.java b/code/index/java/nu/marginalia/index/IndexFactory.java
index 14e62380..e388793f 100644
--- a/code/index/java/nu/marginalia/index/IndexFactory.java
+++ b/code/index/java/nu/marginalia/index/IndexFactory.java
@@ -3,11 +3,11 @@ package nu.marginalia.index;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.IndexLocations;
+import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.forward.ForwardIndexReader;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.positions.PositionsFileReader;
 import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.index.forward.ForwardIndexFileNames;
-import nu.marginalia.index.forward.ForwardIndexReader;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -56,7 +56,8 @@ public class IndexFactory {
     public ForwardIndexReader getForwardIndexReader() throws IOException {
         return new ForwardIndexReader(
                 ForwardIndexFileNames.resolve(liveStorage, ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.CURRENT),
-                ForwardIndexFileNames.resolve(liveStorage, ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.CURRENT)
+                ForwardIndexFileNames.resolve(liveStorage, ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.CURRENT),
+                ForwardIndexFileNames.resolve(liveStorage, ForwardIndexFileNames.FileIdentifier.SPANS_DATA, ForwardIndexFileNames.FileVersion.CURRENT)
         );
     }
 
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index 58a9a4b0..2b075e58 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -13,7 +13,9 @@ import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
-import nu.marginalia.api.searchquery.model.results.*;
+import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
+import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
+import nu.marginalia.api.searchquery.model.results.SearchResultSet;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.SearchParameters;
@@ -22,9 +24,9 @@ import nu.marginalia.index.query.IndexQuery;
 import nu.marginalia.index.query.IndexSearchBudget;
 import nu.marginalia.index.results.IndexResultRankingService;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
+import nu.marginalia.index.searchset.SearchSet;
 import nu.marginalia.index.searchset.SearchSetsService;
 import nu.marginalia.index.searchset.SmallSearchSet;
-import nu.marginalia.index.searchset.SearchSet;
 import nu.marginalia.service.module.ServiceConfiguration;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -32,7 +34,8 @@ import org.slf4j.Marker;
 import org.slf4j.MarkerFactory;
 
 import java.sql.SQLException;
-import java.util.*;
+import java.util.BitSet;
+import java.util.List;
 import java.util.concurrent.ArrayBlockingQueue;
 import java.util.concurrent.Executor;
 import java.util.concurrent.Executors;
@@ -142,7 +145,8 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                 for (var score : rawResult.keywordScores) {
                     rawItem.addKeywordScores(
                             RpcResultKeywordScore.newBuilder()
-                                    .setEncodedWordMetadata(score.encodedWordMetadata())
+                                    .setFlags(score.flags)
+                                    .setPositions(score.positionCount)
                                     .setKeyword(score.keyword)
                     );
                 }
diff --git a/code/index/java/nu/marginalia/index/index/StatefulIndex.java b/code/index/java/nu/marginalia/index/index/StatefulIndex.java
index 7da5f74b..41c398bf 100644
--- a/code/index/java/nu/marginalia/index/index/StatefulIndex.java
+++ b/code/index/java/nu/marginalia/index/index/StatefulIndex.java
@@ -90,7 +90,7 @@ public class StatefulIndex {
         return combinedIndexReader != null;
     }
 
-    /** Stronger version of isAvailable() that also checks that the index is loaded */
+    /** Stronger page of isAvailable() that also checks that the index is loaded */
     public boolean isLoaded() {
         return combinedIndexReader != null && combinedIndexReader.isLoaded();
     }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 997273b7..751839bd 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -1,13 +1,16 @@
 package nu.marginalia.index.results;
 
-import nu.marginalia.api.searchquery.model.compiled.*;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
+import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.model.QueryParams;
+import nu.marginalia.index.model.SearchParameters;
+import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.results.model.QuerySearchTerms;
 import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.crawl.PubDate;
@@ -15,13 +18,13 @@ import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.SequenceOperations;
 
 import javax.annotation.Nullable;
 
-import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.*;
+import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.booleanAggregate;
+import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.intMaxMinAggregate;
 
 /** This class is responsible for calculating the score of a search result.
  * It holds the data required to perform the scoring, as there is strong
@@ -102,7 +105,7 @@ public class IndexResultScoreCalculator {
     }
 
     private boolean testRelevance(CompiledQueryLong wordFlagsQuery, CompiledQueryInt countsQuery) {
-        boolean allSynthetic = booleanAggregate(wordFlagsQuery, WordFlags.Synthetic::isPresent);
+        boolean allSynthetic = booleanAggregate(wordFlagsQuery, flags -> WordFlags.Synthetic.isPresent((byte) flags));
         int flagsCount = intMaxMinAggregate(wordFlagsQuery, flags ->  Long.bitCount(flags & flagsFilterMask));
         int positionsCount = intMaxMinAggregate(countsQuery, p -> p);
 
@@ -139,27 +142,27 @@ public class IndexResultScoreCalculator {
         }
 
         return booleanAggregate(queryGraphScores,
-                docs -> meetsQueryStrategyRequirements(docs, queryParams.queryStrategy()));
+                flags -> meetsQueryStrategyRequirements((byte) flags, queryParams.queryStrategy()));
     }
 
-    private boolean meetsQueryStrategyRequirements(long wordMeta, QueryStrategy queryStrategy) {
+    private boolean meetsQueryStrategyRequirements(byte flags, QueryStrategy queryStrategy) {
         if (queryStrategy == QueryStrategy.REQUIRE_FIELD_SITE) {
-            return WordFlags.Site.isPresent(wordMeta);
+            return WordFlags.Site.isPresent(flags);
         }
         else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_SUBJECT) {
-            return WordFlags.Subjects.isPresent(wordMeta);
+            return WordFlags.Subjects.isPresent(flags);
         }
         else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_TITLE) {
-            return WordFlags.Title.isPresent(wordMeta);
+            return WordFlags.Title.isPresent(flags);
         }
         else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_URL) {
-            return WordFlags.UrlPath.isPresent(wordMeta);
+            return WordFlags.UrlPath.isPresent(flags);
         }
         else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_DOMAIN) {
-            return WordFlags.UrlDomain.isPresent(wordMeta);
+            return WordFlags.UrlDomain.isPresent(flags);
         }
         else if (queryStrategy == QueryStrategy.REQUIRE_FIELD_LINK) {
-            return WordFlags.ExternalLink.isPresent(wordMeta);
+            return WordFlags.ExternalLink.isPresent(flags);
         }
         return true;
     }
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
index 226ca9ae..671ee8db 100644
--- a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -13,10 +13,8 @@ import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.index.positions.TermData;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
 import nu.marginalia.linkdb.docs.DocumentDbReader;
@@ -27,9 +25,10 @@ import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.service.server.Initialization;
 import nu.marginalia.storage.FileStorageService;
@@ -63,7 +62,7 @@ public class CombinedIndexReaderTest {
     StatefulIndex statefulIndex;
 
     @Inject
-    IndexJournalWriter indexJournalWriter;
+    IndexJournalSlopWriter indexJournalWriter;
 
     @Inject
     FileStorageService fileStorageService;
@@ -248,7 +247,6 @@ public class CombinedIndexReaderTest {
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
-                    IndexJournalReader::singleFile,
                     DocIdRewriter.identity(),
                     tmpDir);
         constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
@@ -268,7 +266,6 @@ public class CombinedIndexReaderTest {
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
-                IndexJournalReader::singleFile,
                 DocIdRewriter.identity(),
                 tmpDir);
 
@@ -279,12 +276,14 @@ public class CombinedIndexReaderTest {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileSpansData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.SPANS_DATA, ForwardIndexFileNames.FileVersion.NEXT);
         Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
 
         ForwardIndexConverter converter = new ForwardIndexConverter(processHeartbeat,
-                IndexJournalReader.paging(workDir),
                 outputFileDocsId,
                 outputFileDocsData,
+                outputFileSpansData,
+                IndexJournal.findJournal(workDir).orElseThrow(),
                 domainRankings
         );
 
@@ -318,19 +317,26 @@ public class CombinedIndexReaderTest {
 
                 var meta = metaByDoc.get(doc);
 
-                var header = new IndexJournalEntryHeader(
-                        doc,
-                        meta.features,
-                        100,
-                        meta.documentMetadata.encode()
-                );
+                List<String> keywords = words.stream().map(w -> w.keyword).toList();
+                byte[] metadata = new byte[words.size()];
+                for (int i = 0; i < words.size(); i++) {
+                    metadata[i] = words.get(i).termMetadata;
+                }
+                var positions = words.stream().map(w -> w.positions).map(pos -> (CodedSequence) GammaCodedSequence.generate(ByteBuffer.allocate(1024), pos.toIntArray())).toList();
 
-                String[] keywords = words.stream().map(w -> w.keyword).toArray(String[]::new);
-                long[] metadata = words.stream().map(w -> w.termMetadata).mapToLong(Long::longValue).toArray();
-                var positions = words.stream().map(w -> w.positions).map(pos -> GammaCodedSequence.generate(ByteBuffer.allocate(1024), pos.toIntArray())).toArray(GammaCodedSequence[]::new);
-
-                indexJournalWriter.put(header,
-                        new IndexJournalEntryData(keywords, metadata, positions));
+                indexJournalWriter.put(doc,
+                        new SlopDocumentRecord.KeywordsProjection(
+                                "",
+                                -1,
+                                meta.features,
+                                meta.documentMetadata.encode(),
+                                100,
+                                keywords,
+                                metadata,
+                                positions,
+                                new byte[0],
+                                List.of()
+                        ));
             });
 
             var linkdbWriter = new DocumentDbWriter(
@@ -370,10 +376,10 @@ public class CombinedIndexReaderTest {
 
     }
     record MockDocumentMeta(int features, DocumentMetadata documentMetadata) {}
-    record MockDataKeyword(String keyword, long termMetadata, IntList positions) {}
+    record MockDataKeyword(String keyword, byte termMetadata, IntList positions) {}
 
     MockDataKeyword w(String keyword, WordFlags flags, int... positions) {
-        return new MockDataKeyword(keyword, new WordMetadata(0L, EnumSet.of(flags)).encode(), IntList.of(positions));
+        return new MockDataKeyword(keyword, flags.asBit(), IntList.of(positions));
 
     }
 }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index e7e8ecfd..8198e475 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -4,23 +4,18 @@ import com.google.inject.Guice;
 import com.google.inject.Inject;
 import lombok.SneakyThrows;
 import nu.marginalia.IndexLocations;
-import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
+import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.index.construction.prio.PrioIndexConstructor;
-import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.process.control.FakeProcessHeartbeat;
-import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
+import nu.marginalia.index.construction.prio.PrioIndexConstructor;
+import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
+import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;
@@ -29,12 +24,16 @@ import nu.marginalia.linkdb.docs.DocumentDbWriter;
 import nu.marginalia.linkdb.model.DocdbUrlDetail;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.model.idx.WordMetadata;
-import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.model.idx.WordFlags;
+import nu.marginalia.model.processed.SlopDocumentRecord;
+import nu.marginalia.process.control.FakeProcessHeartbeat;
+import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
+import nu.marginalia.storage.FileStorageService;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.BeforeEach;
@@ -70,7 +69,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
     ServiceHeartbeat heartbeat;
 
     @Inject
-    IndexJournalWriter indexJournalWriter;
+    IndexJournalSlopWriter indexJournalWriter;
 
     @Inject
     FileStorageService fileStorageService;
@@ -296,7 +295,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
-                    IndexJournalReader::singleFile,
                     DocIdRewriter.identity(),
                     tmpDir);
 
@@ -316,7 +314,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
         var constructor = new PrioIndexConstructor(
                     outputFileDocs,
                     outputFileWords,
-                    IndexJournalReader::singleFile,
                     DocIdRewriter.identity(),
                     tmpDir);
 
@@ -327,12 +324,14 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileSpansData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.SPANS_DATA, ForwardIndexFileNames.FileVersion.NEXT);
         Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
 
         ForwardIndexConverter converter = new ForwardIndexConverter(processHeartbeat,
-                IndexJournalReader.paging(workDir),
                 outputFileDocsId,
                 outputFileDocsData,
+                outputFileSpansData,
+                IndexJournal.findJournal(workDir).orElseThrow(),
                 domainRankings
         );
 
@@ -354,32 +353,44 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         long fullId = fullId(id);
 
-        var header = new IndexJournalEntryHeader(factors.length, 0, 100, fullId, new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode());
-
         ldbw.add(new DocdbUrlDetail(
                 fullId, new EdgeUrl("https://www.example.com/"+id),
                 "test", "test", 0., "HTML5", 0, null, 0, 10
         ));
 
-        String[] keywords = IntStream.of(factors).mapToObj(Integer::toString).toArray(String[]::new);
-        long[] metadata = new long[factors.length];
+        List<String> keywords = IntStream.of(factors).mapToObj(Integer::toString).toList();
+        byte[] metadata = new byte[factors.length];
         for (int i = 0; i < factors.length; i++) {
-            metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
-        }
-        GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
-        ByteBuffer wa = ByteBuffer.allocate(32);
-        for (int i = 0; i < factors.length; i++) {
-            positions[i] = GammaCodedSequence.generate(wa, factors);
+            metadata[i] = WordFlags.Title.asBit();
         }
 
-        indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
+        List<CodedSequence> positions = new ArrayList<>();
+
+        ByteBuffer wa = ByteBuffer.allocate(32);
+        for (int i = 0; i < factors.length; i++) {
+            positions.add(GammaCodedSequence.generate(wa, factors));
+        }
+
+        indexJournalWriter.put(fullId,
+                new SlopDocumentRecord.KeywordsProjection(
+                        "",
+                        -1,
+                        0,
+                        new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode(),
+                        100,
+                        keywords,
+                        metadata,
+                        positions,
+                        new byte[0],
+                        List.of()
+                ));
+
     }
 
     @SneakyThrows
     public void loadDataWithDomain(DocumentDbWriter ldbw, int domain, int id) {
         int[] factors = IntStream.rangeClosed(1, id).filter(v -> (id % v) == 0).toArray();
         long fullId = UrlIdCodec.encodeId(domain, id);
-        var header = new IndexJournalEntryHeader(factors.length, 0, 100, fullId, DocumentMetadata.defaultValue());
 
         ldbw.add(new DocdbUrlDetail(
                 fullId, new EdgeUrl("https://www.example.com/"+id),
@@ -387,18 +398,33 @@ public class IndexQueryServiceIntegrationSmokeTest {
         ));
 
 
-        String[] keywords = IntStream.of(factors).mapToObj(Integer::toString).toArray(String[]::new);
-        long[] metadata = new long[factors.length];
+        List<String> keywords = IntStream.of(factors).mapToObj(Integer::toString).toList();
+        byte[] metadata = new byte[factors.length];
         for (int i = 0; i < factors.length; i++) {
-            metadata[i] = new WordMetadata(i, EnumSet.of(WordFlags.Title)).encode();
-        }
-        GammaCodedSequence[] positions = new GammaCodedSequence[factors.length];
-        ByteBuffer wa = ByteBuffer.allocate(16);
-        for (int i = 0; i < factors.length; i++) {
-            positions[i] = GammaCodedSequence.generate(wa, i + 1);
+            metadata[i] = WordFlags.Title.asBit();
         }
 
-        indexJournalWriter.put(header, new IndexJournalEntryData(keywords, metadata, positions));
+        List<CodedSequence> positions = new ArrayList<>();
+
+        ByteBuffer wa = ByteBuffer.allocate(32);
+        for (int i = 0; i < factors.length; i++) {
+            positions.add(GammaCodedSequence.generate(wa, i + 1));
+        }
+
+        indexJournalWriter.put(fullId,
+                new SlopDocumentRecord.KeywordsProjection(
+                        "",
+                        -1,
+                        0,
+                        new DocumentMetadata(0, 0, 0, 0, id % 5, id, id % 20, (byte) 0).encode(),
+                        100,
+                        keywords,
+                        metadata,
+                        positions,
+                        new byte[0],
+                        List.of()
+                ));
+
     }
 
 }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 6155ab83..9cb16270 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -5,22 +5,19 @@ import com.google.inject.Inject;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.IndexLocations;
 import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
-import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
+import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.index.construction.full.FullIndexConstructor;
-import nu.marginalia.index.construction.prio.PrioIndexConstructor;
-import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
+import nu.marginalia.index.construction.full.FullIndexConstructor;
+import nu.marginalia.index.construction.prio.PrioIndexConstructor;
+import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
+import nu.marginalia.index.index.StatefulIndex;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;
@@ -33,12 +30,14 @@ import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
+import nu.marginalia.storage.FileStorageService;
 import org.apache.logging.log4j.util.Strings;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
@@ -76,7 +75,7 @@ public class IndexQueryServiceIntegrationTest {
     ServiceHeartbeat heartbeat;
 
     @Inject
-    IndexJournalWriter indexJournalWriter;
+    IndexJournalSlopWriter indexJournalWriter;
 
     @Inject
     FileStorageService fileStorageService;
@@ -475,7 +474,6 @@ public class IndexQueryServiceIntegrationTest {
                     outputFileDocs,
                     outputFileWords,
                     outputFilePositions,
-                    IndexJournalReader::singleFile,
                     DocIdRewriter.identity(),
                     tmpDir);
         constructor.createReverseIndex(new FakeProcessHeartbeat(), "name", workDir);
@@ -493,7 +491,6 @@ public class IndexQueryServiceIntegrationTest {
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                IndexJournalReader::singleFile,
                 DocIdRewriter.identity(),
                 tmpDir);
 
@@ -504,12 +501,14 @@ public class IndexQueryServiceIntegrationTest {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileSpansData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.SPANS_DATA, ForwardIndexFileNames.FileVersion.NEXT);
         Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
 
         ForwardIndexConverter converter = new ForwardIndexConverter(processHeartbeat,
-                IndexJournalReader.paging(workDir),
                 outputFileDocsId,
                 outputFileDocsData,
+                outputFileSpansData,
+                IndexJournal.findJournal(workDir).orElseThrow(),
                 domainRankings
         );
 
@@ -539,24 +538,32 @@ public class IndexQueryServiceIntegrationTest {
 
                 var meta = metaByDoc.get(doc);
 
-                var header = new IndexJournalEntryHeader(
-                        doc,
-                        meta.features,
-                        100,
-                        meta.documentMetadata.encode()
-                );
+                List<String> keywords = words.stream().map(w -> w.keyword).toList();
 
-                String[] keywords = words.stream().map(w -> w.keyword).toArray(String[]::new);
-                long[] metadata = words.stream().map(w -> w.termMetadata).mapToLong(Long::longValue).toArray();
-
-                GammaCodedSequence[] positions = new GammaCodedSequence[words.size()]; // FIXME: positions?
-                ByteBuffer workBuffer = ByteBuffer.allocate(8192);
-                for (int i = 0; i < positions.length; i++) {
-                    positions[i] = GammaCodedSequence.generate(workBuffer, words.get(i).positions);
+                byte[] metadata = new byte[keywords.size()];
+                for (int i = 0; i < words.size(); i++) {
+                    metadata[i] = (byte) words.get(i).termMetadata;
                 }
 
-                indexJournalWriter.put(header,
-                        new IndexJournalEntryData(keywords, metadata, positions));
+                List<CodedSequence> positions = new ArrayList<>();
+                ByteBuffer workBuffer = ByteBuffer.allocate(8192);
+                for (int i = 0; i < words.size(); i++) {
+                    positions.add(GammaCodedSequence.generate(workBuffer, words.get(i).positions));
+                }
+
+                indexJournalWriter.put(doc,
+                        new SlopDocumentRecord.KeywordsProjection(
+                                "",
+                                -1,
+                                meta.features,
+                                meta.documentMetadata.encode(),
+                                100,
+                                keywords,
+                                metadata,
+                                positions,
+                                new byte[0],
+                                List.of()
+                        ));
             });
 
             var linkdbWriter = new DocumentDbWriter(
@@ -599,8 +606,8 @@ public class IndexQueryServiceIntegrationTest {
     record MockDataKeyword(String keyword, long termMetadata, IntList positions) {}
 
     public MockDataKeyword w(String keyword, EnumSet<WordFlags> wordFlags, int... positions) {
-        return new MockDataKeyword(keyword, new WordMetadata(0, wordFlags).encode(), IntList.of(positions));
+        return new MockDataKeyword(keyword, WordFlags.encode(wordFlags), IntList.of(positions));
     }
     public MockDataKeyword w(String keyword) { return new MockDataKeyword(keyword, 0L, IntList.of()); }
-    public MockDataKeyword w(String keyword, WordFlags flags) { return new MockDataKeyword(keyword, new WordMetadata(0L, EnumSet.of(flags)).encode(), IntList.of()); }
+    public MockDataKeyword w(String keyword, WordFlags flags) { return new MockDataKeyword(keyword, flags.asBit(), IntList.of()); }
 }
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTestModule.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTestModule.java
index e61c42d7..e2438709 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTestModule.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTestModule.java
@@ -2,21 +2,23 @@ package nu.marginalia.index;
 
 import com.google.inject.AbstractModule;
 import nu.marginalia.IndexLocations;
+import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.index.searchset.SearchSetAny;
 import nu.marginalia.index.searchset.SearchSetsService;
-import nu.marginalia.index.util.TestUtil;
-import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.storage.model.FileStorageBase;
-import nu.marginalia.storage.model.FileStorageBaseType;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
-import nu.marginalia.index.journal.writer.IndexJournalWriterPagingImpl;
 import nu.marginalia.linkdb.docs.DocumentDbReader;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.service.control.*;
 import nu.marginalia.service.ServiceId;
+import nu.marginalia.service.control.FakeServiceHeartbeat;
+import nu.marginalia.service.control.ServiceEventLog;
+import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.module.ServiceConfiguration;
+import nu.marginalia.storage.FileStorageService;
+import nu.marginalia.storage.model.FileStorageBase;
+import nu.marginalia.storage.model.FileStorageBaseType;
+import nu.marginalia.test.TestUtil;
 import org.mockito.Mockito;
 
 import java.io.IOException;
@@ -41,8 +43,10 @@ public class IndexQueryServiceIntegrationTestModule extends AbstractModule {
         slowDir = workDir.resolve("slow");
         fastDir = workDir.resolve("fast");
 
+
         Files.createDirectory(slowDir);
         Files.createDirectory(fastDir);
+        Files.createDirectory(fastDir.resolve("iw"));
     }
 
     public void cleanUp() {
@@ -75,9 +79,7 @@ public class IndexQueryServiceIntegrationTestModule extends AbstractModule {
 
             bind(ServiceEventLog.class).toInstance(Mockito.mock(ServiceEventLog.class));
 
-            bind(IndexJournalWriter.class).toInstance(new IndexJournalWriterPagingImpl(
-                    IndexLocations.getIndexConstructionArea(fileStorageServiceMock)
-            ));
+            bind(IndexJournalSlopWriter.class).toInstance(new IndexJournalSlopWriter(IndexJournal.allocateName(fastDir.resolve("iw")), 0));
 
             bind(ServiceConfiguration.class).toInstance(new ServiceConfiguration(
                     ServiceId.Index,
diff --git a/code/index/test/nu/marginalia/index/util/TestUtil.java b/code/index/test/nu/marginalia/index/util/TestUtil.java
deleted file mode 100644
index 651dd316..00000000
--- a/code/index/test/nu/marginalia/index/util/TestUtil.java
+++ /dev/null
@@ -1,44 +0,0 @@
-package nu.marginalia.index.util;
-
-
-import java.io.File;
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.Arrays;
-
-public class TestUtil {
-    public static void clearTempDir(Path path) {
-        if (Files.isDirectory(path)) {
-            for (File f : path.toFile().listFiles()) {
-                File[] files = f.listFiles();
-                if (files != null) {
-                    Arrays.stream(files).map(File::toPath).forEach(TestUtil::clearTempDir);
-                }
-                System.out.println("Deleting " + f);
-                f.delete();
-            }
-        }
-
-        System.out.println("Deleting " + path + " (" + fileSize(path) + ")");
-        path.toFile().delete();
-    }
-
-    private static String fileSize(Path path) {
-        try {
-            long sizeBytes = Files.size(path);
-
-            if (sizeBytes > 1024 * 1024 * 1024) return round(sizeBytes / 1073741824.) + "Gb";
-            if (sizeBytes > 1024 * 1024) return round(sizeBytes / 1048576.) + "Mb";
-            if (sizeBytes > 1024) return round(sizeBytes / 1024.) + "Kb";
-            return sizeBytes + "b";
-        }
-        catch (IOException ex) {
-            throw new RuntimeException(ex);
-        }
-    }
-
-    private static String round(double d) {
-        return String.format("%.2f", d);
-    }
-}
diff --git a/code/libraries/array/build.gradle b/code/libraries/array/build.gradle
index 4c88a870..862f3a69 100644
--- a/code/libraries/array/build.gradle
+++ b/code/libraries/array/build.gradle
@@ -26,6 +26,8 @@ dependencies {
     testImplementation libs.bundles.slf4j.test
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
+
+    testImplementation project(':code:libraries:test-helpers')
 }
 
 jmh {
diff --git a/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortNTest.java b/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortNTest.java
index dfbf555e..a866264d 100644
--- a/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortNTest.java
+++ b/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortNTest.java
@@ -4,7 +4,7 @@ import it.unimi.dsi.fastutil.longs.Long2ObjectOpenHashMap;
 import it.unimi.dsi.fastutil.longs.LongOpenHashSet;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
-import nu.marginalia.util.test.TestUtil;
+import nu.marginalia.test.TestUtil;
 import org.apache.commons.lang3.ArrayUtils;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Tag;
@@ -13,7 +13,7 @@ import org.junit.jupiter.api.Test;
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
-import java.util.*;
+import java.util.Random;
 
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertTrue;
diff --git a/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortTest.java b/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortTest.java
index 2cfde5a7..4619b6a9 100644
--- a/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortTest.java
+++ b/code/libraries/array/test/nu/marginalia/array/algo/LongArraySortTest.java
@@ -3,7 +3,7 @@ package nu.marginalia.array.algo;
 import it.unimi.dsi.fastutil.longs.LongOpenHashSet;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
-import nu.marginalia.util.test.TestUtil;
+import nu.marginalia.test.TestUtil;
 import org.apache.commons.lang3.ArrayUtils;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Tag;
diff --git a/code/libraries/array/test/nu/marginalia/util/test/TestUtil.java b/code/libraries/array/test/nu/marginalia/util/test/TestUtil.java
deleted file mode 100644
index e3defec1..00000000
--- a/code/libraries/array/test/nu/marginalia/util/test/TestUtil.java
+++ /dev/null
@@ -1,43 +0,0 @@
-package nu.marginalia.util.test;
-
-
-import java.io.File;
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.Arrays;
-
-public class TestUtil {
-    public static void clearTempDir(Path dir) {
-        if (Files.isDirectory(dir)) {
-            for (File f : dir.toFile().listFiles()) {
-                File[] files = f.listFiles();
-                if (files != null) {
-                    Arrays.stream(files).map(File::toPath).forEach(TestUtil::clearTempDir);
-                }
-                System.out.println("Deleting " + f + " (" + fileSize(f.toPath()) + ")");
-                f.delete();
-            }
-        }
-        System.out.println("Deleting " + dir);
-        dir.toFile().delete();
-    }
-
-    private static String fileSize(Path path) {
-        try {
-            long sizeBytes = Files.size(path);
-
-            if (sizeBytes > 1024 * 1024 * 1024) return round(sizeBytes / 1073741824.) + "Gb";
-            if (sizeBytes > 1024 * 1024) return round(sizeBytes / 1048576.) + "Mb";
-            if (sizeBytes > 1024) return round(sizeBytes / 1024.) + "Kb";
-            return sizeBytes + "b";
-        }
-        catch (IOException ex) {
-            throw new RuntimeException(ex);
-        }
-    }
-
-    private static String round(double d) {
-        return String.format("%.2f", d);
-    }
-}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
index 1a543f69..c22623ca 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
@@ -1,12 +1,11 @@
 package nu.marginalia.sequence;
 
-import blue.strategic.parquet.BinarySerializable;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 
 import java.nio.ByteBuffer;
 
-public interface CodedSequence extends BinarySerializable  {
+public interface CodedSequence  {
     byte[] bytes();
 
     IntIterator iterator();
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 00ae3b23..00fcf097 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -158,7 +158,7 @@ public class GammaCodedSequence implements Iterable<Integer>, CodedSequence {
             last = i;
 
             // can't encode zeroes
-            assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values";
+            assert delta > 0 : "Sequence must be strictly increasing and may not contain zeroes or negative values; was " + sequence;
 
             writer.putGamma(delta);
         }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
index bc26e93e..51396990 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
@@ -1,21 +1,24 @@
 package nu.marginalia.language.sentence.tag;
 
 public enum HtmlTag {
-    SCRIPT(true, false),
-    STYLE(true, false),
-    CODE(false, true),
-    PRE(false, true),
-    TITLE(false, false),
-    HEADING(false, false),
-    NAV(false, false),
-    HEADER(false, false),
-    FOOTER(false, false);
+    SCRIPT('s', true, false),
+    STYLE('S', true, false),
+    CODE('c', false, true),
+    PRE('p', false, true),
+    TITLE('t', false, false),
+    HEADING('h', false, false),
+    NAV('n', false, false),
+    HEADER('H',false, false),
+    FOOTER('f', false, false);
 
+    public char code;
     public boolean exclude;
     public boolean nonLanguage;
 
-    HtmlTag(boolean exclude, boolean nonLanguage) {
+    HtmlTag(char code, boolean exclude, boolean nonLanguage) {
+        this.code = code;
         this.exclude = exclude;
         this.nonLanguage = nonLanguage;
     }
+
 }
diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
index 2ea970ad..4a7c951a 100644
--- a/code/libraries/slop/build.gradle
+++ b/code/libraries/slop/build.gradle
@@ -15,6 +15,8 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation libs.bundles.slf4j
 
+    implementation project(':code:libraries:coded-sequence')
+
     implementation libs.notnull
     implementation libs.commons.lang3
     implementation libs.fastutil
@@ -22,6 +24,7 @@ dependencies {
     implementation libs.guava
     implementation libs.commons.compress
 
+
     testImplementation libs.bundles.slf4j.test
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
new file mode 100644
index 00000000..55e19f80
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
@@ -0,0 +1,121 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.file.Path;
+
+public class GammaCodedSequenceColumn {
+
+    public static GammaCodedSequenceReader open(Path path, ColumnDesc name) throws IOException {
+        return new Reader(
+                Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
+                VarintColumn.open(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    public static GammaCodedSequenceWriter create(Path path, ColumnDesc name) throws IOException {
+        return new Writer(
+                Storage.writer(path, name),
+                VarintColumn.create(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    private static class Writer implements GammaCodedSequenceWriter {
+        private final VarintColumnWriter indexWriter;
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storage,
+                      VarintColumnWriter indexWriter)
+        {
+            this.storage = storage;
+
+            this.indexWriter = indexWriter;
+        }
+
+
+        @Override
+        public void put(GammaCodedSequence sequence) throws IOException {
+            var buffer = sequence.buffer();
+            int length = buffer.remaining();
+
+            indexWriter.put(length);
+            storage.putBytes(buffer);
+        }
+
+        public void close() throws IOException {
+            indexWriter.close();
+            storage.close();
+        }
+    }
+
+    private static class Reader implements GammaCodedSequenceReader {
+        private final VarintColumnReader indexReader;
+        private final StorageReader storage;
+
+        public Reader(StorageReader reader, VarintColumnReader indexReader) throws IOException {
+            this.storage = reader;
+            this.indexReader = indexReader;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (int i = 0; i < positions; i++) {
+                int size = (int) indexReader.get();
+                storage.skip(size, 1);
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return indexReader.hasRemaining();
+        }
+
+        public long position() throws IOException {
+            return indexReader.position();
+        }
+
+        @Override
+        public GammaCodedSequence get(ByteBuffer workArea) throws IOException {
+            int size = (int) indexReader.get();
+
+            workArea.clear();
+            workArea.limit(size);
+            storage.getBytes(workArea);
+            workArea.flip();
+
+            return new GammaCodedSequence(workArea);
+        }
+
+        @Override
+        public void getData(ByteBuffer workArea) throws IOException {
+            int size = (int) indexReader.get();
+
+            int oldLimit = workArea.limit();
+            workArea.limit(workArea.position() + size);
+            storage.getBytes(workArea);
+            workArea.limit(oldLimit);
+        }
+
+
+        public void close() throws IOException {
+            indexReader.close();
+            storage.close();
+        }
+
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java
new file mode 100644
index 00000000..87b7f319
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java
@@ -0,0 +1,34 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+
+public interface GammaCodedSequenceReader extends AutoCloseable, ColumnReader {
+    /** Read the next gamma-coded sequence from the column.  Unlike most other
+     * readers, this method requires an intermediate buffer to use for reading
+     * the sequence.  As this buffer typically needs to be fairly large to accommodate
+     * the largest possible sequence, it is not practical to allocate a new buffer
+     * for each call to this method.  Instead, the caller should allocate a buffer
+     * once and reuse it for each call to this method.
+     *
+     * @param workArea A buffer to use for reading the sequence.
+     * @return The next gamma-coded sequence.
+     */
+    CodedSequence get(ByteBuffer workArea) throws IOException;
+
+    /** Read just the data portion of the next gamma-coded sequence from the column.
+     * This method is useful when the caller is only interested in the data portion
+     * of the sequence and does not want to decode the values.
+     *
+     * The position of the buffer is advanced to the end of the data that has just been read,
+     * and the limit remains the same.
+     *
+     * @param workArea A buffer to use for reading the data.
+     */
+    void getData(ByteBuffer workArea) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java
new file mode 100644
index 00000000..7a15c37d
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.dynamic;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface GammaCodedSequenceWriter extends AutoCloseable, ColumnWriter {
+    void put(GammaCodedSequence sequence) throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
index d83096d8..92e0614a 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
@@ -47,6 +47,7 @@ public abstract class ColumnType<
     public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_LE = register("varintle", ByteOrder.LITTLE_ENDIAN, VarintColumn::open, VarintColumn::create);
     public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_BE = register("varintbe", ByteOrder.BIG_ENDIAN, VarintColumn::open, VarintColumn::create);
     public static ColumnType<CustomBinaryColumnReader, CustomBinaryColumnWriter> BYTE_ARRAY_CUSTOM = register("s8[]+custom", ByteOrder.nativeOrder(), CustomBinaryColumn::open, CustomBinaryColumn::create);
+    public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> BYTE_ARRAY_GCS = register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> STRING = register("s8[]+str", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> CSTRING = register("s8+cstr", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> TXTSTRING = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
diff --git a/code/tools/integration-test/test/nu/marginalia/test/TestUtil.java b/code/libraries/test-helpers/java/nu/marginalia/test/TestUtil.java
similarity index 94%
rename from code/tools/integration-test/test/nu/marginalia/test/TestUtil.java
rename to code/libraries/test-helpers/java/nu/marginalia/test/TestUtil.java
index 43332601..808dfcf7 100644
--- a/code/tools/integration-test/test/nu/marginalia/test/TestUtil.java
+++ b/code/libraries/test-helpers/java/nu/marginalia/test/TestUtil.java
@@ -13,7 +13,9 @@ public class TestUtil {
             return;
 
         if (Files.isDirectory(path)) {
-            for (File f : path.toFile().listFiles()) {
+            var contents = path.toFile().listFiles();
+
+            for (File f : contents) {
                 if (f.isDirectory()) {
                     File[] files = f.listFiles();
                     if (files != null) {
diff --git a/code/process-models/crawl-spec/build.gradle b/code/process-models/crawl-spec/build.gradle
deleted file mode 100644
index 2737e54a..00000000
--- a/code/process-models/crawl-spec/build.gradle
+++ /dev/null
@@ -1,32 +0,0 @@
-plugins {
-    id 'java'
-
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation project(':third-party:parquet-floor')
-    implementation project(':code:common:config')
-    implementation project(':code:common:db')
-    implementation project(':code:common:linkdb')
-
-    implementation libs.notnull
-    implementation libs.trove
-    implementation libs.bundles.parquet
-    implementation libs.bundles.mariadb
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
-
diff --git a/code/process-models/crawl-spec/readme.md b/code/process-models/crawl-spec/readme.md
deleted file mode 100644
index cd59f23c..00000000
--- a/code/process-models/crawl-spec/readme.md
+++ /dev/null
@@ -1,16 +0,0 @@
-# Crawl Spec
-
-A crawl spec is a list of domains to be crawled.  It is a parquet file with the following columns:
-
-- `domain`: The domain to be crawled
-- `crawlDepth`: The depth to which the domain should be crawled
-- `urls`: A list of known URLs to be crawled
-
-Crawl specs are used to define the scope of a crawl in the absence of known domains.
-
-The [CrawlSpecRecord](java/nu/marginalia/model/crawlspec/CrawlSpecRecord.java) class is 
-used to represent a record in the crawl spec.  
-
-The [CrawlSpecRecordParquetFileReader](java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileReader.java)
-and [CrawlSpecRecordParquetFileWriter](java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileWriter.java)
-classes are used to read and write the crawl spec parquet files.
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileReader.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileReader.java
deleted file mode 100644
index dae53224..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileReader.java
+++ /dev/null
@@ -1,37 +0,0 @@
-package nu.marginalia.io.processed;
-
-import blue.strategic.parquet.HydratorSupplier;
-import blue.strategic.parquet.ParquetReader;
-import nu.marginalia.model.processed.DocumentRecord;
-import nu.marginalia.model.processed.DocumentRecordKeywordsProjection;
-import nu.marginalia.model.processed.DocumentRecordMetadataProjection;
-import org.jetbrains.annotations.NotNull;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.stream.Stream;
-
-public class DocumentRecordParquetFileReader {
-
-    @NotNull
-    public static Stream<DocumentRecord> stream(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                HydratorSupplier.constantly(DocumentRecord.newHydrator()));
-    }
-
-    @NotNull
-    public static Stream<DocumentRecordKeywordsProjection> streamKeywordsProjection(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                HydratorSupplier.constantly(DocumentRecordKeywordsProjection.newHydrator()),
-                DocumentRecordKeywordsProjection.requiredColumns()
-                );
-    }
-
-    @NotNull
-    public static Stream<DocumentRecordMetadataProjection> streamMetadataProjection(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                HydratorSupplier.constantly(DocumentRecordMetadataProjection.newHydrator()),
-                DocumentRecordMetadataProjection.requiredColumns()
-        );
-    }
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java
deleted file mode 100644
index 8e9b9657..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DocumentRecordParquetFileWriter.java
+++ /dev/null
@@ -1,24 +0,0 @@
-package nu.marginalia.io.processed;
-
-import blue.strategic.parquet.ParquetWriter;
-import nu.marginalia.model.processed.DocumentRecord;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class DocumentRecordParquetFileWriter implements AutoCloseable {
-    private final ParquetWriter<DocumentRecord> writer;
-
-    public DocumentRecordParquetFileWriter(Path file) throws IOException {
-        writer = ParquetWriter.writeFile(DocumentRecord.schema,
-                file.toFile(), DocumentRecord.newDehydrator());
-    }
-
-    public void write(DocumentRecord documentRecord) throws IOException {
-        writer.write(documentRecord);
-    }
-
-    public void close() throws IOException {
-        writer.close();
-    }
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileReader.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileReader.java
deleted file mode 100644
index efa109cc..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileReader.java
+++ /dev/null
@@ -1,30 +0,0 @@
-package nu.marginalia.io.processed;
-
-import blue.strategic.parquet.HydratorSupplier;
-import blue.strategic.parquet.ParquetReader;
-import nu.marginalia.model.processed.DomainLinkRecord;
-import org.jetbrains.annotations.NotNull;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.List;
-import java.util.Set;
-import java.util.stream.Collectors;
-import java.util.stream.Stream;
-
-public class DomainLinkRecordParquetFileReader {
-    @NotNull
-    public static Stream<DomainLinkRecord> stream(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                HydratorSupplier.constantly(DomainLinkRecord.newHydrator()));
-    }
-
-    @NotNull
-    public static Set<String> getDestDomainNames(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                        HydratorSupplier.constantly(DomainLinkRecord.newDestDomainHydrator()),
-                        List.of("dest"))
-                .collect(Collectors.toSet());
-    }
-
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileWriter.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileWriter.java
deleted file mode 100644
index 28cf3aa0..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainLinkRecordParquetFileWriter.java
+++ /dev/null
@@ -1,24 +0,0 @@
-package nu.marginalia.io.processed;
-
-import blue.strategic.parquet.ParquetWriter;
-import nu.marginalia.model.processed.DomainLinkRecord;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class DomainLinkRecordParquetFileWriter implements AutoCloseable {
-    private final ParquetWriter<DomainLinkRecord> writer;
-
-    public DomainLinkRecordParquetFileWriter(Path file) throws IOException {
-        writer = ParquetWriter.writeFile(DomainLinkRecord.schema,
-                file.toFile(), DomainLinkRecord.newDehydrator());
-    }
-
-    public void write(DomainLinkRecord domainData) throws IOException {
-        writer.write(domainData);
-    }
-
-    public void close() throws IOException {
-        writer.close();
-    }
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileReader.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileReader.java
deleted file mode 100644
index a0714557..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileReader.java
+++ /dev/null
@@ -1,31 +0,0 @@
-package nu.marginalia.io.processed;
-
-import blue.strategic.parquet.HydratorSupplier;
-import blue.strategic.parquet.ParquetReader;
-import nu.marginalia.model.processed.DomainRecord;
-import nu.marginalia.model.processed.DomainWithIp;
-import org.jetbrains.annotations.NotNull;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.List;
-import java.util.stream.Stream;
-
-public class DomainRecordParquetFileReader {
-
-    @NotNull
-    public static Stream<DomainRecord> stream(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                HydratorSupplier.constantly(DomainRecord.newHydrator()));
-    }
-
-    @NotNull
-    public static List<DomainWithIp> getBasicDomainInformation(Path path) throws IOException {
-        return ParquetReader.streamContent(path.toFile(),
-                HydratorSupplier.constantly(DomainRecord.newDomainNameHydrator()),
-                List.of("domain", "ip"))
-                .toList();
-    }
-
-
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileWriter.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileWriter.java
deleted file mode 100644
index 31c59582..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/DomainRecordParquetFileWriter.java
+++ /dev/null
@@ -1,24 +0,0 @@
-package nu.marginalia.io.processed;
-
-import blue.strategic.parquet.ParquetWriter;
-import nu.marginalia.model.processed.DomainRecord;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class DomainRecordParquetFileWriter implements AutoCloseable {
-    private final ParquetWriter<DomainRecord> writer;
-
-    public DomainRecordParquetFileWriter(Path file) throws IOException {
-        writer = ParquetWriter.writeFile(DomainRecord.schema,
-                file.toFile(), DomainRecord.newDehydrator());
-    }
-
-    public void write(DomainRecord domainData) throws IOException {
-        writer.write(domainData);
-    }
-
-    public void close() throws IOException {
-        writer.close();
-    }
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/io/processed/ProcessedDataFileNames.java b/code/process-models/processed-data/java/nu/marginalia/io/processed/ProcessedDataFileNames.java
deleted file mode 100644
index fafb393f..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/io/processed/ProcessedDataFileNames.java
+++ /dev/null
@@ -1,73 +0,0 @@
-package nu.marginalia.io.processed;
-
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-
-public class ProcessedDataFileNames {
-    public static Path documentFileName(Path base, int batchNumber) {
-        return base.resolve(String.format("document%04d.parquet", batchNumber));
-    }
-    public static Path domainFileName(Path base, int batchNumber) {
-        return base.resolve(String.format("domain%04d.parquet", batchNumber));
-    }
-    public static Path domainLinkFileName(Path base, int batchNumber) {
-        return base.resolve(String.format("domain-link%04d.parquet", batchNumber));
-    }
-
-    public static List<Path> listDocumentFiles(Path base, int untilBatch) {
-        List<Path> ret = new ArrayList<>(untilBatch);
-
-        for (int i = 0; i < untilBatch; i++) {
-            Path maybe = documentFileName(base, i);
-            if (Files.exists(maybe)) {
-                ret.add(maybe);
-            }
-        }
-
-        return ret;
-    }
-
-    public static List<Path> listDomainFiles(Path base, int untilBatch) {
-        List<Path> ret = new ArrayList<>(untilBatch);
-
-        for (int i = 0; i < untilBatch; i++) {
-            Path maybe = domainFileName(base, i);
-            if (Files.exists(maybe)) {
-                ret.add(maybe);
-            }
-        }
-
-        return ret;
-    }
-
-    public static List<Path> listDomainFiles(Path base) {
-        List<Path> ret = new ArrayList<>();
-
-        for (int i = 0;; i++) {
-            Path maybe = domainFileName(base, i);
-            if (Files.exists(maybe)) {
-                ret.add(maybe);
-            }
-            else {
-                break;
-            }
-        }
-
-        return ret;
-    }
-
-    public static List<Path> listDomainLinkFiles(Path base, int untilBatch) {
-        List<Path> ret = new ArrayList<>(untilBatch);
-
-        for (int i = 0; i < untilBatch; i++) {
-            Path maybe = domainLinkFileName(base, i);
-            if (Files.exists(maybe)) {
-                ret.add(maybe);
-            }
-        }
-
-        return ret;
-    }
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
deleted file mode 100644
index 70403c5e..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecord.java
+++ /dev/null
@@ -1,185 +0,0 @@
-package nu.marginalia.model.processed;
-
-import blue.strategic.parquet.Dehydrator;
-import blue.strategic.parquet.Hydrator;
-import blue.strategic.parquet.ValueWriter;
-import gnu.trove.list.TLongList;
-import gnu.trove.list.array.TLongArrayList;
-import lombok.*;
-import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
-import org.apache.parquet.schema.MessageType;
-import org.apache.parquet.schema.Types;
-import org.jetbrains.annotations.NotNull;
-import org.jetbrains.annotations.Nullable;
-
-import java.util.ArrayList;
-import java.util.List;
-
-import static org.apache.parquet.schema.LogicalTypeAnnotation.stringType;
-import static org.apache.parquet.schema.PrimitiveType.PrimitiveTypeName.*;
-
-@Getter
-@Setter
-@NoArgsConstructor
-@AllArgsConstructor
-@EqualsAndHashCode
-@ToString
-public class DocumentRecord {
-    @NotNull
-    public String domain;
-    @NotNull
-    public String url;
-
-    public int ordinal;
-
-    @NotNull
-    public String state;
-    @Nullable
-    public String stateReason;
-
-    @Nullable
-    public String title;
-    @Nullable
-    public String description;
-    public int htmlFeatures;
-    @Nullable
-    public String htmlStandard;
-
-    public int length;
-    public long hash;
-    public float quality;
-
-    public long documentMetadata;
-
-    @Nullable
-    public Integer pubYear;
-
-    @Nullable
-    public List<String> words;
-    @Nullable
-    public TLongList metas;
-    @Nullable
-    public List<CodedSequence> positions;
-
-    public static Hydrator<DocumentRecord, DocumentRecord> newHydrator() {
-        return new DocumentDataHydrator();
-    }
-
-    public static Dehydrator<DocumentRecord> newDehydrator() {
-        return DocumentRecord::dehydrate;
-    }
-
-    public static MessageType schema = new MessageType(
-            DocumentRecord.class.getSimpleName(),
-            Types.required(BINARY).as(stringType()).named("domain"),
-            Types.required(BINARY).as(stringType()).named("url"),
-            Types.required(INT32).named("ordinal"),
-            Types.required(BINARY).as(stringType()).named("state"),
-            Types.optional(BINARY).as(stringType()).named("stateReason"),
-            Types.optional(BINARY).as(stringType()).named("title"),
-            Types.optional(BINARY).as(stringType()).named("description"),
-            Types.optional(INT32).named("htmlFeatures"),
-            Types.optional(BINARY).as(stringType()).named("htmlStandard"),
-            Types.optional(INT64).named("hash"),
-            Types.optional(INT64).named("documentMetadata"),
-            Types.optional(INT32).named("length"),
-            Types.optional(FLOAT).named("quality"),
-            Types.optional(INT32).named("pubYear"),
-            Types.repeated(INT64).named("wordMeta"),
-            Types.repeated(BINARY).named("positions"),
-            Types.repeated(BINARY).as(stringType()).named("word")
-    );
-
-    @SneakyThrows
-    public DocumentRecord add(String heading, Object value) {
-        switch (heading) {
-            case "domain" -> domain = (String) value;
-            case "url" -> url = (String) value;
-            case "ordinal" -> ordinal = (Integer) value;
-            case "htmlFeatures" -> htmlFeatures = (Integer) value;
-            case "length" -> length = (Integer) value;
-            case "pubYear" -> pubYear = (Integer) value;
-            case "hash" -> hash = (Long) value;
-            case "documentMetadata" -> documentMetadata = (Long) value;
-            case "quality" -> quality = (Float) value;
-            case "state" -> state = (String) value;
-            case "stateReason" -> stateReason = (String) value;
-            case "title" -> title = (String) value;
-            case "description" -> description = (String) value;
-            case "htmlStandard" -> htmlStandard = (String) value;
-            case "word" -> {
-                if (this.words == null)
-                    this.words = new ArrayList<>(100);
-                this.words.add((String) value);
-            }
-            case "wordMeta" -> {
-                if (this.metas == null) {
-                    this.metas = new TLongArrayList(100);
-                }
-                this.metas.add((long) value);
-            }
-            case "positions" -> {
-                if (this.positions == null) {
-                    this.positions = new ArrayList<>(100);
-                }
-                this.positions.add(new GammaCodedSequence((byte[]) value));
-            }
-            default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
-        }
-        return this;
-    }
-
-    public void dehydrate(ValueWriter valueWriter) {
-        valueWriter.write("domain", domain);
-        valueWriter.write("url", url);
-        valueWriter.write("ordinal", ordinal);
-        valueWriter.write("state", state);
-
-        if (stateReason != null)
-            valueWriter.write("stateReason", stateReason);
-        if (title != null)
-            valueWriter.write("title", title);
-        if (description != null)
-            valueWriter.write("description", description);
-        valueWriter.write("htmlFeatures", htmlFeatures);
-        valueWriter.write("htmlStandard", htmlStandard);
-        valueWriter.write("documentMetadata", documentMetadata);
-        valueWriter.write("length", length);
-        valueWriter.write("hash", hash);
-        valueWriter.write("quality", quality);
-        if (pubYear != null) {
-            valueWriter.write("pubYear", pubYear);
-        }
-        if (metas != null) {
-            valueWriter.writeList("wordMeta", metas);
-        }
-        if (positions != null) {
-            valueWriter.writeBinarySerializableList("positions", positions);
-        }
-
-        if (words != null) {
-            valueWriter.writeList("word", words);
-        }
-    }
-
-}
-
-class DocumentDataHydrator implements Hydrator<DocumentRecord, DocumentRecord> {
-
-    @Override
-    public DocumentRecord start() {
-        return new DocumentRecord();
-    }
-
-    @Override
-    public DocumentRecord add(DocumentRecord target, String heading, Object value) {
-        return target.add(heading, value);
-    }
-
-    @Override
-    public DocumentRecord finish(DocumentRecord target) {
-        return target;
-    }
-
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
deleted file mode 100644
index 5940de7b..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java
+++ /dev/null
@@ -1,97 +0,0 @@
-package nu.marginalia.model.processed;
-
-import blue.strategic.parquet.Hydrator;
-import gnu.trove.list.TLongList;
-import gnu.trove.list.array.TLongArrayList;
-import lombok.*;
-import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
-import org.jetbrains.annotations.NotNull;
-
-import java.util.ArrayList;
-import java.util.Collection;
-import java.util.List;
-
-@Getter
-@Setter
-@NoArgsConstructor
-@AllArgsConstructor
-@EqualsAndHashCode
-@ToString
-public class DocumentRecordKeywordsProjection {
-    @NotNull
-    public String domain;
-
-    public int ordinal;
-
-    public int htmlFeatures;
-    public long documentMetadata;
-
-    public int length;
-
-    public List<String> words;
-    public TLongList metas;
-    public List<CodedSequence> positions;
-
-    public boolean hasKeywords() {
-        return words != null && metas != null;
-    }
-
-    public static Hydrator<DocumentRecordKeywordsProjection, DocumentRecordKeywordsProjection> newHydrator() {
-        return new DocumentRecordKeywordsProjectionHydrator();
-    }
-
-    public static Collection<String> requiredColumns() {
-        return List.of("domain", "ordinal", "htmlFeatures", "word", "wordMeta", "documentMetadata", "length", "positions");
-    }
-
-    @SneakyThrows
-    public DocumentRecordKeywordsProjection add(String heading, Object value) {
-        switch (heading) {
-            case "domain" -> domain = (String) value;
-            case "length" -> length = (Integer) value;
-            case "ordinal" -> ordinal = (Integer) value;
-            case "htmlFeatures" -> htmlFeatures = (Integer) value;
-            case "documentMetadata" -> documentMetadata = (Long) value;
-            case "word" -> {
-                if (this.words == null)
-                    this.words = new ArrayList<>(100);
-                this.words.add((String) value);
-            }
-            case "wordMeta" -> {
-                if (this.metas == null) {
-                    this.metas = new TLongArrayList(100);
-                }
-                this.metas.add((long) value);
-            }
-            case "positions" -> {
-                if (this.positions == null) {
-                    this.positions = new ArrayList<>(100);
-                }
-                this.positions.add(new GammaCodedSequence((byte[]) value));
-            }
-            default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
-        }
-        return this;
-    }
-
-}
-
-class DocumentRecordKeywordsProjectionHydrator implements Hydrator<DocumentRecordKeywordsProjection, DocumentRecordKeywordsProjection> {
-
-    @Override
-    public DocumentRecordKeywordsProjection start() {
-        return new DocumentRecordKeywordsProjection();
-    }
-
-    @Override
-    public DocumentRecordKeywordsProjection add(DocumentRecordKeywordsProjection target, String heading, Object value) {
-        return target.add(heading, value);
-    }
-
-    @Override
-    public DocumentRecordKeywordsProjection finish(DocumentRecordKeywordsProjection target) {
-        return target;
-    }
-
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordMetadataProjection.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordMetadataProjection.java
deleted file mode 100644
index ccad52e3..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DocumentRecordMetadataProjection.java
+++ /dev/null
@@ -1,100 +0,0 @@
-package nu.marginalia.model.processed;
-
-import blue.strategic.parquet.Hydrator;
-import lombok.*;
-import org.jetbrains.annotations.NotNull;
-import org.jetbrains.annotations.Nullable;
-
-import java.util.Collection;
-import java.util.List;
-
-@Getter
-@Setter
-@NoArgsConstructor
-@AllArgsConstructor
-@EqualsAndHashCode
-@ToString
-public class DocumentRecordMetadataProjection {
-    @NotNull
-    public String domain;
-    @NotNull
-    public String url;
-
-    public int ordinal;
-
-    @NotNull
-    public String state;
-    @Nullable
-    public String stateReason;
-
-    @Nullable
-    public String title;
-    @Nullable
-    public String description;
-    public int htmlFeatures;
-    @Nullable
-    public String htmlStandard;
-
-    public int length;
-    public long hash;
-    public float quality;
-
-    public long documentMetadata;
-
-    @Nullable
-    public Integer pubYear;
-
-    public static Collection<String> requiredColumns() {
-        return List.of("domain", "url", "ordinal", "htmlFeatures", "length", "pubYear",
-                                 "hash", "documentMetadata", "quality", "state", "stateReason",
-                                 "title", "description", "htmlStandard");
-    }
-
-    public DocumentRecordMetadataProjection add(String heading, Object value) {
-        switch (heading) {
-            case "domain" -> domain = (String) value;
-            case "url" -> url = (String) value;
-            case "ordinal" -> ordinal = (Integer) value;
-            case "htmlFeatures" -> htmlFeatures = (Integer) value;
-            case "length" -> length = (Integer) value;
-            case "pubYear" -> pubYear = (Integer) value;
-            case "hash" -> hash = (Long) value;
-            case "documentMetadata" -> documentMetadata = (Long) value;
-            case "quality" -> quality = (Float) value;
-            case "state" -> state = (String) value;
-            case "stateReason" -> stateReason = (String) value;
-            case "title" -> title = (String) value;
-            case "description" -> description = (String) value;
-            case "htmlStandard" -> htmlStandard = (String) value;
-
-            default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
-        }
-        return this;
-    }
-
-    public static Hydrator<DocumentRecordMetadataProjection, DocumentRecordMetadataProjection> newHydrator() {
-        return new DocumentRecordMetadataHydrator();
-    }
-
-
-
-}
-
-class DocumentRecordMetadataHydrator implements Hydrator<DocumentRecordMetadataProjection, DocumentRecordMetadataProjection> {
-
-    @Override
-    public DocumentRecordMetadataProjection start() {
-        return new DocumentRecordMetadataProjection();
-    }
-
-    @Override
-    public DocumentRecordMetadataProjection add(DocumentRecordMetadataProjection target, String heading, Object value) {
-        return target.add(heading, value);
-    }
-
-    @Override
-    public DocumentRecordMetadataProjection finish(DocumentRecordMetadataProjection target) {
-        return target;
-    }
-
-}
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainLinkRecord.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainLinkRecord.java
deleted file mode 100644
index 298d6192..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainLinkRecord.java
+++ /dev/null
@@ -1,97 +0,0 @@
-package nu.marginalia.model.processed;
-
-import blue.strategic.parquet.Dehydrator;
-import blue.strategic.parquet.Hydrator;
-import blue.strategic.parquet.ValueWriter;
-import lombok.*;
-import org.apache.parquet.schema.MessageType;
-import org.apache.parquet.schema.Types;
-import org.jetbrains.annotations.NotNull;
-
-import static org.apache.parquet.schema.LogicalTypeAnnotation.stringType;
-import static org.apache.parquet.schema.PrimitiveType.PrimitiveTypeName.BINARY;
-
-@Getter
-@Setter
-@NoArgsConstructor
-@AllArgsConstructor
-@EqualsAndHashCode
-public class DomainLinkRecord {
-    @NotNull
-    public String source;
-
-    @NotNull
-    public String dest;
-
-    public void dehydrate(ValueWriter valueWriter) {
-        valueWriter.write("source", source);
-        valueWriter.write("dest", dest);
-    }
-
-    public static Dehydrator<DomainLinkRecord> newDehydrator() {
-        return DomainLinkRecord::dehydrate;
-    }
-
-    public static Hydrator<DomainLinkRecord, DomainLinkRecord> newHydrator() {
-        return new DomainLinkDataHydrator();
-    }
-    public static Hydrator<String, String> newDestDomainHydrator() {
-        return new DestDomainNameHydrator();
-    }
-
-    public static MessageType schema = new MessageType(
-            DomainLinkRecord.class.getSimpleName(),
-            Types.required(BINARY).as(stringType()).named("source"),
-            Types.required(BINARY).as(stringType()).named("dest")
-    );
-
-    public DomainLinkRecord add(String heading, Object value) {
-        switch (heading) {
-            case "source" -> source = (String) value;
-            case "dest" -> dest = (String) value;
-            default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
-        }
-        return this;
-    }
-
-}
-
-class DomainLinkDataHydrator implements Hydrator<DomainLinkRecord, DomainLinkRecord> {
-
-    @Override
-    public DomainLinkRecord start() {
-        return new DomainLinkRecord();
-    }
-
-    @Override
-    public DomainLinkRecord add(DomainLinkRecord target, String heading, Object value) {
-        return target.add(heading, value);
-    }
-
-    @Override
-    public DomainLinkRecord finish(DomainLinkRecord target) {
-        return target;
-    }
-
-}
-
-class DestDomainNameHydrator implements Hydrator<String, String> {
-
-    @Override
-    public String start() {
-        return "";
-    }
-
-    @Override
-    public String add(String target, String heading, Object value) {
-        if ("dest".equals(heading)) {
-            return (String) value;
-        }
-        return target;
-    }
-
-    @Override
-    public String finish(String target) {
-        return target;
-    }
-}
\ No newline at end of file
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainRecord.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainRecord.java
deleted file mode 100644
index b696829f..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainRecord.java
+++ /dev/null
@@ -1,148 +0,0 @@
-package nu.marginalia.model.processed;
-
-import blue.strategic.parquet.Dehydrator;
-import blue.strategic.parquet.Hydrator;
-import blue.strategic.parquet.ValueWriter;
-import lombok.*;
-import org.apache.parquet.schema.*;
-import org.jetbrains.annotations.NotNull;
-import org.jetbrains.annotations.Nullable;
-
-import java.util.ArrayList;
-import java.util.List;
-
-import static org.apache.parquet.schema.LogicalTypeAnnotation.*;
-import static org.apache.parquet.schema.PrimitiveType.PrimitiveTypeName.BINARY;
-import static org.apache.parquet.schema.PrimitiveType.PrimitiveTypeName.INT32;
-
-@Getter
-@Setter
-@NoArgsConstructor
-@AllArgsConstructor
-@EqualsAndHashCode
-@ToString
-public class DomainRecord {
-    @NotNull
-    public String domain;
-
-    public int knownUrls;
-    public int goodUrls;
-    public int visitedUrls;
-
-    @Nullable
-    public String state;
-    @Nullable
-    public String redirectDomain;
-    @Nullable
-    public String ip;
-
-    public List<String> rssFeeds;
-
-
-    public static Hydrator<DomainRecord, DomainRecord> newHydrator() {
-        return new DomainHydrator();
-    }
-
-    public static Dehydrator<DomainRecord> newDehydrator() {
-        return DomainRecord::dehydrate;
-    }
-
-    public static Hydrator<DomainWithIp, DomainWithIp> newDomainNameHydrator() {
-        return new DomainWithIpHydrator();
-    }
-
-
-    public static MessageType schema = new MessageType(
-            DomainRecord.class.getSimpleName(),
-            Types.required(BINARY).as(stringType()).named("domain"),
-            Types.optional(INT32).named("knownUrls"),
-            Types.optional(INT32).named("visitedUrls"),
-            Types.optional(INT32).named("goodUrls"),
-            Types.required(BINARY).as(stringType()).named("state"),
-            Types.optional(BINARY).as(stringType()).named("redirectDomain"),
-            Types.optional(BINARY).as(stringType()).named("ip"),
-            Types.repeated(BINARY).as(stringType()).named("rss")
-            );
-
-    DomainRecord add(String heading, Object value) {
-        switch (heading) {
-            case "domain" -> domain = (String) value;
-            case "knownUrls" -> knownUrls = (Integer) value;
-            case "visitedUrls" -> visitedUrls = (Integer) value;
-            case "goodUrls" -> goodUrls = (Integer) value;
-            case "state" -> state = (String) value;
-            case "redirectDomain" -> redirectDomain = (String) value;
-            case "ip" -> ip = (String) value;
-            case "rss" -> {
-                if (rssFeeds == null) {
-                    rssFeeds = new ArrayList<>();
-                }
-                rssFeeds.add((String) value);
-            }
-            default -> throw new UnsupportedOperationException("Unknown heading '" + heading + '"');
-        }
-        return this;
-    }
-
-    private void dehydrate(ValueWriter valueWriter) {
-        valueWriter.write("domain", domain);
-        valueWriter.write("knownUrls", knownUrls);
-        valueWriter.write("goodUrls", goodUrls);
-        valueWriter.write("visitedUrls", visitedUrls);
-        if (state != null) {
-            valueWriter.write("state", state);
-        }
-        if (redirectDomain != null) {
-            valueWriter.write("redirectDomain", redirectDomain);
-        }
-        if (ip != null) {
-            valueWriter.write("ip", ip);
-        }
-        if (rssFeeds != null) {
-            valueWriter.writeList("rss", rssFeeds);
-        }
-    }
-
-}
-
-
-class DomainHydrator implements Hydrator<DomainRecord, DomainRecord> {
-    @Override
-    public DomainRecord start() {
-        return new DomainRecord();
-    }
-
-    @Override
-    public DomainRecord add(DomainRecord target, String heading, Object value) {
-        return target.add(heading, value);
-    }
-
-    @Override
-    public DomainRecord finish(DomainRecord target) {
-        return target;
-    }
-}
-
-class DomainWithIpHydrator implements Hydrator<DomainWithIp, DomainWithIp> {
-
-    @Override
-    public DomainWithIp start() {
-        return new DomainWithIp();
-    }
-
-    @Override
-    public DomainWithIp add(DomainWithIp target, String heading, Object value) {
-        if ("domain".equals(heading)) {
-            target.domain = (String) value;
-        }
-        else if ("ip".equals(heading)) {
-            target.ip = (String) value;
-        }
-        return target;
-    }
-
-    @Override
-    public DomainWithIp finish(DomainWithIp target) {
-        return target;
-    }
-}
\ No newline at end of file
diff --git a/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainWithIp.java b/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainWithIp.java
deleted file mode 100644
index 3782b1b2..00000000
--- a/code/process-models/processed-data/java/nu/marginalia/model/processed/DomainWithIp.java
+++ /dev/null
@@ -1,15 +0,0 @@
-package nu.marginalia.model.processed;
-
-import lombok.AllArgsConstructor;
-import lombok.EqualsAndHashCode;
-import lombok.NoArgsConstructor;
-import lombok.ToString;
-
-@AllArgsConstructor
-@NoArgsConstructor
-@EqualsAndHashCode
-@ToString
-public class DomainWithIp {
-    public String domain;
-    public String ip;
-}
diff --git a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java b/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
deleted file mode 100644
index 21cc7e2b..00000000
--- a/code/process-models/processed-data/test/nu/marginalia/io/processed/DocumentRecordParquetFileReaderTest.java
+++ /dev/null
@@ -1,107 +0,0 @@
-package nu.marginalia.io.processed;
-
-import gnu.trove.list.array.TLongArrayList;
-import nu.marginalia.model.processed.DocumentRecord;
-import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.List;
-import java.util.stream.IntStream;
-import java.util.stream.LongStream;
-import java.util.stream.Stream;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class DocumentRecordParquetFileReaderTest {
-    Path parquetFile;
-
-    @BeforeEach
-    public void setUp() throws IOException {
-        parquetFile = Files.createTempFile(getClass().getSimpleName(), ".parquet");
-    }
-
-    @AfterEach
-    public void tearDown() throws IOException {
-        Files.deleteIfExists(parquetFile);
-    }
-
-    @Test
-    public void test() throws IOException {
-
-        ByteBuffer workArea = ByteBuffer.allocate(1024);
-
-        var doc = new DocumentRecord(
-                "www.marginalia.nu",
-                "https://www.marginalia.nu/",
-                0,
-                "OK",
-                null,
-                "Itsa me, Marginalia!",
-                "Hello World",
-                3,
-                "HTML5",
-                123,
-                0xF00BA3L,
-                0.25f,
-                4L,
-                null,
-                List.of("Hello", "world"),
-                new TLongArrayList(new long[] { 2L, 3L}),
-                List.of(
-                        GammaCodedSequence.generate(workArea, 1, 2, 3),
-                        GammaCodedSequence.generate(workArea, 1, 4, 5)
-                        )
-        );
-
-        try (var writer = new DocumentRecordParquetFileWriter(parquetFile)) {
-            writer.write(doc);
-        }
-
-        var read = DocumentRecordParquetFileReader.stream(parquetFile).toList();
-        assertEquals(List.of(doc), read);
-    }
-
-    @Test
-    public void testHugePayload() throws IOException {
-        List<String> words = IntStream.range(0, 100000).mapToObj(Integer::toString).toList();
-        TLongArrayList metas = new TLongArrayList(LongStream.range(0, 100000).toArray());
-
-        ByteBuffer workArea = ByteBuffer.allocate(1024);
-        List<CodedSequence> poses = Stream.generate(() -> (CodedSequence) GammaCodedSequence.generate(workArea, 3, 4)).limit(100000).toList();
-
-        var doc = new DocumentRecord(
-                "www.marginalia.nu",
-                "https://www.marginalia.nu/",
-                0,
-                "OK",
-                null,
-                "Itsa me, Marginalia!",
-                "Hello World",
-                3,
-                "HTML5",
-                123,
-                0xF00BA3L,
-                0.25f,
-                5L,
-                null,
-                words,
-                metas,
-                poses
-        );
-
-        try (var writer = new DocumentRecordParquetFileWriter(parquetFile)) {
-            writer.write(doc);
-        }
-
-        var read = DocumentRecordParquetFileReader.stream(parquetFile).toList();
-        assertEquals(List.of(doc), read);
-    }
-
-}
\ No newline at end of file
diff --git a/code/process-models/processed-data/test/nu/marginalia/io/processed/DomainLinkRecordParquetFileReaderTest.java b/code/process-models/processed-data/test/nu/marginalia/io/processed/DomainLinkRecordParquetFileReaderTest.java
deleted file mode 100644
index 274e80d0..00000000
--- a/code/process-models/processed-data/test/nu/marginalia/io/processed/DomainLinkRecordParquetFileReaderTest.java
+++ /dev/null
@@ -1,49 +0,0 @@
-package nu.marginalia.io.processed;
-
-import nu.marginalia.model.processed.DomainLinkRecord;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.List;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class DomainLinkRecordParquetFileReaderTest {
-    Path parquetFile;
-
-    @BeforeEach
-    public void setUp() throws IOException {
-        parquetFile = Files.createTempFile(getClass().getSimpleName(), ".parquet");
-    }
-
-    @AfterEach
-    public void tearDown() throws IOException {
-        Files.deleteIfExists(parquetFile);
-    }
-
-    @Test
-    public void testReadFull() throws IOException {
-        var first = new DomainLinkRecord(
-                "www.marginalia.nu",
-                "memex.marginalia.nu");
-        var second = new DomainLinkRecord(
-                "memex.marginalia.nu",
-                "search.marginalia.nu"
-        );
-
-        try (var writer = new DomainLinkRecordParquetFileWriter(parquetFile)) {
-            writer.write(first);
-            writer.write(second);
-        }
-
-        var items = DomainLinkRecordParquetFileReader
-                .stream(parquetFile)
-                .toList();
-        assertEquals(List.of(first, second), items);
-    }
-
-}
\ No newline at end of file
diff --git a/code/process-models/processed-data/test/nu/marginalia/io/processed/DomainRecordParquetFileReaderTest.java b/code/process-models/processed-data/test/nu/marginalia/io/processed/DomainRecordParquetFileReaderTest.java
deleted file mode 100644
index b1867100..00000000
--- a/code/process-models/processed-data/test/nu/marginalia/io/processed/DomainRecordParquetFileReaderTest.java
+++ /dev/null
@@ -1,69 +0,0 @@
-package nu.marginalia.io.processed;
-
-import nu.marginalia.model.processed.DomainRecord;
-import nu.marginalia.model.processed.DomainWithIp;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.List;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class DomainRecordParquetFileReaderTest {
-    Path parquetFile;
-
-    @BeforeEach
-    public void setUp() throws IOException {
-        parquetFile = Files.createTempFile(getClass().getSimpleName(), ".parquet");
-    }
-
-    @AfterEach
-    public void tearDown() throws IOException {
-        Files.deleteIfExists(parquetFile);
-    }
-
-    @Test
-    public void testReadFull() throws IOException {
-        var first = new DomainRecord(
-                "www.marginalia.nu",
-                10,
-                3,
-                5,
-                "'sall good man",
-                null,
-                "127.0.0.1",
-                List.of("a", "b")
-        );
-        var second = new DomainRecord(
-                "memex.marginalia.nu",
-                0,
-                0,
-                0,
-                "REDIRECT",
-                "www.marginalia.nu",
-                "127.0.0.1",
-                null
-        );
-
-        try (var writer = new DomainRecordParquetFileWriter(parquetFile)) {
-            writer.write(first);
-            writer.write(second);
-        }
-
-        var domainInfo = DomainRecordParquetFileReader.getBasicDomainInformation(parquetFile);
-        assertEquals(List.of(
-                new DomainWithIp("www.marginalia.nu", "127.0.0.1"),
-                new DomainWithIp("memex.marginalia.nu", "127.0.0.1")),
-                domainInfo);
-
-        var items = DomainRecordParquetFileReader
-                .stream(parquetFile)
-                .toList();
-        assertEquals(List.of(first, second), items);
-    }
-
-}
\ No newline at end of file
diff --git a/code/process-models/work-log/build.gradle b/code/process-models/work-log/build.gradle
deleted file mode 100644
index 76fe01f9..00000000
--- a/code/process-models/work-log/build.gradle
+++ /dev/null
@@ -1,24 +0,0 @@
-plugins {
-    id 'java'
-
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation libs.notnull
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
-
diff --git a/code/processes/converting-process/build.gradle b/code/processes/converting-process/build.gradle
index f3e7ae1d..942c8acd 100644
--- a/code/processes/converting-process/build.gradle
+++ b/code/processes/converting-process/build.gradle
@@ -28,7 +28,7 @@ dependencies {
     implementation project(':third-party:parquet-floor')
 
     implementation project(':code:index:api')
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
 
     implementation project(':code:common:model')
     implementation project(':code:common:db')
@@ -43,9 +43,8 @@ dependencies {
     implementation project(':code:libraries:geo-ip')
     implementation project(':code:libraries:language-processing')
 
-    implementation project(':code:process-models:processed-data')
-    implementation project(':code:process-models:work-log')
-    implementation project(':code:process-models:crawling-model')
+    implementation project(':code:processes:converting-process:model')
+    implementation project(':code:processes:crawling-process:model')
 
     implementation project(':code:features-convert:adblock')
     implementation project(':code:features-convert:anchor-keywords')
@@ -61,7 +60,7 @@ dependencies {
     implementation project(':code:features-crawl:content-type')
 
     testImplementation project(':code:libraries:term-frequency-dict')
-    testImplementation project(':code:process-models:crawl-spec')
+    testImplementation project(':code:processes:crawling-process:model')
 
     implementation libs.bundles.slf4j
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/ConverterMain.java b/code/processes/converting-process/java/nu/marginalia/converting/ConverterMain.java
index 83bc63f5..3a978972 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/ConverterMain.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/ConverterMain.java
@@ -6,33 +6,33 @@ import com.google.inject.Inject;
 import com.google.inject.Injector;
 import nu.marginalia.ProcessConfiguration;
 import nu.marginalia.ProcessConfigurationModule;
+import nu.marginalia.converting.model.CrawlPlan;
+import nu.marginalia.converting.model.WorkDir;
+import nu.marginalia.converting.processor.DomainProcessor;
 import nu.marginalia.converting.sideload.SideloadSource;
 import nu.marginalia.converting.sideload.SideloadSourceFactory;
 import nu.marginalia.converting.writer.ConverterBatchWritableIf;
 import nu.marginalia.converting.writer.ConverterBatchWriter;
 import nu.marginalia.converting.writer.ConverterWriter;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.process.log.WorkLog;
-import nu.marginalia.process.log.WorkLogEntry;
-import nu.marginalia.service.ProcessMainClass;
-import nu.marginalia.storage.FileStorageService;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.mq.MessageQueueFactory;
 import nu.marginalia.mq.MqMessage;
 import nu.marginalia.mq.inbox.MqInboxResponse;
 import nu.marginalia.mq.inbox.MqSingleShotInbox;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
+import nu.marginalia.process.log.WorkLog;
+import nu.marginalia.process.log.WorkLogEntry;
+import nu.marginalia.service.ProcessMainClass;
 import nu.marginalia.service.module.DatabaseModule;
+import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.util.SimpleBlockingThreadPool;
 import nu.marginalia.worklog.BatchingWorkLog;
 import nu.marginalia.worklog.BatchingWorkLogImpl;
 import org.apache.logging.log4j.util.Strings;
-import nu.marginalia.converting.model.CrawlPlan;
-import nu.marginalia.converting.processor.DomainProcessor;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
-import nu.marginalia.converting.model.WorkDir;
 
 import java.io.IOException;
 import java.nio.file.Files;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/model/DisqualifiedException.java b/code/processes/converting-process/java/nu/marginalia/converting/model/DisqualifiedException.java
index 11c329eb..34c6836d 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/model/DisqualifiedException.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/model/DisqualifiedException.java
@@ -1,6 +1,6 @@
 package nu.marginalia.converting.model;
 
-import nu.marginalia.crawling.model.CrawlerDocumentStatus;
+import nu.marginalia.model.crawldata.CrawlerDocumentStatus;
 
 public class DisqualifiedException extends Exception {
     public final DisqualificationReason reason;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/AcceptableAds.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/AcceptableAds.java
index d097c60a..f75c35ad 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/AcceptableAds.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/AcceptableAds.java
@@ -1,6 +1,6 @@
 package nu.marginalia.converting.processor;
 
-import nu.marginalia.crawling.model.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import org.jsoup.nodes.Document;
 
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java
index 96392920..d4fac8aa 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java
@@ -2,22 +2,25 @@ package nu.marginalia.converting.processor;
 
 import com.google.inject.Inject;
 import nu.marginalia.atags.model.DomainLinks;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawlerDocumentStatus;
-import nu.marginalia.model.EdgeDomain;
-import nu.marginalia.model.crawl.HtmlFeature;
-import nu.marginalia.model.crawl.UrlIndexingState;
 import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.processor.plugin.AbstractDocumentProcessorPlugin;
 import nu.marginalia.converting.processor.plugin.HtmlDocumentProcessorPlugin;
 import nu.marginalia.converting.processor.plugin.PlainTextDocumentProcessorPlugin;
+import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.HtmlFeature;
+import nu.marginalia.model.crawl.UrlIndexingState;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawlerDocumentStatus;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.net.URISyntaxException;
-import java.util.*;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Objects;
+import java.util.Set;
 
 public class DocumentProcessor {
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java
index 7ec0bf29..966a6939 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java
@@ -7,19 +7,21 @@ import nu.marginalia.atags.model.DomainLinks;
 import nu.marginalia.atags.source.AnchorTagsSource;
 import nu.marginalia.atags.source.AnchorTagsSourceFactory;
 import nu.marginalia.converting.model.ProcessedDocument;
+import nu.marginalia.converting.model.ProcessedDomain;
+import nu.marginalia.converting.processor.logic.LshDocumentDeduplicator;
 import nu.marginalia.converting.processor.logic.links.LinkGraph;
+import nu.marginalia.converting.processor.logic.links.TopKeywords;
 import nu.marginalia.converting.sideload.SideloadSource;
 import nu.marginalia.converting.writer.ConverterBatchWritableIf;
 import nu.marginalia.converting.writer.ConverterBatchWriter;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.*;
 import nu.marginalia.geoip.GeoIpDictionary;
 import nu.marginalia.geoip.sources.AsnTable;
-import nu.marginalia.model.crawl.DomainIndexingState;
-import nu.marginalia.converting.model.ProcessedDomain;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.model.EdgeDomain;
-import nu.marginalia.converting.processor.logic.links.TopKeywords;
-import nu.marginalia.converting.processor.logic.LshDocumentDeduplicator;
+import nu.marginalia.model.crawl.DomainIndexingState;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
+import nu.marginalia.model.crawldata.CrawlerDomainStatus;
 import nu.marginalia.util.ProcessingIterator;
 import org.apache.commons.lang3.StringUtils;
 import org.jetbrains.annotations.Nullable;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentValuator.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentValuator.java
index df409741..1c959dee 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentValuator.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/DocumentValuator.java
@@ -1,10 +1,10 @@
 package nu.marginalia.converting.processor.logic;
 
 import crawlercommons.utils.Strings;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.model.html.HtmlStandard;
 import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.model.crawl.HtmlFeature;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jetbrains.annotations.NotNull;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
index 59b095e7..79f6aebd 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
@@ -1,20 +1,22 @@
 package nu.marginalia.converting.processor.plugin;
 
-import nu.marginalia.converting.processor.DocumentClass;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.language.filter.LanguageFilter;
-import nu.marginalia.language.model.DocumentLanguageData;
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
-import nu.marginalia.model.crawl.PubDate;
 import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.converting.model.ProcessedDocumentDetails;
-import nu.marginalia.model.crawl.HtmlFeature;
+import nu.marginalia.converting.processor.DocumentClass;
+import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
+import nu.marginalia.language.filter.LanguageFilter;
+import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.HtmlFeature;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.html.HtmlStandard;
 
 import javax.annotation.Nullable;
 import java.net.URISyntaxException;
-import java.util.*;
+import java.util.HashSet;
+import java.util.List;
+import java.util.Set;
 
 public abstract class AbstractDocumentProcessorPlugin {
     protected LanguageFilter languageFilter;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
index 5514fee9..76b867fb 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
@@ -2,33 +2,33 @@ package nu.marginalia.converting.processor.plugin;
 
 import com.google.inject.Inject;
 import com.google.inject.name.Named;
-import nu.marginalia.language.filter.LanguageFilter;
+import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.converting.model.GeneratorType;
+import nu.marginalia.converting.model.ProcessedDocumentDetails;
 import nu.marginalia.converting.processor.DocumentClass;
 import nu.marginalia.converting.processor.MetaRobotsTag;
+import nu.marginalia.converting.processor.logic.*;
 import nu.marginalia.converting.processor.logic.dom.MeasureLengthVisitor;
 import nu.marginalia.converting.processor.logic.links.FileLinks;
 import nu.marginalia.converting.processor.logic.links.LinkProcessor;
-import nu.marginalia.converting.processor.plugin.specialization.*;
+import nu.marginalia.converting.processor.plugin.specialization.HtmlProcessorSpecializations;
+import nu.marginalia.gregex.GuardedRegex;
+import nu.marginalia.gregex.GuardedRegexFactory;
+import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
+import nu.marginalia.language.filter.LanguageFilter;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.language.sentence.ThreadLocalSentenceExtractorProvider;
 import nu.marginalia.link_parser.FeedExtractor;
-import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.link_parser.LinkParser;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.keyword.DocumentKeywordExtractor;
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.idx.DocumentFlags;
-import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
-import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.converting.processor.logic.*;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.gregex.GuardedRegex;
-import nu.marginalia.gregex.GuardedRegexFactory;
-import nu.marginalia.converting.model.DisqualifiedException;
-import nu.marginalia.converting.model.ProcessedDocumentDetails;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.HtmlFeature;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.html.HtmlStandard;
+import nu.marginalia.model.idx.DocumentFlags;
+import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.pubdate.PubDateSniffer;
 import org.jsoup.Jsoup;
 import org.jsoup.nodes.Document;
@@ -36,9 +36,11 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.net.URISyntaxException;
-import java.util.*;
+import java.util.EnumSet;
+import java.util.HashSet;
+import java.util.Set;
 
-import static nu.marginalia.converting.model.DisqualifiedException.*;
+import static nu.marginalia.converting.model.DisqualifiedException.DisqualificationReason;
 
 
 public class HtmlDocumentProcessorPlugin extends AbstractDocumentProcessorPlugin {
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
index 787cc8a0..c85dfeda 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
@@ -2,22 +2,22 @@ package nu.marginalia.converting.processor.plugin;
 
 import com.google.inject.Inject;
 import com.google.inject.name.Named;
-import nu.marginalia.language.filter.LanguageFilter;
-import nu.marginalia.converting.processor.DocumentClass;
-import nu.marginalia.converting.processor.logic.DocumentLengthLogic;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.keyword.DocumentKeywordExtractor;
-import nu.marginalia.language.sentence.ThreadLocalSentenceExtractorProvider;
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.idx.DocumentFlags;
-import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
-import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.model.crawl.PubDate;
 import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.converting.model.ProcessedDocumentDetails;
+import nu.marginalia.converting.processor.DocumentClass;
+import nu.marginalia.converting.processor.logic.DocumentLengthLogic;
 import nu.marginalia.converting.processor.logic.PlainTextLogic;
-import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.converting.util.LineUtils;
+import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
+import nu.marginalia.language.filter.LanguageFilter;
+import nu.marginalia.language.sentence.ThreadLocalSentenceExtractorProvider;
+import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.html.HtmlStandard;
+import nu.marginalia.model.idx.DocumentFlags;
+import nu.marginalia.model.idx.DocumentMetadata;
 import org.apache.commons.lang3.StringUtils;
 
 import java.net.URISyntaxException;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
index 43ae0d81..84b3ab53 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
@@ -7,11 +7,11 @@ import nu.marginalia.converting.model.GeneratorType;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.processor.DocumentClass;
 import nu.marginalia.converting.processor.plugin.HtmlDocumentProcessorPlugin;
-import nu.marginalia.crawling.model.CrawledDocument;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.crawl.PubDate;
 import nu.marginalia.model.crawl.UrlIndexingState;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.model.html.HtmlStandard;
 import nu.marginalia.model.idx.DocumentFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index 4a20543a..d110d9bd 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -1,27 +1,24 @@
 package nu.marginalia.converting.writer;
 
-import gnu.trove.list.array.TLongArrayList;
 import lombok.SneakyThrows;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.model.ProcessedDomain;
 import nu.marginalia.converting.sideload.SideloadSource;
-import nu.marginalia.io.processed.DocumentRecordParquetFileWriter;
-import nu.marginalia.io.processed.DomainLinkRecordParquetFileWriter;
-import nu.marginalia.io.processed.DomainRecordParquetFileWriter;
 import nu.marginalia.io.processed.ProcessedDataFileNames;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.DomainIndexingState;
 import nu.marginalia.model.crawl.HtmlFeature;
-import nu.marginalia.model.processed.DocumentRecord;
-import nu.marginalia.model.processed.DomainLinkRecord;
-import nu.marginalia.model.processed.DomainRecord;
+import nu.marginalia.model.processed.SlopDocumentRecord;
+import nu.marginalia.model.processed.SlopDomainLinkRecord;
+import nu.marginalia.model.processed.SlopDomainRecord;
 import nu.marginalia.sequence.CodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
 import java.nio.ByteBuffer;
+import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.*;
 import java.util.concurrent.Callable;
@@ -30,22 +27,27 @@ import java.util.concurrent.Future;
 
 /** Writer for a single batch of converter parquet files */
 public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriterIf {
-    private final DomainRecordParquetFileWriter domainWriter;
-    private final DomainLinkRecordParquetFileWriter domainLinkWriter;
-    private final DocumentRecordParquetFileWriter documentWriter;
+    private final SlopDomainRecord.Writer domainWriter;
+    private final SlopDomainLinkRecord.Writer domainLinkWriter;
+    private final SlopDocumentRecord.Writer documentWriter;
 
     private static final Logger logger = LoggerFactory.getLogger(ConverterBatchWriter.class);
 
     public ConverterBatchWriter(Path basePath, int batchNumber) throws IOException {
-        domainWriter = new DomainRecordParquetFileWriter(
-                ProcessedDataFileNames.domainFileName(basePath, batchNumber)
-        );
-        domainLinkWriter = new DomainLinkRecordParquetFileWriter(
-                ProcessedDataFileNames.domainLinkFileName(basePath, batchNumber)
-        );
-        documentWriter = new DocumentRecordParquetFileWriter(
-                ProcessedDataFileNames.documentFileName(basePath, batchNumber)
-        );
+        if (!Files.exists(ProcessedDataFileNames.domainFileName(basePath))) {
+            Files.createDirectory(ProcessedDataFileNames.domainFileName(basePath));
+        }
+        domainWriter = new SlopDomainRecord.Writer(ProcessedDataFileNames.domainFileName(basePath), batchNumber);
+
+        if (!Files.exists(ProcessedDataFileNames.domainLinkFileName(basePath))) {
+            Files.createDirectory(ProcessedDataFileNames.domainLinkFileName(basePath));
+        }
+        domainLinkWriter = new SlopDomainLinkRecord.Writer(ProcessedDataFileNames.domainLinkFileName(basePath), batchNumber);
+
+        if (!Files.exists(ProcessedDataFileNames.documentFileName(basePath))) {
+            Files.createDirectory(ProcessedDataFileNames.documentFileName(basePath));
+        }
+        documentWriter = new SlopDocumentRecord.Writer(ProcessedDataFileNames.documentFileName(basePath), batchNumber);
     }
 
     @Override
@@ -107,32 +109,31 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
         while (documentIterator.hasNext()) {
             var document = documentIterator.next();
             if (document.details == null) {
-                new DocumentRecord(
+                new SlopDocumentRecord(
                         domainName,
                         document.url.toString(),
                         ordinal,
                         document.state.toString(),
-                        document.stateReason,
-                        null,
-                        null,
-                        0,
-                        null,
-                        0,
-                        0L,
-                        -15,
-                        0L,
-                        null,
-                        null,
-                        null,
-                        null);
+                        document.stateReason);
             }
             else {
                 var wb = document.words.build(workArea);
-                List<String> words = Arrays.asList(wb.keywords);
-                TLongArrayList metas = new TLongArrayList(wb.metadata);
-                List<CodedSequence> positions = Arrays.asList(wb.positions);
+                List<String> words = wb.keywords;
+                byte[] metas = wb.metadata;
+                List<CodedSequence> positions = wb.positions;
 
-                documentWriter.write(new DocumentRecord(
+
+                List<CodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
+                byte[] spanCodes = new byte[wb.spans.size()];
+
+                for (int i = 0; i < wb.spans.size(); i++) {
+                    var span = wb.spans.get(i);
+
+                    spanCodes[i] = span.code();
+                    spanSequences.add(span.spans());
+                }
+
+                documentWriter.write(new SlopDocumentRecord(
                         domainName,
                         document.url.toString(),
                         ordinal,
@@ -149,7 +150,9 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                         document.details.pubYear,
                         words,
                         metas,
-                        positions
+                        positions,
+                        spanCodes,
+                        spanSequences
                 ));
 
             }
@@ -178,7 +181,7 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                     continue;
                 }
 
-                domainLinkWriter.write(new DomainLinkRecord(
+                domainLinkWriter.write(new SlopDomainLinkRecord(
                         from,
                         dest.toString()
                 ));
@@ -186,7 +189,7 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
         }
 
         if (domain.redirect != null) {
-            domainLinkWriter.write(new DomainLinkRecord(
+            domainLinkWriter.write(new SlopDomainLinkRecord(
                     from,
                     domain.redirect.toString()
             ));
@@ -201,13 +204,13 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
         List<String> feeds = getFeedUrls(domain);
 
         domainWriter.write(
-                new DomainRecord(
+                new SlopDomainRecord(
                         domain.domain.toString(),
                         metadata.known(),
                         metadata.good(),
                         metadata.visited(),
-                        Optional.ofNullable(domain.state).map(DomainIndexingState::toString).orElse(null),
-                        Optional.ofNullable(domain.redirect).map(EdgeDomain::toString).orElse(null),
+                        Optional.ofNullable(domain.state).map(DomainIndexingState::toString).orElse(""),
+                        Optional.ofNullable(domain.redirect).map(EdgeDomain::toString).orElse(""),
                         domain.ip,
                         feeds
                 )
diff --git a/code/process-models/processed-data/build.gradle b/code/processes/converting-process/model/build.gradle
similarity index 86%
rename from code/process-models/processed-data/build.gradle
rename to code/processes/converting-process/model/build.gradle
index 21ccf221..a3fc6307 100644
--- a/code/process-models/processed-data/build.gradle
+++ b/code/processes/converting-process/model/build.gradle
@@ -12,9 +12,12 @@ java {
 }
 apply from: "$rootProject.projectDir/srcsets.gradle"
 
+jar.archiveBaseName = 'converting-process-model'
+
 dependencies {
     implementation libs.bundles.slf4j
 
+    implementation project(':code:libraries:slop')
     implementation project(':third-party:parquet-floor')
     implementation project(':code:libraries:coded-sequence')
 
diff --git a/code/processes/converting-process/model/java/nu/marginalia/io/processed/ProcessedDataFileNames.java b/code/processes/converting-process/model/java/nu/marginalia/io/processed/ProcessedDataFileNames.java
new file mode 100644
index 00000000..44b56bc3
--- /dev/null
+++ b/code/processes/converting-process/model/java/nu/marginalia/io/processed/ProcessedDataFileNames.java
@@ -0,0 +1,16 @@
+package nu.marginalia.io.processed;
+
+import java.nio.file.Path;
+
+public class ProcessedDataFileNames {
+    public static Path documentFileName(Path base) {
+        return base.resolve("document");
+    }
+    public static Path domainFileName(Path base) {
+        return base.resolve("domains");
+    }
+    public static Path domainLinkFileName(Path base) {
+        return base.resolve("domain-link");
+    }
+
+}
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
new file mode 100644
index 00000000..177eaf9a
--- /dev/null
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -0,0 +1,395 @@
+package nu.marginalia.model.processed;
+
+import lombok.Builder;
+import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.array.ByteArrayColumnReader;
+import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
+import nu.marginalia.slop.column.dynamic.GammaCodedSequenceReader;
+import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.column.primitive.*;
+import nu.marginalia.slop.column.string.StringColumnReader;
+import nu.marginalia.slop.column.string.StringColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+
+public record SlopDocumentRecord(
+        String domain,
+        String url,
+        int ordinal,
+        String state,
+        String stateReason,
+        String title,
+        String description,
+        int htmlFeatures,
+        String htmlStandard,
+        int length,
+        long hash,
+        float quality,
+        long documentMetadata,
+        Integer pubYear,
+        List<String> words,
+        byte[] metas,
+        List<CodedSequence> positions,
+        byte[] spanCodes,
+        List<CodedSequence> spans
+) {
+
+    /** Constructor for partial records */
+    public SlopDocumentRecord(String domain,
+                              String url,
+                              int ordinal,
+                              String state,
+                              String stateReason)
+    {
+        this(domain, url, ordinal, state, stateReason, "", "", 0, "", 0, 0L, 0.0f, 0L, null, List.of(), new byte[0], List.of(), new byte[0], List.of());
+    }
+
+    public SlopDocumentRecord {
+        if (spanCodes.length != spans.size())
+            throw new IllegalArgumentException("Span codes and spans must have the same length");
+        if (metas.length != words.size() || metas.length != positions.size())
+            throw new IllegalArgumentException("Metas, words and positions must have the same length");
+    }
+
+    @Builder
+    public record KeywordsProjection(
+            String domain,
+            int ordinal,
+            int htmlFeatures,
+            long documentMetadata,
+            int length,
+            List<String> words,
+            byte[] metas,
+            List<CodedSequence> positions,
+            byte[] spanCodes,
+            List<CodedSequence> spans)
+    { }
+
+    public record MetadataProjection(
+            String domain,
+            String url,
+            int ordinal,
+            String title,
+            String description,
+            int htmlFeatures,
+            String htmlStandard,
+            int length,
+            long hash,
+            float quality,
+            Integer pubYear
+    ) {
+
+    }
+
+    // Basic information
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> urlsColumn = new ColumnDesc<>("url", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> ordinalsColumn = new ColumnDesc<>("ordinal", ColumnType.VARINT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> stateReasonsColumn = new ColumnDesc<>("stateReason", ColumnType.TXTSTRING, StorageType.GZIP);
+
+    // Document metadata
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> titlesColumn = new ColumnDesc<>("title", ColumnType.STRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> descriptionsColumn = new ColumnDesc<>("description", ColumnType.STRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> htmlStandardsColumn = new ColumnDesc<>("htmlStandard", ColumnType.ENUM_LE, StorageType.GZIP);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> htmlFeaturesColumn = new ColumnDesc<>("htmlFeatures", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> lengthsColumn = new ColumnDesc<>("length", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> pubYearColumn = new ColumnDesc<>("pubYear", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<LongColumnReader, LongColumnWriter> hashesColumn = new ColumnDesc<>("hash", ColumnType.LONG_LE, StorageType.PLAIN);
+    private static final ColumnDesc<FloatColumnReader, FloatColumnWriter> qualitiesColumn = new ColumnDesc<>("quality", ColumnType.FLOAT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<LongColumnReader, LongColumnWriter> domainMetadata = new ColumnDesc<>("domainMetadata", ColumnType.LONG_LE, StorageType.PLAIN);
+
+    // Keyword-level columns, these are enumerated by the counts column
+    private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> termCountsColumn = new ColumnDesc<>("termCounts", ColumnType.VARINT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> keywordsColumn = new ColumnDesc<>("keywords", ColumnType.STRING, StorageType.ZSTD);
+    private static final ColumnDesc<ByteColumnReader, ByteColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnType.BYTE, StorageType.ZSTD);
+    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> termPositionsColumn = new ColumnDesc<>("termPositions", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+
+    // Spans columns
+    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spansColumn = new ColumnDesc<>("spans", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+
+    public static class KeywordsProjectionReader implements AutoCloseable {
+        private final StringColumnReader domainsReader;
+        private final VarintColumnReader ordinalsReader;
+        private final IntColumnReader htmlFeaturesReader;
+        private final LongColumnReader domainMetadataReader;
+        private final IntColumnReader lengthsReader;
+        private final StringColumnReader keywordsReader;
+        private final VarintColumnReader termCountsReader;
+        private final ByteColumnReader termMetaReader;
+        private final GammaCodedSequenceReader termPositionsReader;
+
+        private final ByteArrayColumnReader spanCodesReader;
+        private final GammaCodedSequenceReader spansReader;
+
+        private final ByteBuffer workBuffer = ByteBuffer.allocate(65536);
+
+        public KeywordsProjectionReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException {
+            this(pageRef.baseDir(), pageRef.page());
+        }
+
+        public KeywordsProjectionReader(Path baseDir, int page) throws IOException {
+            domainsReader = domainsColumn.forPage(page).open(baseDir);
+            ordinalsReader = ordinalsColumn.forPage(page).open(baseDir);
+            htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(baseDir);
+            domainMetadataReader = domainMetadata.forPage(page).open(baseDir);
+            lengthsReader = lengthsColumn.forPage(page).open(baseDir);
+            keywordsReader = keywordsColumn.forPage(page).open(baseDir);
+            termCountsReader = termCountsColumn.forPage(page).open(baseDir);
+            termMetaReader = termMetaColumn.forPage(page).open(baseDir);
+            termPositionsReader = termPositionsColumn.forPage(page).open(baseDir);
+            spanCodesReader = spanCodesColumn.forPage(page).open(baseDir);
+            spansReader = spansColumn.forPage(page).open(baseDir);
+        }
+
+        public boolean hasMore() throws IOException {
+            return domainsReader.hasRemaining();
+        }
+
+        public KeywordsProjection next() throws IOException {
+            String domain = domainsReader.get();
+            int ordinal = (int) ordinalsReader.get();
+            int htmlFeatures = htmlFeaturesReader.get();
+            long documentMetadata = domainMetadataReader.get();
+            int length = lengthsReader.get();
+            List<String> words = new ArrayList<>();
+
+            List<CodedSequence> positions = new ArrayList<>();
+
+            int termCounts = (int) termCountsReader.get();
+            byte[] metas = new byte[termCounts];
+
+            for (int i = 0; i < termCounts; i++) {
+                metas[i] = termMetaReader.get();
+                words.add(keywordsReader.get());
+                positions.add(termPositionsReader.get(workBuffer));
+            }
+
+            byte[] spanCodes = spanCodesReader.get();
+
+            List<CodedSequence> spans = new ArrayList<>(spanCodes.length);
+            for (int i = 0; i < spanCodes.length; i++) {
+                spans.add(spansReader.get(workBuffer));
+            }
+
+            return new KeywordsProjection(
+                    domain,
+                    ordinal,
+                    htmlFeatures,
+                    documentMetadata,
+                    length,
+                    words,
+                    metas,
+                    positions,
+                    spanCodes,
+                    spans
+            );
+        }
+
+
+        public void close() throws IOException {
+            domainsReader.close();
+            ordinalsReader.close();
+            htmlFeaturesReader.close();
+            domainMetadataReader.close();
+            lengthsReader.close();
+            keywordsReader.close();
+            termMetaReader.close();
+            termPositionsReader.close();
+            spanCodesReader.close();
+            spansReader.close();
+        }
+    }
+
+    public static class MetadataReader implements AutoCloseable {
+        private final StringColumnReader domainsReader;
+        private final StringColumnReader urlsReader;
+        private final VarintColumnReader ordinalsReader;
+        private final StringColumnReader titlesReader;
+        private final StringColumnReader descriptionsReader;
+        private final IntColumnReader htmlFeaturesReader;
+        private final StringColumnReader htmlStandardsReader;
+        private final IntColumnReader lengthsReader;
+        private final LongColumnReader hashesReader;
+        private final FloatColumnReader qualitiesReader;
+        private final IntColumnReader pubYearReader;
+
+        public MetadataReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException{
+            this(pageRef.baseDir(), pageRef.page());
+        }
+
+        public MetadataReader(Path baseDir, int page) throws IOException {
+            this.domainsReader = domainsColumn.forPage(page).open(baseDir);
+            this.urlsReader = urlsColumn.forPage(page).open(baseDir);
+            this.ordinalsReader = ordinalsColumn.forPage(page).open(baseDir);
+            this.titlesReader = titlesColumn.forPage(page).open(baseDir);
+            this.descriptionsReader = descriptionsColumn.forPage(page).open(baseDir);
+            this.htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(baseDir);
+            this.htmlStandardsReader = htmlStandardsColumn.forPage(page).open(baseDir);
+            this.lengthsReader = lengthsColumn.forPage(page).open(baseDir);
+            this.hashesReader = hashesColumn.forPage(page).open(baseDir);
+            this.qualitiesReader = qualitiesColumn.forPage(page).open(baseDir);
+            this.pubYearReader = pubYearColumn.forPage(page).open(baseDir);
+        }
+
+        public MetadataProjection next() throws IOException {
+            int pubYear = pubYearReader.get();
+            return new MetadataProjection(
+                    domainsReader.get(),
+                    urlsReader.get(),
+                    (int) ordinalsReader.get(),
+                    titlesReader.get(),
+                    descriptionsReader.get(),
+                    htmlFeaturesReader.get(),
+                    htmlStandardsReader.get(),
+                    lengthsReader.get(),
+                    hashesReader.get(),
+                    qualitiesReader.get(),
+                    pubYear < 0 ? null : pubYear
+            );
+        }
+
+        public boolean hasNext() throws IOException {
+            return domainsReader.hasRemaining();
+        }
+
+        public void close() throws IOException {
+            domainsReader.close();
+            urlsReader.close();
+            ordinalsReader.close();
+            titlesReader.close();
+            descriptionsReader.close();
+            htmlFeaturesReader.close();
+            htmlStandardsReader.close();
+            lengthsReader.close();
+            hashesReader.close();
+            qualitiesReader.close();
+            pubYearReader.close();
+        }
+    }
+
+    public static class Writer implements AutoCloseable {
+        private final StringColumnWriter domainsWriter;
+        private final StringColumnWriter urlsWriter;
+        private final VarintColumnWriter ordinalsWriter;
+        private final StringColumnWriter statesWriter;
+        private final StringColumnWriter stateReasonsWriter;
+        private final StringColumnWriter titlesWriter;
+        private final StringColumnWriter descriptionsWriter;
+        private final IntColumnWriter htmlFeaturesWriter;
+        private final StringColumnWriter htmlStandardsWriter;
+        private final IntColumnWriter lengthsWriter;
+        private final LongColumnWriter hashesWriter;
+        private final FloatColumnWriter qualitiesWriter;
+        private final LongColumnWriter domainMetadataWriter;
+        private final IntColumnWriter pubYearWriter;
+        private final VarintColumnWriter termCountsWriter;
+        private final StringColumnWriter keywordsWriter;
+        private final ByteColumnWriter termMetaWriter;
+        private final GammaCodedSequenceWriter termPositionsWriter;
+        private final ByteArrayColumnWriter spansCodesWriter;
+        private final GammaCodedSequenceWriter spansWriter;
+
+        public Writer(Path baseDir, int page) throws IOException {
+            domainsWriter = domainsColumn.forPage(page).create(baseDir);
+            urlsWriter = urlsColumn.forPage(page).create(baseDir);
+            ordinalsWriter = ordinalsColumn.forPage(page).create(baseDir);
+            statesWriter = statesColumn.forPage(page).create(baseDir);
+            stateReasonsWriter = stateReasonsColumn.forPage(page).create(baseDir);
+            titlesWriter = titlesColumn.forPage(page).create(baseDir);
+            descriptionsWriter = descriptionsColumn.forPage(page).create(baseDir);
+            htmlFeaturesWriter = htmlFeaturesColumn.forPage(page).create(baseDir);
+            htmlStandardsWriter = htmlStandardsColumn.forPage(page).create(baseDir);
+            lengthsWriter = lengthsColumn.forPage(page).create(baseDir);
+            hashesWriter = hashesColumn.forPage(page).create(baseDir);
+            qualitiesWriter = qualitiesColumn.forPage(page).create(baseDir);
+            domainMetadataWriter = domainMetadata.forPage(page).create(baseDir);
+            pubYearWriter = pubYearColumn.forPage(page).create(baseDir);
+            termCountsWriter = termCountsColumn.forPage(page).create(baseDir);
+            keywordsWriter = keywordsColumn.forPage(page).create(baseDir);
+            termMetaWriter = termMetaColumn.forPage(page).create(baseDir);
+            termPositionsWriter = termPositionsColumn.forPage(page).create(baseDir);
+
+            spansWriter = spansColumn.forPage(page).create(baseDir);
+            spansCodesWriter = spanCodesColumn.forPage(page).create(baseDir);
+        }
+
+        public void write(SlopDocumentRecord record) throws IOException {
+            domainsWriter.put(record.domain());
+            urlsWriter.put(record.url());
+            ordinalsWriter.put(record.ordinal());
+            statesWriter.put(record.state());
+            stateReasonsWriter.put(record.stateReason());
+            titlesWriter.put(record.title());
+            descriptionsWriter.put(record.description());
+            htmlFeaturesWriter.put(record.htmlFeatures());
+            htmlStandardsWriter.put(record.htmlStandard());
+            lengthsWriter.put(record.length());
+            hashesWriter.put(record.hash());
+            qualitiesWriter.put(record.quality());
+            domainMetadataWriter.put(record.documentMetadata());
+
+            if (record.pubYear == null) {
+                pubYearWriter.put(-1);
+            } else {
+                pubYearWriter.put(record.pubYear());
+            }
+
+            byte[] termMetadata = record.metas();
+            List<String> keywords = record.words();
+            List<CodedSequence> termPositions = record.positions();
+
+            termCountsWriter.put(termMetadata.length);
+
+            for (int i = 0; i < termMetadata.length; i++) {
+                termMetaWriter.put(termMetadata[i]);
+                keywordsWriter.put(keywords.get(i));
+
+                termPositionsWriter.put((GammaCodedSequence) termPositions.get(i));
+            }
+
+            assert record.spanCodes().length == record.spans.size() : "Span codes and spans must have the same length";
+
+            spansCodesWriter.put(record.spanCodes());
+            for (var span : record.spans) {
+                spansWriter.put((GammaCodedSequence) span);
+            }
+
+        }
+
+        public void close() throws IOException {
+            domainsWriter.close();
+            urlsWriter.close();
+            ordinalsWriter.close();
+            statesWriter.close();
+            stateReasonsWriter.close();
+            titlesWriter.close();
+            descriptionsWriter.close();
+            htmlFeaturesWriter.close();
+            htmlStandardsWriter.close();
+            lengthsWriter.close();
+            hashesWriter.close();
+            qualitiesWriter.close();
+            domainMetadataWriter.close();
+            pubYearWriter.close();
+            termCountsWriter.close();
+            keywordsWriter.close();
+            termMetaWriter.close();
+            termPositionsWriter.close();
+
+            spansCodesWriter.close();
+            spansWriter.close();
+        }
+    }
+}
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
new file mode 100644
index 00000000..d0b3c6d6
--- /dev/null
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -0,0 +1,83 @@
+package nu.marginalia.model.processed;
+
+import nu.marginalia.slop.column.string.StringColumnReader;
+import nu.marginalia.slop.column.string.StringColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.file.Path;
+import java.util.function.Consumer;
+
+public record SlopDomainLinkRecord(
+        String source,
+        String dest)
+{
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> sourcesColumn = new ColumnDesc<>("source", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> destsColumn = new ColumnDesc<>("dest", ColumnType.TXTSTRING, StorageType.GZIP);
+
+    public static Reader reader(Path baseDir, int page) throws IOException {
+        return new Reader(baseDir, page);
+    }
+
+    public static class Reader implements AutoCloseable {
+        private final StringColumnReader sourcesReader;
+        private final StringColumnReader destsReader;
+
+        public Reader(SlopPageRef<SlopDomainLinkRecord> page) throws IOException {
+            this(page.baseDir(), page.page());
+        }
+
+        public Reader(Path baseDir, int page) throws IOException {
+            sourcesReader = sourcesColumn.forPage(page).open(baseDir);
+            destsReader = destsColumn.forPage(page).open(baseDir);
+        }
+
+
+        @Override
+        public void close() throws IOException {
+            sourcesReader.close();
+            destsReader.close();
+        }
+
+        public boolean hasMore() throws IOException {
+            return sourcesReader.hasRemaining();
+        }
+
+        public void forEach(Consumer<SlopDomainLinkRecord> recordConsumer) throws IOException {
+            while (hasMore()) {
+                recordConsumer.accept(next());
+            }
+        }
+
+        public SlopDomainLinkRecord next() throws IOException {
+
+            return new SlopDomainLinkRecord(
+                    sourcesReader.get(),
+                    destsReader.get()
+            );
+        }
+    }
+
+    public static class Writer implements AutoCloseable {
+        private final StringColumnWriter sourcesWriter;
+        private final StringColumnWriter destsWriter;
+
+        public Writer(Path baseDir, int page) throws IOException {
+            sourcesWriter = sourcesColumn.forPage(page).create(baseDir);
+            destsWriter = destsColumn.forPage(page).create(baseDir);
+        }
+
+        public void write(SlopDomainLinkRecord record) throws IOException {
+            sourcesWriter.put(record.source());
+            destsWriter.put(record.dest());
+        }
+        
+        @Override
+        public void close() throws IOException {
+            sourcesWriter.close();
+            destsWriter.close();
+        }
+    }
+}
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
new file mode 100644
index 00000000..059a6e81
--- /dev/null
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -0,0 +1,240 @@
+package nu.marginalia.model.processed;
+
+import nu.marginalia.slop.column.primitive.IntColumnReader;
+import nu.marginalia.slop.column.primitive.IntColumnWriter;
+import nu.marginalia.slop.column.string.StringColumnReader;
+import nu.marginalia.slop.column.string.StringColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.function.Consumer;
+
+public record SlopDomainRecord(
+        String domain,
+        int knownUrls,
+        int goodUrls,
+        int visitedUrls,
+        String state,
+        String redirectDomain,
+        String ip,
+        List<String> rssFeeds)
+{
+
+    public record DomainWithIpProjection(
+            String domain,
+            String ip)
+    {}
+
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> redirectDomainsColumn = new ColumnDesc<>("redirectDomain", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> ipColumn = new ColumnDesc<>("ip", ColumnType.TXTSTRING, StorageType.GZIP);
+
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> knownUrlsColumn = new ColumnDesc<>("knownUrls", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> goodUrlsColumn = new ColumnDesc<>("goodUrls", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> visitedUrlsColumn = new ColumnDesc<>("visitedUrls", ColumnType.INT_LE, StorageType.PLAIN);
+
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> rssFeedsCountColumn = new ColumnDesc<>("rssFeeds", ColumnType.INT_LE, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnType.TXTSTRING, StorageType.GZIP);
+
+
+    public static class DomainNameReader implements AutoCloseable {
+        private final StringColumnReader domainsReader;
+
+        public DomainNameReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
+            this(page.baseDir(), page.page());
+        }
+
+        public DomainNameReader(Path baseDir, int page) throws IOException {
+            domainsReader = domainsColumn.forPage(page).open(baseDir);
+        }
+
+
+        @Override
+        public void close() throws IOException {
+            domainsReader.close();
+        }
+
+        public boolean hasMore() throws IOException {
+            return domainsReader.hasRemaining();
+        }
+
+        public String next() throws IOException {
+            return domainsReader.get();
+        }
+    }
+
+    public static class DomainWithIpReader implements AutoCloseable {
+        private final StringColumnReader domainsReader;
+        private final StringColumnReader ipReader;
+
+        public DomainWithIpReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
+            this(page.baseDir(), page.page());
+        }
+
+        public DomainWithIpReader(Path baseDir, int page) throws IOException {
+            domainsReader = domainsColumn.forPage(page).open(baseDir);
+            ipReader = ipColumn.forPage(page).open(baseDir);
+        }
+
+
+        @Override
+        public void close() throws IOException {
+            domainsReader.close();
+            ipReader.close();
+        }
+
+        public boolean hasMore() throws IOException {
+            return domainsReader.hasRemaining();
+        }
+
+        public DomainWithIpProjection next() throws IOException {
+
+            return new DomainWithIpProjection(
+                    domainsReader.get(),
+                    ipReader.get()
+            );
+        }
+    }
+
+    public static class Reader implements AutoCloseable {
+        private final StringColumnReader domainsReader;
+        private final StringColumnReader statesReader;
+        private final StringColumnReader redirectReader;
+        private final StringColumnReader ipReader;
+
+        private final IntColumnReader knownUrlsReader;
+        private final IntColumnReader goodUrlsReader;
+        private final IntColumnReader visitedUrlsReader;
+
+        private final IntColumnReader rssFeedsCountReader;
+        private final StringColumnReader rssFeedsReader;
+
+        public Reader(SlopPageRef<SlopDomainRecord> page) throws IOException {
+            this(page.baseDir(), page.page());
+        }
+
+        public Reader(Path baseDir, int page) throws IOException {
+            domainsReader = domainsColumn.forPage(page).open(baseDir);
+            statesReader = statesColumn.forPage(page).open(baseDir);
+            redirectReader = redirectDomainsColumn.forPage(page).open(baseDir);
+            ipReader = ipColumn.forPage(page).open(baseDir);
+
+            knownUrlsReader = knownUrlsColumn.forPage(page).open(baseDir);
+            goodUrlsReader = goodUrlsColumn.forPage(page).open(baseDir);
+            visitedUrlsReader = visitedUrlsColumn.forPage(page).open(baseDir);
+
+            rssFeedsCountReader = rssFeedsCountColumn.forPage(page).open(baseDir);
+            rssFeedsReader = rssFeedsColumn.forPage(page).open(baseDir);
+        }
+
+
+        @Override
+        public void close() throws IOException {
+            domainsReader.close();
+            statesReader.close();
+            redirectReader.close();
+            ipReader.close();
+
+            knownUrlsReader.close();
+            goodUrlsReader.close();
+            visitedUrlsReader.close();
+
+            rssFeedsCountReader.close();
+            rssFeedsReader.close();
+        }
+
+        public boolean hasMore() throws IOException {
+            return domainsReader.hasRemaining();
+        }
+
+        public void forEach(Consumer<SlopDomainRecord> recordConsumer) throws IOException {
+            while (hasMore()) {
+                recordConsumer.accept(next());
+            }
+        }
+
+        public SlopDomainRecord next() throws IOException {
+            List<String> rssFeeds = new ArrayList<>();
+            int rssFeedsCount = rssFeedsCountReader.get();
+            for (int i = 0; i < rssFeedsCount; i++) {
+                rssFeeds.add(rssFeedsReader.get());
+            }
+
+            return new SlopDomainRecord(
+                    domainsReader.get(),
+                    knownUrlsReader.get(),
+                    goodUrlsReader.get(),
+                    visitedUrlsReader.get(),
+                    statesReader.get(),
+                    redirectReader.get(),
+                    ipReader.get(),
+                    rssFeeds
+            );
+        }
+    }
+
+    public static class Writer implements AutoCloseable {
+        private final StringColumnWriter domainsWriter;
+        private final StringColumnWriter statesWriter;
+        private final StringColumnWriter redirectWriter;
+        private final StringColumnWriter ipWriter;
+
+        private final IntColumnWriter knownUrlsWriter;
+        private final IntColumnWriter goodUrlsWriter;
+        private final IntColumnWriter visitedUrlsWriter;
+
+        private final IntColumnWriter rssFeedsCountWriter;
+        private final StringColumnWriter rssFeedsWriter;
+
+        public Writer(Path baseDir, int page) throws IOException {
+            domainsWriter = domainsColumn.forPage(page).create(baseDir);
+            statesWriter = statesColumn.forPage(page).create(baseDir);
+            redirectWriter = redirectDomainsColumn.forPage(page).create(baseDir);
+            ipWriter = ipColumn.forPage(page).create(baseDir);
+
+            knownUrlsWriter = knownUrlsColumn.forPage(page).create(baseDir);
+            goodUrlsWriter = goodUrlsColumn.forPage(page).create(baseDir);
+            visitedUrlsWriter = visitedUrlsColumn.forPage(page).create(baseDir);
+
+            rssFeedsCountWriter = rssFeedsCountColumn.forPage(page).create(baseDir);
+            rssFeedsWriter = rssFeedsColumn.forPage(page).create(baseDir);
+        }
+
+        public void write(SlopDomainRecord record) throws IOException {
+            domainsWriter.put(record.domain());
+            statesWriter.put(record.state());
+            redirectWriter.put(record.redirectDomain());
+            ipWriter.put(record.ip());
+
+            knownUrlsWriter.put(record.knownUrls());
+            goodUrlsWriter.put(record.goodUrls());
+            visitedUrlsWriter.put(record.visitedUrls());
+
+            rssFeedsCountWriter.put(record.rssFeeds().size());
+            for (String rssFeed : record.rssFeeds()) {
+                rssFeedsWriter.put(rssFeed);
+            }
+        }
+        
+        @Override
+        public void close() throws IOException {
+            domainsWriter.close();
+            statesWriter.close();
+            redirectWriter.close();
+            ipWriter.close();
+
+            knownUrlsWriter.close();
+            goodUrlsWriter.close();
+            visitedUrlsWriter.close();
+
+            rssFeedsCountWriter.close();
+            rssFeedsWriter.close();
+        }
+    }
+}
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java
new file mode 100644
index 00000000..fb349621
--- /dev/null
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java
@@ -0,0 +1,6 @@
+package nu.marginalia.model.processed;
+
+import java.nio.file.Path;
+
+public record SlopPageRef<T>(Path baseDir, int page) {
+}
diff --git a/code/process-models/work-log/java/nu/marginalia/worklog/BatchingWorkLog.java b/code/processes/converting-process/model/java/nu/marginalia/worklog/BatchingWorkLog.java
similarity index 100%
rename from code/process-models/work-log/java/nu/marginalia/worklog/BatchingWorkLog.java
rename to code/processes/converting-process/model/java/nu/marginalia/worklog/BatchingWorkLog.java
diff --git a/code/process-models/work-log/java/nu/marginalia/worklog/BatchingWorkLogImpl.java b/code/processes/converting-process/model/java/nu/marginalia/worklog/BatchingWorkLogImpl.java
similarity index 100%
rename from code/process-models/work-log/java/nu/marginalia/worklog/BatchingWorkLogImpl.java
rename to code/processes/converting-process/model/java/nu/marginalia/worklog/BatchingWorkLogImpl.java
diff --git a/code/process-models/work-log/java/nu/marginalia/worklog/BatchingWorkLogInspector.java b/code/processes/converting-process/model/java/nu/marginalia/worklog/BatchingWorkLogInspector.java
similarity index 100%
rename from code/process-models/work-log/java/nu/marginalia/worklog/BatchingWorkLogInspector.java
rename to code/processes/converting-process/model/java/nu/marginalia/worklog/BatchingWorkLogInspector.java
diff --git a/code/process-models/processed-data/readme.md b/code/processes/converting-process/model/readme.md
similarity index 100%
rename from code/process-models/processed-data/readme.md
rename to code/processes/converting-process/model/readme.md
diff --git a/code/process-models/work-log/test/nu/marginalia/worklog/BatchingWorkLogImplTest.java b/code/processes/converting-process/model/test/nu/marginalia/worklog/BatchingWorkLogImplTest.java
similarity index 100%
rename from code/process-models/work-log/test/nu/marginalia/worklog/BatchingWorkLogImplTest.java
rename to code/processes/converting-process/model/test/nu/marginalia/worklog/BatchingWorkLogImplTest.java
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/ConvertingIntegrationTest.java b/code/processes/converting-process/test/nu/marginalia/converting/ConvertingIntegrationTest.java
index 61de3c38..06b839eb 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/ConvertingIntegrationTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/ConvertingIntegrationTest.java
@@ -3,21 +3,21 @@ package nu.marginalia.converting;
 
 import com.google.inject.Guice;
 import com.google.inject.Injector;
-import nu.marginalia.model.html.HtmlStandard;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.processor.DomainProcessor;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawledDomain;
-import nu.marginalia.crawling.model.SerializableCrawlData;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.crawl.DomainIndexingState;
 import nu.marginalia.model.crawl.PubDate;
 import nu.marginalia.model.crawl.UrlIndexingState;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
+import nu.marginalia.model.crawldata.SerializableCrawlData;
+import nu.marginalia.model.html.HtmlStandard;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
 
-import java.io.*;
+import java.io.IOException;
 import java.nio.file.Path;
 import java.time.LocalTime;
 import java.util.*;
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/CrawlingThenConvertingIntegrationTest.java b/code/processes/converting-process/test/nu/marginalia/converting/CrawlingThenConvertingIntegrationTest.java
index 85651501..0e935276 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/CrawlingThenConvertingIntegrationTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/CrawlingThenConvertingIntegrationTest.java
@@ -12,14 +12,14 @@ import nu.marginalia.crawl.retreival.DomainProber;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcher;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcherImpl;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.io.format.ParquetSerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawledDomain;
-import nu.marginalia.crawling.model.SerializableCrawlData;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
+import nu.marginalia.io.crawldata.format.ParquetSerializableCrawlDataStream;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.crawl.DomainIndexingState;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
+import nu.marginalia.model.crawldata.SerializableCrawlData;
 import nu.marginalia.model.crawlspec.CrawlSpecRecord;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import org.junit.jupiter.api.*;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
diff --git a/code/processes/crawling-process/build.gradle b/code/processes/crawling-process/build.gradle
index 5105543d..4fdea7d8 100644
--- a/code/processes/crawling-process/build.gradle
+++ b/code/processes/crawling-process/build.gradle
@@ -29,12 +29,12 @@ dependencies {
     implementation project(':code:common:service')
     implementation project(':code:libraries:blocking-thread-pool')
     implementation project(':code:index:api')
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
     implementation project(':code:libraries:message-queue')
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:easy-lsh')
-    implementation project(':code:process-models:crawling-model')
-    implementation project(':code:process-models:crawl-spec')
+    implementation project(':code:processes:crawling-process:model')
+    implementation project(':code:processes:crawling-process:model')
 
 
     implementation project(':code:features-convert:anchor-keywords')
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/CrawlerMain.java b/code/processes/crawling-process/java/nu/marginalia/crawl/CrawlerMain.java
index 5173af75..cd83edc5 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/CrawlerMain.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/CrawlerMain.java
@@ -11,6 +11,7 @@ import nu.marginalia.WmsaHome;
 import nu.marginalia.atags.source.AnchorTagsSource;
 import nu.marginalia.atags.source.AnchorTagsSourceFactory;
 import nu.marginalia.crawl.retreival.CrawlDataReference;
+import nu.marginalia.crawl.retreival.CrawlerRetreiver;
 import nu.marginalia.crawl.retreival.DomainProber;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcherImpl;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
@@ -19,22 +20,21 @@ import nu.marginalia.crawl.spec.DbCrawlSpecProvider;
 import nu.marginalia.crawl.spec.ParquetCrawlSpecProvider;
 import nu.marginalia.crawl.warc.WarcArchiverFactory;
 import nu.marginalia.crawl.warc.WarcArchiverIf;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.io.CrawlerOutputFile;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
 import nu.marginalia.crawlspec.CrawlSpecFileNames;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
+import nu.marginalia.io.crawldata.CrawlerOutputFile;
 import nu.marginalia.model.EdgeDomain;
-import nu.marginalia.service.ProcessMainClass;
-import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.model.crawlspec.CrawlSpecRecord;
 import nu.marginalia.mq.MessageQueueFactory;
 import nu.marginalia.mq.MqMessage;
 import nu.marginalia.mq.inbox.MqInboxResponse;
 import nu.marginalia.mq.inbox.MqSingleShotInbox;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
 import nu.marginalia.process.log.WorkLog;
+import nu.marginalia.service.ProcessMainClass;
 import nu.marginalia.service.module.DatabaseModule;
-import nu.marginalia.crawl.retreival.CrawlerRetreiver;
+import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.util.SimpleBlockingThreadPool;
 import okhttp3.ConnectionPool;
 import okhttp3.Dispatcher;
@@ -47,8 +47,12 @@ import java.nio.file.Path;
 import java.nio.file.StandardCopyOption;
 import java.security.Security;
 import java.sql.SQLException;
-import java.util.*;
-import java.util.concurrent.*;
+import java.util.List;
+import java.util.Map;
+import java.util.Optional;
+import java.util.UUID;
+import java.util.concurrent.ConcurrentHashMap;
+import java.util.concurrent.TimeUnit;
 import java.util.concurrent.atomic.AtomicInteger;
 
 import static nu.marginalia.mqapi.ProcessInboxNames.CRAWLER_INBOX;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlDataReference.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlDataReference.java
index 65e1529b..8b34cb77 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlDataReference.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlDataReference.java
@@ -2,9 +2,9 @@ package nu.marginalia.crawl.retreival;
 
 import com.google.common.hash.HashFunction;
 import com.google.common.hash.Hashing;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.lsh.EasyLSH;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawledDocumentFactory.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawledDocumentFactory.java
index 37f84d58..c7fee792 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawledDocumentFactory.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawledDocumentFactory.java
@@ -1,9 +1,9 @@
 package nu.marginalia.crawl.retreival;
 
-import nu.marginalia.crawling.body.HttpFetchResult;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawlerDocumentStatus;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.HttpFetchResult;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawlerDocumentStatus;
 
 import java.time.LocalDateTime;
 import java.util.Objects;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
index 45ec5b4b..81fbca89 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
@@ -5,16 +5,17 @@ import nu.marginalia.atags.model.DomainLinks;
 import nu.marginalia.contenttype.ContentType;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcher;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
 import nu.marginalia.crawl.retreival.revisit.CrawlerRevisitor;
 import nu.marginalia.crawl.retreival.revisit.DocumentWithReference;
 import nu.marginalia.crawl.retreival.sitemap.SitemapFetcher;
-import nu.marginalia.link_parser.LinkParser;
-import nu.marginalia.crawling.model.*;
 import nu.marginalia.ip_blocklist.UrlBlocklist;
+import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.HttpFetchResult;
+import nu.marginalia.model.crawldata.CrawledDomain;
+import nu.marginalia.model.crawldata.CrawlerDomainStatus;
 import nu.marginalia.model.crawlspec.CrawlSpecRecord;
 import org.jsoup.Jsoup;
 import org.slf4j.Logger;
@@ -24,7 +25,9 @@ import java.io.IOException;
 import java.net.InetAddress;
 import java.net.UnknownHostException;
 import java.nio.file.Path;
-import java.util.*;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Objects;
 
 public class CrawlerRetreiver implements AutoCloseable {
 
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerWarcResynchronizer.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerWarcResynchronizer.java
index ab1ce5ef..1468d6ed 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerWarcResynchronizer.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerWarcResynchronizer.java
@@ -1,9 +1,9 @@
 package nu.marginalia.crawl.retreival;
 
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.DocumentBodyExtractor;
+import nu.marginalia.model.body.HttpFetchResult;
 import org.jsoup.Jsoup;
 import org.netpreserve.jwarc.*;
 import org.slf4j.Logger;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/DomainProber.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/DomainProber.java
index 57147aec..3ec9b8da 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/DomainProber.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/DomainProber.java
@@ -4,10 +4,10 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.crawl.retreival.fetcher.FetchResultState;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcher;
-import nu.marginalia.crawling.model.CrawlerDomainStatus;
 import nu.marginalia.ip_blocklist.IpBlockList;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.CrawlerDomainStatus;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/ContentTypeProber.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/ContentTypeProber.java
index 96e2eaa7..c9997017 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/ContentTypeProber.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/ContentTypeProber.java
@@ -1,7 +1,7 @@
 package nu.marginalia.crawl.retreival.fetcher;
 
-import nu.marginalia.crawling.body.ContentTypeLogic;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.ContentTypeLogic;
 import okhttp3.OkHttpClient;
 import okhttp3.Request;
 import org.slf4j.Logger;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java
index 70576510..a2015e8f 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java
@@ -3,10 +3,10 @@ package nu.marginalia.crawl.retreival.fetcher;
 import com.google.inject.ImplementedBy;
 import crawlercommons.robots.SimpleRobotRules;
 import nu.marginalia.crawl.retreival.RateLimitException;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.HttpFetchResult;
 
 import java.util.List;
 
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java
index 1df0301b..f4be6b7f 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java
@@ -11,12 +11,12 @@ import nu.marginalia.crawl.retreival.fetcher.ContentTypeProber.ContentTypeProbeR
 import nu.marginalia.crawl.retreival.fetcher.socket.FastTerminatingSocketFactory;
 import nu.marginalia.crawl.retreival.fetcher.socket.IpInterceptingNetworkInterceptor;
 import nu.marginalia.crawl.retreival.fetcher.socket.NoSecuritySSL;
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.body.ContentTypeLogic;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.ContentTypeLogic;
+import nu.marginalia.model.body.DocumentBodyExtractor;
+import nu.marginalia.model.body.HttpFetchResult;
 import okhttp3.ConnectionPool;
 import okhttp3.Dispatcher;
 import okhttp3.OkHttpClient;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/warc/WarcRecorder.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/warc/WarcRecorder.java
index 180811cf..1d4a4372 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/warc/WarcRecorder.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/warc/WarcRecorder.java
@@ -2,10 +2,10 @@ package nu.marginalia.crawl.retreival.fetcher.warc;
 
 import nu.marginalia.crawl.retreival.DomainProber;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.crawl.retreival.fetcher.socket.IpInterceptingNetworkInterceptor;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.HttpFetchResult;
 import okhttp3.OkHttpClient;
 import okhttp3.Request;
 import org.netpreserve.jwarc.*;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/CrawlerRevisitor.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/CrawlerRevisitor.java
index e88ee454..50a9b111 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/CrawlerRevisitor.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/CrawlerRevisitor.java
@@ -8,9 +8,9 @@ import nu.marginalia.crawl.retreival.CrawlerRetreiver;
 import nu.marginalia.crawl.retreival.DomainCrawlFrontier;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.body.HttpFetchResult;
-import nu.marginalia.crawling.model.CrawledDocument;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.HttpFetchResult;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import org.jsoup.Jsoup;
 
 /** This class encapsulates the logic for re-visiting a domain that has already been crawled.
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/DocumentWithReference.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/DocumentWithReference.java
index c604ff5b..b5589401 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/DocumentWithReference.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/revisit/DocumentWithReference.java
@@ -2,10 +2,10 @@ package nu.marginalia.crawl.retreival.revisit;
 
 import nu.marginalia.crawl.retreival.CrawlDataReference;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.DocumentBodyResult;
-import nu.marginalia.crawling.body.HttpFetchResult;
-import nu.marginalia.crawling.model.CrawledDocument;
+import nu.marginalia.model.body.DocumentBodyExtractor;
+import nu.marginalia.model.body.DocumentBodyResult;
+import nu.marginalia.model.body.HttpFetchResult;
+import nu.marginalia.model.crawldata.CrawledDocument;
 
 import javax.annotation.Nullable;
 
diff --git a/code/process-models/crawling-model/build.gradle b/code/processes/crawling-process/model/build.gradle
similarity index 93%
rename from code/process-models/crawling-model/build.gradle
rename to code/processes/crawling-process/model/build.gradle
index 2a24d8bf..5e4879d1 100644
--- a/code/process-models/crawling-model/build.gradle
+++ b/code/processes/crawling-process/model/build.gradle
@@ -12,6 +12,8 @@ java {
     }
 }
 
+jar.archiveBaseName = 'crawling-process-model'
+
 apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
@@ -30,6 +32,7 @@ dependencies {
     implementation libs.notnull
     implementation libs.bundles.parquet
 
+    implementation libs.trove
     implementation libs.jwarc
     implementation libs.gson
     implementation libs.commons.io
diff --git a/code/process-models/crawl-spec/java/nu/marginalia/crawlspec/CrawlSpecFileNames.java b/code/processes/crawling-process/model/java/nu/marginalia/crawlspec/CrawlSpecFileNames.java
similarity index 100%
rename from code/process-models/crawl-spec/java/nu/marginalia/crawlspec/CrawlSpecFileNames.java
rename to code/processes/crawling-process/model/java/nu/marginalia/crawlspec/CrawlSpecFileNames.java
diff --git a/code/process-models/crawl-spec/java/nu/marginalia/crawlspec/CrawlSpecGenerator.java b/code/processes/crawling-process/model/java/nu/marginalia/crawlspec/CrawlSpecGenerator.java
similarity index 100%
rename from code/process-models/crawl-spec/java/nu/marginalia/crawlspec/CrawlSpecGenerator.java
rename to code/processes/crawling-process/model/java/nu/marginalia/crawlspec/CrawlSpecGenerator.java
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/CrawledDomainReader.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java
similarity index 86%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/io/CrawledDomainReader.java
rename to code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java
index 3f8123b2..272ebf3b 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/CrawledDomainReader.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java
@@ -1,8 +1,9 @@
-package nu.marginalia.crawling.io;
+package nu.marginalia.io.crawldata;
 
-import nu.marginalia.crawling.io.format.ParquetSerializableCrawlDataStream;
+import nu.marginalia.io.crawldata.format.ParquetSerializableCrawlDataStream;
 
-import java.io.*;
+import java.io.FileNotFoundException;
+import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/CrawlerOutputFile.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawlerOutputFile.java
similarity index 98%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/io/CrawlerOutputFile.java
rename to code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawlerOutputFile.java
index 05c4797e..266a7f24 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/CrawlerOutputFile.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawlerOutputFile.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.io;
+package nu.marginalia.io.crawldata;
 
 import org.apache.logging.log4j.util.Strings;
 
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/SerializableCrawlDataStream.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/SerializableCrawlDataStream.java
similarity index 94%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/io/SerializableCrawlDataStream.java
rename to code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/SerializableCrawlDataStream.java
index ce01ebce..1ade3836 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/SerializableCrawlDataStream.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/SerializableCrawlDataStream.java
@@ -1,6 +1,6 @@
-package nu.marginalia.crawling.io;
+package nu.marginalia.io.crawldata;
 
-import nu.marginalia.crawling.model.SerializableCrawlData;
+import nu.marginalia.model.crawldata.SerializableCrawlData;
 import org.jetbrains.annotations.Nullable;
 
 import java.io.IOException;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/format/ParquetSerializableCrawlDataStream.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/format/ParquetSerializableCrawlDataStream.java
similarity index 95%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/io/format/ParquetSerializableCrawlDataStream.java
rename to code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/format/ParquetSerializableCrawlDataStream.java
index e676e351..55c5ce8e 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/io/format/ParquetSerializableCrawlDataStream.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/format/ParquetSerializableCrawlDataStream.java
@@ -1,14 +1,14 @@
-package nu.marginalia.crawling.io.format;
+package nu.marginalia.io.crawldata.format;
 
 import lombok.SneakyThrows;
 import nu.marginalia.contenttype.ContentType;
 import nu.marginalia.contenttype.DocumentBodyToString;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.*;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecord;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileReader;
 import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.*;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecord;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileReader;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/process-models/crawl-spec/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileReader.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileReader.java
similarity index 100%
rename from code/process-models/crawl-spec/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileReader.java
rename to code/processes/crawling-process/model/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileReader.java
diff --git a/code/process-models/crawl-spec/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileWriter.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileWriter.java
similarity index 100%
rename from code/process-models/crawl-spec/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileWriter.java
rename to code/processes/crawling-process/model/java/nu/marginalia/io/crawlspec/CrawlSpecRecordParquetFileWriter.java
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/ContentTypeLogic.java b/code/processes/crawling-process/model/java/nu/marginalia/model/body/ContentTypeLogic.java
similarity index 98%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/body/ContentTypeLogic.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/body/ContentTypeLogic.java
index 25d4c8ec..c38bcb3b 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/ContentTypeLogic.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/body/ContentTypeLogic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.body;
+package nu.marginalia.model.body;
 
 import nu.marginalia.contenttype.ContentType;
 import nu.marginalia.model.EdgeUrl;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/DocumentBodyExtractor.java b/code/processes/crawling-process/model/java/nu/marginalia/model/body/DocumentBodyExtractor.java
similarity index 96%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/body/DocumentBodyExtractor.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/body/DocumentBodyExtractor.java
index 7c8f471c..ebd3d33e 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/DocumentBodyExtractor.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/body/DocumentBodyExtractor.java
@@ -1,9 +1,9 @@
-package nu.marginalia.crawling.body;
+package nu.marginalia.model.body;
 
 import nu.marginalia.contenttype.ContentType;
 import nu.marginalia.contenttype.ContentTypeParser;
 import nu.marginalia.contenttype.DocumentBodyToString;
-import nu.marginalia.crawling.model.CrawlerDocumentStatus;
+import nu.marginalia.model.crawldata.CrawlerDocumentStatus;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/DocumentBodyResult.java b/code/processes/crawling-process/model/java/nu/marginalia/model/body/DocumentBodyResult.java
similarity index 95%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/body/DocumentBodyResult.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/body/DocumentBodyResult.java
index 04e3fedb..a29e7093 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/DocumentBodyResult.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/body/DocumentBodyResult.java
@@ -1,7 +1,7 @@
-package nu.marginalia.crawling.body;
+package nu.marginalia.model.body;
 
 import nu.marginalia.contenttype.ContentType;
-import nu.marginalia.crawling.model.CrawlerDocumentStatus;
+import nu.marginalia.model.crawldata.CrawlerDocumentStatus;
 
 import java.util.Optional;
 import java.util.function.BiFunction;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/HttpFetchResult.java b/code/processes/crawling-process/model/java/nu/marginalia/model/body/HttpFetchResult.java
similarity index 99%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/body/HttpFetchResult.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/body/HttpFetchResult.java
index 6bafaf5c..d3fd41b0 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/body/HttpFetchResult.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/body/HttpFetchResult.java
@@ -1,11 +1,11 @@
-package nu.marginalia.crawling.body;
+package nu.marginalia.model.body;
 
 import nu.marginalia.contenttype.ContentType;
 import okhttp3.Headers;
 import org.jsoup.Jsoup;
+import org.jsoup.nodes.Document;
 import org.netpreserve.jwarc.MessageHeaders;
 import org.netpreserve.jwarc.WarcResponse;
-import org.jsoup.nodes.Document;
 
 import java.io.ByteArrayInputStream;
 import java.io.IOException;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawledDocument.java b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawledDocument.java
similarity index 98%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawledDocument.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawledDocument.java
index c809682a..f43433b9 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawledDocument.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawledDocument.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.model;
+package nu.marginalia.model.crawldata;
 
 import lombok.AllArgsConstructor;
 import lombok.Builder;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawledDomain.java b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawledDomain.java
similarity index 94%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawledDomain.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawledDomain.java
index adb59bda..3cb1ea51 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawledDomain.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawledDomain.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.model;
+package nu.marginalia.model.crawldata;
 
 import lombok.AllArgsConstructor;
 import lombok.Builder;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawlerDocumentStatus.java b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawlerDocumentStatus.java
similarity index 80%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawlerDocumentStatus.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawlerDocumentStatus.java
index 2369bcc6..d796c6de 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawlerDocumentStatus.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawlerDocumentStatus.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.model;
+package nu.marginalia.model.crawldata;
 
 public enum CrawlerDocumentStatus {
     OK,
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawlerDomainStatus.java b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawlerDomainStatus.java
similarity index 64%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawlerDomainStatus.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawlerDomainStatus.java
index 12a31c52..4efc9c59 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/CrawlerDomainStatus.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/CrawlerDomainStatus.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.model;
+package nu.marginalia.model.crawldata;
 
 public enum CrawlerDomainStatus {
     OK, ERROR, BLOCKED, REDIRECT
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/SerializableCrawlData.java b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/SerializableCrawlData.java
similarity index 63%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/model/SerializableCrawlData.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/SerializableCrawlData.java
index 01ecaf8d..58d25dea 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/model/SerializableCrawlData.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/model/crawldata/SerializableCrawlData.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.model;
+package nu.marginalia.model.crawldata;
 
 public interface SerializableCrawlData {
     String getDomain();
diff --git a/code/process-models/crawl-spec/java/nu/marginalia/model/crawlspec/CrawlSpecRecord.java b/code/processes/crawling-process/model/java/nu/marginalia/model/crawlspec/CrawlSpecRecord.java
similarity index 100%
rename from code/process-models/crawl-spec/java/nu/marginalia/model/crawlspec/CrawlSpecRecord.java
rename to code/processes/crawling-process/model/java/nu/marginalia/model/crawlspec/CrawlSpecRecord.java
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecord.java b/code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecord.java
similarity index 97%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecord.java
rename to code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecord.java
index 55deafdb..e4ce7ad9 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecord.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecord.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.parquet;
+package nu.marginalia.parquet.crawldata;
 
 import blue.strategic.parquet.Dehydrator;
 import blue.strategic.parquet.Hydrator;
@@ -12,7 +12,7 @@ import org.apache.parquet.schema.Types;
 
 import java.time.Instant;
 
-import static org.apache.parquet.schema.LogicalTypeAnnotation.*;
+import static org.apache.parquet.schema.LogicalTypeAnnotation.stringType;
 import static org.apache.parquet.schema.PrimitiveType.PrimitiveTypeName.*;
 
 @AllArgsConstructor
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileReader.java b/code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileReader.java
similarity index 97%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileReader.java
rename to code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileReader.java
index 362eb561..6e4ea942 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileReader.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileReader.java
@@ -1,4 +1,4 @@
-package nu.marginalia.crawling.parquet;
+package nu.marginalia.parquet.crawldata;
 
 import blue.strategic.parquet.Hydrator;
 import blue.strategic.parquet.HydratorSupplier;
diff --git a/code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriter.java b/code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileWriter.java
similarity index 97%
rename from code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriter.java
rename to code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileWriter.java
index 539ff28d..36a58673 100644
--- a/code/process-models/crawling-model/java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriter.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileWriter.java
@@ -1,10 +1,10 @@
-package nu.marginalia.crawling.parquet;
+package nu.marginalia.parquet.crawldata;
 
 import blue.strategic.parquet.ParquetWriter;
 import nu.marginalia.UserAgent;
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.DocumentBodyResult;
-import nu.marginalia.crawling.body.HttpFetchResult;
+import nu.marginalia.model.body.DocumentBodyExtractor;
+import nu.marginalia.model.body.DocumentBodyResult;
+import nu.marginalia.model.body.HttpFetchResult;
 import org.apache.commons.lang3.StringUtils;
 import org.netpreserve.jwarc.*;
 import org.slf4j.Logger;
diff --git a/code/process-models/crawling-model/java/org/netpreserve/jwarc/WarcXCookieInformationHeader.java b/code/processes/crawling-process/model/java/org/netpreserve/jwarc/WarcXCookieInformationHeader.java
similarity index 100%
rename from code/process-models/crawling-model/java/org/netpreserve/jwarc/WarcXCookieInformationHeader.java
rename to code/processes/crawling-process/model/java/org/netpreserve/jwarc/WarcXCookieInformationHeader.java
diff --git a/code/process-models/crawling-model/java/org/netpreserve/jwarc/WarcXEntityRefused.java b/code/processes/crawling-process/model/java/org/netpreserve/jwarc/WarcXEntityRefused.java
similarity index 100%
rename from code/process-models/crawling-model/java/org/netpreserve/jwarc/WarcXEntityRefused.java
rename to code/processes/crawling-process/model/java/org/netpreserve/jwarc/WarcXEntityRefused.java
diff --git a/code/process-models/crawling-model/java/org/netpreserve/jwarc/WarcXResponseReference.java b/code/processes/crawling-process/model/java/org/netpreserve/jwarc/WarcXResponseReference.java
similarity index 100%
rename from code/process-models/crawling-model/java/org/netpreserve/jwarc/WarcXResponseReference.java
rename to code/processes/crawling-process/model/java/org/netpreserve/jwarc/WarcXResponseReference.java
diff --git a/code/process-models/crawling-model/readme.md b/code/processes/crawling-process/model/readme.md
similarity index 100%
rename from code/process-models/crawling-model/readme.md
rename to code/processes/crawling-process/model/readme.md
diff --git a/code/process-models/crawling-model/test/nu/marginalia/crawling/model/CrawledDocumentTest.java b/code/processes/crawling-process/model/test/nu/marginalia/crawling/model/CrawledDocumentTest.java
similarity index 94%
rename from code/process-models/crawling-model/test/nu/marginalia/crawling/model/CrawledDocumentTest.java
rename to code/processes/crawling-process/model/test/nu/marginalia/crawling/model/CrawledDocumentTest.java
index 8612fd39..fdfe52a4 100644
--- a/code/process-models/crawling-model/test/nu/marginalia/crawling/model/CrawledDocumentTest.java
+++ b/code/processes/crawling-process/model/test/nu/marginalia/crawling/model/CrawledDocumentTest.java
@@ -1,8 +1,10 @@
 package nu.marginalia.crawling.model;
 
+import nu.marginalia.model.crawldata.CrawledDocument;
 import org.junit.jupiter.api.Test;
 
-import static org.junit.jupiter.api.Assertions.*;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertNull;
 
 class CrawledDocumentTest {
 
diff --git a/code/process-models/crawling-model/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java b/code/processes/crawling-process/model/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java
similarity index 90%
rename from code/process-models/crawling-model/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java
rename to code/processes/crawling-process/model/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java
index a0352f29..0da0f6d8 100644
--- a/code/process-models/crawling-model/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java
+++ b/code/processes/crawling-process/model/test/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriterTest.java
@@ -1,9 +1,11 @@
 package nu.marginalia.crawling.parquet;
 
-import nu.marginalia.crawling.io.format.ParquetSerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawledDomain;
-import nu.marginalia.crawling.model.SerializableCrawlData;
+import nu.marginalia.io.crawldata.format.ParquetSerializableCrawlDataStream;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
+import nu.marginalia.model.crawldata.SerializableCrawlData;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecord;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/CrawledDocumentParquetRecordFileWriterTest.java b/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/CrawledDocumentParquetRecordFileWriterTest.java
index d3369bcc..ebda28e1 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/CrawledDocumentParquetRecordFileWriterTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/CrawledDocumentParquetRecordFileWriterTest.java
@@ -1,6 +1,6 @@
 package nu.marginalia.crawl.retreival.fetcher;
 
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import org.junit.jupiter.api.Test;
 
 import java.util.List;
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/WarcRecorderTest.java b/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/WarcRecorderTest.java
index 206bf798..a9df80ac 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/WarcRecorderTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/fetcher/WarcRecorderTest.java
@@ -3,15 +3,18 @@ package nu.marginalia.crawl.retreival.fetcher;
 import nu.marginalia.UserAgent;
 import nu.marginalia.crawl.retreival.fetcher.socket.IpInterceptingNetworkInterceptor;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileReader;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileReader;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import okhttp3.OkHttpClient;
 import okhttp3.Request;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
-import org.netpreserve.jwarc.*;
+import org.netpreserve.jwarc.WarcReader;
+import org.netpreserve.jwarc.WarcRequest;
+import org.netpreserve.jwarc.WarcResponse;
+import org.netpreserve.jwarc.WarcXResponseReference;
 
 import java.io.IOException;
 import java.net.URISyntaxException;
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/revisit/DocumentWithReferenceTest.java b/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/revisit/DocumentWithReferenceTest.java
index e711c81c..9d46ec75 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/revisit/DocumentWithReferenceTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawl/retreival/revisit/DocumentWithReferenceTest.java
@@ -2,7 +2,7 @@ package nu.marginalia.crawl.retreival.revisit;
 
 import nu.marginalia.crawl.retreival.CrawlDataReference;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
-import nu.marginalia.crawling.model.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import org.junit.jupiter.api.Test;
 
 import static org.junit.jupiter.api.Assertions.*;
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java b/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java
index 0873924f..63d5aa27 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java
@@ -4,11 +4,11 @@ import lombok.SneakyThrows;
 import nu.marginalia.crawl.retreival.RateLimitException;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcherImpl;
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.DocumentBodyResult;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.body.ContentTypeLogic;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.ContentTypeLogic;
+import nu.marginalia.model.body.DocumentBodyExtractor;
+import nu.marginalia.model.body.DocumentBodyResult;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.Test;
 
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerMockFetcherTest.java b/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerMockFetcherTest.java
index 749b821c..43040313 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerMockFetcherTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerMockFetcherTest.java
@@ -5,13 +5,13 @@ import lombok.SneakyThrows;
 import nu.marginalia.crawl.retreival.CrawlerRetreiver;
 import nu.marginalia.crawl.retreival.DomainProber;
 import nu.marginalia.crawl.retreival.fetcher.*;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawlerDocumentStatus;
-import nu.marginalia.crawling.model.SerializableCrawlData;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.HttpFetchResult;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawlerDocumentStatus;
+import nu.marginalia.model.crawldata.SerializableCrawlData;
 import nu.marginalia.model.crawlspec.CrawlSpecRecord;
 import nu.marginalia.test.CommonTestData;
 import okhttp3.Headers;
@@ -23,7 +23,10 @@ import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
 import java.net.URISyntaxException;
-import java.util.*;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
 
 public class CrawlerMockFetcherTest {
 
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerRetreiverTest.java b/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerRetreiverTest.java
index aa1f00e7..803ba983 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerRetreiverTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawling/retreival/CrawlerRetreiverTest.java
@@ -8,15 +8,15 @@ import nu.marginalia.crawl.retreival.*;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcher;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcherImpl;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawledDomain;
-import nu.marginalia.crawling.model.SerializableCrawlData;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
+import nu.marginalia.model.crawldata.SerializableCrawlData;
 import nu.marginalia.model.crawlspec.CrawlSpecRecord;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import org.jetbrains.annotations.NotNull;
 import org.junit.jupiter.api.*;
 import org.netpreserve.jwarc.*;
diff --git a/code/processes/index-constructor-process/build.gradle b/code/processes/index-constructor-process/build.gradle
index 4653133a..6de7e773 100644
--- a/code/processes/index-constructor-process/build.gradle
+++ b/code/processes/index-constructor-process/build.gradle
@@ -21,7 +21,7 @@ tasks.distZip.enabled = false
 apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
     implementation project(':code:common:process')
     implementation project(':code:common:service')
     implementation project(':code:common:db')
diff --git a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
index 4f7e9d90..6c55db6c 100644
--- a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
+++ b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
@@ -11,7 +11,7 @@ import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.mq.MessageQueueFactory;
@@ -119,7 +119,6 @@ public class IndexConstructorMain extends ProcessMainClass {
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
-                IndexJournalReader::singleFile,
                 this::addRankToIdEncoding,
                 tmpDir);
 
@@ -138,7 +137,6 @@ public class IndexConstructorMain extends ProcessMainClass {
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                (path) -> IndexJournalReader.singleFile(path).filtering(r -> r != 0),
                 this::addRankToIdEncoding,
                 tmpDir);
 
@@ -148,13 +146,16 @@ public class IndexConstructorMain extends ProcessMainClass {
     private void createForwardIndex() throws IOException {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
+
         Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
         Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileSpansData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.SPANS_DATA, ForwardIndexFileNames.FileVersion.NEXT);
 
         ForwardIndexConverter converter = new ForwardIndexConverter(heartbeat,
-                IndexJournalReader.paging(workDir),
                 outputFileDocsId,
                 outputFileDocsData,
+                outputFileSpansData,
+                IndexJournal.findJournal(workDir).orElseThrow(),
                 domainRankings
         );
 
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 90b00d87..5e49ed30 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -21,7 +21,7 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
     implementation project(':code:common:process')
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
     implementation project(':code:index:api')
     implementation project(':code:common:model')
     implementation project(':code:common:db')
@@ -36,9 +36,8 @@ dependencies {
     implementation project(':third-party:parquet-floor')
     testImplementation project(':code:services-application:search-service')
 
-    implementation project(':code:process-models:crawling-model')
-    implementation project(':code:process-models:processed-data')
-    implementation project(':code:process-models:work-log')
+    implementation project(':code:processes:crawling-process:model')
+    implementation project(':code:processes:converting-process:model')
     implementation project(':code:features-convert:keyword-extraction')
 
     implementation project(':code:functions:link-graph:partition')
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
index f523f8e7..08c016db 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderIndexJournalWriter.java
@@ -4,65 +4,59 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import lombok.SneakyThrows;
 import nu.marginalia.IndexLocations;
-import nu.marginalia.index.journal.model.IndexJournalEntryData;
+import nu.marginalia.index.journal.IndexJournal;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
+import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.index.journal.model.IndexJournalEntryHeader;
-import nu.marginalia.index.journal.writer.IndexJournalWriterPagingImpl;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
-import nu.marginalia.keyword.model.DocumentKeywords;
-import nu.marginalia.index.journal.IndexJournalFileNames;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
-import java.nio.file.Files;
+import java.nio.file.Path;
 
 
 @Singleton
 public class LoaderIndexJournalWriter {
 
-    private final IndexJournalWriter indexWriter;
     private static final Logger logger = LoggerFactory.getLogger(LoaderIndexJournalWriter.class);
+    private final Path journalPath;
 
-    private final long[] buffer = new long[65536];
-
+    private IndexJournalSlopWriter currentWriter = null;
+    private long recordsWritten = 0;
+    private int page;
 
     @Inject
     public LoaderIndexJournalWriter(FileStorageService fileStorageService) throws IOException {
         var indexArea = IndexLocations.getIndexConstructionArea(fileStorageService);
 
-        var existingIndexFiles = IndexJournalFileNames.findJournalFiles(indexArea);
-        for (var existingFile : existingIndexFiles) {
-            Files.delete(existingFile);
+        journalPath = IndexJournal.allocateName(indexArea);
+        page = IndexJournal.numPages(journalPath);
+
+        switchToNextVersion();
+
+        logger.info("Creating Journal Writer {}", indexArea);
+    }
+
+    private void switchToNextVersion() throws IOException {
+        if (currentWriter != null) {
+            currentWriter.close();
         }
 
-        indexWriter = new IndexJournalWriterPagingImpl(indexArea);
+        currentWriter = new IndexJournalSlopWriter(journalPath, page++);
     }
 
     @SneakyThrows
-    public void putWords(long combinedId,
-                         int features,
-                         long metadata,
-                         int length,
-                         DocumentKeywords wordSet) {
-
-        if (wordSet.isEmpty()) {
-            logger.info("Skipping zero-length word set for {}", combinedId);
-            return;
+    public void putWords(long header, SlopDocumentRecord.KeywordsProjection data)
+    {
+        if (++recordsWritten > 200_000) {
+            recordsWritten = 0;
+            switchToNextVersion();
         }
 
-        if (combinedId <= 0) {
-            logger.warn("Bad ID: {}", combinedId);
-            return;
-        }
-
-        var header = new IndexJournalEntryHeader(combinedId, features, length, metadata);
-        var data = new IndexJournalEntryData(wordSet.keywords, wordSet.metadata, wordSet.positions);
-
-        indexWriter.put(header, data);
+        currentWriter.put(header, data);
     }
 
-    public void close() throws Exception {
-        indexWriter.close();
+    public void close() throws IOException {
+        currentWriter.close();
     }
 }
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java
index 21f878f0..7dda3e05 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java
@@ -1,6 +1,10 @@
 package nu.marginalia.loading;
 
 import nu.marginalia.io.processed.ProcessedDataFileNames;
+import nu.marginalia.model.processed.SlopDocumentRecord;
+import nu.marginalia.model.processed.SlopDomainLinkRecord;
+import nu.marginalia.model.processed.SlopDomainRecord;
+import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.worklog.BatchingWorkLogInspector;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -39,26 +43,32 @@ public class LoaderInputData {
         lastGoodBatch.put(singleSource, lastBatch);
     }
 
-    public Collection<Path> listDomainFiles() {
-        List<Path> pathsAll = new ArrayList<>();
+    public Collection<SlopPageRef<SlopDomainRecord>> listDomainPages() {
+        List<SlopPageRef<SlopDomainRecord>> pathsAll = new ArrayList<>();
         for (var source : sourceDirectories) {
-            pathsAll.addAll(ProcessedDataFileNames.listDomainFiles(source, lastGoodBatch.get(source)));
+            for (int i = 0; i < lastGoodBatch.get(source); i++) {
+                pathsAll.add(new SlopPageRef<>(ProcessedDataFileNames.domainFileName(source), i));
+            }
         }
         return pathsAll;
     }
 
-    public Collection<Path> listDomainLinkFiles() {
-        List<Path> pathsAll = new ArrayList<>();
+    public Collection<SlopPageRef<SlopDomainLinkRecord>> listDomainLinkPages() {
+        List<SlopPageRef<SlopDomainLinkRecord>> pathsAll = new ArrayList<>();
         for (var source : sourceDirectories) {
-            pathsAll.addAll(ProcessedDataFileNames.listDomainLinkFiles(source, lastGoodBatch.get(source)));
+            for (int i = 0; i < lastGoodBatch.get(source); i++) {
+                pathsAll.add(new SlopPageRef<>(ProcessedDataFileNames.domainLinkFileName(source), i));
+            }
         }
         return pathsAll;
     }
 
-    public Collection<Path> listDocumentFiles() {
-        List<Path> pathsAll = new ArrayList<>();
+    public Collection<SlopPageRef<SlopDocumentRecord>> listDocumentFiles() {
+        List<SlopPageRef<SlopDocumentRecord>> pathsAll = new ArrayList<>();
         for (var source : sourceDirectories) {
-            pathsAll.addAll(ProcessedDataFileNames.listDocumentFiles(source, lastGoodBatch.get(source)));
+            for (int i = 0; i < lastGoodBatch.get(source); i++) {
+                pathsAll.add(new SlopPageRef<>(ProcessedDataFileNames.documentFileName(source), i));
+            }
         }
         return pathsAll;
     }
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
index 7cc9b522..e254d51e 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
@@ -3,22 +3,22 @@ package nu.marginalia.loading.documents;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import lombok.SneakyThrows;
-import nu.marginalia.io.processed.DocumentRecordParquetFileReader;
 import nu.marginalia.linkdb.docs.DocumentDbWriter;
 import nu.marginalia.linkdb.model.DocdbUrlDetail;
 import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.processed.DocumentRecordMetadataProjection;
+import nu.marginalia.model.processed.SlopDocumentRecord;
+import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
-import java.nio.file.Path;
 import java.sql.SQLException;
 import java.util.ArrayList;
+import java.util.Collection;
 import java.util.List;
 
 @Singleton
@@ -38,18 +38,24 @@ public class DocumentLoaderService {
                              LoaderInputData inputData)
             throws IOException, SQLException
     {
-        var documentFiles = inputData.listDocumentFiles();
+        Collection<SlopPageRef<SlopDocumentRecord>> pageRefs = inputData.listDocumentFiles();
 
         try (var taskHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("DOCUMENTS")) {
 
             int processed = 0;
 
-            for (var file : documentFiles) {
-                taskHeartbeat.progress("LOAD", processed++, documentFiles.size());
+            for (var pageRef : pageRefs) {
+                taskHeartbeat.progress("LOAD", processed++, pageRefs.size());
 
-                loadDocumentsFromFile(domainIdRegistry, file);
+                try (var reader = new SlopDocumentRecord.MetadataReader(pageRef);
+                     LinkdbLoader loader = new LinkdbLoader(domainIdRegistry))
+                {
+                    while (reader.hasNext()) {
+                        loader.accept(reader.next());
+                    }
+                }
             }
-            taskHeartbeat.progress("LOAD", processed, documentFiles.size());
+            taskHeartbeat.progress("LOAD", processed, pageRefs.size());
         } catch (IOException e) {
             logger.error("Failed to load documents", e);
             throw e;
@@ -60,19 +66,6 @@ public class DocumentLoaderService {
         return true;
     }
 
-    private void loadDocumentsFromFile(DomainIdRegistry domainIdRegistry, Path file)
-            throws SQLException, IOException
-    {
-        try (var stream = DocumentRecordParquetFileReader.streamMetadataProjection(file);
-             LinkdbLoader loader = new LinkdbLoader(domainIdRegistry)
-        )
-        {
-            logger.info("Loading document meta from {}", file);
-
-            stream.forEach(loader::accept);
-        }
-    }
-
     class LinkdbLoader implements AutoCloseable {
         private final DomainIdRegistry domainIdRegistry;
         private final List<DocdbUrlDetail> details = new ArrayList<>(1000);
@@ -82,25 +75,25 @@ public class DocumentLoaderService {
         }
 
         @SneakyThrows
-        public void accept(DocumentRecordMetadataProjection projection)
+        public void accept(SlopDocumentRecord.MetadataProjection projection)
         {
 
             long urlId = UrlIdCodec.encodeId(
-                    domainIdRegistry.getDomainId(projection.domain),
-                    projection.ordinal
+                    domainIdRegistry.getDomainId(projection.domain()),
+                    projection.ordinal()
             );
 
-            details.add(new DocdbUrlDetail(
+            documentDbWriter.add(new DocdbUrlDetail(
                     urlId,
-                    new EdgeUrl(projection.url),
-                    projection.title,
-                    projection.description,
-                    projection.quality,
-                    projection.htmlStandard,
-                    projection.htmlFeatures,
-                    projection.pubYear,
-                    projection.hash,
-                    projection.getLength()
+                    new EdgeUrl(projection.url()),
+                    projection.title(),
+                    projection.description(),
+                    projection.quality(),
+                    projection.htmlStandard(),
+                    projection.htmlFeatures(),
+                    projection.pubYear(),
+                    projection.hash(),
+                    projection.length()
             ));
 
             if (details.size() > 100) {
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index dc325b2b..5188c06b 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -2,20 +2,18 @@ package nu.marginalia.loading.documents;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import nu.marginalia.io.processed.DocumentRecordParquetFileReader;
-import nu.marginalia.keyword.model.DocumentKeywords;
 import nu.marginalia.loading.LoaderIndexJournalWriter;
 import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.id.UrlIdCodec;
-import nu.marginalia.model.processed.DocumentRecordKeywordsProjection;
+import nu.marginalia.model.processed.SlopDocumentRecord;
+import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.CodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
-import java.nio.file.Path;
+import java.util.Collection;
 
 @Singleton
 public class KeywordLoaderService {
@@ -32,57 +30,41 @@ public class KeywordLoaderService {
                              LoaderInputData inputData) throws IOException {
         try (var task = heartbeat.createAdHocTaskHeartbeat("KEYWORDS")) {
 
-            var documentFiles = inputData.listDocumentFiles();
+            Collection<SlopPageRef<SlopDocumentRecord>> documentFiles = inputData.listDocumentFiles();
             int processed = 0;
 
-            for (var file : documentFiles) {
+            for (SlopPageRef<SlopDocumentRecord> pageRef : documentFiles) {
                 task.progress("LOAD", processed++, documentFiles.size());
 
-                loadKeywordsFromFile(domainIdRegistry, file);
+                try (var keywordsReader = new SlopDocumentRecord.KeywordsProjectionReader(pageRef)) {
+                    logger.info("Loading keywords from {}", pageRef);
+
+                    while (keywordsReader.hasMore()) {
+                        var projection = keywordsReader.next();
+
+                        long combinedId = UrlIdCodec.encodeId(
+                                domainIdRegistry.getDomainId(projection.domain()),
+                                projection.ordinal());
+
+                        writer.putWords(combinedId, projection);
+                    }
+                }
             }
 
             task.progress("LOAD", processed, documentFiles.size());
         }
+        catch (IOException e) {
+            logger.error("Failed to load keywords", e);
+            throw e;
+        }
 
         logger.info("Finished");
 
         return true;
     }
 
-    private void loadKeywordsFromFile(DomainIdRegistry domainIdRegistry, Path file) throws IOException {
-        try (var stream = DocumentRecordParquetFileReader.streamKeywordsProjection(file)) {
-            logger.info("Loading keywords from {}", file);
 
-            stream.filter(DocumentRecordKeywordsProjection::hasKeywords)
-                  .forEach(proj -> insertKeywords(domainIdRegistry, proj));
-        }
-    }
-
-    private void insertKeywords(DomainIdRegistry domainIdRegistry,
-                                DocumentRecordKeywordsProjection projection)
-    {
-        long combinedId = UrlIdCodec.encodeId(
-                domainIdRegistry.getDomainId(projection.domain),
-                projection.ordinal);
-
-        var words = new DocumentKeywords(
-                projection.words.toArray(String[]::new),
-                projection.metas.toArray(),
-                projection.positions.toArray(CodedSequence[]::new)
-        );
-
-        writer.putWords(combinedId,
-                projection.htmlFeatures,
-                projection.documentMetadata,
-                projection.length,
-                words);
-    }
-
-    public void close() {
-        try {
-            writer.close();
-        } catch (Exception e) {
-            logger.error("Failed to close writer", e);
-        }
+    public void close() throws IOException {
+        writer.close();
     }
 }
\ No newline at end of file
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
index 342645dd..ac1fc763 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
@@ -4,12 +4,11 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import com.zaxxer.hikari.HikariDataSource;
 import nu.marginalia.ProcessConfiguration;
-import nu.marginalia.io.processed.DomainLinkRecordParquetFileReader;
-import nu.marginalia.io.processed.DomainRecordParquetFileReader;
 import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.model.EdgeDomain;
-import nu.marginalia.model.processed.DomainRecord;
-import nu.marginalia.model.processed.DomainWithIp;
+import nu.marginalia.model.processed.SlopDomainLinkRecord;
+import nu.marginalia.model.processed.SlopDomainRecord;
+import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
 import org.slf4j.Logger;
@@ -57,44 +56,61 @@ public class DomainLoaderService {
         try (var conn = dataSource.getConnection();
              var taskHeartbeat = heartbeat.createProcessTaskHeartbeat(Steps.class, "DOMAIN_IDS");
              var selectStmt = conn.prepareStatement("""
-                     SELECT ID FROM EC_DOMAIN WHERE DOMAIN_NAME=?
+                     SELECT ID, LOWER(DOMAIN_NAME) FROM EC_DOMAIN
                      """)
         ) {
             taskHeartbeat.progress(Steps.PREP_DATA);
 
-            try (var inserter = new DomainInserter(conn, nodeId)) {
-                for (var domainWithIp : readBasicDomainInformation(inputData)) {
-                    inserter.accept(new EdgeDomain(domainWithIp.domain));
-                    domainNamesAll.add(domainWithIp.domain);
+            // Add domain names from this data set with the current node affinity
+            for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+
+                try (var inserter = new DomainInserter(conn, nodeId);
+                     var reader = new SlopDomainRecord.DomainNameReader(page)
+                ) {
+                    while (reader.hasMore()) {
+                        String domainName = reader.next();
+                        inserter.accept(new EdgeDomain(domainName));
+                        domainNamesAll.add(domainName);
+                    }
                 }
             }
-            try (var inserter = new DomainInserter(conn, -1)) {
-                for (var domain : readReferencedDomainNames(inputData)) {
-                    inserter.accept(new EdgeDomain(domain));
-                    domainNamesAll.add(domain);
+
+            // Add linked domains, but with -1 affinity meaning they can be grabbed by any index node
+            for (SlopPageRef<SlopDomainLinkRecord> page : inputData.listDomainLinkPages()) {
+                try (var inserter = new DomainInserter(conn, -1);
+                     var reader = new SlopDomainLinkRecord.Reader(page)) {
+                    while (reader.hasMore()) {
+                        SlopDomainLinkRecord record = reader.next();
+                        inserter.accept(new EdgeDomain(record.dest()));
+                        domainNamesAll.add(record.dest());
+                    }
                 }
             }
 
             taskHeartbeat.progress(Steps.INSERT_NEW);
 
-            try (var updater = new DomainAffinityAndIpUpdater(conn, nodeId)) {
-                for (var domainWithIp : readBasicDomainInformation(inputData)) {
-                    updater.accept(new EdgeDomain(domainWithIp.domain), domainWithIp.ip);
+            // Update the node affinity and IP address for each domain
+            for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+                try (var updater = new DomainAffinityAndIpUpdater(conn, nodeId);
+                     var reader = new SlopDomainRecord.DomainWithIpReader(page)
+                ) {
+                    while (reader.hasMore()) {
+                        var domainWithIp = reader.next();
+                        updater.accept(new EdgeDomain(domainWithIp.domain()), domainWithIp.ip());
+                    }
                 }
             }
 
             taskHeartbeat.progress(Steps.FETCH_ALL);
-
             selectStmt.setFetchSize(1000);
-            for (var domain : domainNamesAll) {
-                selectStmt.setString(1, domain);
-                var rs = selectStmt.executeQuery();
-                if (rs.next()) {
+
+            var rs = selectStmt.executeQuery();
+            while (rs.next()) {
+                String domain = rs.getString(2);
+
+                if (domainNamesAll.contains(domain)) {
                     ret.add(domain, rs.getInt(1));
                 }
-                else {
-                    logger.error("Unknown domain {}", domain);
-                }
             }
 
             taskHeartbeat.progress(Steps.DONE);
@@ -103,46 +119,23 @@ public class DomainLoaderService {
         return ret;
     }
 
-    Collection<DomainWithIp> readBasicDomainInformation(LoaderInputData inputData) throws IOException {
-        final Set<DomainWithIp> domainsAll = new HashSet<>(100_000);
-
-        var domainFiles = inputData.listDomainFiles();
-        for (var file : domainFiles) {
-            domainsAll.addAll(DomainRecordParquetFileReader.getBasicDomainInformation(file));
-        }
-
-        return domainsAll;
-    }
-
-    Collection<String> readReferencedDomainNames(LoaderInputData inputData) throws IOException {
-        final Set<String> domainNamesAll = new HashSet<>(100_000);
-
-        var linkFiles = inputData.listDomainLinkFiles();
-        for (var file : linkFiles) {
-            domainNamesAll.addAll(DomainLinkRecordParquetFileReader.getDestDomainNames(file));
-        }
-
-        return domainNamesAll;
-    }
-
     public boolean loadDomainMetadata(DomainIdRegistry domainIdRegistry, ProcessHeartbeat heartbeat, LoaderInputData inputData) {
 
-        var files = inputData.listDomainFiles();
-
         try (var taskHeartbeat = heartbeat.createAdHocTaskHeartbeat("UPDATE-META")) {
 
             int processed = 0;
 
-            for (var file : files) {
-                taskHeartbeat.progress("UPDATE-META", processed++, files.size());
+            Collection<SlopPageRef<SlopDomainRecord>> pages = inputData.listDomainPages();
+            for (var page : pages) {
+                taskHeartbeat.progress("UPDATE-META", processed++, pages.size());
 
-                try (var stream = DomainRecordParquetFileReader.stream(file);
-                     var updater = new DomainMetadataUpdater(dataSource, domainIdRegistry)
-                ) {
-                    stream.forEach(updater::accept);
+                try (var reader = new SlopDomainRecord.Reader(page);
+                     var updater = new DomainMetadataUpdater(dataSource, domainIdRegistry))
+                {
+                    reader.forEach(updater::accept);
                 }
             }
-            taskHeartbeat.progress("UPDATE-META", processed, files.size());
+            taskHeartbeat.progress("UPDATE-META", processed, pages.size());
         }
         catch (Exception ex) {
             logger.error("Failed inserting metadata!", ex);
@@ -239,12 +232,12 @@ public class DomainLoaderService {
                     """);
         }
 
-        public void accept(DomainRecord domainRecord) {
+        public void accept(SlopDomainRecord domainRecord) {
             try {
-                updateStatement.setInt(1, idRegistry.getDomainId(domainRecord.domain));
-                updateStatement.setInt(2, domainRecord.visitedUrls);
-                updateStatement.setInt(3, domainRecord.goodUrls);
-                updateStatement.setInt(4, domainRecord.knownUrls);
+                updateStatement.setInt(1, idRegistry.getDomainId(domainRecord.domain()));
+                updateStatement.setInt(2, domainRecord.visitedUrls());
+                updateStatement.setInt(3, domainRecord.goodUrls());
+                updateStatement.setInt(4, domainRecord.knownUrls());
                 updateStatement.addBatch();
 
                 if (++i > 1000) {
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
index 9d0a5384..790e80a3 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
@@ -3,17 +3,17 @@ package nu.marginalia.loading.links;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import lombok.SneakyThrows;
-import nu.marginalia.io.processed.DomainLinkRecordParquetFileReader;
 import nu.marginalia.linkgraph.io.DomainLinksWriter;
 import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.loading.domains.DomainIdRegistry;
-import nu.marginalia.model.processed.DomainLinkRecord;
+import nu.marginalia.model.processed.SlopDomainLinkRecord;
+import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
-import java.nio.file.Path;
+import java.util.Collection;
 
 @Singleton
 public class DomainLinksLoaderService {
@@ -32,17 +32,17 @@ public class DomainLinksLoaderService {
                              LoaderInputData inputData) throws IOException {
 
         try (var task = heartbeat.createAdHocTaskHeartbeat("LINKS")) {
-            var linkFiles = inputData.listDomainLinkFiles();
+            Collection<SlopPageRef<SlopDomainLinkRecord>> pageRefs = inputData.listDomainLinkPages();
 
             int processed = 0;
 
-            for (var file : linkFiles) {
-                task.progress("LOAD", processed++, linkFiles.size());
+            for (var pageRef : pageRefs) {
+                task.progress("LOAD", processed++, pageRefs.size());
 
-                loadLinksFromFile(domainIdRegistry, file);
+                loadLinksFromFile(domainIdRegistry, pageRef);
             }
 
-            task.progress("LOAD", processed, linkFiles.size());
+            task.progress("LOAD", processed, pageRefs.size());
         }
         catch (IOException e) {
             logger.error("Failed to load links", e);
@@ -53,12 +53,13 @@ public class DomainLinksLoaderService {
         return true;
     }
 
-    private void loadLinksFromFile(DomainIdRegistry domainIdRegistry, Path file) throws IOException {
-        try (var domainStream = DomainLinkRecordParquetFileReader.stream(file);
+    private void loadLinksFromFile(DomainIdRegistry domainIdRegistry, SlopPageRef pageRef) throws IOException {
+        try (var domainLinkReader = new SlopDomainLinkRecord.Reader(pageRef);
              var linkLoader = new LinkLoader(domainIdRegistry))
         {
-            logger.info("Loading links from {}", file);
-            domainStream.forEach(linkLoader::accept);
+            logger.info("Loading links from {}:{}", pageRef.baseDir(), pageRef.page());
+
+            domainLinkReader.forEach(linkLoader::accept);
         }
     }
 
@@ -70,10 +71,10 @@ public class DomainLinksLoaderService {
         }
 
         @SneakyThrows
-        void accept(DomainLinkRecord record) {
+        void accept(SlopDomainLinkRecord record) {
             domainLinkDbWriter.write(
-                    domainIdRegistry.getDomainId(record.source),
-                    domainIdRegistry.getDomainId(record.dest)
+                    domainIdRegistry.getDomainId(record.source()),
+                    domainIdRegistry.getDomainId(record.dest())
             );
         }
 
diff --git a/code/processes/loading-process/test/nu/marginalia/loading/domains/DomainLoaderServiceTest.java b/code/processes/loading-process/test/nu/marginalia/loading/domains/DomainLoaderServiceTest.java
deleted file mode 100644
index fda0e9b6..00000000
--- a/code/processes/loading-process/test/nu/marginalia/loading/domains/DomainLoaderServiceTest.java
+++ /dev/null
@@ -1,102 +0,0 @@
-package nu.marginalia.loading.domains;
-
-import com.google.common.collect.Lists;
-import com.google.common.collect.Sets;
-import nu.marginalia.ProcessConfiguration;
-import nu.marginalia.io.processed.DomainLinkRecordParquetFileWriter;
-import nu.marginalia.io.processed.DomainRecordParquetFileWriter;
-import nu.marginalia.io.processed.ProcessedDataFileNames;
-import nu.marginalia.loading.LoaderInputData;
-import nu.marginalia.model.processed.DomainLinkRecord;
-import nu.marginalia.model.processed.DomainRecord;
-import nu.marginalia.process.control.ProcessAdHocTaskHeartbeat;
-import nu.marginalia.process.control.ProcessHeartbeat;
-import org.junit.jupiter.api.*;
-import org.mockito.Mockito;
-import org.testcontainers.junit.jupiter.Testcontainers;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.*;
-import java.util.stream.Collectors;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-@Tag("slow")
-@Testcontainers
-class DomainLoaderServiceTest {
-    List<Path> toDelete = new ArrayList<>();
-    ProcessHeartbeat heartbeat;
-
-    @BeforeEach
-    public void setUp() {
-        heartbeat = Mockito.mock(ProcessHeartbeat.class);
-
-        Mockito.when(heartbeat.createAdHocTaskHeartbeat(Mockito.anyString())).thenReturn(
-                Mockito.mock(ProcessAdHocTaskHeartbeat.class)
-        );
-    }
-
-    @AfterEach
-    public void tearDown() throws IOException {
-        for (var path : Lists.reverse(toDelete)) {
-            Files.deleteIfExists(path);
-        }
-
-        toDelete.clear();
-    }
-
-    @Test
-    void readDomainNames() throws IOException {
-        Path workDir = Files.createTempDirectory(getClass().getSimpleName());
-        Path parquetFile1 = ProcessedDataFileNames.domainFileName(workDir, 0);
-        Path parquetFile2 = ProcessedDataFileNames.domainFileName(workDir, 1);
-        Path parquetFile3 = ProcessedDataFileNames.domainLinkFileName(workDir, 0);
-
-        toDelete.add(workDir);
-        toDelete.add(parquetFile1);
-        toDelete.add(parquetFile2);
-        toDelete.add(parquetFile3);
-
-        // Prep by creating two parquet files with domains
-        // and one with domain links
-
-        List<String> domains1 = List.of("www.marginalia.nu", "memex.marginalia.nu", "search.marginalia.nu");
-        List<String> domains2 = List.of("wiby.me", "www.mojeek.com", "www.altavista.com");
-        List<String> linkDomains = List.of("maya.land", "xkcd.com", "aaronsw.com");
-
-        try (var pw = new DomainRecordParquetFileWriter(parquetFile1)) {
-            for (var domain : domains1) {
-                pw.write(dr(domain));
-            }
-        }
-        try (var pw = new DomainRecordParquetFileWriter(parquetFile2)) {
-            for (var domain : domains2) {
-                pw.write(dr(domain));
-            }
-        }
-        try (var pw = new DomainLinkRecordParquetFileWriter(parquetFile3)) {
-            for (var domain : linkDomains) {
-                pw.write(dl(domain));
-            }
-        }
-        // Read them
-        var domainService = new DomainLoaderService(null, new ProcessConfiguration("test", 1, UUID.randomUUID()));
-
-        // Verify
-        Set<String> expectedDomains1 = Sets.union(new HashSet<>(domains1), new HashSet<>(domains2));
-        assertEquals(expectedDomains1, domainService.readBasicDomainInformation(new LoaderInputData(workDir, 2)).stream().map(d -> d.domain).collect(Collectors.toSet()));
-
-        Set<String> expectedDomains2 = new HashSet<>(linkDomains);
-        assertEquals(expectedDomains2, domainService.readReferencedDomainNames(new LoaderInputData(workDir, 2)));
-    }
-
-    private DomainRecord dr(String domainName) {
-        return new DomainRecord(domainName, 0, 0, 0, null, null, null, null);
-    }
-
-    private DomainLinkRecord dl(String destDomainName) {
-        return new DomainLinkRecord("www.marginalia.nu", destDomainName);
-    }
-}
\ No newline at end of file
diff --git a/code/process-mqapi/build.gradle b/code/processes/process-mq-api/build.gradle
similarity index 91%
rename from code/process-mqapi/build.gradle
rename to code/processes/process-mq-api/build.gradle
index 339c52c8..b6881432 100644
--- a/code/process-mqapi/build.gradle
+++ b/code/processes/process-mq-api/build.gradle
@@ -11,6 +11,8 @@ java {
     }
 }
 
+jar.archiveBaseName = 'process-mqapi'
+
 apply from: "$rootProject.projectDir/srcsets.gradle"
 
 dependencies {
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/ProcessInboxNames.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/ProcessInboxNames.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/ProcessInboxNames.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/ProcessInboxNames.java
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/converting/ConvertAction.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/converting/ConvertAction.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/converting/ConvertAction.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/converting/ConvertAction.java
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/converting/ConvertRequest.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/converting/ConvertRequest.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/converting/ConvertRequest.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/converting/ConvertRequest.java
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/crawling/CrawlRequest.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/crawling/CrawlRequest.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/crawling/CrawlRequest.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/crawling/CrawlRequest.java
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/index/CreateIndexRequest.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/index/CreateIndexRequest.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/index/CreateIndexRequest.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/index/CreateIndexRequest.java
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/index/IndexName.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/index/IndexName.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/index/IndexName.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/index/IndexName.java
diff --git a/code/process-mqapi/java/nu/marginalia/mqapi/loading/LoadRequest.java b/code/processes/process-mq-api/java/nu/marginalia/mqapi/loading/LoadRequest.java
similarity index 100%
rename from code/process-mqapi/java/nu/marginalia/mqapi/loading/LoadRequest.java
rename to code/processes/process-mq-api/java/nu/marginalia/mqapi/loading/LoadRequest.java
diff --git a/code/services-application/api-service/java/nu/marginalia/api/ApiSearchOperator.java b/code/services-application/api-service/java/nu/marginalia/api/ApiSearchOperator.java
index e979b86f..95145de3 100644
--- a/code/services-application/api-service/java/nu/marginalia/api/ApiSearchOperator.java
+++ b/code/services-application/api-service/java/nu/marginalia/api/ApiSearchOperator.java
@@ -8,9 +8,9 @@ import nu.marginalia.api.model.ApiSearchResults;
 import nu.marginalia.api.searchquery.QueryClient;
 import nu.marginalia.api.searchquery.model.query.QueryParams;
 import nu.marginalia.api.searchquery.model.query.SearchSetIdentifier;
-import nu.marginalia.api.searchquery.model.results.*;
+import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import nu.marginalia.index.query.limit.QueryLimits;
-import nu.marginalia.model.idx.WordMetadata;
+import nu.marginalia.model.idx.WordFlags;
 
 import java.util.ArrayList;
 import java.util.Comparator;
@@ -77,14 +77,8 @@ public class ApiSearchOperator {
         if (url.rawIndexResult != null) {
             List<ApiSearchResultQueryDetails> lst = new ArrayList<>();
             for (var entry : url.rawIndexResult.keywordScores) {
-                var metadata = new WordMetadata(entry.encodedWordMetadata());
-
-                // Skip terms that don't appear anywhere
-                if (metadata.isEmpty())
-                    continue;
-
-                Set<String> flags = metadata.flagSet().stream().map(Object::toString).collect(Collectors.toSet());
-                lst.add(new ApiSearchResultQueryDetails(entry.keyword, Long.bitCount(metadata.positions()), flags));
+                Set<String> flags = WordFlags.decode(entry.flags).stream().map(Object::toString).collect(Collectors.toSet());
+                lst.add(new ApiSearchResultQueryDetails(entry.keyword, entry.positionCount, flags));
             }
 
             details.add(lst);
diff --git a/code/services-application/search-service/java/nu/marginalia/search/model/ClusteredUrlDetails.java b/code/services-application/search-service/java/nu/marginalia/search/model/ClusteredUrlDetails.java
index faba9eb7..be1f4c2a 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/model/ClusteredUrlDetails.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/model/ClusteredUrlDetails.java
@@ -38,9 +38,6 @@ public class ClusteredUrlDetails implements Comparable<ClusteredUrlDetails> {
             for (var keywordScore : urlDetail.resultItem.keywordScores) {
                 if (keywordScore.isKeywordSpecial())
                     continue;
-                if (keywordScore.positions() == 0)
-                    continue;
-
                 if (keywordScore.hasTermFlag(WordFlags.Title))
                     return false;
                 if (keywordScore.hasTermFlag(WordFlags.ExternalLink))
diff --git a/code/services-core/control-service/build.gradle b/code/services-core/control-service/build.gradle
index 2830bd5f..f326801d 100644
--- a/code/services-core/control-service/build.gradle
+++ b/code/services-core/control-service/build.gradle
@@ -35,12 +35,12 @@ dependencies {
     implementation project(':code:functions:search-query:api')
     implementation project(':code:execution:api')
     implementation project(':code:index:api')
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
     implementation project(':code:features-search:screenshots')
     implementation project(':code:index:index-journal')
     implementation project(':code:index:query')
 
-    implementation project(':code:process-models:crawl-spec')
+    implementation project(':code:processes:crawling-process:model')
 
     implementation libs.bundles.slf4j
 
diff --git a/code/services-core/executor-service/build.gradle b/code/services-core/executor-service/build.gradle
index 7693083b..74696bf3 100644
--- a/code/services-core/executor-service/build.gradle
+++ b/code/services-core/executor-service/build.gradle
@@ -45,15 +45,15 @@ dependencies {
 
     implementation project(':code:functions:link-graph:api')
 
-    implementation project(':code:process-models:crawl-spec')
-    implementation project(':code:process-models:crawling-model')
+    implementation project(':code:processes:crawling-process:model')
+    implementation project(':code:processes:crawling-process:model')
     implementation project(':code:features-crawl:link-parser')
     implementation project(':code:features-convert:data-extractors')
     implementation project(':code:features-convert:stackexchange-xml')
     implementation project(':code:features-convert:reddit-json')
     implementation project(':code:index:index-journal')
     implementation project(':code:index:api')
-    implementation project(':code:process-mqapi')
+    implementation project(':code:processes:process-mq-api')
 
     implementation project(':code:execution')
     implementation project(':code:execution:api')
diff --git a/code/tools/experiment-runner/build.gradle b/code/tools/experiment-runner/build.gradle
index 17be5cb4..2aea9f76 100644
--- a/code/tools/experiment-runner/build.gradle
+++ b/code/tools/experiment-runner/build.gradle
@@ -32,7 +32,7 @@ dependencies {
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:term-frequency-dict')
     implementation project(':code:processes:converting-process')
-    implementation project(':code:process-models:crawling-model')
+    implementation project(':code:processes:crawling-process:model')
 
     implementation project(':third-party:commons-codec')
     implementation project(':code:features-crawl:link-parser')
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/Experiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/Experiment.java
index b5f9ff40..1797c1d6 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/Experiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/Experiment.java
@@ -1,6 +1,6 @@
 package nu.marginalia.tools;
 
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 
 import java.io.IOException;
 import java.util.HashSet;
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java b/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
index 668a25a9..a7879747 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
@@ -3,14 +3,15 @@ package nu.marginalia.tools;
 import com.google.inject.Guice;
 import com.google.inject.Injector;
 import nu.marginalia.converting.ConverterModule;
-import nu.marginalia.crawling.io.CrawledDomainReader;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
 import nu.marginalia.process.log.WorkLog;
 import nu.marginalia.service.module.DatabaseModule;
 import nu.marginalia.tools.experiments.*;
 
 import java.io.IOException;
 import java.nio.file.Path;
-import java.util.*;
+import java.util.Arrays;
+import java.util.Map;
 
 public class ExperimentRunnerMain {
 
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/LegacyExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/LegacyExperiment.java
index 5d7d8d11..effb216f 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/LegacyExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/LegacyExperiment.java
@@ -1,8 +1,8 @@
 package nu.marginalia.tools;
 
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawledDomain;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
 
 import java.io.IOException;
 import java.util.ArrayList;
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java
index 70856439..60cb6938 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java
@@ -3,8 +3,8 @@ package nu.marginalia.tools.experiments;
 import com.google.inject.Inject;
 import nu.marginalia.adblock.AdblockSimulator;
 import nu.marginalia.converting.processor.DocumentProcessor;
-import nu.marginalia.crawling.model.CrawledDocument;
-import nu.marginalia.crawling.model.CrawledDomain;
+import nu.marginalia.model.crawldata.CrawledDocument;
+import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
 import org.jsoup.Jsoup;
 import org.jsoup.nodes.Document;
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java
index d08ec90f..4f63f564 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java
@@ -7,9 +7,9 @@ import nu.marginalia.ProcessConfiguration;
 import nu.marginalia.atags.AnchorTextKeywords;
 import nu.marginalia.atags.source.AnchorTagsSource;
 import nu.marginalia.atags.source.AnchorTagsSourceFactory;
-import nu.marginalia.crawling.model.CrawledDomain;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
 
 import java.sql.SQLException;
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/DebugConverterExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/DebugConverterExperiment.java
index 8290a658..4a34a31c 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/DebugConverterExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/DebugConverterExperiment.java
@@ -3,7 +3,7 @@ package nu.marginalia.tools.experiments;
 import com.google.inject.Inject;
 import nu.marginalia.converting.processor.DomainProcessor;
 import nu.marginalia.converting.processor.plugin.specialization.BlogSpecialization;
-import nu.marginalia.crawling.model.CrawledDomain;
+import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
 import org.jsoup.Jsoup;
 
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/ExportExternalLinksExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/ExportExternalLinksExperiment.java
index f602a837..1d49536f 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/ExportExternalLinksExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/ExportExternalLinksExperiment.java
@@ -3,11 +3,11 @@ package nu.marginalia.tools.experiments;
 import com.google.inject.Inject;
 import gnu.trove.set.hash.TLongHashSet;
 import lombok.SneakyThrows;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
-import nu.marginalia.crawling.model.CrawledDocument;
 import nu.marginalia.hash.MurmurHash3_128;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.tools.Experiment;
 import org.jsoup.Jsoup;
 
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
index f83196e5..579aaa2e 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
@@ -4,11 +4,10 @@ import com.google.inject.Inject;
 import lombok.SneakyThrows;
 import nu.marginalia.WmsaHome;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
-import nu.marginalia.crawling.model.CrawledDomain;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.segmentation.NgramLexicon;
+import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import nu.marginalia.tools.LegacyExperiment;
 import org.jsoup.Jsoup;
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SiteStatisticsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SiteStatisticsExperiment.java
index 0afb290f..d69b1bda 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SiteStatisticsExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SiteStatisticsExperiment.java
@@ -3,7 +3,7 @@ package nu.marginalia.tools.experiments;
 import com.google.inject.Inject;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.processor.DomainProcessor;
-import nu.marginalia.crawling.io.SerializableCrawlDataStream;
+import nu.marginalia.io.crawldata.SerializableCrawlDataStream;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.tools.Experiment;
 
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TestExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TestExperiment.java
index 521b36e8..436b227d 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TestExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TestExperiment.java
@@ -1,6 +1,6 @@
 package nu.marginalia.tools.experiments;
 
-import nu.marginalia.crawling.model.CrawledDomain;
+import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
 
 public class TestExperiment extends LegacyExperiment {
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
index 0d99356a..ad2be0bb 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
@@ -4,8 +4,8 @@ import com.google.inject.Inject;
 import nu.marginalia.WmsaHome;
 import nu.marginalia.adblock.GoogleAnwersSpamDetector;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
-import nu.marginalia.crawling.model.CrawledDomain;
 import nu.marginalia.language.sentence.SentenceExtractor;
+import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
 import nu.marginalia.topic.RecipeDetector;
 import nu.marginalia.topic.TextileCraftDetector;
diff --git a/code/tools/integration-test/build.gradle b/code/tools/integration-test/build.gradle
index f4623a45..81e3cde9 100644
--- a/code/tools/integration-test/build.gradle
+++ b/code/tools/integration-test/build.gradle
@@ -17,10 +17,12 @@ dependencies {
     implementation project(':code:processes:crawling-process')
     implementation project(':code:processes:converting-process')
     implementation project(':code:processes:loading-process')
-    implementation project(':code:process-models:crawling-model')
-    implementation project(':code:process-models:processed-data')
+    implementation project(':code:processes:crawling-process:model')
+    implementation project(':code:processes:converting-process:model')
     implementation project(':code:processes:index-constructor-process')
     implementation project(':code:index')
+    implementation project(':code:libraries:array')
+    implementation project(':code:libraries:btree')
     implementation project(':code:functions:search-query:api')
     implementation project(':code:index:index-reverse')
     implementation project(':code:index:index-forward')
@@ -43,6 +45,8 @@ dependencies {
     implementation libs.guice
     implementation libs.fastutil
     implementation libs.trove
+
     testImplementation libs.bundles.junit
+    testImplementation project(':code:libraries:test-helpers')
 }
 
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 7f75409d..7ec8841b 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -11,8 +11,6 @@ import nu.marginalia.converting.writer.ConverterBatchWriter;
 import nu.marginalia.crawl.retreival.DomainProber;
 import nu.marginalia.crawl.retreival.fetcher.ContentTags;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.io.CrawledDomainReader;
-import nu.marginalia.crawling.parquet.CrawledDocumentParquetRecordFileWriter;
 import nu.marginalia.functions.searchquery.QueryFactory;
 import nu.marginalia.index.IndexGrpcService;
 import nu.marginalia.index.ReverseIndexFullFileNames;
@@ -23,9 +21,10 @@ import nu.marginalia.index.domainrankings.DomainRankings;
 import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
 import nu.marginalia.index.index.StatefulIndex;
-import nu.marginalia.index.journal.reader.IndexJournalReader;
+import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.searchset.SearchSetAny;
+import nu.marginalia.io.crawldata.CrawledDomainReader;
 import nu.marginalia.linkdb.docs.DocumentDbReader;
 import nu.marginalia.linkdb.docs.DocumentDbWriter;
 import nu.marginalia.loading.LoaderIndexJournalWriter;
@@ -37,9 +36,9 @@ import nu.marginalia.loading.links.DomainLinksLoaderService;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.id.UrlIdCodec;
+import nu.marginalia.parquet.crawldata.CrawledDocumentParquetRecordFileWriter;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.storage.model.FileStorageBaseType;
 import nu.marginalia.test.IntegrationTestModule;
 import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.AfterEach;
@@ -53,9 +52,7 @@ import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
 import java.util.List;
 
-import static nu.marginalia.index.journal.reader.IndexJournalReader.FILE_HEADER_SIZE_BYTES;
 import static nu.marginalia.linkdb.LinkdbFileNames.DOCDB_FILE_NAME;
-import static org.junit.jupiter.api.Assertions.assertTrue;
 import static org.mockito.ArgumentMatchers.any;
 import static org.mockito.Mockito.when;
 
@@ -179,14 +176,6 @@ public class IntegrationTest {
         documentDbWriter.close();
         keywordLoaderService.close();
 
-        Path journalFile = fileStorageService
-                .getStorageBase(FileStorageBaseType.CURRENT)
-                .asPath()
-                .resolve("iw/page-index-0000.dat");
-
-        assertTrue(Files.exists(journalFile), "Journal file not found: " + journalFile);
-        assertTrue(Files.size(journalFile) > FILE_HEADER_SIZE_BYTES, "Journal file does not contain data");
-
         /** CONSTRUCT INDEX */
 
         createForwardIndex();
@@ -248,7 +237,6 @@ public class IntegrationTest {
                 outputFileDocs,
                 outputFileWords,
                 outputFilePositions,
-                IndexJournalReader::singleFile,
                 this::addRankToIdEncoding,
                 tmpDir);
 
@@ -267,7 +255,6 @@ public class IntegrationTest {
         var constructor = new PrioIndexConstructor(
                 outputFileDocs,
                 outputFileWords,
-                (path) -> IndexJournalReader.singleFile(path).filtering(r -> r != 0),
                 this::addRankToIdEncoding,
                 tmpDir);
 
@@ -278,12 +265,14 @@ public class IntegrationTest {
 
         Path workDir = IndexLocations.getIndexConstructionArea(fileStorageService);
         Path outputFileDocsId = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_ID, ForwardIndexFileNames.FileVersion.NEXT);
+        Path outputFileSpansData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.SPANS_DATA, ForwardIndexFileNames.FileVersion.NEXT);
         Path outputFileDocsData = ForwardIndexFileNames.resolve(IndexLocations.getCurrentIndex(fileStorageService), ForwardIndexFileNames.FileIdentifier.DOC_DATA, ForwardIndexFileNames.FileVersion.NEXT);
 
         ForwardIndexConverter converter = new ForwardIndexConverter(new FakeProcessHeartbeat(),
-                IndexJournalReader.paging(workDir),
                 outputFileDocsId,
                 outputFileDocsData,
+                outputFileSpansData,
+                IndexJournal.findJournal(workDir).orElseThrow(),
                 domainRankings
         );
 
diff --git a/code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java b/code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java
index 69b94ee8..83f79fbf 100644
--- a/code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java
+++ b/code/tools/integration-test/test/nu/marginalia/test/IntegrationTestModule.java
@@ -12,8 +12,7 @@ import nu.marginalia.ProcessConfiguration;
 import nu.marginalia.WmsaHome;
 import nu.marginalia.db.DomainTypes;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.journal.writer.IndexJournalWriter;
-import nu.marginalia.index.journal.writer.IndexJournalWriterPagingImpl;
+import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.index.searchset.SearchSetAny;
 import nu.marginalia.index.searchset.SearchSetsService;
 import nu.marginalia.linkdb.docs.DocumentDbReader;
@@ -100,8 +99,9 @@ public class IntegrationTestModule extends AbstractModule {
 
             bind(ServiceEventLog.class).toInstance(Mockito.mock(ServiceEventLog.class));
 
-            bind(IndexJournalWriter.class).toInstance(new IndexJournalWriterPagingImpl(
-                    IndexLocations.getIndexConstructionArea(fileStorageServiceMock)
+            bind(IndexJournalSlopWriter.class).toInstance(new IndexJournalSlopWriter(
+                    IndexLocations.getIndexConstructionArea(fileStorageServiceMock),
+                    0
             ));
 
             bind(ServiceConfiguration.class).toInstance(new ServiceConfiguration(
diff --git a/settings.gradle b/settings.gradle
index b62fba21..78ec0028 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -70,7 +70,7 @@ include 'code:features-crawl:crawl-blocklist'
 include 'code:features-crawl:link-parser'
 include 'code:features-crawl:content-type'
 
-include 'code:process-mqapi'
+include 'code:processes:process-mq-api'
 
 include 'code:common:db'
 include 'code:common:linkdb'
@@ -81,17 +81,16 @@ include 'code:common:renderer'
 include 'code:common:process'
 
 include 'code:processes:converting-process'
+include 'code:processes:converting-process:model'
+
 include 'code:processes:crawling-process'
+include 'code:processes:crawling-process:model'
+
 include 'code:processes:loading-process'
 include 'code:processes:index-constructor-process'
 include 'code:processes:test-data'
 include 'code:processes:website-adjacencies-calculator'
 
-include 'code:process-models:crawling-model'
-include 'code:process-models:work-log'
-include 'code:process-models:crawl-spec'
-include 'code:process-models:processed-data'
-
 include 'code:tools:experiment-runner'
 include 'code:tools:screenshot-capture-tool'
 include 'code:tools:load-test'

From dcb43a330808932b25bc3c682467ce414ca81621 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 27 Jul 2024 13:47:47 +0200
Subject: [PATCH 073/216] (slop) Introduce table concept to keep track of
 positions and simplify closing

The most common error when dealing with Slop columns is that they can fall out of sync with each other if the programmer accidentally does a conditional read and forgets to skip.

The second most common error is forgetting to close one of the columns in a reader or writer.

To deal with both cases, a new class SlopTable is added that keeps track of the lifecycle of all slop columns and performs a check when closing them that they are in sync.
---
 code/index/build.gradle                       |   1 +
 .../index/forward/ForwardIndexConverter.java  |  22 +--
 .../index/journal/IndexJournalPage.java       |  41 ++---
 .../index/journal/IndexJournalSlopWriter.java |  24 +--
 .../full/FullPreindexDocuments.java           |  12 +-
 .../full/FullPreindexWordSegments.java        |   4 +-
 .../prio/PrioPreindexDocuments.java           |  10 +-
 .../prio/PrioPreindexWordSegments.java        |   6 +-
 .../marginalia/slop/column/ColumnReader.java  |   2 +
 .../marginalia/slop/column/ColumnWriter.java  |   6 +
 .../slop/column/array/ByteArrayColumn.java    |  11 +-
 .../slop/column/array/IntArrayColumn.java     |   8 +-
 .../slop/column/array/LongArrayColumn.java    |   8 +-
 .../column/dynamic/CustomBinaryColumn.java    |   8 +-
 .../dynamic/GammaCodedSequenceColumn.java     |   8 +-
 .../slop/column/dynamic/VarintColumn.java     |   7 +
 .../slop/column/primitive/ByteColumn.java     |   6 +
 .../slop/column/primitive/CharColumn.java     |   6 +
 .../slop/column/primitive/DoubleColumn.java   |   6 +
 .../slop/column/primitive/FloatColumn.java    |   8 +-
 .../slop/column/primitive/IntColumn.java      |   9 +-
 .../slop/column/primitive/LongColumn.java     |   8 +-
 .../slop/column/string/EnumColumn.java        |  12 +-
 .../slop/column/string/StringColumn.java      |  29 +++-
 .../nu/marginalia/slop/desc/ColumnDesc.java   |  31 +++-
 .../nu/marginalia/slop/desc/SlopTable.java    |  87 +++++++++++
 .../slop/column/StringColumnTest.java         |  25 +--
 .../processes/converting-process/build.gradle |   1 +
 .../model/processed/SlopDocumentRecord.java   | 144 ++++++------------
 .../model/processed/SlopDomainLinkRecord.java |  20 +--
 .../model/processed/SlopDomainRecord.java     |  95 ++++--------
 code/processes/loading-process/build.gradle   |   1 +
 32 files changed, 398 insertions(+), 268 deletions(-)
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java

diff --git a/code/index/build.gradle b/code/index/build.gradle
index db4dab20..bf50a507 100644
--- a/code/index/build.gradle
+++ b/code/index/build.gradle
@@ -22,6 +22,7 @@ dependencies {
 
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
+    implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
 
     implementation project(':code:common:db')
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
index 2edc283f..66f45736 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
@@ -9,6 +9,7 @@ import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.slop.column.primitive.LongColumnReader;
+import nu.marginalia.slop.desc.SlopTable;
 import org.roaringbitmap.longlong.LongConsumer;
 import org.roaringbitmap.longlong.Roaring64Bitmap;
 import org.slf4j.Logger;
@@ -80,16 +81,15 @@ public class ForwardIndexConverter {
 
             ByteBuffer workArea = ByteBuffer.allocate(65536);
             for (var instance : journal.pages()) {
-                try (var docIdReader = instance.openCombinedId();
-                     var metaReader = instance.openDocumentMeta();
-                     var featuresReader = instance.openFeatures();
-                     var sizeReader = instance.openSize();
-
-                     var spansCodesReader = instance.openSpanCodes();
-                     var spansSeqReader = instance.openSpans();
-                     var spansWriter = new ForwardIndexSpansWriter(outputFileSpansData)
-                     )
+                try (var slopTable = new SlopTable(); var spansWriter = new ForwardIndexSpansWriter(outputFileSpansData))
                 {
+                    var docIdReader = instance.openCombinedId(slopTable);
+                    var metaReader = instance.openDocumentMeta(slopTable);
+                    var featuresReader = instance.openFeatures(slopTable);
+                    var sizeReader = instance.openSize(slopTable);
+                    var spansCodesReader = instance.openSpanCodes(slopTable);
+                    var spansSeqReader = instance.openSpans(slopTable);
+
                     while (docIdReader.hasRemaining()) {
                         long docId = docIdReader.get();
                         int domainId = UrlIdCodec.getDomainId(docId);
@@ -148,7 +148,9 @@ public class ForwardIndexConverter {
         Roaring64Bitmap rbm = new Roaring64Bitmap();
 
         for (var instance : journalReader.pages()) {
-            try (LongColumnReader idReader = instance.openCombinedId()) {
+            try (var slopTable = new SlopTable()) {
+                LongColumnReader idReader = instance.openCombinedId(slopTable);
+
                 while (idReader.hasRemaining()) {
                     rbm.add(idReader.get());
                 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index 8b8d7c2e..ee5c1be7 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -9,6 +9,7 @@ import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.column.primitive.*;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -34,43 +35,43 @@ public record IndexJournalPage(Path baseDir, int page) {
         }
     }
 
-    public LongColumnReader openCombinedId() throws IOException {
-        return combinedId.forPage(page).open(baseDir);
+    public LongColumnReader openCombinedId(SlopTable table) throws IOException {
+        return combinedId.forPage(page).open(table, baseDir);
     }
 
-    public LongColumnReader openDocumentMeta() throws IOException {
-        return documentMeta.forPage(page).open(baseDir);
+    public LongColumnReader openDocumentMeta(SlopTable table) throws IOException {
+        return documentMeta.forPage(page).open(table, baseDir);
     }
 
-    public IntColumnReader openFeatures() throws IOException {
-        return features.forPage(page).open(baseDir);
+    public IntColumnReader openFeatures(SlopTable table) throws IOException {
+        return features.forPage(page).open(table, baseDir);
     }
 
-    public IntColumnReader openSize() throws IOException {
-        return size.forPage(page).open(baseDir);
+    public IntColumnReader openSize(SlopTable table) throws IOException {
+        return size.forPage(page).open(table, baseDir);
     }
 
-    public LongColumnReader openTermCounts() throws IOException {
-        return termCounts.forPage(page).open(baseDir);
+    public LongColumnReader openTermCounts(SlopTable table) throws IOException {
+        return termCounts.forPage(page).open(table, baseDir);
     }
 
-    public LongColumnReader openTermIds() throws IOException {
-        return termIds.forPage(page).open(baseDir);
+    public LongColumnReader openTermIds(SlopTable table) throws IOException {
+        return termIds.forPage(page).open(table.columnGroup("keywords"), baseDir);
     }
 
-    public ByteColumnReader openTermMetadata() throws IOException {
-        return termMeta.forPage(page).open(baseDir);
+    public ByteColumnReader openTermMetadata(SlopTable table) throws IOException {
+        return termMeta.forPage(page).open(table.columnGroup("keywords"), baseDir);
     }
 
-    public GammaCodedSequenceReader openTermPositions() throws IOException {
-        return positions.forPage(page).open(baseDir);
+    public GammaCodedSequenceReader openTermPositions(SlopTable table) throws IOException {
+        return positions.forPage(page).open(table.columnGroup("keywords"), baseDir);
     }
 
-    public GammaCodedSequenceReader openSpans() throws IOException {
-        return spans.forPage(page).open(baseDir);
+    public GammaCodedSequenceReader openSpans(SlopTable table) throws IOException {
+        return spans.forPage(page).open(table.columnGroup("spans"), baseDir);
     }
 
-    public ByteArrayColumnReader openSpanCodes() throws IOException {
-        return spanCodes.forPage(page).open(baseDir);
+    public ByteArrayColumnReader openSpanCodes(SlopTable table) throws IOException {
+        return spanCodes.forPage(page).open(table.columnGroup("spans"), baseDir);
     }
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index 10e4edd6..492fd605 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -10,13 +10,14 @@ import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.primitive.ByteColumnWriter;
 import nu.marginalia.slop.column.primitive.IntColumnWriter;
 import nu.marginalia.slop.column.primitive.LongColumnWriter;
+import nu.marginalia.slop.desc.SlopTable;
 
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.List;
 
-public class IndexJournalSlopWriter implements AutoCloseable {
+public class IndexJournalSlopWriter extends SlopTable {
 
     private final IntColumnWriter featuresWriter;
     private final IntColumnWriter sizeWriter;
@@ -39,19 +40,20 @@ public class IndexJournalSlopWriter implements AutoCloseable {
         }
 
 
-        featuresWriter = IndexJournalPage.features.forPage(page).create(dir);
-        sizeWriter = IndexJournalPage.size.forPage(page).create(dir);
+        featuresWriter = IndexJournalPage.features.forPage(page).create(this, dir);
+        sizeWriter = IndexJournalPage.size.forPage(page).create(this, dir);
 
-        combinedIdWriter = IndexJournalPage.combinedId.forPage(page).create(dir);
-        documentMetaWriter = IndexJournalPage.documentMeta.forPage(page).create(dir);
+        combinedIdWriter = IndexJournalPage.combinedId.forPage(page).create(this, dir);
+        documentMetaWriter = IndexJournalPage.documentMeta.forPage(page).create(this, dir);
 
-        termCountsWriter = IndexJournalPage.termCounts.forPage(page).create(dir);
-        termIdsWriter = IndexJournalPage.termIds.forPage(page).create(dir);
-        termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(dir);
-        termPositionsWriter = IndexJournalPage.positions.forPage(page).create(dir);
+        termCountsWriter = IndexJournalPage.termCounts.forPage(page).create(this, dir);
 
-        spansWriter = IndexJournalPage.spans.forPage(page).create(dir);
-        spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(dir);
+        termIdsWriter = IndexJournalPage.termIds.forPage(page).create(this.columnGroup("keywords"), dir);
+        termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(this.columnGroup("keywords"), dir);
+        termPositionsWriter = IndexJournalPage.positions.forPage(page).create(this.columnGroup("keywords"), dir);
+
+        spansWriter = IndexJournalPage.spans.forPage(page).create(this.columnGroup("spans"), dir);
+        spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(this.columnGroup("spans"), dir);
     }
 
     @SneakyThrows
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 9cadeb41..7418f92a 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -7,6 +7,7 @@ import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.rwf.RandomFileAssembler;
+import nu.marginalia.slop.desc.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -78,12 +79,13 @@ public class FullPreindexDocuments {
         final ByteBuffer tempBuffer = ByteBuffer.allocate(65536);
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var docIds = journalInstance.openCombinedId();
-             var termCounts = journalInstance.openTermCounts();
-             var termIds = journalInstance.openTermIds();
-             var termMeta = journalInstance.openTermMetadata();
-             var positions = journalInstance.openTermPositions())
+             var slopTable = new SlopTable())
         {
+            var docIds = journalInstance.openCombinedId(slopTable);
+            var termCounts = journalInstance.openTermCounts(slopTable);
+            var termIds = journalInstance.openTermIds(slopTable);
+            var termMeta = journalInstance.openTermMetadata(slopTable);
+            var positions = journalInstance.openTermPositions(slopTable);
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index 120b1326..51987a36 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -6,6 +6,7 @@ import it.unimi.dsi.fastutil.longs.LongIterator;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.journal.IndexJournalPage;
+import nu.marginalia.slop.desc.SlopTable;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -59,7 +60,8 @@ public class FullPreindexWordSegments {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
 
-        try (var termIds = journalInstance.openTermIds()) {
+        try (var slopTable = new SlopTable()) {
+            var termIds = journalInstance.openTermIds(slopTable);
             while (termIds.hasRemaining()) {
                 countsMap.addTo(termIds.get(), 1);
             }
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index bdda5a4f..e5ab2409 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -6,6 +6,7 @@ import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.rwf.RandomFileAssembler;
+import nu.marginalia.slop.desc.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -67,11 +68,12 @@ public class PrioPreindexDocuments {
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var docIds = journalInstance.openCombinedId();
-             var termIdsCounts = journalInstance.openTermCounts();
-             var termIds = journalInstance.openTermIds();
-             var termMeta = journalInstance.openTermMetadata())
+             var slopTable = new SlopTable())
         {
+            var docIds = journalInstance.openCombinedId(slopTable);
+            var termIdsCounts = journalInstance.openTermCounts(slopTable);
+            var termIds = journalInstance.openTermIds(slopTable);
+            var termMeta = journalInstance.openTermMetadata(slopTable);
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
index c2fe2e96..a30d8a5f 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -6,6 +6,7 @@ import it.unimi.dsi.fastutil.longs.LongIterator;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.journal.IndexJournalPage;
+import nu.marginalia.slop.desc.SlopTable;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -59,8 +60,9 @@ public class PrioPreindexWordSegments {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
 
-        try (var termIds = journalInstance.openTermIds();
-             var termMetas = journalInstance.openTermMetadata()) {
+        try (var slopTable = new SlopTable()) {
+            var termIds = journalInstance.openTermIds(slopTable);
+            var termMetas = journalInstance.openTermMetadata(slopTable);
 
             while (termIds.hasRemaining()) {
                 long data = termIds.get();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
index 89a87740..644ee788 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
@@ -11,4 +11,6 @@ public interface ColumnReader {
     }
 
     boolean hasRemaining() throws IOException;
+
+    void close() throws IOException;
 }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
index 00e06ae2..661a4021 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
@@ -1,4 +1,10 @@
 package nu.marginalia.slop.column;
 
+import java.io.IOException;
+
 public interface ColumnWriter {
+    /** Return the current record index in the column */
+    long position();
+
+    void close() throws IOException;
 }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
index 24165be4..f641de3f 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
@@ -19,7 +19,7 @@ public class ByteArrayColumn {
         return new Reader(
                 Storage.reader(path, name, true),
                 VarintColumn.open(path,
-                        name.createDerivative(name.function().lengthsTable(),
+                        name.createSupplementaryColumn(name.function().lengthsTable(),
                                 ColumnType.VARINT_LE,
                                 StorageType.PLAIN)
                 )
@@ -30,7 +30,7 @@ public class ByteArrayColumn {
         return new Writer(
                 Storage.writer(path, name),
                 VarintColumn.create(path,
-                        name.createDerivative(name.function().lengthsTable(),
+                        name.createSupplementaryColumn(name.function().lengthsTable(),
                                 ColumnType.VARINT_LE,
                                 StorageType.PLAIN)
                 )
@@ -41,16 +41,23 @@ public class ByteArrayColumn {
         private final StorageWriter storage;
         private final VarintColumnWriter lengthsWriter;
 
+        private long position = 0;
+
         public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
             this.storage = storage;
             this.lengthsWriter = lengthsWriter;
         }
 
         public void put(byte[] value) throws IOException {
+            position ++;
             storage.putBytes(value);
             lengthsWriter.put(value.length);
         }
 
+        public long position() {
+            return position;
+        }
+
         public void close() throws IOException {
             storage.close();
             lengthsWriter.close();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
index 4aeb1fcf..c5a1421c 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
@@ -17,7 +17,7 @@ public class IntArrayColumn {
 
     public static IntArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
         return new Reader(Storage.reader(path, name, true),
-                VarintColumn.open(path, name.createDerivative(name.function().lengthsTable(),
+                VarintColumn.open(path, name.createSupplementaryColumn(name.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -26,7 +26,7 @@ public class IntArrayColumn {
 
     public static IntArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
         return new Writer(Storage.writer(path, name),
-                VarintColumn.create(path, name.createDerivative(name.function().lengthsTable(),
+                VarintColumn.create(path, name.createSupplementaryColumn(name.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -47,6 +47,10 @@ public class IntArrayColumn {
             lengthsWriter.put(value.length);
         }
 
+        public long position() {
+            return lengthsWriter.position();
+        }
+
         public void close() throws IOException {
             storage.close();
             lengthsWriter.close();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
index abe96f6e..b805a085 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
@@ -17,7 +17,7 @@ public class LongArrayColumn {
 
     public static LongArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
         return new LongArrayColumn.Reader(Storage.reader(path, name, true),
-                VarintColumn.open(path, name.createDerivative(name.function().lengthsTable(),
+                VarintColumn.open(path, name.createSupplementaryColumn(name.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -26,7 +26,7 @@ public class LongArrayColumn {
 
     public static LongArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
         return new LongArrayColumn.Writer(Storage.writer(path, name),
-                VarintColumn.create(path, name.createDerivative(name.function().lengthsTable(),
+                VarintColumn.create(path, name.createSupplementaryColumn(name.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -47,6 +47,10 @@ public class LongArrayColumn {
             lengthsWriter.put(value.length);
         }
 
+        public long position() {
+            return lengthsWriter.position();
+        }
+
         public void close() throws IOException {
             storage.close();
             lengthsWriter.close();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
index 1bc8d350..910a02a2 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
@@ -16,7 +16,7 @@ public class CustomBinaryColumn {
     public static CustomBinaryColumnReader open(Path path, ColumnDesc name) throws IOException {
         return new Reader(
                 Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
-                VarintColumn.open(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                VarintColumn.open(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -26,7 +26,7 @@ public class CustomBinaryColumn {
     public static CustomBinaryColumnWriter create(Path path, ColumnDesc name) throws IOException {
         return new Writer(
                 Storage.writer(path, name),
-                VarintColumn.create(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                VarintColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -62,6 +62,10 @@ public class CustomBinaryColumn {
             };
         }
 
+        public long position() {
+            return indexWriter.position();
+        }
+
         public void close() throws IOException {
             indexWriter.close();
             storage.close();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
index 55e19f80..cead27b6 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
@@ -18,7 +18,7 @@ public class GammaCodedSequenceColumn {
     public static GammaCodedSequenceReader open(Path path, ColumnDesc name) throws IOException {
         return new Reader(
                 Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
-                VarintColumn.open(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                VarintColumn.open(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -28,7 +28,7 @@ public class GammaCodedSequenceColumn {
     public static GammaCodedSequenceWriter create(Path path, ColumnDesc name) throws IOException {
         return new Writer(
                 Storage.writer(path, name),
-                VarintColumn.create(path, name.createDerivative(ColumnFunction.DATA_LEN,
+                VarintColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -57,6 +57,10 @@ public class GammaCodedSequenceColumn {
             storage.putBytes(buffer);
         }
 
+        public long position() {
+            return indexWriter.position();
+        }
+
         public void close() throws IOException {
             indexWriter.close();
             storage.close();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
index c0236028..aee6409b 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
@@ -21,12 +21,15 @@ public class VarintColumn {
 
     private static class Writer implements VarintColumnWriter {
         private final StorageWriter writer;
+        private long position = 0;
 
         public Writer(StorageWriter writer) throws IOException {
             this.writer = writer;
         }
 
         public void put(long value) throws IOException {
+            position++;
+
             while ((value & ~0x7F) != 0) {
                 writer.putByte((byte) (0x80 | (value & 0x7F)));
                 value >>>= 7;
@@ -40,6 +43,10 @@ public class VarintColumn {
             }
         }
 
+        public long position() {
+            return position;
+        }
+
         public void close() throws IOException {
             writer.close();
         }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
index 28c481f0..3bb116f5 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
@@ -20,6 +20,7 @@ public class ByteColumn {
 
     private static class Writer implements ByteColumnWriter {
         private final StorageWriter storage;
+        private long position = 0;
 
         public Writer(StorageWriter storageWriter) throws IOException {
             this.storage = storageWriter;
@@ -27,6 +28,11 @@ public class ByteColumn {
 
         public void put(byte value) throws IOException {
             storage.putByte(value);
+            position++;
+        }
+
+        public long position() {
+            return position;
         }
 
         public void close() throws IOException {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
index f46fd783..a200e5b4 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
@@ -20,6 +20,7 @@ public class CharColumn {
 
     private static class Writer implements CharColumnWriter {
         private final StorageWriter storage;
+        private long position = 0;
 
         public Writer(StorageWriter storageWriter) throws IOException {
             this.storage = storageWriter;
@@ -27,6 +28,11 @@ public class CharColumn {
 
         public void put(char value) throws IOException {
             storage.putChar(value);
+            position++;
+        }
+
+        public long position() {
+            return position / Character.BYTES;
         }
 
         public void close() throws IOException {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
index 3faeaf09..1389e1c7 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
@@ -20,6 +20,7 @@ public class DoubleColumn {
 
     private static class Writer implements DoubleColumnWriter {
         private final StorageWriter storage;
+        private long position = 0;
 
         public Writer(StorageWriter storageWriter) throws IOException {
             this.storage = storageWriter;
@@ -27,6 +28,11 @@ public class DoubleColumn {
 
         public void put(double value) throws IOException {
             storage.putDouble(value);
+            position++;
+        }
+
+        public long position() {
+            return position / Double.BYTES;
         }
 
         public void close() throws IOException {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
index 7a18f752..fa5351d9 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
@@ -21,6 +21,7 @@ public class FloatColumn {
 
     private static class Writer implements FloatColumnWriter {
         private final StorageWriter storage;
+        private long position = 0;
 
         public Writer(StorageWriter storageWriter) throws IOException {
             this.storage = storageWriter;
@@ -28,6 +29,11 @@ public class FloatColumn {
 
         public void put(float value) throws IOException {
             storage.putFloat(value);
+            position++;
+        }
+
+        public long position() {
+            return position;
         }
 
         public void close() throws IOException {
@@ -48,7 +54,7 @@ public class FloatColumn {
 
         @Override
         public long position() throws IOException {
-            return storage.position();
+            return storage.position() / Float.BYTES;
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
index 4920c978..97a446db 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
@@ -20,6 +20,7 @@ public class IntColumn {
 
     private static class Writer implements IntColumnWriter {
         private final StorageWriter storage;
+        private long position = 0;
 
         public Writer(StorageWriter storageWriter) throws IOException {
             this.storage = storageWriter;
@@ -29,10 +30,16 @@ public class IntColumn {
             for (int value : values) {
                 storage.putInt(value);
             }
+            position+=values.length;
         }
 
         public void put(int value) throws IOException {
             storage.putInt(value);
+            position++;
+        }
+
+        public long position() {
+            return position / Integer.BYTES;
         }
 
         public void close() throws IOException {
@@ -53,7 +60,7 @@ public class IntColumn {
 
         @Override
         public long position() throws IOException {
-            return storage.position();
+            return storage.position() / Integer.BYTES;
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
index e2eac930..ac1e72f7 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
@@ -20,6 +20,7 @@ public class LongColumn {
 
     private static class Writer implements LongColumnWriter {
         private final StorageWriter storage;
+        private long position = 0;
 
         public Writer(StorageWriter storageWriter) {
             this.storage = storageWriter;
@@ -27,6 +28,11 @@ public class LongColumn {
 
         public void put(long value) throws IOException {
             storage.putLong(value);
+            position++;
+        }
+
+        public long position() {
+            return position;
         }
 
         public void close() throws IOException {
@@ -47,7 +53,7 @@ public class LongColumn {
 
         @Override
         public long position() throws IOException {
-            return storage.position();
+            return storage.position() / Long.BYTES;
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
index 0a4f2845..c8383a7e 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
@@ -19,13 +19,13 @@ public class EnumColumn {
     public static StringColumnReader open(Path path, ColumnDesc name) throws IOException {
         return new Reader(
                 StringColumn.open(path,
-                        name.createDerivative(
+                        name.createSupplementaryColumn(
                                 ColumnFunction.DICT,
                                 ColumnType.TXTSTRING,
                                 StorageType.PLAIN)
                 ),
                 VarintColumn.open(path,
-                        name.createDerivative(
+                        name.createSupplementaryColumn(
                                 ColumnFunction.DATA,
                                 ColumnType.ENUM_LE,
                                 StorageType.PLAIN
@@ -36,8 +36,8 @@ public class EnumColumn {
 
     public static StringColumnWriter create(Path path, ColumnDesc name) throws IOException {
         return new Writer(
-                StringColumn.create(path, name.createDerivative(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
-                VarintColumn.create(path, name.createDerivative(ColumnFunction.DATA, ColumnType.ENUM_LE, StorageType.PLAIN))
+                StringColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
+                VarintColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.ENUM_LE, StorageType.PLAIN))
         );
     }
 
@@ -64,6 +64,10 @@ public class EnumColumn {
             dataColumn.put(index);
         }
 
+        public long position() {
+            return dataColumn.position();
+        }
+
         public void close() throws IOException {
             dataColumn.close();
             dicionaryColumn.close();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
index 14424f71..4daaa308 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
@@ -51,6 +51,10 @@ public class StringColumn {
             backingColumn.put(value.getBytes());
         }
 
+        public long position() {
+            return backingColumn.position();
+        }
+
         public void close() throws IOException {
             backingColumn.close();
         }
@@ -92,6 +96,8 @@ public class StringColumn {
     private static class CStringWriter implements StringColumnWriter {
         private final StorageWriter storageWriter;
 
+        private long position = 0;
+
         public CStringWriter(StorageWriter storageWriter) throws IOException {
             this.storageWriter = storageWriter;
         }
@@ -100,10 +106,14 @@ public class StringColumn {
             if (null == value) {
                 value = "";
             }
-
             assert value.indexOf('\0') == -1 : "Null byte not allowed in cstring";
             storageWriter.putBytes(value.getBytes());
             storageWriter.putByte((byte) 0);
+            position++;
+        }
+
+        public long position() {
+            return position;
         }
 
         public void close() throws IOException {
@@ -113,6 +123,7 @@ public class StringColumn {
 
     private static class CStringReader implements StringColumnReader {
         private final StorageReader storageReader;
+        private long position = 0;
 
         public CStringReader(StorageReader storageReader) throws IOException {
             this.storageReader = storageReader;
@@ -124,12 +135,13 @@ public class StringColumn {
             while (storageReader.hasRemaining() && (b = storageReader.getByte()) != 0) {
                 sb.append((char) b);
             }
+            position++;
             return sb.toString();
         }
 
         @Override
         public long position() throws IOException {
-            return storageReader.position();
+            return position;
         }
 
         @Override
@@ -141,6 +153,7 @@ public class StringColumn {
                     i++;
                 }
             }
+            position += positions;
         }
 
         @Override
@@ -157,6 +170,7 @@ public class StringColumn {
 
     private static class TxtStringWriter implements StringColumnWriter {
         private final StorageWriter storageWriter;
+        private long position = 0;
 
         public TxtStringWriter(StorageWriter storageWriter) throws IOException {
             this.storageWriter = storageWriter;
@@ -171,6 +185,11 @@ public class StringColumn {
 
             storageWriter.putBytes(value.getBytes());
             storageWriter.putByte((byte) '\n');
+            position++;
+        }
+
+        public long position() {
+            return position;
         }
 
         public void close() throws IOException {
@@ -180,6 +199,7 @@ public class StringColumn {
 
     private static class TxtStringReader implements StringColumnReader {
         private final StorageReader storageReader;
+        private long position = 0;
 
         public TxtStringReader(StorageReader storageReader) throws IOException {
             this.storageReader = storageReader;
@@ -197,18 +217,21 @@ public class StringColumn {
                     sb.append((char) b);
                 }
             }
+            position++;
             return sb.toString();
         }
 
         @Override
         public long position() throws IOException {
-            return storageReader.position();
+            return position;
         }
 
         @Override
         public void skip(long positions) throws IOException {
             int i = 0;
 
+            position+=positions;
+
             while (i < positions && storageReader.hasRemaining()) {
                 if (storageReader.getByte() == '\n') {
                     i++;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
index 93d31a54..e5120fbd 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
@@ -36,20 +36,35 @@ public record ColumnDesc<R extends ColumnReader,
         this(name, 0, ColumnFunction.DATA, type, storageType);
     }
 
-    public R open(Path path) throws IOException {
-        return type.open(path, this);
+    /** Open a column reader for this column.
+     *
+     * @param table the table to register the reader with
+     * @param path the path to the file to read from
+     * */
+    public R open(SlopTable table, Path path) throws IOException {
+        var reader = type.open(path, this);
+        table.register(reader);
+        return reader;
     }
 
-    public W create(Path path) throws IOException {
-        return type.register(path, this);
+    /** Create a new column writer for this column.
+     *
+     * @param table the table to register the writer with
+     * @param path the path to the file to write to
+     * */
+    public W create(SlopTable table, Path path) throws IOException {
+        var writer = type.register(path, this);
+        table.register(writer);
+        return writer;
     }
 
-    public ColumnDesc createDerivative(
+    public <R2 extends ColumnReader, W2 extends ColumnWriter >
+    ColumnDesc<R2, W2> createSupplementaryColumn(
             ColumnFunction function,
-            ColumnType type,
+            ColumnType<R2, W2> type,
             StorageType storageType)
     {
-        return new ColumnDesc(name, page, function, type, storageType);
+        return new ColumnDesc<>(name, page, function, type, storageType);
     }
 
     public ByteOrder byteOrder() {
@@ -57,7 +72,7 @@ public record ColumnDesc<R extends ColumnReader,
     }
 
     public ColumnDesc<R, W> forPage(int page) {
-        return new ColumnDesc(name, page, function, type, storageType);
+        return new ColumnDesc<>(name, page, function, type, storageType);
     }
 
     public boolean exists(Path base) {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
new file mode 100644
index 00000000..3d018eca
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
@@ -0,0 +1,87 @@
+package nu.marginalia.slop.desc;
+
+import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ColumnWriter;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+import java.io.IOException;
+import java.util.*;
+
+/** SlopTable is a utility class for managing a group of columns that are
+ * read and written together.  It is used to ensure that the reader and writer
+ * positions are maintained correctly between the columns, and to ensure that
+ * the columns are closed correctly.
+ * <p></p>
+ * To deal with the fact that some columns may not be expected to have the same
+ * number of rows, SlopTable supports the concept of column groups.  Each column
+ * group is a separate SlopTable instance, and the columns in the group are
+ * managed together.
+ * <p></p>
+ * It is often a good idea to let the reader or writer class for a particular
+ * table inherit from SlopTable, so that the table is automatically closed when
+ * the reader or writer is closed.
+ */
+
+public class SlopTable implements AutoCloseable {
+    private final List<ColumnReader> readerList = new ArrayList<>();
+    private final List<ColumnWriter> writerList = new ArrayList<>();
+
+    private final Map<String, SlopTable> columnGroups = new HashMap<>();
+
+    private static final Logger logger = LoggerFactory.getLogger(SlopTable.class);
+
+    /** Create a SlopTable corresponding to a grouping of  columns that have their own
+     * internal consistency check.  This is needed e.g. for grouped values.  The table is
+     * closed automatically by the current instance.
+     */
+    public SlopTable columnGroup(String name) {
+        return columnGroups.computeIfAbsent(name, k -> new SlopTable());
+    }
+
+    /** Register a column reader with this table.  This is called from ColumnDesc. */
+    void register(ColumnReader reader) {
+        readerList.add(reader);
+    }
+
+    /** Register a column reader with this table.  This is called from ColumnDesc. */
+    void register(ColumnWriter writer) {
+        writerList.add(writer);
+    }
+
+    public void close() throws IOException {
+
+        Set<Long> positions = new HashSet<>();
+
+        for (ColumnReader reader : readerList) {
+            positions.add(reader.position());
+            reader.close();
+        }
+        for (ColumnWriter writer : writerList) {
+            positions.add(writer.position());
+            writer.close();
+        }
+
+
+        // Check for the scenario where we have multiple positions
+        // and one of the positions is zero, indicating that we haven't
+        // read or written to one of the columns.  This is likely a bug,
+        // but not necessarily a severe one, so we just log a warning.
+
+        if (positions.remove(0L) && !positions.isEmpty()) {
+            logger.warn("Zero position found in one of the tables, this is likely development debris");
+        }
+
+        // If there are more than one position and several are non-zero, then we haven't maintained the
+        // position correctly between the columns.  This is a disaster, so we throw an exception.
+        if (positions.size() > 1) {
+            throw new IllegalStateException("Expected only one reader position, was " + positions);
+        }
+
+        for (var table : columnGroups.values()) {
+            table.close();
+        }
+
+    }
+
+}
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
index 486bc191..800c93eb 100644
--- a/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
@@ -1,9 +1,6 @@
 package nu.marginalia.slop.column;
 
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.desc.*;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -61,11 +58,15 @@ class StringColumnTest {
                 ColumnType.STRING,
                 StorageType.GZIP);
 
-        try (var column = name.create(tempDir)) {
+        try (var table = new SlopTable()) {
+            var column = name.create(table, tempDir);
+
             column.put("Lorem");
             column.put("Ipsum");
         }
-        try (var column = name.open(tempDir)) {
+        try (var table = new SlopTable()) {
+            var column = name.open(table, tempDir);
+
             assertEquals("Lorem", column.get());
             assertEquals("Ipsum", column.get());
             assertFalse(column.hasRemaining());
@@ -80,11 +81,13 @@ class StringColumnTest {
                 ColumnType.CSTRING,
                 StorageType.GZIP);
 
-        try (var column = name.create(tempDir)) {
+        try (var table = new SlopTable()) {
+            var column = name.create(table, tempDir);
             column.put("Lorem");
             column.put("Ipsum");
         }
-        try (var column = name.open(tempDir)) {
+        try (var table = new SlopTable()) {
+            var column = name.open(table, tempDir);
             assertEquals("Lorem", column.get());
             assertEquals("Ipsum", column.get());
             assertFalse(column.hasRemaining());
@@ -99,11 +102,13 @@ class StringColumnTest {
                 ColumnType.TXTSTRING,
                 StorageType.GZIP);
 
-        try (var column = name.create(tempDir)) {
+        try (var table = new SlopTable()) {
+            var column = name.create(table, tempDir);
             column.put("Lorem");
             column.put("Ipsum");
         }
-        try (var column = name.open(tempDir)) {
+        try (var table = new SlopTable()) {
+            var column = name.open(table, tempDir);
             assertEquals("Lorem", column.get());
             assertEquals("Ipsum", column.get());
             assertFalse(column.hasRemaining());
diff --git a/code/processes/converting-process/build.gradle b/code/processes/converting-process/build.gradle
index 942c8acd..1dd1edb9 100644
--- a/code/processes/converting-process/build.gradle
+++ b/code/processes/converting-process/build.gradle
@@ -36,6 +36,7 @@ dependencies {
     implementation project(':code:common:config')
     implementation project(':code:libraries:message-queue')
     implementation project(':code:libraries:blocking-thread-pool')
+    implementation project(':code:libraries:slop')
 
     implementation project(':code:libraries:guarded-regex')
     implementation project(':code:libraries:easy-lsh')
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 177eaf9a..a654af5d 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -14,6 +14,7 @@ import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -119,7 +120,7 @@ public record SlopDocumentRecord(
     private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
     private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spansColumn = new ColumnDesc<>("spans", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
 
-    public static class KeywordsProjectionReader implements AutoCloseable {
+    public static class KeywordsProjectionReader extends SlopTable {
         private final StringColumnReader domainsReader;
         private final VarintColumnReader ordinalsReader;
         private final IntColumnReader htmlFeaturesReader;
@@ -140,17 +141,19 @@ public record SlopDocumentRecord(
         }
 
         public KeywordsProjectionReader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(baseDir);
-            ordinalsReader = ordinalsColumn.forPage(page).open(baseDir);
-            htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(baseDir);
-            domainMetadataReader = domainMetadata.forPage(page).open(baseDir);
-            lengthsReader = lengthsColumn.forPage(page).open(baseDir);
-            keywordsReader = keywordsColumn.forPage(page).open(baseDir);
-            termCountsReader = termCountsColumn.forPage(page).open(baseDir);
-            termMetaReader = termMetaColumn.forPage(page).open(baseDir);
-            termPositionsReader = termPositionsColumn.forPage(page).open(baseDir);
-            spanCodesReader = spanCodesColumn.forPage(page).open(baseDir);
-            spansReader = spansColumn.forPage(page).open(baseDir);
+            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
+            ordinalsReader = ordinalsColumn.forPage(page).open(this, baseDir);
+            htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(this, baseDir);
+            domainMetadataReader = domainMetadata.forPage(page).open(this, baseDir);
+            lengthsReader = lengthsColumn.forPage(page).open(this, baseDir);
+            termCountsReader = termCountsColumn.forPage(page).open(this, baseDir);
+
+            keywordsReader = keywordsColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
+            termMetaReader = termMetaColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
+            termPositionsReader = termPositionsColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
+
+            spanCodesReader = spanCodesColumn.forPage(page).open(this.columnGroup("spans"), baseDir);
+            spansReader = spansColumn.forPage(page).open(this.columnGroup("spans"), baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -197,22 +200,9 @@ public record SlopDocumentRecord(
             );
         }
 
-
-        public void close() throws IOException {
-            domainsReader.close();
-            ordinalsReader.close();
-            htmlFeaturesReader.close();
-            domainMetadataReader.close();
-            lengthsReader.close();
-            keywordsReader.close();
-            termMetaReader.close();
-            termPositionsReader.close();
-            spanCodesReader.close();
-            spansReader.close();
-        }
     }
 
-    public static class MetadataReader implements AutoCloseable {
+    public static class MetadataReader extends SlopTable {
         private final StringColumnReader domainsReader;
         private final StringColumnReader urlsReader;
         private final VarintColumnReader ordinalsReader;
@@ -230,17 +220,17 @@ public record SlopDocumentRecord(
         }
 
         public MetadataReader(Path baseDir, int page) throws IOException {
-            this.domainsReader = domainsColumn.forPage(page).open(baseDir);
-            this.urlsReader = urlsColumn.forPage(page).open(baseDir);
-            this.ordinalsReader = ordinalsColumn.forPage(page).open(baseDir);
-            this.titlesReader = titlesColumn.forPage(page).open(baseDir);
-            this.descriptionsReader = descriptionsColumn.forPage(page).open(baseDir);
-            this.htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(baseDir);
-            this.htmlStandardsReader = htmlStandardsColumn.forPage(page).open(baseDir);
-            this.lengthsReader = lengthsColumn.forPage(page).open(baseDir);
-            this.hashesReader = hashesColumn.forPage(page).open(baseDir);
-            this.qualitiesReader = qualitiesColumn.forPage(page).open(baseDir);
-            this.pubYearReader = pubYearColumn.forPage(page).open(baseDir);
+            this.domainsReader = domainsColumn.forPage(page).open(this, baseDir);
+            this.urlsReader = urlsColumn.forPage(page).open(this, baseDir);
+            this.ordinalsReader = ordinalsColumn.forPage(page).open(this, baseDir);
+            this.titlesReader = titlesColumn.forPage(page).open(this, baseDir);
+            this.descriptionsReader = descriptionsColumn.forPage(page).open(this, baseDir);
+            this.htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(this, baseDir);
+            this.htmlStandardsReader = htmlStandardsColumn.forPage(page).open(this, baseDir);
+            this.lengthsReader = lengthsColumn.forPage(page).open(this, baseDir);
+            this.hashesReader = hashesColumn.forPage(page).open(this, baseDir);
+            this.qualitiesReader = qualitiesColumn.forPage(page).open(this, baseDir);
+            this.pubYearReader = pubYearColumn.forPage(page).open(this, baseDir);
         }
 
         public MetadataProjection next() throws IOException {
@@ -264,22 +254,9 @@ public record SlopDocumentRecord(
             return domainsReader.hasRemaining();
         }
 
-        public void close() throws IOException {
-            domainsReader.close();
-            urlsReader.close();
-            ordinalsReader.close();
-            titlesReader.close();
-            descriptionsReader.close();
-            htmlFeaturesReader.close();
-            htmlStandardsReader.close();
-            lengthsReader.close();
-            hashesReader.close();
-            qualitiesReader.close();
-            pubYearReader.close();
-        }
     }
 
-    public static class Writer implements AutoCloseable {
+    public static class Writer extends SlopTable {
         private final StringColumnWriter domainsWriter;
         private final StringColumnWriter urlsWriter;
         private final VarintColumnWriter ordinalsWriter;
@@ -302,27 +279,28 @@ public record SlopDocumentRecord(
         private final GammaCodedSequenceWriter spansWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            domainsWriter = domainsColumn.forPage(page).create(baseDir);
-            urlsWriter = urlsColumn.forPage(page).create(baseDir);
-            ordinalsWriter = ordinalsColumn.forPage(page).create(baseDir);
-            statesWriter = statesColumn.forPage(page).create(baseDir);
-            stateReasonsWriter = stateReasonsColumn.forPage(page).create(baseDir);
-            titlesWriter = titlesColumn.forPage(page).create(baseDir);
-            descriptionsWriter = descriptionsColumn.forPage(page).create(baseDir);
-            htmlFeaturesWriter = htmlFeaturesColumn.forPage(page).create(baseDir);
-            htmlStandardsWriter = htmlStandardsColumn.forPage(page).create(baseDir);
-            lengthsWriter = lengthsColumn.forPage(page).create(baseDir);
-            hashesWriter = hashesColumn.forPage(page).create(baseDir);
-            qualitiesWriter = qualitiesColumn.forPage(page).create(baseDir);
-            domainMetadataWriter = domainMetadata.forPage(page).create(baseDir);
-            pubYearWriter = pubYearColumn.forPage(page).create(baseDir);
-            termCountsWriter = termCountsColumn.forPage(page).create(baseDir);
-            keywordsWriter = keywordsColumn.forPage(page).create(baseDir);
-            termMetaWriter = termMetaColumn.forPage(page).create(baseDir);
-            termPositionsWriter = termPositionsColumn.forPage(page).create(baseDir);
+            domainsWriter = domainsColumn.forPage(page).create(this, baseDir);
+            urlsWriter = urlsColumn.forPage(page).create(this, baseDir);
+            ordinalsWriter = ordinalsColumn.forPage(page).create(this, baseDir);
+            statesWriter = statesColumn.forPage(page).create(this, baseDir);
+            stateReasonsWriter = stateReasonsColumn.forPage(page).create(this, baseDir);
+            titlesWriter = titlesColumn.forPage(page).create(this, baseDir);
+            descriptionsWriter = descriptionsColumn.forPage(page).create(this, baseDir);
+            htmlFeaturesWriter = htmlFeaturesColumn.forPage(page).create(this, baseDir);
+            htmlStandardsWriter = htmlStandardsColumn.forPage(page).create(this, baseDir);
+            lengthsWriter = lengthsColumn.forPage(page).create(this, baseDir);
+            hashesWriter = hashesColumn.forPage(page).create(this, baseDir);
+            qualitiesWriter = qualitiesColumn.forPage(page).create(this, baseDir);
+            domainMetadataWriter = domainMetadata.forPage(page).create(this, baseDir);
+            pubYearWriter = pubYearColumn.forPage(page).create(this, baseDir);
+            termCountsWriter = termCountsColumn.forPage(page).create(this, baseDir);
 
-            spansWriter = spansColumn.forPage(page).create(baseDir);
-            spansCodesWriter = spanCodesColumn.forPage(page).create(baseDir);
+            keywordsWriter = keywordsColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
+            termMetaWriter = termMetaColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
+            termPositionsWriter = termPositionsColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
+
+            spansWriter = spansColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
+            spansCodesWriter = spanCodesColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
         }
 
         public void write(SlopDocumentRecord record) throws IOException {
@@ -367,29 +345,5 @@ public record SlopDocumentRecord(
             }
 
         }
-
-        public void close() throws IOException {
-            domainsWriter.close();
-            urlsWriter.close();
-            ordinalsWriter.close();
-            statesWriter.close();
-            stateReasonsWriter.close();
-            titlesWriter.close();
-            descriptionsWriter.close();
-            htmlFeaturesWriter.close();
-            htmlStandardsWriter.close();
-            lengthsWriter.close();
-            hashesWriter.close();
-            qualitiesWriter.close();
-            domainMetadataWriter.close();
-            pubYearWriter.close();
-            termCountsWriter.close();
-            keywordsWriter.close();
-            termMetaWriter.close();
-            termPositionsWriter.close();
-
-            spansCodesWriter.close();
-            spansWriter.close();
-        }
     }
 }
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index d0b3c6d6..7cb3b7df 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -4,6 +4,7 @@ import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -21,7 +22,7 @@ public record SlopDomainLinkRecord(
         return new Reader(baseDir, page);
     }
 
-    public static class Reader implements AutoCloseable {
+    public static class Reader extends SlopTable {
         private final StringColumnReader sourcesReader;
         private final StringColumnReader destsReader;
 
@@ -30,15 +31,8 @@ public record SlopDomainLinkRecord(
         }
 
         public Reader(Path baseDir, int page) throws IOException {
-            sourcesReader = sourcesColumn.forPage(page).open(baseDir);
-            destsReader = destsColumn.forPage(page).open(baseDir);
-        }
-
-
-        @Override
-        public void close() throws IOException {
-            sourcesReader.close();
-            destsReader.close();
+            sourcesReader = sourcesColumn.forPage(page).open(this, baseDir);
+            destsReader = destsColumn.forPage(page).open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -60,13 +54,13 @@ public record SlopDomainLinkRecord(
         }
     }
 
-    public static class Writer implements AutoCloseable {
+    public static class Writer extends SlopTable {
         private final StringColumnWriter sourcesWriter;
         private final StringColumnWriter destsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            sourcesWriter = sourcesColumn.forPage(page).create(baseDir);
-            destsWriter = destsColumn.forPage(page).create(baseDir);
+            sourcesWriter = sourcesColumn.forPage(page).create(this, baseDir);
+            destsWriter = destsColumn.forPage(page).create(this, baseDir);
         }
 
         public void write(SlopDomainLinkRecord record) throws IOException {
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index 059a6e81..b1c6533b 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -6,6 +6,7 @@ import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -43,7 +44,7 @@ public record SlopDomainRecord(
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnType.TXTSTRING, StorageType.GZIP);
 
 
-    public static class DomainNameReader implements AutoCloseable {
+    public static class DomainNameReader extends SlopTable {
         private final StringColumnReader domainsReader;
 
         public DomainNameReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
@@ -51,13 +52,7 @@ public record SlopDomainRecord(
         }
 
         public DomainNameReader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(baseDir);
-        }
-
-
-        @Override
-        public void close() throws IOException {
-            domainsReader.close();
+            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -69,7 +64,7 @@ public record SlopDomainRecord(
         }
     }
 
-    public static class DomainWithIpReader implements AutoCloseable {
+    public static class DomainWithIpReader extends SlopTable {
         private final StringColumnReader domainsReader;
         private final StringColumnReader ipReader;
 
@@ -78,15 +73,8 @@ public record SlopDomainRecord(
         }
 
         public DomainWithIpReader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(baseDir);
-            ipReader = ipColumn.forPage(page).open(baseDir);
-        }
-
-
-        @Override
-        public void close() throws IOException {
-            domainsReader.close();
-            ipReader.close();
+            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
+            ipReader = ipColumn.forPage(page).open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -102,7 +90,7 @@ public record SlopDomainRecord(
         }
     }
 
-    public static class Reader implements AutoCloseable {
+    public static class Reader extends SlopTable {
         private final StringColumnReader domainsReader;
         private final StringColumnReader statesReader;
         private final StringColumnReader redirectReader;
@@ -120,33 +108,17 @@ public record SlopDomainRecord(
         }
 
         public Reader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(baseDir);
-            statesReader = statesColumn.forPage(page).open(baseDir);
-            redirectReader = redirectDomainsColumn.forPage(page).open(baseDir);
-            ipReader = ipColumn.forPage(page).open(baseDir);
+            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
+            statesReader = statesColumn.forPage(page).open(this, baseDir);
+            redirectReader = redirectDomainsColumn.forPage(page).open(this, baseDir);
+            ipReader = ipColumn.forPage(page).open(this, baseDir);
 
-            knownUrlsReader = knownUrlsColumn.forPage(page).open(baseDir);
-            goodUrlsReader = goodUrlsColumn.forPage(page).open(baseDir);
-            visitedUrlsReader = visitedUrlsColumn.forPage(page).open(baseDir);
+            knownUrlsReader = knownUrlsColumn.forPage(page).open(this, baseDir);
+            goodUrlsReader = goodUrlsColumn.forPage(page).open(this, baseDir);
+            visitedUrlsReader = visitedUrlsColumn.forPage(page).open(this, baseDir);
 
-            rssFeedsCountReader = rssFeedsCountColumn.forPage(page).open(baseDir);
-            rssFeedsReader = rssFeedsColumn.forPage(page).open(baseDir);
-        }
-
-
-        @Override
-        public void close() throws IOException {
-            domainsReader.close();
-            statesReader.close();
-            redirectReader.close();
-            ipReader.close();
-
-            knownUrlsReader.close();
-            goodUrlsReader.close();
-            visitedUrlsReader.close();
-
-            rssFeedsCountReader.close();
-            rssFeedsReader.close();
+            rssFeedsCountReader = rssFeedsCountColumn.forPage(page).open(this, baseDir);
+            rssFeedsReader = rssFeedsColumn.forPage(page).open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -179,7 +151,7 @@ public record SlopDomainRecord(
         }
     }
 
-    public static class Writer implements AutoCloseable {
+    public static class Writer extends SlopTable {
         private final StringColumnWriter domainsWriter;
         private final StringColumnWriter statesWriter;
         private final StringColumnWriter redirectWriter;
@@ -193,17 +165,17 @@ public record SlopDomainRecord(
         private final StringColumnWriter rssFeedsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            domainsWriter = domainsColumn.forPage(page).create(baseDir);
-            statesWriter = statesColumn.forPage(page).create(baseDir);
-            redirectWriter = redirectDomainsColumn.forPage(page).create(baseDir);
-            ipWriter = ipColumn.forPage(page).create(baseDir);
+            domainsWriter = domainsColumn.forPage(page).create(this, baseDir);
+            statesWriter = statesColumn.forPage(page).create(this, baseDir);
+            redirectWriter = redirectDomainsColumn.forPage(page).create(this, baseDir);
+            ipWriter = ipColumn.forPage(page).create(this, baseDir);
 
-            knownUrlsWriter = knownUrlsColumn.forPage(page).create(baseDir);
-            goodUrlsWriter = goodUrlsColumn.forPage(page).create(baseDir);
-            visitedUrlsWriter = visitedUrlsColumn.forPage(page).create(baseDir);
+            knownUrlsWriter = knownUrlsColumn.forPage(page).create(this, baseDir);
+            goodUrlsWriter = goodUrlsColumn.forPage(page).create(this, baseDir);
+            visitedUrlsWriter = visitedUrlsColumn.forPage(page).create(this, baseDir);
 
-            rssFeedsCountWriter = rssFeedsCountColumn.forPage(page).create(baseDir);
-            rssFeedsWriter = rssFeedsColumn.forPage(page).create(baseDir);
+            rssFeedsCountWriter = rssFeedsCountColumn.forPage(page).create(this, baseDir);
+            rssFeedsWriter = rssFeedsColumn.forPage(page).create(this.columnGroup("rss-feeds"), baseDir);
         }
 
         public void write(SlopDomainRecord record) throws IOException {
@@ -221,20 +193,5 @@ public record SlopDomainRecord(
                 rssFeedsWriter.put(rssFeed);
             }
         }
-        
-        @Override
-        public void close() throws IOException {
-            domainsWriter.close();
-            statesWriter.close();
-            redirectWriter.close();
-            ipWriter.close();
-
-            knownUrlsWriter.close();
-            goodUrlsWriter.close();
-            visitedUrlsWriter.close();
-
-            rssFeedsCountWriter.close();
-            rssFeedsWriter.close();
-        }
     }
 }
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 5e49ed30..57bf8eaf 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -32,6 +32,7 @@ dependencies {
     implementation project(':code:libraries:message-queue')
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:coded-sequence')
+    implementation project(':code:libraries:slop')
     implementation project(':third-party:commons-codec')
     implementation project(':third-party:parquet-floor')
     testImplementation project(':code:services-application:search-service')

From 6c3abff664b7d405777da6b4cef7f1d411157253 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 27 Jul 2024 13:57:07 +0200
Subject: [PATCH 074/216] (slop) Move GCS Slop column to the coded-sequence
 package

This lets the slop library be stand-alone without dependence on coded-sequence.

The change also gets rid of the vestigial seek() method in ColumnReader.
---
 .../index/journal/IndexJournalPage.java       |  9 +++--
 .../index/journal/IndexJournalSlopWriter.java |  2 +-
 code/libraries/coded-sequence/build.gradle    |  2 +-
 .../sequence/GammaCodedSequence.java          | 14 +++++++
 .../slop}/GammaCodedSequenceColumn.java       |  9 ++++-
 .../slop}/GammaCodedSequenceReader.java       |  2 +-
 .../slop}/GammaCodedSequenceWriter.java       |  2 +-
 code/libraries/slop/build.gradle              |  2 -
 .../marginalia/slop/column/ColumnReader.java  |  4 --
 .../slop/column/primitive/LongColumn.java     | 40 -------------------
 .../slop/column/string/EnumColumn.java        |  2 +-
 .../slop/column/string/StringColumn.java      |  2 +-
 .../nu/marginalia/slop/desc/ColumnType.java   |  7 ++--
 .../marginalia/slop/column/IntColumnTest.java | 26 ------------
 .../model/processed/SlopDocumentRecord.java   |  9 +++--
 15 files changed, 41 insertions(+), 91 deletions(-)
 rename code/libraries/{slop/java/nu/marginalia/slop/column/dynamic => coded-sequence/java/nu/marginalia/sequence/slop}/GammaCodedSequenceColumn.java (88%)
 rename code/libraries/{slop/java/nu/marginalia/slop/column/dynamic => coded-sequence/java/nu/marginalia/sequence/slop}/GammaCodedSequenceReader.java (97%)
 rename code/libraries/{slop/java/nu/marginalia/slop/column/dynamic => coded-sequence/java/nu/marginalia/sequence/slop}/GammaCodedSequenceWriter.java (87%)

diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index ee5c1be7..6f355f2e 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -1,9 +1,10 @@
 package nu.marginalia.index.journal;
 
+import nu.marginalia.sequence.slop.GammaCodedSequenceColumn;
+import nu.marginalia.sequence.slop.GammaCodedSequenceReader;
+import nu.marginalia.sequence.slop.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.array.ByteArrayColumnReader;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.dynamic.GammaCodedSequenceReader;
-import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.column.primitive.*;
@@ -24,10 +25,10 @@ public record IndexJournalPage(Path baseDir, int page) {
     public static final ColumnDesc<VarintColumnReader, VarintColumnWriter> termCounts = new ColumnDesc<>("termCounts", ColumnType.VARINT_LE, StorageType.PLAIN);
     public static final ColumnDesc<LongColumnReader, LongColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnType.LONG_LE, StorageType.ZSTD);
     public static final ColumnDesc<ByteColumnReader, ByteColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnType.BYTE, StorageType.ZSTD);
-    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> positions = new ColumnDesc<>("termPositions", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> positions = new ColumnDesc<>("termPositions", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
 
     public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodes = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
-    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spans = new ColumnDesc<>("spans", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spans = new ColumnDesc<>("spans", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
 
     public IndexJournalPage {
         if (!baseDir.toFile().isDirectory()) {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index 492fd605..258bc61c 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -5,8 +5,8 @@ import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.slop.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.primitive.ByteColumnWriter;
 import nu.marginalia.slop.column.primitive.IntColumnWriter;
 import nu.marginalia.slop.column.primitive.LongColumnWriter;
diff --git a/code/libraries/coded-sequence/build.gradle b/code/libraries/coded-sequence/build.gradle
index 1eccc142..56f7d6f8 100644
--- a/code/libraries/coded-sequence/build.gradle
+++ b/code/libraries/coded-sequence/build.gradle
@@ -13,7 +13,7 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation libs.bundles.slf4j
 
-    implementation project(':third-party:parquet-floor')
+    implementation project(':code:libraries:slop')
     implementation libs.fastutil
 
     testImplementation libs.bundles.slf4j.test
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 00fcf097..6dc4872d 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -5,8 +5,22 @@ import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.io.BitReader;
 import nu.marginalia.sequence.io.BitWriter;
+import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
 
+import java.io.IOException;
 import java.nio.ByteBuffer;
+import java.nio.file.Path;
 import java.util.Arrays;
 import java.util.StringJoiner;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
similarity index 88%
rename from code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
rename to code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
index cead27b6..a141e6a3 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
@@ -1,6 +1,9 @@
-package nu.marginalia.slop.column.dynamic;
+package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnFunction;
 import nu.marginalia.slop.desc.ColumnType;
@@ -11,10 +14,14 @@ import nu.marginalia.slop.storage.StorageWriter;
 
 import java.io.IOException;
 import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
 import java.nio.file.Path;
 
+/** Slop column extension for storing GammaCodedSequence objects. */
 public class GammaCodedSequenceColumn {
 
+    public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> TYPE = ColumnType.register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
+
     public static GammaCodedSequenceReader open(Path path, ColumnDesc name) throws IOException {
         return new Reader(
                 Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
similarity index 97%
rename from code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java
rename to code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
index 87b7f319..9793a82a 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
@@ -1,4 +1,4 @@
-package nu.marginalia.slop.column.dynamic;
+package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.slop.column.ColumnReader;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java
similarity index 87%
rename from code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java
rename to code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java
index 7a15c37d..aaaefa56 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/GammaCodedSequenceWriter.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java
@@ -1,4 +1,4 @@
-package nu.marginalia.slop.column.dynamic;
+package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.slop.column.ColumnWriter;
diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
index 4a7c951a..862a8560 100644
--- a/code/libraries/slop/build.gradle
+++ b/code/libraries/slop/build.gradle
@@ -15,8 +15,6 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation libs.bundles.slf4j
 
-    implementation project(':code:libraries:coded-sequence')
-
     implementation libs.notnull
     implementation libs.commons.lang3
     implementation libs.fastutil
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
index 644ee788..2116197d 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
@@ -6,10 +6,6 @@ public interface ColumnReader {
     long position() throws IOException;
     void skip(long positions) throws IOException;
 
-    default void seek(long position) throws IOException {
-        throw new UnsupportedOperationException("Random access is not supported by " + getClass().getSimpleName());
-    }
-
     boolean hasRemaining() throws IOException;
 
     void close() throws IOException;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
index ac1e72f7..88289cd4 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
@@ -61,10 +61,6 @@ public class LongColumn {
             storage.skip(positions, Long.BYTES);
         }
 
-        public void seek(long position) throws IOException {
-            storage.seek(position, Long.BYTES);
-        }
-
         @Override
         public boolean hasRemaining() throws IOException {
             return storage.hasRemaining();
@@ -76,40 +72,4 @@ public class LongColumn {
         }
     }
 
-    private static class VirtualColumnReader implements LongColumnReader  {
-        private long position = 0;
-        private final long size;
-
-        private VirtualColumnReader(long size) {
-            this.size = size;
-        }
-
-        @Override
-        public long get() {
-            return position++;
-        }
-
-        @Override
-        public void close() {}
-
-        @Override
-        public long position() {
-            return position;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            position += positions;
-        }
-
-        @Override
-        public void seek(long position) throws IOException {
-            this.position = position;
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return position < size;
-        }
-    }
 }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
index c8383a7e..b452f0de 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
@@ -100,7 +100,7 @@ public class EnumColumn {
 
         @Override
         public void skip(long positions) throws IOException {
-            dataColumn.seek(positions);
+            dataColumn.skip(positions);
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
index 4daaa308..a41aa4e0 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
@@ -78,7 +78,7 @@ public class StringColumn {
 
         @Override
         public void skip(long positions) throws IOException {
-            backingColumn.seek(positions);
+            backingColumn.skip(positions);
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
index 92e0614a..40454ca2 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
@@ -47,7 +47,6 @@ public abstract class ColumnType<
     public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_LE = register("varintle", ByteOrder.LITTLE_ENDIAN, VarintColumn::open, VarintColumn::create);
     public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_BE = register("varintbe", ByteOrder.BIG_ENDIAN, VarintColumn::open, VarintColumn::create);
     public static ColumnType<CustomBinaryColumnReader, CustomBinaryColumnWriter> BYTE_ARRAY_CUSTOM = register("s8[]+custom", ByteOrder.nativeOrder(), CustomBinaryColumn::open, CustomBinaryColumn::create);
-    public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> BYTE_ARRAY_GCS = register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> STRING = register("s8[]+str", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> CSTRING = register("s8+cstr", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> TXTSTRING = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
@@ -59,14 +58,14 @@ public abstract class ColumnType<
     public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_LE = register("s64le[]", ByteOrder.LITTLE_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
     public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_BE = register("s64be[]", ByteOrder.BIG_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
 
-    interface ColumnOpener<T extends ColumnReader> {
+    public interface ColumnOpener<T extends ColumnReader> {
         T open(Path path, ColumnDesc desc) throws IOException;
     }
-    interface ColumnCreator<T extends ColumnWriter> {
+    public interface ColumnCreator<T extends ColumnWriter> {
         T create(Path path, ColumnDesc desc) throws IOException;
     }
 
-    private static <R extends ColumnReader,
+    public static <R extends ColumnReader,
         W extends ColumnWriter,
         T extends ColumnType<R,W>> ColumnType<R, W> register(
                 String mnemonic,
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
index 11c9a2c8..4f87ec85 100644
--- a/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
@@ -125,32 +125,6 @@ class IntColumnTest {
         }
     }
 
-    @Test
-    void testSeek() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-
-        int[] values = new int[24];
-        for (int i = 0; i < values.length; i++) {
-            values[i] = i;
-        }
-        try (var column = IntColumn.create(tempDir, name)) {
-            column.put(values);
-            column.put(values);
-        }
-        try (var column = IntColumn.open(tempDir, name)) {
-            column.get();
-            column.seek(34);
-            assertEquals(10, column.get());
-
-            assertTrue(column.hasRemaining());
-        }
-    }
     @Test
     void testSkip() throws IOException {
         var name = new ColumnDesc("test",
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index a654af5d..30953c2b 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -3,10 +3,11 @@ package nu.marginalia.model.processed;
 import lombok.Builder;
 import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.slop.GammaCodedSequenceColumn;
+import nu.marginalia.sequence.slop.GammaCodedSequenceReader;
+import nu.marginalia.sequence.slop.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.array.ByteArrayColumnReader;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.dynamic.GammaCodedSequenceReader;
-import nu.marginalia.slop.column.dynamic.GammaCodedSequenceWriter;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.column.primitive.*;
@@ -114,11 +115,11 @@ public record SlopDocumentRecord(
     private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> termCountsColumn = new ColumnDesc<>("termCounts", ColumnType.VARINT_LE, StorageType.PLAIN);
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> keywordsColumn = new ColumnDesc<>("keywords", ColumnType.STRING, StorageType.ZSTD);
     private static final ColumnDesc<ByteColumnReader, ByteColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnType.BYTE, StorageType.ZSTD);
-    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> termPositionsColumn = new ColumnDesc<>("termPositions", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> termPositionsColumn = new ColumnDesc<>("termPositions", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
 
     // Spans columns
     private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
-    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spansColumn = new ColumnDesc<>("spans", ColumnType.BYTE_ARRAY_GCS, StorageType.ZSTD);
+    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spansColumn = new ColumnDesc<>("spans", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
 
     public static class KeywordsProjectionReader extends SlopTable {
         private final StringColumnReader domainsReader;

From 2e1f669aea3b3bbee3d84b40300131ffa4c5d5e3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 27 Jul 2024 13:57:07 +0200
Subject: [PATCH 075/216] (slop) Remove additional vestigial seek()
 implementations

---
 .../java/nu/marginalia/slop/column/primitive/ByteColumn.java  | 4 ----
 .../java/nu/marginalia/slop/column/primitive/CharColumn.java  | 3 ---
 .../nu/marginalia/slop/column/primitive/DoubleColumn.java     | 4 ----
 .../java/nu/marginalia/slop/column/primitive/FloatColumn.java | 4 ----
 .../java/nu/marginalia/slop/column/primitive/IntColumn.java   | 4 ----
 5 files changed, 19 deletions(-)

diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
index 3bb116f5..017f611e 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
@@ -61,10 +61,6 @@ public class ByteColumn {
             storage.skip(positions, Byte.BYTES);
         }
 
-        public void seek(long position) throws IOException {
-            storage.seek(position, Byte.BYTES);
-        }
-
         @Override
         public boolean hasRemaining() throws IOException {
             return storage.hasRemaining();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
index a200e5b4..56a470aa 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
@@ -61,9 +61,6 @@ public class CharColumn {
             storage.skip(positions, Character.BYTES);
         }
 
-        public void seek(long position) throws IOException {
-            storage.seek(position, Character.BYTES);
-        }
 
         @Override
         public boolean hasRemaining() throws IOException {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
index 1389e1c7..0a9635de 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
@@ -61,10 +61,6 @@ public class DoubleColumn {
             storage.skip(positions, Double.BYTES);
         }
 
-        public void seek(long position) throws IOException {
-            storage.seek(position, Double.BYTES);
-        }
-
         @Override
         public boolean hasRemaining() throws IOException {
             return storage.hasRemaining();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
index fa5351d9..8e689cf4 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
@@ -62,10 +62,6 @@ public class FloatColumn {
             storage.skip(positions, Float.BYTES);
         }
 
-        public void seek(long position) throws IOException {
-            storage.seek(position, Float.BYTES);
-        }
-
         @Override
         public boolean hasRemaining() throws IOException {
             return storage.hasRemaining();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
index 97a446db..f4c25235 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
@@ -68,10 +68,6 @@ public class IntColumn {
             storage.skip(positions, Integer.BYTES);
         }
 
-        public void seek(long position) throws IOException {
-            storage.seek(position, Integer.BYTES);
-        }
-
         @Override
         public boolean hasRemaining() throws IOException {
             return storage.hasRemaining();

From f8684118f3aa41329aaa70862139b7a4c2842d92 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 27 Jul 2024 14:35:09 +0200
Subject: [PATCH 076/216] (slop) Add columnDesc information to the column
 readers and writers, and correct a few broken position() implementations

Added a test that should find any additional broken implementations, as it's very important that this function is correct.
---
 .../slop/GammaCodedSequenceColumn.java        |  34 ++-
 .../marginalia/slop/column/ColumnReader.java  |   5 +
 .../marginalia/slop/column/ColumnWriter.java  |   4 +
 .../slop/column/array/ByteArrayColumn.java    |  32 ++-
 .../slop/column/array/IntArrayColumn.java     |  32 ++-
 .../slop/column/array/LongArrayColumn.java    |  34 ++-
 .../column/dynamic/CustomBinaryColumn.java    |  35 ++-
 .../slop/column/dynamic/VarintColumn.java     |  22 +-
 .../slop/column/primitive/ByteColumn.java     |  22 +-
 .../slop/column/primitive/CharColumn.java     |  26 ++-
 .../slop/column/primitive/DoubleColumn.java   |  26 ++-
 .../slop/column/primitive/FloatColumn.java    |  22 +-
 .../slop/column/primitive/IntColumn.java      |  24 +-
 .../slop/column/primitive/LongColumn.java     |  22 +-
 .../slop/column/string/EnumColumn.java        |  35 ++-
 .../slop/column/string/StringColumn.java      |  86 +++++--
 .../nu/marginalia/slop/desc/SlopTable.java    |  13 +-
 .../marginalia/slop/desc/SlopTableTest.java   | 215 ++++++++++++++++++
 18 files changed, 576 insertions(+), 113 deletions(-)
 create mode 100644 code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
index a141e6a3..e27586de 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
@@ -22,20 +22,20 @@ public class GammaCodedSequenceColumn {
 
     public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> TYPE = ColumnType.register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
 
-    public static GammaCodedSequenceReader open(Path path, ColumnDesc name) throws IOException {
-        return new Reader(
-                Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
-                VarintColumn.open(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
+    public static GammaCodedSequenceReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(columnDesc,
+                Storage.reader(path, columnDesc, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
     }
 
-    public static GammaCodedSequenceWriter create(Path path, ColumnDesc name) throws IOException {
-        return new Writer(
-                Storage.writer(path, name),
-                VarintColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
+    public static GammaCodedSequenceWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(columnDesc,
+                Storage.writer(path, columnDesc),
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -44,16 +44,23 @@ public class GammaCodedSequenceColumn {
 
     private static class Writer implements GammaCodedSequenceWriter {
         private final VarintColumnWriter indexWriter;
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
 
-        public Writer(StorageWriter storage,
+        public Writer(ColumnDesc<?, ?> columnDesc,
+                      StorageWriter storage,
                       VarintColumnWriter indexWriter)
         {
+            this.columnDesc = columnDesc;
             this.storage = storage;
 
             this.indexWriter = indexWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
 
         @Override
         public void put(GammaCodedSequence sequence) throws IOException {
@@ -76,13 +83,20 @@ public class GammaCodedSequenceColumn {
 
     private static class Reader implements GammaCodedSequenceReader {
         private final VarintColumnReader indexReader;
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader reader, VarintColumnReader indexReader) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader reader, VarintColumnReader indexReader) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = reader;
             this.indexReader = indexReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         @Override
         public void skip(long positions) throws IOException {
             for (int i = 0; i < positions; i++) {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
index 2116197d..f870c56c 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
@@ -1,8 +1,13 @@
 package nu.marginalia.slop.column;
 
+import nu.marginalia.slop.desc.ColumnDesc;
+
 import java.io.IOException;
 
 public interface ColumnReader {
+
+    ColumnDesc<?, ?> columnDesc();
+
     long position() throws IOException;
     void skip(long positions) throws IOException;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
index 661a4021..d2c73f95 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
@@ -1,8 +1,12 @@
 package nu.marginalia.slop.column;
 
+import nu.marginalia.slop.desc.ColumnDesc;
+
 import java.io.IOException;
 
 public interface ColumnWriter {
+    ColumnDesc<?, ?> columnDesc();
+    
     /** Return the current record index in the column */
     long position();
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
index f641de3f..157efa84 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
@@ -15,22 +15,24 @@ import java.nio.file.Path;
 
 public class ByteArrayColumn {
 
-    public static ByteArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
+    public static ByteArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(
-                Storage.reader(path, name, true),
+                columnDesc,
+                Storage.reader(path, columnDesc, true),
                 VarintColumn.open(path,
-                        name.createSupplementaryColumn(name.function().lengthsTable(),
+                        columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
                                 ColumnType.VARINT_LE,
                                 StorageType.PLAIN)
                 )
         );
     }
 
-    public static ByteArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
+    public static ByteArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
         return new Writer(
-                Storage.writer(path, name),
+                columnDesc,
+                Storage.writer(path, columnDesc),
                 VarintColumn.create(path,
-                        name.createSupplementaryColumn(name.function().lengthsTable(),
+                        columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
                                 ColumnType.VARINT_LE,
                                 StorageType.PLAIN)
                 )
@@ -38,16 +40,23 @@ public class ByteArrayColumn {
     }
 
     private static class Writer implements ByteArrayColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private final VarintColumnWriter lengthsWriter;
 
         private long position = 0;
 
-        public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
             this.lengthsWriter = lengthsWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(byte[] value) throws IOException {
             position ++;
             storage.putBytes(value);
@@ -65,14 +74,21 @@ public class ByteArrayColumn {
     }
 
     private static class Reader implements ByteArrayColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
         private final VarintColumnReader lengthsReader;
 
-        public Reader(StorageReader storage, VarintColumnReader lengthsReader) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage, VarintColumnReader lengthsReader) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
             this.lengthsReader = lengthsReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public byte[] get() throws IOException {
             int length = (int) lengthsReader.get();
             byte[] ret = new byte[length];
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
index c5a1421c..8eba4f56 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
@@ -15,18 +15,20 @@ import java.nio.file.Path;
 
 public class IntArrayColumn {
 
-    public static IntArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
-        return new Reader(Storage.reader(path, name, true),
-                VarintColumn.open(path, name.createSupplementaryColumn(name.function().lengthsTable(),
+    public static IntArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(columnDesc,
+                Storage.reader(path, columnDesc, true),
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
     }
 
-    public static IntArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
-        return new Writer(Storage.writer(path, name),
-                VarintColumn.create(path, name.createSupplementaryColumn(name.function().lengthsTable(),
+    public static IntArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(columnDesc,
+                Storage.writer(path, columnDesc),
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -34,14 +36,21 @@ public class IntArrayColumn {
     }
 
     private static class Writer implements IntArrayColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private final VarintColumnWriter lengthsWriter;
 
-        public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
             this.lengthsWriter = lengthsWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(int[] value) throws IOException {
             storage.putInts(value);
             lengthsWriter.put(value.length);
@@ -58,14 +67,21 @@ public class IntArrayColumn {
     }
 
     private static class Reader implements IntArrayColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
         private final VarintColumnReader lengthsReader;
 
-        public Reader(StorageReader storage, VarintColumnReader lengthsReader) {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage, VarintColumnReader lengthsReader) {
+            this.columnDesc = columnDesc;
             this.storage = storage;
             this.lengthsReader = lengthsReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public int[] get() throws IOException {
             int length = (int) lengthsReader.get();
             int[] ret = new int[length];
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
index b805a085..4773f31c 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
@@ -15,18 +15,22 @@ import java.nio.file.Path;
 
 public class LongArrayColumn {
 
-    public static LongArrayColumnReader open(Path path, ColumnDesc name) throws IOException {
-        return new LongArrayColumn.Reader(Storage.reader(path, name, true),
-                VarintColumn.open(path, name.createSupplementaryColumn(name.function().lengthsTable(),
+    public static LongArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new LongArrayColumn.Reader(
+                columnDesc,
+                Storage.reader(path, columnDesc, true),
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
     }
 
-    public static LongArrayColumnWriter create(Path path, ColumnDesc name) throws IOException {
-        return new LongArrayColumn.Writer(Storage.writer(path, name),
-                VarintColumn.create(path, name.createSupplementaryColumn(name.function().lengthsTable(),
+    public static LongArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new LongArrayColumn.Writer(
+                columnDesc,
+                Storage.writer(path, columnDesc),
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -34,14 +38,21 @@ public class LongArrayColumn {
     }
 
     private static class Writer implements LongArrayColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private final VarintColumnWriter lengthsWriter;
 
-        public Writer(StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+        public Writer(ColumnDesc<?,?> columnDesc, StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
             this.lengthsWriter = lengthsWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(long[] value) throws IOException {
             storage.putLongs(value);
             lengthsWriter.put(value.length);
@@ -58,14 +69,21 @@ public class LongArrayColumn {
     }
 
     private static class Reader implements LongArrayColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
         private final VarintColumnReader lengthsReader;
 
-        public Reader(StorageReader storage, VarintColumnReader lengthsReader) {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage, VarintColumnReader lengthsReader) {
+            this.columnDesc = columnDesc;
             this.storage = storage;
             this.lengthsReader = lengthsReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public long[] get() throws IOException {
             int length = (int) lengthsReader.get();
             long[] ret = new long[length];
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
index 910a02a2..9d3dd189 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
@@ -13,20 +13,22 @@ import java.nio.file.Path;
 
 public class CustomBinaryColumn {
 
-    public static CustomBinaryColumnReader open(Path path, ColumnDesc name) throws IOException {
+    public static CustomBinaryColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(
-                Storage.reader(path, name, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
-                VarintColumn.open(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
+                columnDesc,
+                Storage.reader(path, columnDesc, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
     }
 
-    public static CustomBinaryColumnWriter create(Path path, ColumnDesc name) throws IOException {
+    public static CustomBinaryColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
         return new Writer(
-                Storage.writer(path, name),
-                VarintColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DATA_LEN,
+                columnDesc,
+                Storage.writer(path, columnDesc),
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
                         ColumnType.VARINT_LE,
                         StorageType.PLAIN)
                 )
@@ -35,16 +37,24 @@ public class CustomBinaryColumn {
 
     private static class Writer implements CustomBinaryColumnWriter {
         private final VarintColumnWriter indexWriter;
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
 
-        public Writer(StorageWriter storage,
+        public Writer(ColumnDesc<?, ?> columnDesc,
+                      StorageWriter storage,
                       VarintColumnWriter indexWriter)
         {
+            this.columnDesc = columnDesc;
             this.storage = storage;
-
             this.indexWriter = indexWriter;
         }
 
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         @Override
         public RecordWriter next() throws IOException {
             return new RecordWriter() {
@@ -74,13 +84,20 @@ public class CustomBinaryColumn {
 
     private static class Reader implements CustomBinaryColumnReader {
         private final VarintColumnReader indexReader;
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader reader, VarintColumnReader indexReader) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader reader, VarintColumnReader indexReader) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = reader;
             this.indexReader = indexReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         @Override
         public void skip(long positions) throws IOException {
             for (int i = 0; i < positions; i++) {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
index aee6409b..8d28f29c 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
@@ -11,22 +11,29 @@ import java.nio.file.Path;
 public class VarintColumn {
 
     public static VarintColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static VarintColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
 
     private static class Writer implements VarintColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter writer;
         private long position = 0;
 
-        public Writer(StorageWriter writer) throws IOException {
+        public Writer(ColumnDesc<?,?> columnDesc, StorageWriter writer) throws IOException {
+            this.columnDesc = columnDesc;
             this.writer = writer;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(long value) throws IOException {
             position++;
 
@@ -53,14 +60,21 @@ public class VarintColumn {
     }
 
     private static class Reader implements VarintColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader reader;
 
         private long position = 0;
 
-        public Reader(StorageReader reader) throws IOException {
+        public Reader(ColumnDesc<?,?> columnDesc, StorageReader reader) throws IOException {
+            this.columnDesc = columnDesc;
             this.reader = reader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public long get() throws IOException {
             long value = 0;
             int shift = 0;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
index 017f611e..00134bf2 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
@@ -11,21 +11,28 @@ import java.nio.file.Path;
 public class ByteColumn {
 
     public static ByteColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static ByteColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
     private static class Writer implements ByteColumnWriter {
+        private final ColumnDesc columnDesc;
         private final StorageWriter storage;
         private long position = 0;
 
-        public Writer(StorageWriter storageWriter) throws IOException {
+        public Writer(ColumnDesc columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(byte value) throws IOException {
             storage.putByte(value);
             position++;
@@ -41,9 +48,11 @@ public class ByteColumn {
     }
 
     private static class Reader implements ByteColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader storage) throws IOException {
+        public Reader(ColumnDesc<?,?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
         }
 
@@ -51,6 +60,11 @@ public class ByteColumn {
             return storage.getByte();
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         @Override
         public long position() throws IOException {
             return storage.position();
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
index 56a470aa..74918d01 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
@@ -11,28 +11,35 @@ import java.nio.file.Path;
 public class CharColumn {
 
     public static CharColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static CharColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
     private static class Writer implements CharColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private long position = 0;
 
-        public Writer(StorageWriter storageWriter) throws IOException {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(char value) throws IOException {
             storage.putChar(value);
             position++;
         }
 
         public long position() {
-            return position / Character.BYTES;
+            return position;
         }
 
         public void close() throws IOException {
@@ -41,9 +48,11 @@ public class CharColumn {
     }
 
     private static class Reader implements CharColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader storage) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
         }
 
@@ -51,9 +60,14 @@ public class CharColumn {
             return storage.getChar();
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         @Override
         public long position() throws IOException {
-            return storage.position();
+            return storage.position() / Character.BYTES;
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
index 0a9635de..bcfcaebe 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
@@ -11,28 +11,35 @@ import java.nio.file.Path;
 public class DoubleColumn {
 
     public static DoubleColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static DoubleColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
     private static class Writer implements DoubleColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private long position = 0;
 
-        public Writer(StorageWriter storageWriter) throws IOException {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(double value) throws IOException {
             storage.putDouble(value);
             position++;
         }
 
         public long position() {
-            return position / Double.BYTES;
+            return position;
         }
 
         public void close() throws IOException {
@@ -41,19 +48,26 @@ public class DoubleColumn {
     }
 
     private static class Reader implements DoubleColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader storage) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public double get() throws IOException {
             return storage.getDouble();
         }
 
         @Override
         public long position() throws IOException {
-            return storage.position();
+            return storage.position() / Double.BYTES;
         }
 
         @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
index 8e689cf4..369ae98d 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
@@ -11,22 +11,29 @@ import java.nio.file.Path;
 public class FloatColumn {
 
     public static FloatColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static FloatColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
 
     private static class Writer implements FloatColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private long position = 0;
 
-        public Writer(StorageWriter storageWriter) throws IOException {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(float value) throws IOException {
             storage.putFloat(value);
             position++;
@@ -42,12 +49,19 @@ public class FloatColumn {
     }
 
     private static class Reader implements FloatColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader storage) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public float get() throws IOException {
             return storage.getFloat();
         }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
index f4c25235..9b1d0103 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
@@ -11,21 +11,28 @@ import java.nio.file.Path;
 public class IntColumn {
 
     public static IntColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static IntColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
     private static class Writer implements IntColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private long position = 0;
 
-        public Writer(StorageWriter storageWriter) throws IOException {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(int[] values) throws IOException {
             for (int value : values) {
                 storage.putInt(value);
@@ -39,7 +46,7 @@ public class IntColumn {
         }
 
         public long position() {
-            return position / Integer.BYTES;
+            return position;
         }
 
         public void close() throws IOException {
@@ -48,12 +55,19 @@ public class IntColumn {
     }
 
     private static class Reader implements IntColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader storage) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public int get() throws IOException {
             return storage.getInt();
         }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
index 88289cd4..e0659f6f 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
@@ -11,21 +11,28 @@ import java.nio.file.Path;
 public class LongColumn {
 
     public static LongColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(Storage.reader(path, columnDesc, true));
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
     }
 
     public static LongColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(Storage.writer(path, columnDesc));
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
     }
 
     private static class Writer implements LongColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
         private long position = 0;
 
-        public Writer(StorageWriter storageWriter) {
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) {
+            this.columnDesc = columnDesc;
             this.storage = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(long value) throws IOException {
             storage.putLong(value);
             position++;
@@ -41,12 +48,19 @@ public class LongColumn {
     }
 
     private static class Reader implements LongColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storage;
 
-        public Reader(StorageReader storage) throws IOException {
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
             this.storage = storage;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public long get() throws IOException {
             return storage.getLong();
         }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
index b452f0de..c1f69c8a 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
@@ -16,16 +16,17 @@ import java.util.List;
 
 public class EnumColumn {
 
-    public static StringColumnReader open(Path path, ColumnDesc name) throws IOException {
+    public static StringColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(
+                columnDesc,
                 StringColumn.open(path,
-                        name.createSupplementaryColumn(
+                        columnDesc.createSupplementaryColumn(
                                 ColumnFunction.DICT,
                                 ColumnType.TXTSTRING,
                                 StorageType.PLAIN)
                 ),
                 VarintColumn.open(path,
-                        name.createSupplementaryColumn(
+                        columnDesc.createSupplementaryColumn(
                                 ColumnFunction.DATA,
                                 ColumnType.ENUM_LE,
                                 StorageType.PLAIN
@@ -34,26 +35,34 @@ public class EnumColumn {
         );
     }
 
-    public static StringColumnWriter create(Path path, ColumnDesc name) throws IOException {
-        return new Writer(
-                StringColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
-                VarintColumn.create(path, name.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.ENUM_LE, StorageType.PLAIN))
+    public static StringColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(columnDesc,
+                StringColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.ENUM_LE, StorageType.PLAIN))
         );
     }
 
 
     private static class Writer implements StringColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StringColumnWriter dicionaryColumn;
         private final LongColumnWriter dataColumn;
         private final HashMap<String, Integer> dictionary = new HashMap<>();
 
-        public Writer(StringColumnWriter dicionaryColumn,
+        public Writer(ColumnDesc<?, ?> columnDesc,
+                      StringColumnWriter dicionaryColumn,
                       LongColumnWriter dataColumn) throws IOException
         {
+            this.columnDesc = columnDesc;
             this.dicionaryColumn = dicionaryColumn;
             this.dataColumn = dataColumn;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(String value) throws IOException {
             Integer index = dictionary.get(value);
             if (index == null) {
@@ -75,12 +84,15 @@ public class EnumColumn {
     }
 
     private static class Reader implements StringColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final LongColumnReader dataColumn;
         private final List<String> dictionary = new ArrayList<>();
 
-        public Reader(StringColumnReader dicionaryColumn,
+        public Reader(ColumnDesc<?, ?> columnDesc,
+                      StringColumnReader dicionaryColumn,
                       LongColumnReader dataColumn) throws IOException
         {
+            this.columnDesc = columnDesc;
             this.dataColumn = dataColumn;
             for (int i = 0; dicionaryColumn.hasRemaining(); i++) {
                 dictionary.add(dicionaryColumn.get());
@@ -88,6 +100,11 @@ public class EnumColumn {
             dicionaryColumn.close();
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public String get() throws IOException {
             int index = (int) dataColumn.get();
             return dictionary.get(index);
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
index a41aa4e0..0dd30f56 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
@@ -14,35 +14,42 @@ import java.nio.file.Path;
 
 public class StringColumn {
 
-    public static StringColumnReader open(Path path, ColumnDesc name) throws IOException {
-        if (name.type().equals(ColumnType.STRING)) {
-            return new ArrayReader(ByteArrayColumn.open(path, name));
-        } else if (name.type().equals(ColumnType.CSTRING)) {
-            return new CStringReader(Storage.reader(path, name, true));
-        } else if (name.type().equals(ColumnType.TXTSTRING)) {
-            return new TxtStringReader(Storage.reader(path, name, true));
+    public static StringColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        if (columnDesc.type().equals(ColumnType.STRING)) {
+            return new ArrayReader(columnDesc, ByteArrayColumn.open(path, columnDesc));
+        } else if (columnDesc.type().equals(ColumnType.CSTRING)) {
+            return new CStringReader(columnDesc, Storage.reader(path, columnDesc, true));
+        } else if (columnDesc.type().equals(ColumnType.TXTSTRING)) {
+            return new TxtStringReader(columnDesc, Storage.reader(path, columnDesc, true));
         }
-        throw new IllegalArgumentException("Unsupported column type: " + name.type());
+        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
     }
 
-    public static StringColumnWriter create(Path path, ColumnDesc name) throws IOException {
-        if (name.type().equals(ColumnType.STRING)) {
-            return new ArrayWriter(ByteArrayColumn.create(path, name));
-        } else if (name.type().equals(ColumnType.CSTRING)) {
-            return new CStringWriter(Storage.writer(path, name));
-        } else if (name.type().equals(ColumnType.TXTSTRING)) {
-            return new TxtStringWriter(Storage.writer(path, name));
+    public static StringColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        if (columnDesc.type().equals(ColumnType.STRING)) {
+            return new ArrayWriter(columnDesc, ByteArrayColumn.create(path, columnDesc));
+        } else if (columnDesc.type().equals(ColumnType.CSTRING)) {
+            return new CStringWriter(columnDesc, Storage.writer(path, columnDesc));
+        } else if (columnDesc.type().equals(ColumnType.TXTSTRING)) {
+            return new TxtStringWriter(columnDesc, Storage.writer(path, columnDesc));
         }
-        throw new IllegalArgumentException("Unsupported column type: " + name.type());
+        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
     }
 
     private static class ArrayWriter implements StringColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final ByteArrayColumnWriter backingColumn;
 
-        public ArrayWriter(ByteArrayColumnWriter backingColumn) throws IOException {
+        public ArrayWriter(ColumnDesc<?, ?> columnDesc, ByteArrayColumnWriter backingColumn) throws IOException {
+            this.columnDesc = columnDesc;
             this.backingColumn = backingColumn;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(String value) throws IOException {
             if (null == value) {
                 value = "";
@@ -61,12 +68,19 @@ public class StringColumn {
     }
 
     private static class ArrayReader implements StringColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final ByteArrayColumnReader backingColumn;
 
-        public ArrayReader(ByteArrayColumnReader backingColumn) throws IOException {
+        public ArrayReader(ColumnDesc<?, ?> columnDesc, ByteArrayColumnReader backingColumn) throws IOException {
+            this.columnDesc = columnDesc;
             this.backingColumn = backingColumn;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public String get() throws IOException {
             return new String(backingColumn.get());
         }
@@ -94,14 +108,21 @@ public class StringColumn {
 
 
     private static class CStringWriter implements StringColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storageWriter;
 
         private long position = 0;
 
-        public CStringWriter(StorageWriter storageWriter) throws IOException {
+        public CStringWriter(ColumnDesc<?,?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storageWriter = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(String value) throws IOException {
             if (null == value) {
                 value = "";
@@ -122,13 +143,20 @@ public class StringColumn {
     }
 
     private static class CStringReader implements StringColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storageReader;
         private long position = 0;
 
-        public CStringReader(StorageReader storageReader) throws IOException {
+        public CStringReader(ColumnDesc<?, ?> columnDesc, StorageReader storageReader) throws IOException {
+            this.columnDesc = columnDesc;
             this.storageReader = storageReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public String get() throws IOException {
             StringBuilder sb = new StringBuilder();
             byte b;
@@ -169,13 +197,20 @@ public class StringColumn {
 
 
     private static class TxtStringWriter implements StringColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storageWriter;
         private long position = 0;
 
-        public TxtStringWriter(StorageWriter storageWriter) throws IOException {
+        public TxtStringWriter(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
             this.storageWriter = storageWriter;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public void put(String value) throws IOException {
             if (null == value) {
                 value = "";
@@ -198,13 +233,20 @@ public class StringColumn {
     }
 
     private static class TxtStringReader implements StringColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader storageReader;
         private long position = 0;
 
-        public TxtStringReader(StorageReader storageReader) throws IOException {
+        public TxtStringReader(ColumnDesc<?, ?> columnDesc, StorageReader storageReader) throws IOException {
+            this.columnDesc = columnDesc;
             this.storageReader = storageReader;
         }
 
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
         public String get() throws IOException {
             StringBuilder sb = new StringBuilder();
             byte b;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
index 3d018eca..3933b2d1 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
@@ -51,14 +51,14 @@ public class SlopTable implements AutoCloseable {
 
     public void close() throws IOException {
 
-        Set<Long> positions = new HashSet<>();
+        Map<Long, List<ColumnDesc>> positions = new HashMap<>();
 
         for (ColumnReader reader : readerList) {
-            positions.add(reader.position());
+            positions.computeIfAbsent(reader.position(), k -> new ArrayList<>()).add(reader.columnDesc());
             reader.close();
         }
         for (ColumnWriter writer : writerList) {
-            positions.add(writer.position());
+            positions.computeIfAbsent(writer.position(), k -> new ArrayList<>()).add(writer.columnDesc());
             writer.close();
         }
 
@@ -68,14 +68,15 @@ public class SlopTable implements AutoCloseable {
         // read or written to one of the columns.  This is likely a bug,
         // but not necessarily a severe one, so we just log a warning.
 
-        if (positions.remove(0L) && !positions.isEmpty()) {
-            logger.warn("Zero position found in one of the tables, this is likely development debris");
+        var zeroPositions = Objects.requireNonNullElseGet(positions.remove(0L), List::of);
+        if (!zeroPositions.isEmpty() && !positions.isEmpty()) {
+            logger.warn("Zero position found in {}, this is likely development debris", zeroPositions);
         }
 
         // If there are more than one position and several are non-zero, then we haven't maintained the
         // position correctly between the columns.  This is a disaster, so we throw an exception.
         if (positions.size() > 1) {
-            throw new IllegalStateException("Expected only one reader position, was " + positions);
+            throw new IllegalStateException("Expected only one reader position, found " + positions);
         }
 
         for (var table : columnGroups.values()) {
diff --git a/code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java b/code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java
new file mode 100644
index 00000000..b55220f9
--- /dev/null
+++ b/code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java
@@ -0,0 +1,215 @@
+package nu.marginalia.slop.desc;
+
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.assertArrayEquals;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+public class SlopTableTest {
+    Path tempDir;
+
+    @BeforeEach
+    void setup() throws IOException {
+        tempDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void cleanup() {
+        try {
+            Files.walk(tempDir)
+                    .sorted(this::deleteOrder)
+                    .forEach(p -> {
+                        try {
+                            if (Files.isRegularFile(p)) {
+                                System.out.println("Deleting " + p + " " + Files.size(p));
+                            }
+                            Files.delete(p);
+                        } catch (IOException e) {
+                            throw new RuntimeException(e);
+                        }
+                    });
+        } catch (IOException e) {
+            throw new RuntimeException(e);
+        }
+    }
+
+    int deleteOrder(Path a, Path b) {
+        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
+            return 1;
+        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
+            return -1;
+        } else {
+            return a.getNameCount() - b.getNameCount();
+        }
+    }
+
+    @Test
+    public void testEmpty() throws IOException {
+        SlopTable slopTable = new SlopTable();
+        slopTable.close();
+    }
+
+    @Test
+    public void testPositionsGood() throws IOException {
+        var name1 = new ColumnDesc<>("test1",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+        var name2 = new ColumnDesc<>("test2",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+        try (SlopTable writerTable = new SlopTable()) {
+            var column1 = name1.create(writerTable, tempDir);
+            var column2 = name2.create(writerTable, tempDir);
+
+            column1.put(42);
+            column2.put(43);
+        }
+
+
+        try (SlopTable readerTable = new SlopTable()) {
+            var column1 = name1.open(readerTable, tempDir);
+            var column2 = name2.open(readerTable, tempDir);
+
+            assertEquals(42, column1.get());
+            assertEquals(43, column2.get());
+        }
+    }
+
+
+    @Test
+    public void testPositionsMisaligned() throws IOException {
+        var name1 = new ColumnDesc<>("test1",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+        var name2 = new ColumnDesc<>("test2",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.INT_LE,
+                StorageType.PLAIN
+        );
+
+        boolean sawException = false;
+        try (SlopTable writerTable = new SlopTable()) {
+            var column1 = name1.create(writerTable, tempDir);
+            var column2 = name2.create(writerTable, tempDir);
+
+            column1.put(42);
+            column2.put(43);
+            column2.put(44);
+        }
+        catch (Exception ex) {
+            ex.printStackTrace();
+            sawException = true;
+        }
+        assertEquals(true, sawException);
+
+    }
+
+
+    // Sanity check for the implementation of position() in the column classes
+    @Test
+    public void testPositionsMegatest() throws IOException {
+        var byteCol = new ColumnDesc<>("byte", ColumnType.BYTE, StorageType.PLAIN);
+        var charCol = new ColumnDesc<>("char", ColumnType.CHAR_LE, StorageType.PLAIN);
+        var intCol = new ColumnDesc<>("int", ColumnType.INT_LE, StorageType.PLAIN);
+        var longCol = new ColumnDesc<>("long", ColumnType.LONG_LE, StorageType.PLAIN);
+        var floatCol = new ColumnDesc<>("float", ColumnType.FLOAT_LE, StorageType.PLAIN);
+        var doubleCol = new ColumnDesc<>("double", ColumnType.DOUBLE_LE, StorageType.PLAIN);
+        var byteArrayCol = new ColumnDesc<>("byteArray", ColumnType.BYTE_ARRAY, StorageType.PLAIN);
+        var intArrayCol = new ColumnDesc<>("intArray", ColumnType.INT_ARRAY_LE, StorageType.PLAIN);
+        var longArrayCol = new ColumnDesc<>("longArray", ColumnType.LONG_ARRAY_LE, StorageType.PLAIN);
+        var cstringCol = new ColumnDesc<>("cstring", ColumnType.CSTRING, StorageType.PLAIN);
+        var txtStringCol = new ColumnDesc<>("txtString", ColumnType.TXTSTRING, StorageType.PLAIN);
+        var arrayStringCol = new ColumnDesc<>("arrayString", ColumnType.STRING, StorageType.PLAIN);
+        var varintCol = new ColumnDesc<>("varint", ColumnType.VARINT_LE, StorageType.PLAIN);
+        var enumCol = new ColumnDesc<>("enum", ColumnType.ENUM_LE, StorageType.PLAIN);
+
+        try (SlopTable writerTable = new SlopTable()) {
+            var byteColumn = byteCol.create(writerTable, tempDir);
+            var charColumn = charCol.create(writerTable, tempDir);
+            var intColumn = intCol.create(writerTable, tempDir);
+            var longColumn = longCol.create(writerTable, tempDir);
+            var floatColumn = floatCol.create(writerTable, tempDir);
+            var doubleColumn = doubleCol.create(writerTable, tempDir);
+            var byteArrayColumn = byteArrayCol.create(writerTable, tempDir);
+
+            var intArrayColumn = intArrayCol.create(writerTable, tempDir);
+            var longArrayColumn = longArrayCol.create(writerTable, tempDir);
+            var cstringColumn = cstringCol.create(writerTable, tempDir);
+            var txtStringColumn = txtStringCol.create(writerTable, tempDir);
+            var arrayStringColumn = arrayStringCol.create(writerTable, tempDir);
+            var enumColumn = enumCol.create(writerTable, tempDir);
+            var varintColumn = varintCol.create(writerTable, tempDir);
+
+            byteColumn.put((byte) 42);
+            charColumn.put('a');
+            intColumn.put(42);
+            longColumn.put(42L);
+            floatColumn.put(42.0f);
+            doubleColumn.put(42.0);
+
+            byteArrayColumn.put(new byte[] { 42, 43, 44 });
+            intArrayColumn.put(new int[] { 42, 43, 44 });
+            longArrayColumn.put(new long[] { 42, 43, 44 });
+
+            cstringColumn.put("Hello");
+            txtStringColumn.put("Hello");
+            arrayStringColumn.put("Hello");
+            enumColumn.put("Hello");
+
+            varintColumn.put(10000000);
+        }
+
+        try (SlopTable readerTable = new SlopTable()) {
+            var byteColumn = byteCol.open(readerTable, tempDir);
+            var charColumn = charCol.open(readerTable, tempDir);
+            var intColumn = intCol.open(readerTable, tempDir);
+            var longColumn = longCol.open(readerTable, tempDir);
+            var floatColumn = floatCol.open(readerTable, tempDir);
+            var doubleColumn = doubleCol.open(readerTable, tempDir);
+            var byteArrayColumn = byteArrayCol.open(readerTable, tempDir);
+            var intArrayColumn = intArrayCol.open(readerTable, tempDir);
+            var longArrayColumn = longArrayCol.open(readerTable, tempDir);
+            var cstringColumn = cstringCol.open(readerTable, tempDir);
+            var txtStringColumn = txtStringCol.open(readerTable, tempDir);
+            var arrayStringColumn = arrayStringCol.open(readerTable, tempDir);
+            var enumColumn = enumCol.open(readerTable, tempDir);
+            var varintColumn = varintCol.open(readerTable, tempDir);
+
+            assertEquals(42, byteColumn.get());
+            assertEquals('a', charColumn.get());
+            assertEquals(42, intColumn.get());
+            assertEquals(42L, longColumn.get());
+            assertEquals(42.0f, floatColumn.get());
+            assertEquals(42.0, doubleColumn.get());
+
+            assertArrayEquals(new byte[] {42, 43, 44}, byteArrayColumn.get());
+            assertArrayEquals(new int[] {42, 43, 44}, intArrayColumn.get());
+            assertArrayEquals(new long[] {42, 43, 44}, longArrayColumn.get());
+
+            assertEquals("Hello", cstringColumn.get());
+            assertEquals("Hello", txtStringColumn.get());
+            assertEquals("Hello", arrayStringColumn.get());
+            assertEquals("Hello", enumColumn.get());
+
+            assertEquals(10000000, varintColumn.get());
+        }
+
+    }
+}

From d05a2e57e9e83f8a81885d2d62eebab775a029a4 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 27 Jul 2024 15:17:04 +0200
Subject: [PATCH 077/216] (index-forward) Spans Writer should not be in the
 index page loop context

---
 .../nu/marginalia/index/forward/ForwardIndexConverter.java  | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
index 66f45736..29081322 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
@@ -61,7 +61,9 @@ public class ForwardIndexConverter {
 
         logger.info("Domain Rankings size = {}", domainRankings.size());
 
-        try (var progress = heartbeat.createProcessTaskHeartbeat(TaskSteps.class, "forwardIndexConverter")) {
+        try (var progress = heartbeat.createProcessTaskHeartbeat(TaskSteps.class, "forwardIndexConverter");
+             var spansWriter = new ForwardIndexSpansWriter(outputFileSpansData)
+        ) {
             progress.progress(TaskSteps.GET_DOC_IDS);
 
             LongArray docsFileId = getDocIds(outputFileDocsId, journal);
@@ -81,7 +83,7 @@ public class ForwardIndexConverter {
 
             ByteBuffer workArea = ByteBuffer.allocate(65536);
             for (var instance : journal.pages()) {
-                try (var slopTable = new SlopTable(); var spansWriter = new ForwardIndexSpansWriter(outputFileSpansData))
+                try (var slopTable = new SlopTable())
                 {
                     var docIdReader = instance.openCombinedId(slopTable);
                     var metaReader = instance.openDocumentMeta(slopTable);

From eaf7fbb9e9ac3a16e83e65d3575a1f4eb7be44aa Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 13:19:15 +0200
Subject: [PATCH 078/216] (slop) Improve Conveniences for Enum

* New fixed width 8 bit version of Enum
* Access to the enum's dictionary, and a method for reading the ordinal directly to reduce GC churn
---
 .../slop/column/string/EnumColumn.java        | 155 +++++++++++++++++-
 .../slop/column/string/EnumColumnReader.java  |  26 +++
 .../nu/marginalia/slop/desc/ColumnType.java   |  12 +-
 3 files changed, 179 insertions(+), 14 deletions(-)
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java

diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
index c1f69c8a..f2d36e0a 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
@@ -1,7 +1,10 @@
 package nu.marginalia.slop.column.string;
 
 import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.primitive.LongColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.primitive.ByteColumn;
+import nu.marginalia.slop.column.primitive.ByteColumnReader;
+import nu.marginalia.slop.column.primitive.ByteColumnWriter;
 import nu.marginalia.slop.column.primitive.LongColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnFunction;
@@ -11,12 +14,13 @@ import nu.marginalia.slop.desc.StorageType;
 import java.io.IOException;
 import java.nio.file.Path;
 import java.util.ArrayList;
+import java.util.Collections;
 import java.util.HashMap;
 import java.util.List;
 
 public class EnumColumn {
 
-    public static StringColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+    public static EnumColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(
                 columnDesc,
                 StringColumn.open(path,
@@ -29,7 +33,25 @@ public class EnumColumn {
                         columnDesc.createSupplementaryColumn(
                                 ColumnFunction.DATA,
                                 ColumnType.ENUM_LE,
-                                StorageType.PLAIN
+                                columnDesc.storageType()
+                        )
+                )
+        );
+    }
+    public static EnumColumnReader open8(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(
+                columnDesc,
+                StringColumn.open(path,
+                        columnDesc.createSupplementaryColumn(
+                                ColumnFunction.DICT,
+                                ColumnType.TXTSTRING,
+                                StorageType.PLAIN)
+                ),
+                VarintColumn.open(path,
+                        columnDesc.createSupplementaryColumn(
+                                ColumnFunction.DATA,
+                                ColumnType.BYTE,
+                                columnDesc.storageType()
                         )
                 )
         );
@@ -38,10 +60,16 @@ public class EnumColumn {
     public static StringColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
         return new Writer(columnDesc,
                 StringColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.ENUM_LE, StorageType.PLAIN))
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.ENUM_LE, columnDesc.storageType()))
         );
     }
 
+    public static StringColumnWriter create8(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer8(columnDesc,
+                StringColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
+                ByteColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.BYTE, columnDesc.storageType()))
+        );
+    }
 
     private static class Writer implements StringColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
@@ -83,20 +111,62 @@ public class EnumColumn {
         }
     }
 
-    private static class Reader implements StringColumnReader {
+    private static class Writer8 implements StringColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
-        private final LongColumnReader dataColumn;
+        private final StringColumnWriter dicionaryColumn;
+        private final ByteColumnWriter dataColumn;
+        private final HashMap<String, Integer> dictionary = new HashMap<>();
+
+        public Writer8(ColumnDesc<?, ?> columnDesc,
+                      StringColumnWriter dicionaryColumn,
+                      ByteColumnWriter dataColumn) throws IOException
+        {
+            this.columnDesc = columnDesc;
+            this.dicionaryColumn = dicionaryColumn;
+            this.dataColumn = dataColumn;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        public void put(String value) throws IOException {
+            Integer index = dictionary.get(value);
+            if (index == null) {
+                index = dictionary.size();
+                dictionary.put(value, index);
+                dicionaryColumn.put(value);
+            }
+            dataColumn.put((byte) index.intValue());
+        }
+
+        public long position() {
+            return dataColumn.position();
+        }
+
+        public void close() throws IOException {
+            dataColumn.close();
+            dicionaryColumn.close();
+        }
+    }
+
+    private static class Reader implements EnumColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final VarintColumnReader dataColumn;
         private final List<String> dictionary = new ArrayList<>();
 
         public Reader(ColumnDesc<?, ?> columnDesc,
                       StringColumnReader dicionaryColumn,
-                      LongColumnReader dataColumn) throws IOException
+                      VarintColumnReader dataColumn) throws IOException
         {
             this.columnDesc = columnDesc;
             this.dataColumn = dataColumn;
-            for (int i = 0; dicionaryColumn.hasRemaining(); i++) {
+
+            while (dicionaryColumn.hasRemaining()) {
                 dictionary.add(dicionaryColumn.get());
             }
+
             dicionaryColumn.close();
         }
 
@@ -105,6 +175,16 @@ public class EnumColumn {
             return columnDesc;
         }
 
+        @Override
+        public List<String> getDictionary() throws IOException {
+            return Collections.unmodifiableList(dictionary);
+        }
+
+        @Override
+        public int getOrdinal() throws IOException {
+            return (int) dataColumn.get();
+        }
+
         public String get() throws IOException {
             int index = (int) dataColumn.get();
             return dictionary.get(index);
@@ -131,4 +211,63 @@ public class EnumColumn {
         }
     }
 
+    private static class Reader8 implements EnumColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final ByteColumnReader dataColumn;
+        private final List<String> dictionary = new ArrayList<>();
+
+        public Reader8(ColumnDesc<?, ?> columnDesc,
+                      StringColumnReader dicionaryColumn,
+                      ByteColumnReader dataColumn) throws IOException
+        {
+            this.columnDesc = columnDesc;
+            this.dataColumn = dataColumn;
+
+            while (dicionaryColumn.hasRemaining()) {
+                dictionary.add(dicionaryColumn.get());
+            }
+
+            dicionaryColumn.close();
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        @Override
+        public List<String> getDictionary() throws IOException {
+            return Collections.unmodifiableList(dictionary);
+        }
+
+        @Override
+        public int getOrdinal() throws IOException {
+            return  dataColumn.get();
+        }
+
+        public String get() throws IOException {
+            int index = dataColumn.get();
+            return dictionary.get(index);
+        }
+
+        @Override
+        public long position() throws IOException {
+            return dataColumn.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            dataColumn.skip(positions);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return dataColumn.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            dataColumn.close();
+        }
+    }
 }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java
new file mode 100644
index 00000000..2e802829
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java
@@ -0,0 +1,26 @@
+package nu.marginalia.slop.column.string;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+import java.util.List;
+
+public interface EnumColumnReader extends StringColumnReader, ColumnReader, AutoCloseable {
+
+    List<String> getDictionary() throws IOException;
+    int getOrdinal() throws IOException;
+
+    String get() throws IOException;
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+
+    @Override
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
index 40454ca2..08fe4f2f 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
@@ -5,10 +5,7 @@ import nu.marginalia.slop.column.ColumnWriter;
 import nu.marginalia.slop.column.array.*;
 import nu.marginalia.slop.column.dynamic.*;
 import nu.marginalia.slop.column.primitive.*;
-import nu.marginalia.slop.column.string.EnumColumn;
-import nu.marginalia.slop.column.string.StringColumn;
-import nu.marginalia.slop.column.string.StringColumnReader;
-import nu.marginalia.slop.column.string.StringColumnWriter;
+import nu.marginalia.slop.column.string.*;
 
 import java.io.IOException;
 import java.nio.ByteOrder;
@@ -50,8 +47,11 @@ public abstract class ColumnType<
     public static ColumnType<StringColumnReader, StringColumnWriter> STRING = register("s8[]+str", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> CSTRING = register("s8+cstr", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> TXTSTRING = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
-    public static ColumnType<StringColumnReader, StringColumnWriter> ENUM_LE = register("varintle+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open, EnumColumn::create);
-    public static ColumnType<StringColumnReader, StringColumnWriter> ENUM_BE = register("varintbe+enum", ByteOrder.BIG_ENDIAN, EnumColumn::open, EnumColumn::create);
+
+    public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_8 = register("u8+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open8, EnumColumn::create8);
+    public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_LE = register("varintle+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open, EnumColumn::create);
+    public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_BE = register("varintbe+enum", ByteOrder.BIG_ENDIAN, EnumColumn::open, EnumColumn::create);
+
     public static ColumnType<ByteArrayColumnReader, ByteArrayColumnWriter> BYTE_ARRAY = register("s8[]", ByteOrder.nativeOrder(), ByteArrayColumn::open, ByteArrayColumn::create);
     public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_LE = register("s32le[]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
     public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_BE = register("s32be[]", ByteOrder.BIG_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);

From 40f42bf654ca657c0813751b158ae121a9fe69f8 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 13:19:44 +0200
Subject: [PATCH 079/216] (slop) Add signed 16 bit column type "short"

---
 .../slop/column/primitive/ShortColumn.java    | 89 +++++++++++++++++++
 .../column/primitive/ShortColumnReader.java   | 10 +++
 .../column/primitive/ShortColumnWriter.java   | 11 +++
 .../nu/marginalia/slop/desc/ColumnType.java   |  2 +
 4 files changed, 112 insertions(+)
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java

diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java
new file mode 100644
index 00000000..820dd502
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java
@@ -0,0 +1,89 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.nio.file.Path;
+
+public class ShortColumn {
+
+    public static ShortColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
+    }
+
+    public static ShortColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(columnDesc, Storage.writer(path, columnDesc));
+    }
+
+    private static class Writer implements ShortColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final StorageWriter storage;
+        private long position = 0;
+
+        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
+            this.columnDesc = columnDesc;
+            this.storage = storageWriter;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        public void put(short value) throws IOException {
+            storage.putShort(value);
+            position++;
+        }
+
+        public long position() {
+            return position;
+        }
+
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+
+    private static class Reader implements ShortColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final StorageReader storage;
+
+        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
+            this.columnDesc = columnDesc;
+            this.storage = storage;
+        }
+
+        public short get() throws IOException {
+            return storage.getShort();
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        @Override
+        public long position() throws IOException {
+            return storage.position() / Short.BYTES;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            storage.skip(positions, Short.BYTES);
+        }
+
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return storage.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            storage.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java
new file mode 100644
index 00000000..0ee240dd
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java
@@ -0,0 +1,10 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+
+public interface ShortColumnReader extends ColumnReader, AutoCloseable {
+    short get() throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java
new file mode 100644
index 00000000..8fa6b182
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java
@@ -0,0 +1,11 @@
+package nu.marginalia.slop.column.primitive;
+
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+
+public interface ShortColumnWriter extends ColumnWriter, AutoCloseable {
+    void put(short value) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
index 08fe4f2f..5bd8b60f 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
@@ -33,6 +33,8 @@ public abstract class ColumnType<
     public static ColumnType<ByteColumnReader, ByteColumnWriter> BYTE = register("s8", ByteOrder.nativeOrder(), ByteColumn::open, ByteColumn::create);
     public static ColumnType<CharColumnReader, CharColumnWriter> CHAR_LE = register("u16le", ByteOrder.LITTLE_ENDIAN, CharColumn::open, CharColumn::create);
     public static ColumnType<CharColumnReader, CharColumnWriter> CHAR_BE = register("u16be", ByteOrder.BIG_ENDIAN, CharColumn::open, CharColumn::create);
+    public static ColumnType<ShortColumnReader, ShortColumnWriter> SHORT_LE = register("s16le", ByteOrder.LITTLE_ENDIAN, ShortColumn::open, ShortColumn::create);
+    public static ColumnType<ShortColumnReader, ShortColumnWriter> SHORT_BE = register("s16be", ByteOrder.BIG_ENDIAN, ShortColumn::open, ShortColumn::create);
     public static ColumnType<IntColumnReader, IntColumnWriter> INT_LE = register("s32le", ByteOrder.LITTLE_ENDIAN, IntColumn::open, IntColumn::create);
     public static ColumnType<IntColumnReader, IntColumnWriter> INT_BE = register("s32be", ByteOrder.BIG_ENDIAN, IntColumn::open, IntColumn::create);
     public static ColumnType<LongColumnReader, LongColumnWriter> LONG_LE = register("s64le", ByteOrder.LITTLE_ENDIAN, LongColumn::open, LongColumn::create);

From e585116dab647fe2d7daafcfc81681bf0e35d933 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 13:20:18 +0200
Subject: [PATCH 080/216] (slop) Add 32 bit read method for Varint along with
 the old 64 bit version

---
 .../index/journal/IndexJournalPage.java       |  2 +-
 .../slop/column/dynamic/VarintColumn.java     | 30 ++++++++++++++-----
 .../column/dynamic/VarintColumnReader.java    |  7 +++--
 3 files changed, 28 insertions(+), 11 deletions(-)

diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index 6f355f2e..8806fa61 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -52,7 +52,7 @@ public record IndexJournalPage(Path baseDir, int page) {
         return size.forPage(page).open(table, baseDir);
     }
 
-    public LongColumnReader openTermCounts(SlopTable table) throws IOException {
+    public VarintColumnReader openTermCounts(SlopTable table) throws IOException {
         return termCounts.forPage(page).open(table, baseDir);
     }
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
index 8d28f29c..9a8f08a9 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
@@ -75,18 +75,32 @@ public class VarintColumn {
             return columnDesc;
         }
 
-        public long get() throws IOException {
-            long value = 0;
+        public int get() throws IOException {
+            int value = 0;
             int shift = 0;
+            byte b;
 
-            while (true) {
-                long b = reader.getByte();
+            do {
+                b = reader.getByte();
                 value |= (b & 0x7F) << shift;
                 shift += 7;
-                if ((b & 0x80) == 0) {
-                    break;
-                }
-            }
+            } while ((b & 0x80) != 0);
+
+            position++;
+
+            return value;
+        }
+
+        public long getLong() throws IOException {
+            long value = 0;
+            int shift = 0;
+            byte b;
+
+            do {
+                b = reader.getByte();
+                value |= (long) (b & 0x7F) << shift;
+                shift += 7;
+            } while ((b & 0x80) != 0);
 
             position++;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
index fdb67be9..106bae86 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
@@ -1,10 +1,13 @@
 package nu.marginalia.slop.column.dynamic;
 
-import nu.marginalia.slop.column.primitive.LongColumnReader;
+import nu.marginalia.slop.column.primitive.IntColumnReader;
 
 import java.io.IOException;
 
-public interface VarintColumnReader extends LongColumnReader {
+public interface VarintColumnReader extends IntColumnReader {
+
+    int get() throws IOException;
+    long getLong() throws IOException;
 
     @Override
     long position() throws IOException;

From 1caad7e19e15c084e71bdd46cdcbf6186eb1f5ed Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 13:21:08 +0200
Subject: [PATCH 081/216] (slop) Update existing code to use the altered Slop
 interfaces

---
 .../nu/marginalia/model/processed/SlopDocumentRecord.java    | 5 +++--
 .../java/nu/marginalia/model/processed/SlopDomainRecord.java | 3 ++-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 30953c2b..289dfda6 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -11,6 +11,7 @@ import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.column.primitive.*;
+import nu.marginalia.slop.column.string.EnumColumnReader;
 import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
@@ -97,13 +98,13 @@ public record SlopDocumentRecord(
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnType.TXTSTRING, StorageType.GZIP);
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> urlsColumn = new ColumnDesc<>("url", ColumnType.TXTSTRING, StorageType.GZIP);
     private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> ordinalsColumn = new ColumnDesc<>("ordinal", ColumnType.VARINT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
+    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> stateReasonsColumn = new ColumnDesc<>("stateReason", ColumnType.TXTSTRING, StorageType.GZIP);
 
     // Document metadata
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> titlesColumn = new ColumnDesc<>("title", ColumnType.STRING, StorageType.GZIP);
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> descriptionsColumn = new ColumnDesc<>("description", ColumnType.STRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> htmlStandardsColumn = new ColumnDesc<>("htmlStandard", ColumnType.ENUM_LE, StorageType.GZIP);
+    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> htmlStandardsColumn = new ColumnDesc<>("htmlStandard", ColumnType.ENUM_LE, StorageType.GZIP);
     private static final ColumnDesc<IntColumnReader, IntColumnWriter> htmlFeaturesColumn = new ColumnDesc<>("htmlFeatures", ColumnType.INT_LE, StorageType.PLAIN);
     private static final ColumnDesc<IntColumnReader, IntColumnWriter> lengthsColumn = new ColumnDesc<>("length", ColumnType.INT_LE, StorageType.PLAIN);
     private static final ColumnDesc<IntColumnReader, IntColumnWriter> pubYearColumn = new ColumnDesc<>("pubYear", ColumnType.INT_LE, StorageType.PLAIN);
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index b1c6533b..62304fc4 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -2,6 +2,7 @@ package nu.marginalia.model.processed;
 
 import nu.marginalia.slop.column.primitive.IntColumnReader;
 import nu.marginalia.slop.column.primitive.IntColumnWriter;
+import nu.marginalia.slop.column.string.EnumColumnReader;
 import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
@@ -32,7 +33,7 @@ public record SlopDomainRecord(
     {}
 
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnType.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
+    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> redirectDomainsColumn = new ColumnDesc<>("redirectDomain", ColumnType.TXTSTRING, StorageType.GZIP);
     private static final ColumnDesc<StringColumnReader, StringColumnWriter> ipColumn = new ColumnDesc<>("ip", ColumnType.TXTSTRING, StorageType.GZIP);
 

From 314a901bf054575cc1f6e26e5e31386d9b13fdfa Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 13:22:20 +0200
Subject: [PATCH 082/216] (slop) Clean up build.gradle from unnecessary
 copy-paste garbage

---
 code/libraries/slop/build.gradle | 16 +---------------
 1 file changed, 1 insertion(+), 15 deletions(-)

diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
index 862a8560..03d7f1ea 100644
--- a/code/libraries/slop/build.gradle
+++ b/code/libraries/slop/build.gradle
@@ -1,6 +1,5 @@
 plugins {
     id 'java'
-    id "me.champeau.jmh" version "0.6.6"
 }
 
 java {
@@ -17,11 +16,9 @@ dependencies {
 
     implementation libs.notnull
     implementation libs.commons.lang3
-    implementation libs.fastutil
     implementation libs.lz4
-    implementation libs.guava
     implementation libs.commons.compress
-
+    implementation libs.zstd
 
     testImplementation libs.bundles.slf4j.test
     testImplementation libs.bundles.junit
@@ -30,17 +27,6 @@ dependencies {
     testImplementation libs.sqlite
 }
 
-jmh {
-    jvmArgs = [ "--enable-preview" ]
-}
-tasks.withType(me.champeau.jmh.WithJavaToolchain).configureEach {
-    javaLauncher.set(javaToolchains.launcherFor {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    })
-}
-tasks.withType(me.champeau.jmh.JmhBytecodeGeneratorTask).configureEach {
-    jvmArgs = ["--enable-preview"]
-}
 test {
     useJUnitPlatform()
 }

From 261dcdadc845b3444bcc22bb5794af9cf83d8477 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 21:19:45 +0200
Subject: [PATCH 083/216] (loader) Additional tracking for the control GUI

---
 .../loading/domains/DomainLoaderService.java  | 80 ++++++++++++-------
 1 file changed, 53 insertions(+), 27 deletions(-)

diff --git a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
index ac1fc763..fb6af988 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
@@ -39,7 +39,7 @@ public class DomainLoaderService {
 
     enum Steps {
         PREP_DATA,
-        INSERT_NEW,
+        UPDATE_AFFINITY_AND_IP,
         FETCH_ALL,
         DONE
     }
@@ -61,42 +61,68 @@ public class DomainLoaderService {
         ) {
             taskHeartbeat.progress(Steps.PREP_DATA);
 
-            // Add domain names from this data set with the current node affinity
-            for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+            Collection<SlopPageRef<SlopDomainRecord>> domainPageRefs = inputData.listDomainPages();
+            Collection<SlopPageRef<SlopDomainLinkRecord>> domainLinkPageRefs = inputData.listDomainLinkPages();
 
-                try (var inserter = new DomainInserter(conn, nodeId);
-                     var reader = new SlopDomainRecord.DomainNameReader(page)
-                ) {
-                    while (reader.hasMore()) {
-                        String domainName = reader.next();
-                        inserter.accept(new EdgeDomain(domainName));
-                        domainNamesAll.add(domainName);
+            // Ensure that the domains we've just crawled are in the domain database to this node
+            try (var inserter = new DomainInserter(conn, nodeId);
+                 var processHeartbeat = heartbeat.createAdHocTaskHeartbeat("INSERT_CRAWLED_DOMAINS")) {
+                // Add domain names from this data set with the current node affinity
+                int pageIdx = 0;
+
+                for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+                    processHeartbeat.progress("INSERT", pageIdx++, domainPageRefs.size());
+
+                    try (var reader = new SlopDomainRecord.DomainNameReader(page)) {
+                        while (reader.hasMore()) {
+                            String domainName = reader.next();
+                            if (domainNamesAll.add(domainName)) {
+                                inserter.accept(new EdgeDomain(domainName));
+                            }
+                        }
                     }
                 }
             }
 
-            // Add linked domains, but with -1 affinity meaning they can be grabbed by any index node
-            for (SlopPageRef<SlopDomainLinkRecord> page : inputData.listDomainLinkPages()) {
-                try (var inserter = new DomainInserter(conn, -1);
-                     var reader = new SlopDomainLinkRecord.Reader(page)) {
-                    while (reader.hasMore()) {
-                        SlopDomainLinkRecord record = reader.next();
-                        inserter.accept(new EdgeDomain(record.dest()));
-                        domainNamesAll.add(record.dest());
+            // Add domains that are linked to from the domains we've just crawled, but with -1 affinity meaning they
+            // can be grabbed by any index node
+            try (var inserter = new DomainInserter(conn, -1);
+                 var processHeartbeat = heartbeat.createAdHocTaskHeartbeat("INSERT_LINKED_DOMAINS")) {
+                // Add linked domains, but with -1 affinity meaning they can be grabbed by any index node
+                int pageIdx = 0;
+
+                for (SlopPageRef<SlopDomainLinkRecord> page : inputData.listDomainLinkPages()) {
+                    processHeartbeat.progress("INSERT", pageIdx++, domainLinkPageRefs.size());
+
+                    try (var reader = new SlopDomainLinkRecord.Reader(page)) {
+                        while (reader.hasMore()) {
+                            SlopDomainLinkRecord record = reader.next();
+                            String domainName = record.dest();
+                            if (domainNamesAll.add(domainName)) {
+                                inserter.accept(new EdgeDomain(domainName));
+                            }
+                        }
                     }
                 }
             }
 
-            taskHeartbeat.progress(Steps.INSERT_NEW);
+            taskHeartbeat.progress(Steps.UPDATE_AFFINITY_AND_IP);
 
-            // Update the node affinity and IP address for each domain
-            for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
-                try (var updater = new DomainAffinityAndIpUpdater(conn, nodeId);
-                     var reader = new SlopDomainRecord.DomainWithIpReader(page)
-                ) {
-                    while (reader.hasMore()) {
-                        var domainWithIp = reader.next();
-                        updater.accept(new EdgeDomain(domainWithIp.domain()), domainWithIp.ip());
+            // Update the node affinity and IP address for each domain we have information about
+            try (var processHeartbeat = heartbeat.createAdHocTaskHeartbeat("UPDATE_AFFINITY_AND_IP")) {
+                // Update the node affinity and IP address for each domain
+                int pageIdx = 0;
+
+                for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+                    processHeartbeat.progress("UPDATE", pageIdx++, domainPageRefs.size());
+
+                    try (var updater = new DomainAffinityAndIpUpdater(conn, nodeId);
+                         var reader = new SlopDomainRecord.DomainWithIpReader(page)
+                    ) {
+                        while (reader.hasMore()) {
+                            var domainWithIp = reader.next();
+                            updater.accept(new EdgeDomain(domainWithIp.domain()), domainWithIp.ip());
+                        }
                     }
                 }
             }

From 9685993adb85e3aa7ad0fe71a76600ce3af73012 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 21:20:09 +0200
Subject: [PATCH 084/216] (loader) Add spans to a different column group from
 spanCodes, as they are not in sync

---
 .../nu/marginalia/model/processed/SlopDocumentRecord.java     | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 289dfda6..05b06898 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -154,7 +154,7 @@ public record SlopDocumentRecord(
             termMetaReader = termMetaColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
             termPositionsReader = termPositionsColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
 
-            spanCodesReader = spanCodesColumn.forPage(page).open(this.columnGroup("spans"), baseDir);
+            spanCodesReader = spanCodesColumn.forPage(page).open(this, baseDir);
             spansReader = spansColumn.forPage(page).open(this.columnGroup("spans"), baseDir);
         }
 
@@ -240,7 +240,7 @@ public record SlopDocumentRecord(
             return new MetadataProjection(
                     domainsReader.get(),
                     urlsReader.get(),
-                    (int) ordinalsReader.get(),
+                    ordinalsReader.get(),
                     titlesReader.get(),
                     descriptionsReader.get(),
                     htmlFeaturesReader.get(),

From 499deac2ef527e2945c67d275c9a73b1a8de6b50 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 21:20:37 +0200
Subject: [PATCH 085/216] (slop) Fix test that broke when we split get into int
 get() and long getLong()

---
 .../slop/test/nu/marginalia/slop/column/VarintColumnTest.java   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
index 40669664..5dbf180b 100644
--- a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
@@ -76,7 +76,7 @@ class VarintColumnTest {
             assertEquals(65534, column.get());
             assertEquals(1, column.get());
             assertEquals(0, column.get());
-            assertEquals(6000000000L, column.get());
+            assertEquals(6000000000L, column.getLong());
             assertEquals(1, column.get());
         }
     }

From 7d51cf882fbcc3775b0ef74ee814891f62232874 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 21:29:39 +0200
Subject: [PATCH 086/216] (loader) Move rssFeeds to a different column group to
 avoid errors

---
 .../java/nu/marginalia/model/processed/SlopDomainRecord.java    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index 62304fc4..be595a4d 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -119,7 +119,7 @@ public record SlopDomainRecord(
             visitedUrlsReader = visitedUrlsColumn.forPage(page).open(this, baseDir);
 
             rssFeedsCountReader = rssFeedsCountColumn.forPage(page).open(this, baseDir);
-            rssFeedsReader = rssFeedsColumn.forPage(page).open(this, baseDir);
+            rssFeedsReader = rssFeedsColumn.forPage(page).open(this.columnGroup("rssFeeds"), baseDir);
         }
 
         public boolean hasMore() throws IOException {

From afe56c7cf18357c61fdf96c395274981bbf5122c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 28 Jul 2024 21:36:42 +0200
Subject: [PATCH 087/216] (loader) Tidy up code

---
 .../loading/domains/DomainLoaderService.java  | 27 ++++++++++---------
 1 file changed, 15 insertions(+), 12 deletions(-)

diff --git a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
index fb6af988..94419cf5 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
@@ -43,7 +43,8 @@ public class DomainLoaderService {
         FETCH_ALL,
         DONE
     }
-    /** Read the domain names from each parquet file
+
+    /** Read the domain names from each input file
      *  compare with SQL domain database, fetch those
      *  that exist, insert those that don't.
      */
@@ -54,11 +55,8 @@ public class DomainLoaderService {
         DomainIdRegistry ret = new DomainIdRegistry();
 
         try (var conn = dataSource.getConnection();
-             var taskHeartbeat = heartbeat.createProcessTaskHeartbeat(Steps.class, "DOMAIN_IDS");
-             var selectStmt = conn.prepareStatement("""
-                     SELECT ID, LOWER(DOMAIN_NAME) FROM EC_DOMAIN
-                     """)
-        ) {
+             var taskHeartbeat = heartbeat.createProcessTaskHeartbeat(Steps.class, "DOMAIN_IDS"))
+        {
             taskHeartbeat.progress(Steps.PREP_DATA);
 
             Collection<SlopPageRef<SlopDomainRecord>> domainPageRefs = inputData.listDomainPages();
@@ -128,14 +126,19 @@ public class DomainLoaderService {
             }
 
             taskHeartbeat.progress(Steps.FETCH_ALL);
-            selectStmt.setFetchSize(1000);
 
-            var rs = selectStmt.executeQuery();
-            while (rs.next()) {
-                String domain = rs.getString(2);
+            // Fetch the ID for all domains that we have information about
+            try (var selectStmt = conn.prepareStatement("SELECT ID, LOWER(DOMAIN_NAME) FROM EC_DOMAIN")) {
 
-                if (domainNamesAll.contains(domain)) {
-                    ret.add(domain, rs.getInt(1));
+                selectStmt.setFetchSize(1000);
+
+                var rs = selectStmt.executeQuery();
+                while (rs.next()) {
+                    String domain = rs.getString(2);
+
+                    if (domainNamesAll.contains(domain)) {
+                        ret.add(domain, rs.getInt(1));
+                    }
                 }
             }
 

From 2d5d965f7f2db7d0eaea47b720d657f8be0b5e90 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 29 Jul 2024 10:34:33 +0200
Subject: [PATCH 088/216] (slop-models) Fix incorrect column grouping leading
 to errors in converter

---
 .../nu/marginalia/index/forward/ForwardIndexConverter.java     | 3 ++-
 .../java/nu/marginalia/index/journal/IndexJournalPage.java     | 2 +-
 .../nu/marginalia/index/journal/IndexJournalSlopWriter.java    | 2 +-
 .../java/nu/marginalia/model/processed/SlopDocumentRecord.java | 2 +-
 .../java/nu/marginalia/model/processed/SlopDomainRecord.java   | 2 +-
 5 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
index 29081322..2f969ad8 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
@@ -89,8 +89,9 @@ public class ForwardIndexConverter {
                     var metaReader = instance.openDocumentMeta(slopTable);
                     var featuresReader = instance.openFeatures(slopTable);
                     var sizeReader = instance.openSize(slopTable);
+
                     var spansCodesReader = instance.openSpanCodes(slopTable);
-                    var spansSeqReader = instance.openSpans(slopTable);
+                    var spansSeqReader = instance.openSpans(slopTable.columnGroup("spans"));
 
                     while (docIdReader.hasRemaining()) {
                         long docId = docIdReader.get();
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index 8806fa61..2a7f4f60 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -69,7 +69,7 @@ public record IndexJournalPage(Path baseDir, int page) {
     }
 
     public GammaCodedSequenceReader openSpans(SlopTable table) throws IOException {
-        return spans.forPage(page).open(table.columnGroup("spans"), baseDir);
+        return spans.forPage(page).open(table, baseDir);
     }
 
     public ByteArrayColumnReader openSpanCodes(SlopTable table) throws IOException {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index 258bc61c..e429cbc0 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -52,7 +52,7 @@ public class IndexJournalSlopWriter extends SlopTable {
         termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(this.columnGroup("keywords"), dir);
         termPositionsWriter = IndexJournalPage.positions.forPage(page).create(this.columnGroup("keywords"), dir);
 
-        spansWriter = IndexJournalPage.spans.forPage(page).create(this.columnGroup("spans"), dir);
+        spansWriter = IndexJournalPage.spans.forPage(page).create(this, dir);
         spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(this.columnGroup("spans"), dir);
     }
 
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 05b06898..f33441b9 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -301,7 +301,7 @@ public record SlopDocumentRecord(
             termMetaWriter = termMetaColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
             termPositionsWriter = termPositionsColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
 
-            spansWriter = spansColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
+            spansWriter = spansColumn.forPage(page).create(this, baseDir);
             spansCodesWriter = spanCodesColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
         }
 
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index be595a4d..2d8260e6 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -176,7 +176,7 @@ public record SlopDomainRecord(
             visitedUrlsWriter = visitedUrlsColumn.forPage(page).create(this, baseDir);
 
             rssFeedsCountWriter = rssFeedsCountColumn.forPage(page).create(this, baseDir);
-            rssFeedsWriter = rssFeedsColumn.forPage(page).create(this.columnGroup("rss-feeds"), baseDir);
+            rssFeedsWriter = rssFeedsColumn.forPage(page).create(this.columnGroup("rssFeeds"), baseDir);
         }
 
         public void write(SlopDomainRecord record) throws IOException {

From 1282f78bc5224939c5bdc72fac0c04064567ff45 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 29 Jul 2024 11:01:18 +0200
Subject: [PATCH 089/216] (slop-models) Fix incorrect column grouping leading
 to errors in converter

---
 .../java/nu/marginalia/index/journal/IndexJournalPage.java    | 4 ++--
 .../nu/marginalia/index/journal/IndexJournalSlopWriter.java   | 4 ++--
 .../nu/marginalia/model/processed/SlopDocumentRecord.java     | 4 ++--
 3 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index 2a7f4f60..ccd5a55b 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -69,10 +69,10 @@ public record IndexJournalPage(Path baseDir, int page) {
     }
 
     public GammaCodedSequenceReader openSpans(SlopTable table) throws IOException {
-        return spans.forPage(page).open(table, baseDir);
+        return spans.forPage(page).open(table.columnGroup("spans"), baseDir);
     }
 
     public ByteArrayColumnReader openSpanCodes(SlopTable table) throws IOException {
-        return spanCodes.forPage(page).open(table.columnGroup("spans"), baseDir);
+        return spanCodes.forPage(page).open(table, baseDir);
     }
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index e429cbc0..2b1194ac 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -52,8 +52,8 @@ public class IndexJournalSlopWriter extends SlopTable {
         termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(this.columnGroup("keywords"), dir);
         termPositionsWriter = IndexJournalPage.positions.forPage(page).create(this.columnGroup("keywords"), dir);
 
-        spansWriter = IndexJournalPage.spans.forPage(page).create(this, dir);
-        spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(this.columnGroup("spans"), dir);
+        spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(this, dir);
+        spansWriter = IndexJournalPage.spans.forPage(page).create(this.columnGroup("spans"), dir);
     }
 
     @SneakyThrows
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index f33441b9..ba9ce955 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -301,8 +301,8 @@ public record SlopDocumentRecord(
             termMetaWriter = termMetaColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
             termPositionsWriter = termPositionsColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
 
-            spansWriter = spansColumn.forPage(page).create(this, baseDir);
-            spansCodesWriter = spanCodesColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
+            spansCodesWriter = spanCodesColumn.forPage(page).create(this, baseDir);
+            spansWriter = spansColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
         }
 
         public void write(SlopDocumentRecord record) throws IOException {

From 34703da144a395680bcee0fcba4ec8e159646ac6 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 29 Jul 2024 14:00:43 +0200
Subject: [PATCH 090/216] (slop) Support for nested array types and
 array-of-object types

Also adding very basic support for filtered reads via SlopTable.  This is probably not a final design.
---
 .../marginalia/model/idx/CodedWordSpan.java   |   8 +-
 .../keyword/model/DocumentKeywords.java       |   6 +-
 .../model/DocumentKeywordsBuilder.java        |   3 +-
 .../index/forward/ForwardIndexConverter.java  |  11 +-
 .../index/journal/IndexJournalPage.java       |  45 ++--
 .../index/journal/IndexJournalSlopWriter.java |  42 ++--
 .../full/FullPreindexDocuments.java           |  25 ++-
 .../full/FullPreindexWordSegments.java        |   5 +-
 .../prio/PrioPreindexDocuments.java           |  12 +-
 .../prio/PrioPreindexWordSegments.java        |  10 +-
 .../index/CombinedIndexReaderTest.java        |   3 +-
 ...IndexQueryServiceIntegrationSmokeTest.java |   5 +-
 .../IndexQueryServiceIntegrationTest.java     |   3 +-
 .../slop/GammaCodedSequenceArrayColumn.java   | 147 +++++++++++++
 .../slop/GammaCodedSequenceArrayReader.java   |  32 +++
 .../slop/GammaCodedSequenceArrayWriter.java   |  12 ++
 .../slop/GammaCodedSequenceColumn.java        |  17 +-
 .../slop/GammaCodedSequenceReader.java        |   5 +-
 .../slop/column/ObjectColumnReader.java       |  37 ++++
 .../slop/column/ObjectColumnWriter.java       |  16 ++
 .../slop/column/array/ByteArrayColumn.java    |  25 +--
 .../column/array/ByteArrayColumnReader.java   |   4 +-
 .../column/array/ByteArrayColumnWriter.java   |   4 +-
 .../slop/column/array/IntArrayColumn.java     |  19 +-
 .../column/array/IntArrayColumnReader.java    |   4 +-
 .../column/array/IntArrayColumnWriter.java    |   4 +-
 .../slop/column/array/LongArrayColumn.java    |  19 +-
 .../column/array/LongArrayColumnReader.java   |   5 +-
 .../column/array/LongArrayColumnWriter.java   |   4 +-
 .../slop/column/array/ObjectArrayColumn.java  | 118 +++++++++++
 .../column/array/ObjectArrayColumnReader.java |  21 ++
 .../column/array/ObjectArrayColumnWriter.java |  12 ++
 .../slop/column/string/StringColumn.java      |  27 ++-
 .../column/string/StringColumnReader.java     |   4 +-
 .../column/string/StringColumnWriter.java     |   4 +-
 .../nu/marginalia/slop/desc/ColumnDesc.java   |  10 +-
 .../marginalia/slop/desc/ColumnFunction.java  |   2 +
 .../nu/marginalia/slop/desc/ColumnType.java   |  20 +-
 .../nu/marginalia/slop/desc/SlopTable.java    |  46 ++--
 .../slop/storage/MmapStorageReader.java       |   2 +-
 .../nu/marginalia/slop/storage/Storage.java   |   4 +-
 .../writer/ConverterBatchWriter.java          |   6 +-
 .../converting-process/model/build.gradle     |   1 +
 .../model/processed/SlopDocumentRecord.java   | 196 +++++++++++-------
 .../model/processed/SlopDomainRecord.java     |  31 +--
 .../processed/SlopDocumentRecordTest.java     | 102 +++++++++
 .../processed/SlopDomainLinkRecordTest.java   |  43 ++++
 .../model/processed/SlopDomainRecordTest.java |  70 +++++++
 .../documents/DocumentLoaderService.java      |   2 +-
 49 files changed, 960 insertions(+), 293 deletions(-)
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java
 create mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java
 create mode 100644 code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
 create mode 100644 code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainLinkRecordTest.java
 create mode 100644 code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainRecordTest.java

diff --git a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
index 70a3e832..484636a9 100644
--- a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
+++ b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
@@ -1,11 +1,11 @@
 package nu.marginalia.model.idx;
 
-import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.util.List;
 
-public record CodedWordSpan(byte code, CodedSequence spans) {
-    public static SplitSpansList fromSplit(String codes, List<CodedSequence> spans) {
+public record CodedWordSpan(byte code, GammaCodedSequence spans) {
+    public static SplitSpansList fromSplit(String codes, List<GammaCodedSequence> spans) {
         return new SplitSpansList(codes, spans);
     }
     public static SplitSpansList split(List<CodedWordSpan> spanList) {
@@ -19,7 +19,7 @@ public record CodedWordSpan(byte code, CodedSequence spans) {
             );
     }
 
-    public record SplitSpansList(String codes, List<CodedSequence> spans) {
+    public record SplitSpansList(String codes, List<GammaCodedSequence> spans) {
         public List<CodedWordSpan> unite() {
             if (null == codes) {
                 return List.of();
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index d8167422..6e619138 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,7 +1,7 @@
 package nu.marginalia.keyword.model;
 
 import nu.marginalia.model.idx.CodedWordSpan;
-import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.util.List;
 
@@ -9,12 +9,12 @@ public final class DocumentKeywords {
 
     public final List<String> keywords;
     public final byte[] metadata;
-    public final List<CodedSequence> positions;
+    public final List<GammaCodedSequence> positions;
     public final List<CodedWordSpan> spans;
 
     public DocumentKeywords(List<String> keywords,
                             byte[] metadata,
-                            List<CodedSequence> positions,
+                            List<GammaCodedSequence> positions,
                             List<CodedWordSpan> spans)
     {
         this.keywords = keywords;
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 49d090d0..d73495be 100644
--- a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -8,7 +8,6 @@ import lombok.Getter;
 import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.idx.CodedWordSpan;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -40,7 +39,7 @@ public class DocumentKeywordsBuilder {
     public DocumentKeywords build(ByteBuffer workArea) {
         final List<String> wordArray = new ArrayList<>(wordToMeta.size());
         final TByteArrayList meta = new TByteArrayList(wordToMeta.size());
-        final List<CodedSequence> positions = new ArrayList<>(wordToMeta.size());
+        final List<GammaCodedSequence> positions = new ArrayList<>(wordToMeta.size());
 
         var iter = wordToMeta.object2ByteEntrySet().fastIterator();
 
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
index 2f969ad8..72bdd71f 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
@@ -19,6 +19,7 @@ import java.io.IOException;
 import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
+import java.util.List;
 
 public class ForwardIndexConverter {
 
@@ -91,7 +92,7 @@ public class ForwardIndexConverter {
                     var sizeReader = instance.openSize(slopTable);
 
                     var spansCodesReader = instance.openSpanCodes(slopTable);
-                    var spansSeqReader = instance.openSpans(slopTable.columnGroup("spans"));
+                    var spansSeqReader = instance.openSpans(slopTable);
 
                     while (docIdReader.hasRemaining()) {
                         long docId = docIdReader.get();
@@ -111,13 +112,11 @@ public class ForwardIndexConverter {
                         byte[] spansCodes = spansCodesReader.get();
 
                         spansWriter.beginRecord(spansCodes.length);
+                        workArea.clear();
+                        List<ByteBuffer> spans = spansSeqReader.getData(workArea);
 
                         for (int i = 0; i < spansCodes.length; i++) {
-                            workArea.clear();
-                            spansSeqReader.getData(workArea);
-                            workArea.flip();
-
-                            spansWriter.writeSpan(spansCodes[i], workArea);
+                            spansWriter.writeSpan(spansCodes[i], spans.get(i));
                         }
 
                         long encodedSpansOffset = spansWriter.endRecord();
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index ccd5a55b..36ff57eb 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -1,13 +1,16 @@
 package nu.marginalia.index.journal;
 
-import nu.marginalia.sequence.slop.GammaCodedSequenceColumn;
-import nu.marginalia.sequence.slop.GammaCodedSequenceReader;
-import nu.marginalia.sequence.slop.GammaCodedSequenceWriter;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayReader;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
 import nu.marginalia.slop.column.array.ByteArrayColumnReader;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.column.primitive.*;
+import nu.marginalia.slop.column.array.LongArrayColumnReader;
+import nu.marginalia.slop.column.array.LongArrayColumnWriter;
+import nu.marginalia.slop.column.primitive.IntColumnReader;
+import nu.marginalia.slop.column.primitive.IntColumnWriter;
+import nu.marginalia.slop.column.primitive.LongColumnReader;
+import nu.marginalia.slop.column.primitive.LongColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.SlopTable;
@@ -22,13 +25,12 @@ public record IndexJournalPage(Path baseDir, int page) {
     public static final ColumnDesc<LongColumnReader, LongColumnWriter> combinedId = new ColumnDesc<>("combinedId", ColumnType.LONG_LE, StorageType.PLAIN);
     public static final ColumnDesc<LongColumnReader, LongColumnWriter> documentMeta = new ColumnDesc<>("documentMeta", ColumnType.LONG_LE, StorageType.PLAIN);
 
-    public static final ColumnDesc<VarintColumnReader, VarintColumnWriter> termCounts = new ColumnDesc<>("termCounts", ColumnType.VARINT_LE, StorageType.PLAIN);
-    public static final ColumnDesc<LongColumnReader, LongColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnType.LONG_LE, StorageType.ZSTD);
-    public static final ColumnDesc<ByteColumnReader, ByteColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnType.BYTE, StorageType.ZSTD);
-    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> positions = new ColumnDesc<>("termPositions", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
+    public static final ColumnDesc<LongArrayColumnReader, LongArrayColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnType.LONG_ARRAY_LE, StorageType.ZSTD);
+    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    public static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> positions = new ColumnDesc<>("termPositions", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodes = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
-    public static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spans = new ColumnDesc<>("spans", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
+    public static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> spans = new ColumnDesc<>("spans", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     public IndexJournalPage {
         if (!baseDir.toFile().isDirectory()) {
@@ -52,24 +54,21 @@ public record IndexJournalPage(Path baseDir, int page) {
         return size.forPage(page).open(table, baseDir);
     }
 
-    public VarintColumnReader openTermCounts(SlopTable table) throws IOException {
-        return termCounts.forPage(page).open(table, baseDir);
+
+    public LongArrayColumnReader openTermIds(SlopTable table) throws IOException {
+        return termIds.forPage(page).open(table, baseDir);
     }
 
-    public LongColumnReader openTermIds(SlopTable table) throws IOException {
-        return termIds.forPage(page).open(table.columnGroup("keywords"), baseDir);
+    public ByteArrayColumnReader openTermMetadata(SlopTable table) throws IOException {
+        return termMeta.forPage(page).open(table, baseDir);
     }
 
-    public ByteColumnReader openTermMetadata(SlopTable table) throws IOException {
-        return termMeta.forPage(page).open(table.columnGroup("keywords"), baseDir);
+    public GammaCodedSequenceArrayReader openTermPositions(SlopTable table) throws IOException {
+        return positions.forPage(page).open(table, baseDir);
     }
 
-    public GammaCodedSequenceReader openTermPositions(SlopTable table) throws IOException {
-        return positions.forPage(page).open(table.columnGroup("keywords"), baseDir);
-    }
-
-    public GammaCodedSequenceReader openSpans(SlopTable table) throws IOException {
-        return spans.forPage(page).open(table.columnGroup("spans"), baseDir);
+    public GammaCodedSequenceArrayReader openSpans(SlopTable table) throws IOException {
+        return spans.forPage(page).open(table, baseDir);
     }
 
     public ByteArrayColumnReader openSpanCodes(SlopTable table) throws IOException {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index 2b1194ac..2b7acc01 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -3,11 +3,9 @@ package nu.marginalia.index.journal;
 import lombok.SneakyThrows;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.model.processed.SlopDocumentRecord;
-import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.sequence.slop.GammaCodedSequenceWriter;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.primitive.ByteColumnWriter;
+import nu.marginalia.slop.column.array.LongArrayColumnWriter;
 import nu.marginalia.slop.column.primitive.IntColumnWriter;
 import nu.marginalia.slop.column.primitive.LongColumnWriter;
 import nu.marginalia.slop.desc.SlopTable;
@@ -24,12 +22,11 @@ public class IndexJournalSlopWriter extends SlopTable {
     private final LongColumnWriter combinedIdWriter;
     private final LongColumnWriter documentMetaWriter;
 
-    private final LongColumnWriter termCountsWriter;
-    private final LongColumnWriter termIdsWriter;
-    private final ByteColumnWriter termMetadataWriter;
-    private final GammaCodedSequenceWriter termPositionsWriter;
+    private final LongArrayColumnWriter termIdsWriter;
+    private final ByteArrayColumnWriter termMetadataWriter;
+    private final GammaCodedSequenceArrayWriter termPositionsWriter;
 
-    private final GammaCodedSequenceWriter spansWriter;
+    private final GammaCodedSequenceArrayWriter spansWriter;
     private final ByteArrayColumnWriter spanCodesWriter;
 
     private static final MurmurHash3_128 hash = new MurmurHash3_128();
@@ -46,14 +43,12 @@ public class IndexJournalSlopWriter extends SlopTable {
         combinedIdWriter = IndexJournalPage.combinedId.forPage(page).create(this, dir);
         documentMetaWriter = IndexJournalPage.documentMeta.forPage(page).create(this, dir);
 
-        termCountsWriter = IndexJournalPage.termCounts.forPage(page).create(this, dir);
-
-        termIdsWriter = IndexJournalPage.termIds.forPage(page).create(this.columnGroup("keywords"), dir);
-        termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(this.columnGroup("keywords"), dir);
-        termPositionsWriter = IndexJournalPage.positions.forPage(page).create(this.columnGroup("keywords"), dir);
+        termIdsWriter = IndexJournalPage.termIds.forPage(page).create(this, dir);
+        termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(this, dir);
+        termPositionsWriter = IndexJournalPage.positions.forPage(page).create(this, dir);
 
         spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(this, dir);
-        spansWriter = IndexJournalPage.spans.forPage(page).create(this.columnGroup("spans"), dir);
+        spansWriter = IndexJournalPage.spans.forPage(page).create(this, dir);
     }
 
     @SneakyThrows
@@ -67,9 +62,6 @@ public class IndexJournalSlopWriter extends SlopTable {
         // -- write keyword data --
 
         final List<String> keywords = keywordsProjection.words();
-        byte[] termMetadata = keywordsProjection.metas();
-
-        termCountsWriter.put(keywords.size());
 
         // termIds are the special hashes of the keywords
         long[] termIds = new long[keywordsProjection.words().size()];
@@ -77,19 +69,14 @@ public class IndexJournalSlopWriter extends SlopTable {
             termIds[i] = hash.hashKeyword(keywords.get(i));
         }
 
-        List<CodedSequence> termPositions = keywordsProjection.positions();
-        for (int i = 0; i < termMetadata.length; i++) {
-            termMetadataWriter.put(termMetadata[i]);
-            termIdsWriter.put(termIds[i]);
-            termPositionsWriter.put((GammaCodedSequence) termPositions.get(i));
-        }
+        termIdsWriter.put(termIds);
+        termPositionsWriter.put(keywordsProjection.positions());
+        termMetadataWriter.put(keywordsProjection.metas());
 
         // -- write spans --
 
         spanCodesWriter.put(keywordsProjection.spanCodes());
-        for (var span : keywordsProjection.spans()) {
-            spansWriter.put((GammaCodedSequence) span);
-        }
+        spansWriter.put(keywordsProjection.spans());
     }
 
     public void close() throws IOException {
@@ -97,7 +84,6 @@ public class IndexJournalSlopWriter extends SlopTable {
         sizeWriter.close();
         combinedIdWriter.close();
         documentMetaWriter.close();
-        termCountsWriter.close();
         termIdsWriter.close();
         termMetadataWriter.close();
         termPositionsWriter.close();
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 7418f92a..407ac93d 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -17,6 +17,7 @@ import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
+import java.util.List;
 import java.util.concurrent.ExecutorService;
 import java.util.concurrent.Executors;
 import java.util.concurrent.TimeUnit;
@@ -76,13 +77,12 @@ public class FullPreindexDocuments {
 
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
-        final ByteBuffer tempBuffer = ByteBuffer.allocate(65536);
+        final ByteBuffer tempBuffer = ByteBuffer.allocate(1024*1024*100);
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
              var slopTable = new SlopTable())
         {
             var docIds = journalInstance.openCombinedId(slopTable);
-            var termCounts = journalInstance.openTermCounts(slopTable);
             var termIds = journalInstance.openTermIds(slopTable);
             var termMeta = journalInstance.openTermMetadata(slopTable);
             var positions = journalInstance.openTermPositions(slopTable);
@@ -90,23 +90,22 @@ public class FullPreindexDocuments {
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
 
-            while (termCounts.hasRemaining()) {
+            while (docIds.hasRemaining()) {
                 long docId = docIds.get();
                 long rankEncodedId = docIdRewriter.rewriteDocId(docId);
 
-                long termCount = termCounts.get();
+                long[] tIds = termIds.get();
+                byte[] tMeta = termMeta.get();
+                tempBuffer.clear();
+                List<ByteBuffer> tPos = positions.getData(tempBuffer);
 
-                for (int termIdx = 0; termIdx < termCount; termIdx++) {
-                    long termId = termIds.get();
-                    byte meta = termMeta.get();
-
-                    // Read positions
-                    tempBuffer.clear();
-                    positions.getData(tempBuffer);
-                    tempBuffer.flip();
+                for (int i = 0; i < tIds.length; i++) {
+                    long termId = tIds[i];
+                    byte meta = tMeta[i];
+                    ByteBuffer pos = tPos.get(i);
 
                     long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
-                    long encodedPosOffset = positionsFileConstructor.add(meta, tempBuffer);
+                    long encodedPosOffset = positionsFileConstructor.add(meta, pos);
 
                     assembly.put(offset + 0, rankEncodedId);
                     assembly.put(offset + 1, encodedPosOffset);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index 51987a36..9cccb1b6 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -63,7 +63,10 @@ public class FullPreindexWordSegments {
         try (var slopTable = new SlopTable()) {
             var termIds = journalInstance.openTermIds(slopTable);
             while (termIds.hasRemaining()) {
-                countsMap.addTo(termIds.get(), 1);
+                long[] tids = termIds.get();
+                for (long termId : tids) {
+                    countsMap.addTo(termId, 1);
+                }
             }
         }
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index e5ab2409..9d6a708f 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -71,21 +71,23 @@ public class PrioPreindexDocuments {
              var slopTable = new SlopTable())
         {
             var docIds = journalInstance.openCombinedId(slopTable);
-            var termIdsCounts = journalInstance.openTermCounts(slopTable);
             var termIds = journalInstance.openTermIds(slopTable);
             var termMeta = journalInstance.openTermMetadata(slopTable);
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
 
+
             while (docIds.hasRemaining()) {
                 long docId = docIds.get();
                 long rankEncodedId = docIdRewriter.rewriteDocId(docId);
 
-                long termCount = termIdsCounts.get();
-                for (int termIdx = 0; termIdx < termCount; termIdx++) {
-                    long termId = termIds.get();
-                    byte meta = termMeta.get();
+                long[] tIds = termIds.get();
+                byte[] tMeta = termMeta.get();
+
+                for (int i = 0; i < tIds.length; i++) {
+                    long termId = tIds[i];
+                    byte meta = tMeta[i];
 
                     if (meta != 0) {
                         long offset = offsetMap.addTo(termId, RECORD_SIZE_LONGS);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
index a30d8a5f..aabde27d 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -65,11 +65,13 @@ public class PrioPreindexWordSegments {
             var termMetas = journalInstance.openTermMetadata(slopTable);
 
             while (termIds.hasRemaining()) {
-                long data = termIds.get();
-                byte meta = termMetas.get();
+                long[] data = termIds.get();
+                byte[] meta = termMetas.get();
 
-                if (meta != 0) {
-                    countsMap.addTo(data, 1);
+                for (int i = 0; i < data.length; i++) {
+                    if (meta[i] != 0) {
+                        countsMap.addTo(data[i], 1);
+                    }
                 }
             }
         }
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
index 671ee8db..f52d1b99 100644
--- a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -28,7 +28,6 @@ import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.service.server.Initialization;
 import nu.marginalia.storage.FileStorageService;
@@ -322,7 +321,7 @@ public class CombinedIndexReaderTest {
                 for (int i = 0; i < words.size(); i++) {
                     metadata[i] = words.get(i).termMetadata;
                 }
-                var positions = words.stream().map(w -> w.positions).map(pos -> (CodedSequence) GammaCodedSequence.generate(ByteBuffer.allocate(1024), pos.toIntArray())).toList();
+                var positions = words.stream().map(w -> w.positions).map(pos ->  GammaCodedSequence.generate(ByteBuffer.allocate(1024), pos.toIntArray())).toList();
 
                 indexJournalWriter.put(doc,
                         new SlopDocumentRecord.KeywordsProjection(
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 8198e475..39c54fa6 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -29,7 +29,6 @@ import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
@@ -364,7 +363,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
             metadata[i] = WordFlags.Title.asBit();
         }
 
-        List<CodedSequence> positions = new ArrayList<>();
+        List<GammaCodedSequence> positions = new ArrayList<>();
 
         ByteBuffer wa = ByteBuffer.allocate(32);
         for (int i = 0; i < factors.length; i++) {
@@ -404,7 +403,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
             metadata[i] = WordFlags.Title.asBit();
         }
 
-        List<CodedSequence> positions = new ArrayList<>();
+        List<GammaCodedSequence> positions = new ArrayList<>();
 
         ByteBuffer wa = ByteBuffer.allocate(32);
         for (int i = 0; i < factors.length; i++) {
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 9cb16270..44c73cb8 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -33,7 +33,6 @@ import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
@@ -545,7 +544,7 @@ public class IndexQueryServiceIntegrationTest {
                     metadata[i] = (byte) words.get(i).termMetadata;
                 }
 
-                List<CodedSequence> positions = new ArrayList<>();
+                List<GammaCodedSequence> positions = new ArrayList<>();
                 ByteBuffer workBuffer = ByteBuffer.allocate(8192);
                 for (int i = 0; i < words.size(); i++) {
                     positions.add(GammaCodedSequence.generate(workBuffer, words.get(i).positions));
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
new file mode 100644
index 00000000..e3402729
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
@@ -0,0 +1,147 @@
+package nu.marginalia.sequence.slop;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+
+/** Slop column extension for storing GammaCodedSequence objects. */
+public class GammaCodedSequenceArrayColumn {
+
+    public static ColumnType<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> TYPE = ColumnType.register("s8[]+gcs[]", ByteOrder.nativeOrder(), GammaCodedSequenceArrayColumn::open, GammaCodedSequenceArrayColumn::create);
+
+    public static GammaCodedSequenceArrayReader open(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Reader(columnDesc,
+                GammaCodedSequenceColumn.open(path, columnDesc),
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH,
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    public static GammaCodedSequenceArrayWriter create(Path path, ColumnDesc columnDesc) throws IOException {
+        return new Writer(columnDesc,
+                GammaCodedSequenceColumn.create(path, columnDesc),
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH,
+                        ColumnType.VARINT_LE,
+                        StorageType.PLAIN)
+                )
+        );
+    }
+
+    private static class Writer implements GammaCodedSequenceArrayWriter {
+        private final VarintColumnWriter groupsWriter;
+        private final GammaCodedSequenceWriter dataWriter;
+        private final ColumnDesc<?, ?> columnDesc;
+
+        public Writer(ColumnDesc<?, ?> columnDesc, GammaCodedSequenceWriter dataWriter, VarintColumnWriter groupsWriter)
+        {
+            this.groupsWriter = groupsWriter;
+            this.dataWriter = dataWriter;
+            this.columnDesc = columnDesc;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        @Override
+        public void put(List<GammaCodedSequence> sequences) throws IOException {
+            groupsWriter.put(sequences.size());
+            for (GammaCodedSequence sequence : sequences) {
+                dataWriter.put(sequence);
+            }
+        }
+
+        public long position() {
+            return groupsWriter.position();
+        }
+
+        public void close() throws IOException {
+            dataWriter.close();
+            groupsWriter.close();
+        }
+    }
+
+    private static class Reader implements GammaCodedSequenceArrayReader {
+        private final GammaCodedSequenceReader dataReader;
+        private final VarintColumnReader groupsReader;
+        private final ColumnDesc<?, ?> columnDesc;
+
+        public Reader(ColumnDesc<?, ?> columnDesc, GammaCodedSequenceReader dataReader, VarintColumnReader groupsReader) throws IOException {
+            this.dataReader = dataReader;
+            this.groupsReader = groupsReader;
+            this.columnDesc = columnDesc;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            int toSkip = 0;
+            for (int i = 0; i < positions; i++) {
+                toSkip += groupsReader.get();
+            }
+            dataReader.skip(toSkip);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return groupsReader.hasRemaining();
+        }
+
+        public long position() throws IOException {
+            return groupsReader.position();
+        }
+
+        @Override
+        public List<GammaCodedSequence> get() throws IOException {
+            int count = groupsReader.get();
+            var ret = new ArrayList<GammaCodedSequence>(count);
+
+            for (int i = 0; i < count; i++) {
+                ret.add(dataReader.get());
+            }
+
+            return ret;
+        }
+
+        @Override
+        public List<ByteBuffer> getData(ByteBuffer workArea) throws IOException {
+            int count = groupsReader.get();
+            var ret = new ArrayList<ByteBuffer>(count);
+
+            for (int i = 0; i < count; i++) {
+                int start = workArea.position();
+                dataReader.getData(workArea);
+                var slice = workArea.slice(start, workArea.position() - start);
+                ret.add(slice);
+            }
+
+            return ret;
+        }
+
+
+        public void close() throws IOException {
+            dataReader.close();
+            groupsReader.close();
+        }
+
+    }
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java
new file mode 100644
index 00000000..57329cb3
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java
@@ -0,0 +1,32 @@
+package nu.marginalia.sequence.slop;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.ColumnReader;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.util.List;
+
+public interface GammaCodedSequenceArrayReader extends AutoCloseable, ColumnReader {
+    /** Read the next gamma-coded sequence from the column.  Unlike most other
+     * readers, this method requires an intermediate buffer to use for reading
+     * the sequence.  As this buffer typically needs to be fairly large to accommodate
+     * the largest possible sequence, it is not practical to allocate a new buffer
+     * for each call to this method.  Instead, the caller should allocate a buffer
+     * once and reuse it for each call to this method.
+     *
+     * @return The next gamma-coded sequence.
+     */
+    List<GammaCodedSequence> get() throws IOException;
+
+    /** Read just the data portion of the next gamma-coded sequence from the column.
+     * This method is useful when the caller is only interested in the data portion
+     * of the sequence and does not want to decode the values.
+     *
+     * @param workArea A buffer to use for reading the data.
+     * @return slices of the work buffer containing the data.
+     */
+    List<ByteBuffer> getData(ByteBuffer workArea) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java
new file mode 100644
index 00000000..9d5ad1bd
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java
@@ -0,0 +1,12 @@
+package nu.marginalia.sequence.slop;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.column.ColumnWriter;
+
+import java.io.IOException;
+import java.util.List;
+
+public interface GammaCodedSequenceArrayWriter extends AutoCloseable, ColumnWriter {
+    void put(List<GammaCodedSequence> sequence) throws IOException;
+    void close() throws IOException;
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
index e27586de..2bc17774 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
@@ -100,7 +100,7 @@ public class GammaCodedSequenceColumn {
         @Override
         public void skip(long positions) throws IOException {
             for (int i = 0; i < positions; i++) {
-                int size = (int) indexReader.get();
+                int size = indexReader.get();
                 storage.skip(size, 1);
             }
         }
@@ -115,20 +115,19 @@ public class GammaCodedSequenceColumn {
         }
 
         @Override
-        public GammaCodedSequence get(ByteBuffer workArea) throws IOException {
-            int size = (int) indexReader.get();
+        public GammaCodedSequence get() throws IOException {
+            int size = indexReader.get();
 
-            workArea.clear();
-            workArea.limit(size);
-            storage.getBytes(workArea);
-            workArea.flip();
+            ByteBuffer dest = ByteBuffer.allocate(size);
+            storage.getBytes(dest);
+            dest.flip();
 
-            return new GammaCodedSequence(workArea);
+            return new GammaCodedSequence(dest);
         }
 
         @Override
         public void getData(ByteBuffer workArea) throws IOException {
-            int size = (int) indexReader.get();
+            int size = indexReader.get();
 
             int oldLimit = workArea.limit();
             workArea.limit(workArea.position() + size);
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
index 9793a82a..cb82dd9b 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
@@ -1,6 +1,6 @@
 package nu.marginalia.sequence.slop;
 
-import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.slop.column.ColumnReader;
 
 import java.io.IOException;
@@ -14,10 +14,9 @@ public interface GammaCodedSequenceReader extends AutoCloseable, ColumnReader {
      * for each call to this method.  Instead, the caller should allocate a buffer
      * once and reuse it for each call to this method.
      *
-     * @param workArea A buffer to use for reading the sequence.
      * @return The next gamma-coded sequence.
      */
-    CodedSequence get(ByteBuffer workArea) throws IOException;
+    GammaCodedSequence get() throws IOException;
 
     /** Read just the data portion of the next gamma-coded sequence from the column.
      * This method is useful when the caller is only interested in the data portion
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java
new file mode 100644
index 00000000..78e0d520
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java
@@ -0,0 +1,37 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+
+import java.io.IOException;
+import java.util.function.Predicate;
+
+public interface ObjectColumnReader<T> extends ColumnReader {
+
+    ColumnDesc<?, ?> columnDesc();
+
+    T get() throws IOException;
+
+    default boolean search(T value) throws IOException {
+        while (hasRemaining()) {
+            if (get().equals(value)) {
+                return true;
+            }
+        }
+        return false;
+    }
+    default boolean search(Predicate<T> test) throws IOException {
+        while (hasRemaining()) {
+            if (test.test(get())) {
+                return true;
+            }
+        }
+        return false;
+    }
+
+    long position() throws IOException;
+    void skip(long positions) throws IOException;
+
+    boolean hasRemaining() throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java
new file mode 100644
index 00000000..5e4c4fd6
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java
@@ -0,0 +1,16 @@
+package nu.marginalia.slop.column;
+
+import nu.marginalia.slop.desc.ColumnDesc;
+
+import java.io.IOException;
+
+public interface ObjectColumnWriter<T> extends ColumnWriter {
+    ColumnDesc<?, ?> columnDesc();
+
+    void put(T value) throws IOException;
+
+    /** Return the current record index in the column */
+    long position();
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
index 157efa84..9237da19 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
@@ -4,6 +4,7 @@ import nu.marginalia.slop.column.dynamic.VarintColumn;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
 import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.StorageType;
 import nu.marginalia.slop.storage.Storage;
@@ -19,11 +20,7 @@ public class ByteArrayColumn {
         return new Reader(
                 columnDesc,
                 Storage.reader(path, columnDesc, true),
-                VarintColumn.open(path,
-                        columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
-                                ColumnType.VARINT_LE,
-                                StorageType.PLAIN)
-                )
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
         );
     }
 
@@ -31,14 +28,18 @@ public class ByteArrayColumn {
         return new Writer(
                 columnDesc,
                 Storage.writer(path, columnDesc),
-                VarintColumn.create(path,
-                        columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
-                                ColumnType.VARINT_LE,
-                                StorageType.PLAIN)
-                )
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
         );
     }
 
+    public static ObjectArrayColumnReader<byte[]> openNested(Path path, ColumnDesc desc) throws IOException {
+        return ObjectArrayColumn.open(path, desc, open(path, desc));
+    }
+
+    public static ObjectArrayColumnWriter<byte[]> createNested(Path path, ColumnDesc desc) throws IOException {
+        return ObjectArrayColumn.create(path, desc, create(path, desc));
+    }
+
     private static class Writer implements ByteArrayColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
@@ -90,7 +91,7 @@ public class ByteArrayColumn {
         }
 
         public byte[] get() throws IOException {
-            int length = (int) lengthsReader.get();
+            int length = lengthsReader.get();
             byte[] ret = new byte[length];
             storage.getBytes(ret);
             return ret;
@@ -104,7 +105,7 @@ public class ByteArrayColumn {
         @Override
         public void skip(long positions) throws IOException {
             for (int i = 0; i < positions; i++) {
-                int size = (int) lengthsReader.get();
+                int size = lengthsReader.get();
                 storage.skip(size, 1);
             }
         }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
index 6a96ae12..d36b4a28 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.array;
 
-import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ObjectColumnReader;
 
 import java.io.IOException;
 
-public interface ByteArrayColumnReader extends ColumnReader, AutoCloseable {
+public interface ByteArrayColumnReader extends ObjectColumnReader<byte[]>, AutoCloseable {
     byte[] get() throws IOException;
     void close() throws IOException;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
index 1efdff2d..ba54ce22 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.array;
 
-import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.column.ObjectColumnWriter;
 
 import java.io.IOException;
 
-public interface ByteArrayColumnWriter extends ColumnWriter, AutoCloseable {
+public interface ByteArrayColumnWriter extends ObjectColumnWriter<byte[]>, AutoCloseable {
     void put(byte[] value) throws IOException;
 
     void close() throws IOException;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
index 8eba4f56..67dcb519 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
@@ -4,6 +4,7 @@ import nu.marginalia.slop.column.dynamic.VarintColumn;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
 import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.StorageType;
 import nu.marginalia.slop.storage.Storage;
@@ -18,23 +19,25 @@ public class IntArrayColumn {
     public static IntArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(columnDesc,
                 Storage.reader(path, columnDesc, true),
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
-                        ColumnType.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
         );
     }
 
     public static IntArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
         return new Writer(columnDesc,
                 Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
-                        ColumnType.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
         );
     }
 
+    public static ObjectArrayColumnReader<int[]> openNested(Path path, ColumnDesc desc) throws IOException {
+        return ObjectArrayColumn.open(path, desc, open(path, desc));
+    }
+
+    public static ObjectArrayColumnWriter<int[]> createNested(Path path, ColumnDesc desc) throws IOException {
+        return ObjectArrayColumn.create(path, desc, create(path, desc));
+    }
+
     private static class Writer implements IntArrayColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
index 9377a171..079ff4b3 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.array;
 
-import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ObjectColumnReader;
 
 import java.io.IOException;
 
-public interface IntArrayColumnReader extends ColumnReader, AutoCloseable {
+public interface IntArrayColumnReader extends ObjectColumnReader<int[]>, AutoCloseable {
     int[] get() throws IOException;
     void close() throws IOException;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
index 059a79f7..e0a5c291 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.array;
 
-import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.column.ObjectColumnWriter;
 
 import java.io.IOException;
 
-public interface IntArrayColumnWriter  extends ColumnWriter, AutoCloseable {
+public interface IntArrayColumnWriter extends ObjectColumnWriter<int[]>, AutoCloseable {
     void put(int[] value) throws IOException;
 
     void close() throws IOException;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
index 4773f31c..a933a548 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
@@ -4,6 +4,7 @@ import nu.marginalia.slop.column.dynamic.VarintColumn;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
 import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.StorageType;
 import nu.marginalia.slop.storage.Storage;
@@ -19,10 +20,7 @@ public class LongArrayColumn {
         return new LongArrayColumn.Reader(
                 columnDesc,
                 Storage.reader(path, columnDesc, true),
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
-                        ColumnType.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
         );
     }
 
@@ -30,13 +28,18 @@ public class LongArrayColumn {
         return new LongArrayColumn.Writer(
                 columnDesc,
                 Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(columnDesc.function().lengthsTable(),
-                        ColumnType.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
         );
     }
 
+    public static ObjectArrayColumnReader<long[]> openNested(Path path, ColumnDesc desc) throws IOException {
+        return ObjectArrayColumn.open(path, desc, open(path, desc));
+    }
+
+    public static ObjectArrayColumnWriter<long[]> createNested(Path path, ColumnDesc desc) throws IOException {
+        return ObjectArrayColumn.create(path, desc, create(path, desc));
+    }
+
     private static class Writer implements LongArrayColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter storage;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
index 1a4194bd..a3172c29 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
@@ -1,10 +1,11 @@
 package nu.marginalia.slop.column.array;
 
-import nu.marginalia.slop.column.ColumnReader;
+
+import nu.marginalia.slop.column.ObjectColumnReader;
 
 import java.io.IOException;
 
-public interface LongArrayColumnReader extends ColumnReader, AutoCloseable {
+public interface LongArrayColumnReader extends ObjectColumnReader<long[]>, AutoCloseable {
     long[] get() throws IOException;
     void close() throws IOException;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
index 75413fb4..02480288 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.array;
 
-import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.column.ObjectColumnWriter;
 
 import java.io.IOException;
 
-public interface LongArrayColumnWriter  extends ColumnWriter, AutoCloseable {
+public interface LongArrayColumnWriter  extends ObjectColumnWriter<long[]>, AutoCloseable {
     void put(long[] value) throws IOException;
 
     void close() throws IOException;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java
new file mode 100644
index 00000000..a987977d
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java
@@ -0,0 +1,118 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ObjectColumnReader;
+import nu.marginalia.slop.column.ObjectColumnWriter;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumnReader;
+import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
+import nu.marginalia.slop.desc.ColumnDesc;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.ColumnType;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+
+public class ObjectArrayColumn {
+    public static <T> ObjectArrayColumnReader<T> open(Path baseDir,
+                                               ColumnDesc<ObjectArrayColumnReader<T>, ObjectArrayColumnWriter<T>> selfType,
+                                               ObjectColumnReader<T> baseReader) throws IOException {
+        return new Reader<>(selfType, baseReader,
+                VarintColumn.open(baseDir, selfType.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH, ColumnType.VARINT_LE, StorageType.PLAIN)));
+    }
+
+    public static <T> ObjectArrayColumnWriter<T> create(Path baseDir,
+                                                 ColumnDesc<ObjectArrayColumnReader<T>, ObjectArrayColumnWriter<T>> selfType,
+                                                 ObjectColumnWriter<T> baseWriter) throws IOException {
+        return new Writer<T>(selfType,
+                baseWriter,
+                VarintColumn.create(baseDir, selfType.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH, ColumnType.VARINT_LE, StorageType.PLAIN)));
+    }
+
+
+    private static class Writer<T> implements ObjectArrayColumnWriter<T> {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final ObjectColumnWriter<T> dataWriter;
+        private final VarintColumnWriter groupsWriter;
+
+        public Writer(ColumnDesc<?, ?> columnDesc, ObjectColumnWriter<T> dataWriter, VarintColumnWriter groupsWriter) throws IOException {
+            this.columnDesc = columnDesc;
+            this.dataWriter = dataWriter;
+            this.groupsWriter = groupsWriter;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        public void put(List<T> value) throws IOException {
+            groupsWriter.put(value.size());
+            for (T t : value) {
+                dataWriter.put(t);
+            }
+        }
+
+        public long position() {
+            return groupsWriter.position();
+        }
+
+        public void close() throws IOException {
+            dataWriter.close();
+            groupsWriter.close();
+        }
+    }
+
+    private static class Reader<T> implements ObjectArrayColumnReader<T> {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final ObjectColumnReader<T> dataReader;
+        private final VarintColumnReader groupsReader;
+
+        public Reader(ColumnDesc<?, ?> columnDesc, ObjectColumnReader<T> dataReader, VarintColumnReader groupsReader) throws IOException {
+            this.columnDesc = columnDesc;
+            this.dataReader = dataReader;
+            this.groupsReader = groupsReader;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        public List<T> get() throws IOException {
+            int length = groupsReader.get();
+            List<T> ret = new ArrayList<>(length);
+            for (int i = 0; i < length; i++) {
+                ret.add(dataReader.get());
+            }
+            return ret;
+        }
+
+        @Override
+        public long position() throws IOException {
+            return groupsReader.position();
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            int toSkip = 0;
+            for (int i = 0; i < positions; i++) {
+                toSkip += groupsReader.get();
+            }
+            dataReader.skip(toSkip);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return groupsReader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            dataReader.close();
+            groupsReader.close();
+        }
+    }
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java
new file mode 100644
index 00000000..297bc2dd
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java
@@ -0,0 +1,21 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ObjectColumnReader;
+
+import java.io.IOException;
+import java.util.List;
+
+public interface ObjectArrayColumnReader<T> extends ObjectColumnReader<List<T>>, AutoCloseable {
+    List<T> get() throws IOException;
+    void close() throws IOException;
+
+
+    @Override
+    long position() throws IOException;
+
+    @Override
+    void skip(long positions) throws IOException;
+
+    @Override
+    boolean hasRemaining() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java
new file mode 100644
index 00000000..7ff8e375
--- /dev/null
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java
@@ -0,0 +1,12 @@
+package nu.marginalia.slop.column.array;
+
+import nu.marginalia.slop.column.ObjectColumnWriter;
+
+import java.io.IOException;
+import java.util.List;
+
+public interface ObjectArrayColumnWriter<T> extends ObjectColumnWriter<List<T>>, AutoCloseable {
+    void put(List<T> values) throws IOException;
+
+    void close() throws IOException;
+}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
index 0dd30f56..5f0cfe19 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
@@ -1,8 +1,6 @@
 package nu.marginalia.slop.column.string;
 
-import nu.marginalia.slop.column.array.ByteArrayColumn;
-import nu.marginalia.slop.column.array.ByteArrayColumnReader;
-import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
+import nu.marginalia.slop.column.array.*;
 import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.storage.Storage;
@@ -25,6 +23,7 @@ public class StringColumn {
         throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
     }
 
+
     public static StringColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
         if (columnDesc.type().equals(ColumnType.STRING)) {
             return new ArrayWriter(columnDesc, ByteArrayColumn.create(path, columnDesc));
@@ -36,6 +35,28 @@ public class StringColumn {
         throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
     }
 
+    public static ObjectArrayColumnReader<String> openArray(Path path, ColumnDesc columnDesc) throws IOException {
+        if (columnDesc.type().equals(ColumnType.STRING_ARRAY)) {
+            return ObjectArrayColumn.open(path, columnDesc, new ArrayReader(columnDesc, ByteArrayColumn.open(path, columnDesc)));
+        } else if (columnDesc.type().equals(ColumnType.CSTRING_ARRAY)) {
+            return ObjectArrayColumn.open(path, columnDesc, new CStringReader(columnDesc, Storage.reader(path, columnDesc, true)));
+        } else if (columnDesc.type().equals(ColumnType.TXTSTRING_ARRAY)) {
+            return ObjectArrayColumn.open(path, columnDesc, new TxtStringReader(columnDesc, Storage.reader(path, columnDesc, true)));
+        }
+        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
+    }
+
+    public static ObjectArrayColumnWriter<String> createArray(Path path, ColumnDesc columnDesc) throws IOException {
+        if (columnDesc.type().equals(ColumnType.STRING_ARRAY)) {
+            return ObjectArrayColumn.create(path, columnDesc, new ArrayWriter(columnDesc, ByteArrayColumn.create(path, columnDesc)));
+        } else if (columnDesc.type().equals(ColumnType.CSTRING_ARRAY)) {
+            return ObjectArrayColumn.create(path, columnDesc, new CStringWriter(columnDesc, Storage.writer(path, columnDesc)));
+        } else if (columnDesc.type().equals(ColumnType.TXTSTRING_ARRAY)) {
+            return ObjectArrayColumn.create(path, columnDesc, new TxtStringWriter(columnDesc, Storage.writer(path, columnDesc)));
+        }
+        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
+    }
+
     private static class ArrayWriter implements StringColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
         private final ByteArrayColumnWriter backingColumn;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
index e0a732b3..810bb7b0 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.string;
 
-import nu.marginalia.slop.column.ColumnReader;
+import nu.marginalia.slop.column.ObjectColumnReader;
 
 import java.io.IOException;
 
-public interface StringColumnReader extends ColumnReader, AutoCloseable {
+public interface StringColumnReader extends ObjectColumnReader<String>, AutoCloseable {
 
     String get() throws IOException;
 
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
index ac889be0..c439192d 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
@@ -1,10 +1,10 @@
 package nu.marginalia.slop.column.string;
 
-import nu.marginalia.slop.column.ColumnWriter;
+import nu.marginalia.slop.column.ObjectColumnWriter;
 
 import java.io.IOException;
 
-public interface StringColumnWriter extends ColumnWriter, AutoCloseable {
+public interface StringColumnWriter extends ObjectColumnWriter<String>, AutoCloseable {
     void put(String value) throws IOException;
 
     @Override
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
index e5120fbd..0f4569aa 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
@@ -53,11 +53,19 @@ public record ColumnDesc<R extends ColumnReader,
      * @param path the path to the file to write to
      * */
     public W create(SlopTable table, Path path) throws IOException {
-        var writer = type.register(path, this);
+        var writer = type.create(path, this);
         table.register(writer);
         return writer;
     }
 
+    public W createUnregistered(Path path) throws IOException {
+        return type.create(path, this);
+    }
+
+    public R openUnregistered(Path path) throws IOException {
+        return type.open(path, this);
+    }
+
     public <R2 extends ColumnReader, W2 extends ColumnWriter >
     ColumnDesc<R2, W2> createSupplementaryColumn(
             ColumnFunction function,
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
index 6ea7f91f..7ff857a1 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
@@ -9,6 +9,8 @@ public enum ColumnFunction {
     DATA("dat"),
     /** The length column for the DATA column, in the case of variable-length records. */
     DATA_LEN("dat-len"),
+    /** The length column for the group of items in the DATA column, in the case of variable-length array-style records. */
+    GROUP_LENGTH("grp-len"),
     /** The dictionary column, in the case of a dictionary-encoded column. */
     DICT("dic"),
     /** The length column for the DICT column, in the case of variable-length dictionaries. */
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
index 5bd8b60f..aadb14ee 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
@@ -24,7 +24,7 @@ public abstract class ColumnType<
     public abstract ByteOrder byteOrder();
 
     abstract R open(Path path, ColumnDesc<R, W> desc) throws IOException;
-    abstract W register(Path path, ColumnDesc<R, W> desc) throws IOException;
+    abstract W create(Path path, ColumnDesc<R, W> desc) throws IOException;
 
     public static ColumnType<? extends ColumnReader,? extends ColumnWriter> byMnemonic(String mnemonic) {
         return byMnemonic.get(mnemonic);
@@ -46,20 +46,32 @@ public abstract class ColumnType<
     public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_LE = register("varintle", ByteOrder.LITTLE_ENDIAN, VarintColumn::open, VarintColumn::create);
     public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_BE = register("varintbe", ByteOrder.BIG_ENDIAN, VarintColumn::open, VarintColumn::create);
     public static ColumnType<CustomBinaryColumnReader, CustomBinaryColumnWriter> BYTE_ARRAY_CUSTOM = register("s8[]+custom", ByteOrder.nativeOrder(), CustomBinaryColumn::open, CustomBinaryColumn::create);
+
     public static ColumnType<StringColumnReader, StringColumnWriter> STRING = register("s8[]+str", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> CSTRING = register("s8+cstr", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
     public static ColumnType<StringColumnReader, StringColumnWriter> TXTSTRING = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
 
+
     public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_8 = register("u8+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open8, EnumColumn::create8);
     public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_LE = register("varintle+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open, EnumColumn::create);
     public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_BE = register("varintbe+enum", ByteOrder.BIG_ENDIAN, EnumColumn::open, EnumColumn::create);
 
     public static ColumnType<ByteArrayColumnReader, ByteArrayColumnWriter> BYTE_ARRAY = register("s8[]", ByteOrder.nativeOrder(), ByteArrayColumn::open, ByteArrayColumn::create);
-    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_LE = register("s32le[]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
-    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_BE = register("s32be[]", ByteOrder.BIG_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
+    public static ColumnType<ObjectArrayColumnReader<byte[]>, ObjectArrayColumnWriter<byte[]>> BYTE_ARRAY_ARRAY = register("s8[][]", ByteOrder.nativeOrder(), ByteArrayColumn::openNested, ByteArrayColumn::createNested);
     public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_LE = register("s64le[]", ByteOrder.LITTLE_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
     public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_BE = register("s64be[]", ByteOrder.BIG_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
 
+    public static ColumnType<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> STRING_ARRAY = register("s8[]+str[]", ByteOrder.nativeOrder(), StringColumn::openArray, StringColumn::createArray);
+    public static ColumnType<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> CSTRING_ARRAY = register("s8+cstr[]", ByteOrder.nativeOrder(), StringColumn::openArray, StringColumn::createArray);
+    public static ColumnType<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> TXTSTRING_ARRAY = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::openArray, StringColumn::createArray);
+
+    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_LE = register("s32le[]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
+    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_BE = register("s32be[]", ByteOrder.BIG_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
+    public static ColumnType<ObjectArrayColumnReader<int[]>, ObjectArrayColumnWriter<int[]>> INT_ARRAY_ARRAY_LE = register("s32le[][]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::openNested, IntArrayColumn::createNested);
+    public static ColumnType<ObjectArrayColumnReader<int[]>, ObjectArrayColumnWriter<int[]>> INT_ARRAY_ARRAY_BE = register("s32be[][]", ByteOrder.BIG_ENDIAN, IntArrayColumn::openNested, IntArrayColumn::createNested);
+    public static ColumnType<ObjectArrayColumnReader<long[]>, ObjectArrayColumnWriter<long[]>> LONG_ARRAY_ARRAY_LE = register("s64le[][]", ByteOrder.LITTLE_ENDIAN, LongArrayColumn::openNested, LongArrayColumn::createNested);
+    public static ColumnType<ObjectArrayColumnReader<long[]>, ObjectArrayColumnWriter<long[]>> LONG_ARRAY_ARRAY_BE = register("s64be[][]", ByteOrder.BIG_ENDIAN, LongArrayColumn::openNested, LongArrayColumn::createNested);
+
     public interface ColumnOpener<T extends ColumnReader> {
         T open(Path path, ColumnDesc desc) throws IOException;
     }
@@ -91,7 +103,7 @@ public abstract class ColumnType<
             }
 
             @Override
-            public W register(Path path, ColumnDesc<R, W> desc) throws IOException {
+            public W create(Path path, ColumnDesc<R, W> desc) throws IOException {
                 return writerCons.create(path, desc);
             }
         };
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
index 3933b2d1..977b4c86 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
@@ -2,8 +2,7 @@ package nu.marginalia.slop.desc;
 
 import nu.marginalia.slop.column.ColumnReader;
 import nu.marginalia.slop.column.ColumnWriter;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
+import nu.marginalia.slop.column.ObjectColumnReader;
 
 import java.io.IOException;
 import java.util.*;
@@ -24,29 +23,33 @@ import java.util.*;
  */
 
 public class SlopTable implements AutoCloseable {
-    private final List<ColumnReader> readerList = new ArrayList<>();
-    private final List<ColumnWriter> writerList = new ArrayList<>();
-
-    private final Map<String, SlopTable> columnGroups = new HashMap<>();
-
-    private static final Logger logger = LoggerFactory.getLogger(SlopTable.class);
-
-    /** Create a SlopTable corresponding to a grouping of  columns that have their own
-     * internal consistency check.  This is needed e.g. for grouped values.  The table is
-     * closed automatically by the current instance.
-     */
-    public SlopTable columnGroup(String name) {
-        return columnGroups.computeIfAbsent(name, k -> new SlopTable());
-    }
+    private final Set<ColumnReader> readerList = new HashSet<>();
+    private final Set<ColumnWriter> writerList = new HashSet<>();
 
     /** Register a column reader with this table.  This is called from ColumnDesc. */
     void register(ColumnReader reader) {
-        readerList.add(reader);
+        if (!readerList.add(reader))
+            System.err.println("Double registration of " + reader);
     }
 
     /** Register a column reader with this table.  This is called from ColumnDesc. */
     void register(ColumnWriter writer) {
-        writerList.add(writer);
+        if (!writerList.add(writer))
+            System.err.println("Double registration of " + writer);
+    }
+
+    protected <T> boolean find(ObjectColumnReader<T> column, T value) throws IOException {
+        boolean ret = column.search(value);
+
+        long desiredPos = column.position() - 1;
+
+        for (var otherReader : readerList) {
+            if (otherReader.position() < desiredPos) {
+                otherReader.skip(desiredPos - otherReader.position());
+            }
+        }
+
+        return ret;
     }
 
     public void close() throws IOException {
@@ -70,7 +73,7 @@ public class SlopTable implements AutoCloseable {
 
         var zeroPositions = Objects.requireNonNullElseGet(positions.remove(0L), List::of);
         if (!zeroPositions.isEmpty() && !positions.isEmpty()) {
-            logger.warn("Zero position found in {}, this is likely development debris", zeroPositions);
+            System.err.println("Zero position found in {}, this is likely development debris" + zeroPositions);
         }
 
         // If there are more than one position and several are non-zero, then we haven't maintained the
@@ -78,11 +81,6 @@ public class SlopTable implements AutoCloseable {
         if (positions.size() > 1) {
             throw new IllegalStateException("Expected only one reader position, found " + positions);
         }
-
-        for (var table : columnGroups.values()) {
-            table.close();
-        }
-
     }
 
 }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
index 8b460e14..8f27eba4 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
@@ -10,7 +10,7 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
 
-@SuppressWarnings("preview") // for MemorySegment
+@SuppressWarnings("preview") // for MemorySegment in jdk-21
 public class MmapStorageReader implements StorageReader {
     private final MemorySegment segment;
     private final Arena arena;
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java b/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
index 08de6027..82446356 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
@@ -27,7 +27,7 @@ public interface Storage {
         } else {
             final int bufferSize = switch(columnDesc.function()) {
                 case DATA -> 4096;
-                case DATA_LEN, DICT, DICT_LEN -> 1024;
+                default -> 1024;
             };
 
             return switch (storageType) {
@@ -50,7 +50,7 @@ public interface Storage {
 
         final int bufferSize = switch(columnDesc.function()) {
             case DATA -> 4096;
-            case DATA_LEN, DICT, DICT_LEN -> 1024;
+            default -> 1024;
         };
 
         return switch (storageType) {
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index d110d9bd..ea04cbe3 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -12,7 +12,7 @@ import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.model.processed.SlopDomainLinkRecord;
 import nu.marginalia.model.processed.SlopDomainRecord;
-import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.GammaCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -120,10 +120,10 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
                 var wb = document.words.build(workArea);
                 List<String> words = wb.keywords;
                 byte[] metas = wb.metadata;
-                List<CodedSequence> positions = wb.positions;
+                List<GammaCodedSequence> positions = wb.positions;
 
 
-                List<CodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
+                List<GammaCodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
                 byte[] spanCodes = new byte[wb.spans.size()];
 
                 for (int i = 0; i < wb.spans.size(); i++) {
diff --git a/code/processes/converting-process/model/build.gradle b/code/processes/converting-process/model/build.gradle
index a3fc6307..744b60ef 100644
--- a/code/processes/converting-process/model/build.gradle
+++ b/code/processes/converting-process/model/build.gradle
@@ -29,5 +29,6 @@ dependencies {
     testImplementation libs.bundles.slf4j.test
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
+    testImplementation project(':code:libraries:test-helpers')
 }
 
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index ba9ce955..2c4671fe 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -1,13 +1,14 @@
 package nu.marginalia.model.processed;
 
 import lombok.Builder;
-import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.sequence.slop.GammaCodedSequenceColumn;
-import nu.marginalia.sequence.slop.GammaCodedSequenceReader;
-import nu.marginalia.sequence.slop.GammaCodedSequenceWriter;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayReader;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
 import nu.marginalia.slop.column.array.ByteArrayColumnReader;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
+import nu.marginalia.slop.column.array.ObjectArrayColumnReader;
+import nu.marginalia.slop.column.array.ObjectArrayColumnWriter;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
 import nu.marginalia.slop.column.primitive.*;
@@ -18,12 +19,13 @@ import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
+import org.jetbrains.annotations.Nullable;
 
 import java.io.IOException;
-import java.nio.ByteBuffer;
 import java.nio.file.Path;
-import java.util.ArrayList;
+import java.util.Arrays;
 import java.util.List;
+import java.util.Objects;
 
 public record SlopDocumentRecord(
         String domain,
@@ -42,9 +44,9 @@ public record SlopDocumentRecord(
         Integer pubYear,
         List<String> words,
         byte[] metas,
-        List<CodedSequence> positions,
+        List<GammaCodedSequence> positions,
         byte[] spanCodes,
-        List<CodedSequence> spans
+        List<GammaCodedSequence> spans
 ) {
 
     /** Constructor for partial records */
@@ -73,10 +75,34 @@ public record SlopDocumentRecord(
             int length,
             List<String> words,
             byte[] metas,
-            List<CodedSequence> positions,
+            List<GammaCodedSequence> positions,
             byte[] spanCodes,
-            List<CodedSequence> spans)
-    { }
+            List<GammaCodedSequence> spans)
+    {
+        // Override the equals method since records don't generate default equals that deal with array fields properly
+        @Override
+        public boolean equals(Object o) {
+            if (this == o) return true;
+            if (!(o instanceof KeywordsProjection that)) return false;
+
+            return length == that.length && ordinal == that.ordinal && htmlFeatures == that.htmlFeatures && documentMetadata == that.documentMetadata && Arrays.equals(metas, that.metas) && Objects.equals(domain, that.domain) && Arrays.equals(spanCodes, that.spanCodes) && Objects.equals(words, that.words) && Objects.equals(spans, that.spans) && Objects.equals(positions, that.positions);
+        }
+
+        @Override
+        public int hashCode() {
+            int result = Objects.hashCode(domain);
+            result = 31 * result + ordinal;
+            result = 31 * result + htmlFeatures;
+            result = 31 * result + Long.hashCode(documentMetadata);
+            result = 31 * result + length;
+            result = 31 * result + Objects.hashCode(words);
+            result = 31 * result + Arrays.hashCode(metas);
+            result = 31 * result + Objects.hashCode(positions);
+            result = 31 * result + Arrays.hashCode(spanCodes);
+            result = 31 * result + Objects.hashCode(spans);
+            return result;
+        }
+    }
 
     public record MetadataProjection(
             String domain,
@@ -113,14 +139,13 @@ public record SlopDocumentRecord(
     private static final ColumnDesc<LongColumnReader, LongColumnWriter> domainMetadata = new ColumnDesc<>("domainMetadata", ColumnType.LONG_LE, StorageType.PLAIN);
 
     // Keyword-level columns, these are enumerated by the counts column
-    private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> termCountsColumn = new ColumnDesc<>("termCounts", ColumnType.VARINT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> keywordsColumn = new ColumnDesc<>("keywords", ColumnType.STRING, StorageType.ZSTD);
-    private static final ColumnDesc<ByteColumnReader, ByteColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnType.BYTE, StorageType.ZSTD);
-    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> termPositionsColumn = new ColumnDesc<>("termPositions", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
+    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> keywordsColumn = new ColumnDesc<>("keywords", ColumnType.STRING_ARRAY, StorageType.ZSTD);
+    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    private static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> termPositionsColumn = new ColumnDesc<>("termPositions", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     // Spans columns
     private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
-    private static final ColumnDesc<GammaCodedSequenceReader, GammaCodedSequenceWriter> spansColumn = new ColumnDesc<>("spans", GammaCodedSequenceColumn.TYPE, StorageType.ZSTD);
+    private static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> spansColumn = new ColumnDesc<>("spans", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     public static class KeywordsProjectionReader extends SlopTable {
         private final StringColumnReader domainsReader;
@@ -128,15 +153,15 @@ public record SlopDocumentRecord(
         private final IntColumnReader htmlFeaturesReader;
         private final LongColumnReader domainMetadataReader;
         private final IntColumnReader lengthsReader;
-        private final StringColumnReader keywordsReader;
-        private final VarintColumnReader termCountsReader;
-        private final ByteColumnReader termMetaReader;
-        private final GammaCodedSequenceReader termPositionsReader;
+
+        private final StringColumnReader statesColumnReader;
+
+        private final ObjectArrayColumnReader<String> keywordsReader;
+        private final ByteArrayColumnReader termMetaReader;
+        private final GammaCodedSequenceArrayReader termPositionsReader;
 
         private final ByteArrayColumnReader spanCodesReader;
-        private final GammaCodedSequenceReader spansReader;
-
-        private final ByteBuffer workBuffer = ByteBuffer.allocate(65536);
+        private final GammaCodedSequenceArrayReader spansReader;
 
         public KeywordsProjectionReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException {
             this(pageRef.baseDir(), pageRef.page());
@@ -148,45 +173,51 @@ public record SlopDocumentRecord(
             htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(this, baseDir);
             domainMetadataReader = domainMetadata.forPage(page).open(this, baseDir);
             lengthsReader = lengthsColumn.forPage(page).open(this, baseDir);
-            termCountsReader = termCountsColumn.forPage(page).open(this, baseDir);
 
-            keywordsReader = keywordsColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
-            termMetaReader = termMetaColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
-            termPositionsReader = termPositionsColumn.forPage(page).open(this.columnGroup("keywords"), baseDir);
+            statesColumnReader = statesColumn.forPage(page).open(this, baseDir);
+
+            keywordsReader = keywordsColumn.forPage(page).open(this, baseDir);
+            termMetaReader = termMetaColumn.forPage(page).open(this, baseDir);
+            termPositionsReader = termPositionsColumn.forPage(page).open(this, baseDir);
 
             spanCodesReader = spanCodesColumn.forPage(page).open(this, baseDir);
-            spansReader = spansColumn.forPage(page).open(this.columnGroup("spans"), baseDir);
+            spansReader = spansColumn.forPage(page).open(this, baseDir);
         }
 
+        KeywordsProjection next = null;
+
         public boolean hasMore() throws IOException {
-            return domainsReader.hasRemaining();
+            if (next != null)
+                return true;
+            next = getNext();
+            return next != null;
         }
 
         public KeywordsProjection next() throws IOException {
+            if (hasMore()) {
+                var ret = next;
+                next = null;
+                return ret;
+            }
+            throw new IllegalStateException("No more records");
+        }
+
+        @Nullable
+        private KeywordsProjection getNext() throws IOException {
+            if (!find(statesColumnReader, "OK"))
+                return null;
+
             String domain = domainsReader.get();
-            int ordinal = (int) ordinalsReader.get();
+            int ordinal = ordinalsReader.get();
             int htmlFeatures = htmlFeaturesReader.get();
             long documentMetadata = domainMetadataReader.get();
             int length = lengthsReader.get();
-            List<String> words = new ArrayList<>();
-
-            List<CodedSequence> positions = new ArrayList<>();
-
-            int termCounts = (int) termCountsReader.get();
-            byte[] metas = new byte[termCounts];
-
-            for (int i = 0; i < termCounts; i++) {
-                metas[i] = termMetaReader.get();
-                words.add(keywordsReader.get());
-                positions.add(termPositionsReader.get(workBuffer));
-            }
 
+            List<String> words = keywordsReader.get();
+            List<GammaCodedSequence> positions = termPositionsReader.get();
+            byte[] metas = termMetaReader.get();
             byte[] spanCodes = spanCodesReader.get();
-
-            List<CodedSequence> spans = new ArrayList<>(spanCodes.length);
-            for (int i = 0; i < spanCodes.length; i++) {
-                spans.add(spansReader.get(workBuffer));
-            }
+            List<GammaCodedSequence> spans = spansReader.get();
 
             return new KeywordsProjection(
                     domain,
@@ -210,6 +241,9 @@ public record SlopDocumentRecord(
         private final VarintColumnReader ordinalsReader;
         private final StringColumnReader titlesReader;
         private final StringColumnReader descriptionsReader;
+
+        private final StringColumnReader statesColumnReader;
+
         private final IntColumnReader htmlFeaturesReader;
         private final StringColumnReader htmlStandardsReader;
         private final IntColumnReader lengthsReader;
@@ -222,6 +256,7 @@ public record SlopDocumentRecord(
         }
 
         public MetadataReader(Path baseDir, int page) throws IOException {
+            this.statesColumnReader = statesColumn.forPage(page).open(this, baseDir);
             this.domainsReader = domainsColumn.forPage(page).open(this, baseDir);
             this.urlsReader = urlsColumn.forPage(page).open(this, baseDir);
             this.ordinalsReader = ordinalsColumn.forPage(page).open(this, baseDir);
@@ -235,7 +270,29 @@ public record SlopDocumentRecord(
             this.pubYearReader = pubYearColumn.forPage(page).open(this, baseDir);
         }
 
+        MetadataProjection next = null;
+
+        public boolean hasMore() throws IOException {
+            if (next != null)
+                return true;
+
+            return (next = getNext()) != null;
+        }
+
         public MetadataProjection next() throws IOException {
+            if (hasMore()) {
+                var ret = next;
+                next = null;
+                return ret;
+            }
+            throw new IllegalStateException("No more records");
+        }
+
+
+        private MetadataProjection getNext() throws IOException {
+            if (!find(statesColumnReader, "OK"))
+                return null;
+
             int pubYear = pubYearReader.get();
             return new MetadataProjection(
                     domainsReader.get(),
@@ -252,10 +309,6 @@ public record SlopDocumentRecord(
             );
         }
 
-        public boolean hasNext() throws IOException {
-            return domainsReader.hasRemaining();
-        }
-
     }
 
     public static class Writer extends SlopTable {
@@ -273,12 +326,11 @@ public record SlopDocumentRecord(
         private final FloatColumnWriter qualitiesWriter;
         private final LongColumnWriter domainMetadataWriter;
         private final IntColumnWriter pubYearWriter;
-        private final VarintColumnWriter termCountsWriter;
-        private final StringColumnWriter keywordsWriter;
-        private final ByteColumnWriter termMetaWriter;
-        private final GammaCodedSequenceWriter termPositionsWriter;
+        private final ObjectArrayColumnWriter<String> keywordsWriter;
+        private final ByteArrayColumnWriter termMetaWriter;
+        private final GammaCodedSequenceArrayWriter termPositionsWriter;
         private final ByteArrayColumnWriter spansCodesWriter;
-        private final GammaCodedSequenceWriter spansWriter;
+        private final GammaCodedSequenceArrayWriter spansWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
             domainsWriter = domainsColumn.forPage(page).create(this, baseDir);
@@ -295,14 +347,13 @@ public record SlopDocumentRecord(
             qualitiesWriter = qualitiesColumn.forPage(page).create(this, baseDir);
             domainMetadataWriter = domainMetadata.forPage(page).create(this, baseDir);
             pubYearWriter = pubYearColumn.forPage(page).create(this, baseDir);
-            termCountsWriter = termCountsColumn.forPage(page).create(this, baseDir);
 
-            keywordsWriter = keywordsColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
-            termMetaWriter = termMetaColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
-            termPositionsWriter = termPositionsColumn.forPage(page).create(this.columnGroup("keywords"), baseDir);
+            keywordsWriter = keywordsColumn.forPage(page).create(this, baseDir);
+            termMetaWriter = termMetaColumn.forPage(page).create(this, baseDir);
+            termPositionsWriter = termPositionsColumn.forPage(page).create(this, baseDir);
 
             spansCodesWriter = spanCodesColumn.forPage(page).create(this, baseDir);
-            spansWriter = spansColumn.forPage(page).create(this.columnGroup("spans"), baseDir);
+            spansWriter = spansColumn.forPage(page).create(this, baseDir);
         }
 
         public void write(SlopDocumentRecord record) throws IOException {
@@ -326,26 +377,11 @@ public record SlopDocumentRecord(
                 pubYearWriter.put(record.pubYear());
             }
 
-            byte[] termMetadata = record.metas();
-            List<String> keywords = record.words();
-            List<CodedSequence> termPositions = record.positions();
-
-            termCountsWriter.put(termMetadata.length);
-
-            for (int i = 0; i < termMetadata.length; i++) {
-                termMetaWriter.put(termMetadata[i]);
-                keywordsWriter.put(keywords.get(i));
-
-                termPositionsWriter.put((GammaCodedSequence) termPositions.get(i));
-            }
-
-            assert record.spanCodes().length == record.spans.size() : "Span codes and spans must have the same length";
-
+            keywordsWriter.put(record.words());
+            termMetaWriter.put(record.metas());
+            termPositionsWriter.put(record.positions());
             spansCodesWriter.put(record.spanCodes());
-            for (var span : record.spans) {
-                spansWriter.put((GammaCodedSequence) span);
-            }
-
+            spansWriter.put(record.spans());
         }
     }
 }
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index 2d8260e6..be741497 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -1,5 +1,7 @@
 package nu.marginalia.model.processed;
 
+import nu.marginalia.slop.column.array.ObjectArrayColumnReader;
+import nu.marginalia.slop.column.array.ObjectArrayColumnWriter;
 import nu.marginalia.slop.column.primitive.IntColumnReader;
 import nu.marginalia.slop.column.primitive.IntColumnWriter;
 import nu.marginalia.slop.column.string.EnumColumnReader;
@@ -12,7 +14,6 @@ import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
 import java.nio.file.Path;
-import java.util.ArrayList;
 import java.util.List;
 import java.util.function.Consumer;
 
@@ -41,8 +42,7 @@ public record SlopDomainRecord(
     private static final ColumnDesc<IntColumnReader, IntColumnWriter> goodUrlsColumn = new ColumnDesc<>("goodUrls", ColumnType.INT_LE, StorageType.PLAIN);
     private static final ColumnDesc<IntColumnReader, IntColumnWriter> visitedUrlsColumn = new ColumnDesc<>("visitedUrls", ColumnType.INT_LE, StorageType.PLAIN);
 
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> rssFeedsCountColumn = new ColumnDesc<>("rssFeeds", ColumnType.INT_LE, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnType.TXTSTRING_ARRAY, StorageType.GZIP);
 
 
     public static class DomainNameReader extends SlopTable {
@@ -101,8 +101,7 @@ public record SlopDomainRecord(
         private final IntColumnReader goodUrlsReader;
         private final IntColumnReader visitedUrlsReader;
 
-        private final IntColumnReader rssFeedsCountReader;
-        private final StringColumnReader rssFeedsReader;
+        private final ObjectArrayColumnReader<String> rssFeedsReader;
 
         public Reader(SlopPageRef<SlopDomainRecord> page) throws IOException {
             this(page.baseDir(), page.page());
@@ -118,8 +117,7 @@ public record SlopDomainRecord(
             goodUrlsReader = goodUrlsColumn.forPage(page).open(this, baseDir);
             visitedUrlsReader = visitedUrlsColumn.forPage(page).open(this, baseDir);
 
-            rssFeedsCountReader = rssFeedsCountColumn.forPage(page).open(this, baseDir);
-            rssFeedsReader = rssFeedsColumn.forPage(page).open(this.columnGroup("rssFeeds"), baseDir);
+            rssFeedsReader = rssFeedsColumn.forPage(page).open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -133,12 +131,6 @@ public record SlopDomainRecord(
         }
 
         public SlopDomainRecord next() throws IOException {
-            List<String> rssFeeds = new ArrayList<>();
-            int rssFeedsCount = rssFeedsCountReader.get();
-            for (int i = 0; i < rssFeedsCount; i++) {
-                rssFeeds.add(rssFeedsReader.get());
-            }
-
             return new SlopDomainRecord(
                     domainsReader.get(),
                     knownUrlsReader.get(),
@@ -147,7 +139,7 @@ public record SlopDomainRecord(
                     statesReader.get(),
                     redirectReader.get(),
                     ipReader.get(),
-                    rssFeeds
+                    rssFeedsReader.get()
             );
         }
     }
@@ -162,8 +154,7 @@ public record SlopDomainRecord(
         private final IntColumnWriter goodUrlsWriter;
         private final IntColumnWriter visitedUrlsWriter;
 
-        private final IntColumnWriter rssFeedsCountWriter;
-        private final StringColumnWriter rssFeedsWriter;
+        private final ObjectArrayColumnWriter<String> rssFeedsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
             domainsWriter = domainsColumn.forPage(page).create(this, baseDir);
@@ -175,8 +166,7 @@ public record SlopDomainRecord(
             goodUrlsWriter = goodUrlsColumn.forPage(page).create(this, baseDir);
             visitedUrlsWriter = visitedUrlsColumn.forPage(page).create(this, baseDir);
 
-            rssFeedsCountWriter = rssFeedsCountColumn.forPage(page).create(this, baseDir);
-            rssFeedsWriter = rssFeedsColumn.forPage(page).create(this.columnGroup("rssFeeds"), baseDir);
+            rssFeedsWriter = rssFeedsColumn.forPage(page).create(this, baseDir);
         }
 
         public void write(SlopDomainRecord record) throws IOException {
@@ -189,10 +179,7 @@ public record SlopDomainRecord(
             goodUrlsWriter.put(record.goodUrls());
             visitedUrlsWriter.put(record.visitedUrls());
 
-            rssFeedsCountWriter.put(record.rssFeeds().size());
-            for (String rssFeed : record.rssFeeds()) {
-                rssFeedsWriter.put(rssFeed);
-            }
+            rssFeedsWriter.put(record.rssFeeds());
         }
     }
 }
diff --git a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
new file mode 100644
index 00000000..1841a518
--- /dev/null
+++ b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
@@ -0,0 +1,102 @@
+package nu.marginalia.model.processed;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.test.TestUtil;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.List;
+
+import static org.junit.jupiter.api.Assertions.assertFalse;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+
+public class SlopDocumentRecordTest {
+    private Path testDir;
+
+    @BeforeEach
+    void setUp() throws IOException {
+        testDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void tearDown() throws IOException {
+        TestUtil.clearTempDir(testDir);
+    }
+
+    @Test
+    public void test() throws IOException {
+        ByteBuffer workArea = ByteBuffer.allocate(1024);
+        var recordShort = new SlopDocumentRecord("test", "https://test/foo", 0, "ERROR", "Cosmic Ray");
+        var recordLong = new SlopDocumentRecord("example.com", "https://example.com/foo", 1, "OK", "",
+                "test",
+                "testtest",
+                1,
+                "HTML3",
+                100,
+                0xF00BAAL,
+                0.5f,
+                0xBEEFL,
+                null,
+                List.of("test1", "test2"),
+                new byte[] { 2, 3},
+                List.of(GammaCodedSequence.generate(workArea, 1, 3, 5), GammaCodedSequence.generate(workArea, 2, 4, 6)),
+                new byte[] { 'a', 'b' },
+                List.of(GammaCodedSequence.generate(workArea, 2, 3, 5), GammaCodedSequence.generate(workArea, 3, 4, 6))
+        );
+
+        try (var writer = new SlopDocumentRecord.Writer(testDir, 0)) {
+            writer.write(recordShort);
+            writer.write(recordLong);
+        }
+
+        try (var keywordReader = new SlopDocumentRecord.KeywordsProjectionReader(testDir, 0)) {
+            assertTrue(keywordReader.hasMore());
+            var readRecord = keywordReader.next();
+            assertFalse(keywordReader.hasMore());
+
+            var expected = new SlopDocumentRecord.KeywordsProjection(
+                    recordLong.domain(),
+                    recordLong.ordinal(),
+                    recordLong.htmlFeatures(),
+                    recordLong.documentMetadata(),
+                    recordLong.length(),
+                    recordLong.words(),
+                    recordLong.metas(),
+                    recordLong.positions(),
+                    recordLong.spanCodes(),
+                    recordLong.spans()
+            );
+
+            Assertions.assertEquals(expected, readRecord);
+        }
+
+        try (var docDataReader = new SlopDocumentRecord.MetadataReader(testDir, 0)) {
+            assertTrue(docDataReader.hasMore());
+            var readRecord = docDataReader.next();
+            assertFalse(docDataReader.hasMore());
+
+            var expected2 = new SlopDocumentRecord.MetadataProjection(
+                    recordLong.domain(),
+                    recordLong.url(),
+                    recordLong.ordinal(),
+                    recordLong.title(),
+                    recordLong.description(),
+                    recordLong.htmlFeatures(),
+                    recordLong.htmlStandard(),
+                    recordLong.length(),
+                    recordLong.hash(),
+                    recordLong.quality(),
+                    recordLong.pubYear()
+            );
+
+            Assertions.assertEquals(expected2, readRecord);
+        }
+    }
+}
diff --git a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainLinkRecordTest.java b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainLinkRecordTest.java
new file mode 100644
index 00000000..19979f71
--- /dev/null
+++ b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainLinkRecordTest.java
@@ -0,0 +1,43 @@
+package nu.marginalia.model.processed;
+
+import nu.marginalia.test.TestUtil;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class SlopDomainLinkRecordTest {
+    private Path testDir;
+
+    @BeforeEach
+    void setUp() throws IOException {
+        testDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void tearDown() {
+        TestUtil.clearTempDir(testDir);
+    }
+
+    @Test
+    public void test() throws IOException {
+        var record = new SlopDomainLinkRecord("source", "dest");
+
+        try (var writer = new SlopDomainLinkRecord.Writer(testDir, 0)) {
+            writer.write(record);
+        }
+
+        try (var reader = new SlopDomainLinkRecord.Reader(testDir, 0)) {
+            assertTrue(reader.hasMore());
+            var readRecord = reader.next();
+            assertFalse(reader.hasMore());
+
+            assertEquals(record, readRecord);
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainRecordTest.java b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainRecordTest.java
new file mode 100644
index 00000000..f4d7e0f0
--- /dev/null
+++ b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDomainRecordTest.java
@@ -0,0 +1,70 @@
+package nu.marginalia.model.processed;
+
+import nu.marginalia.test.TestUtil;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+import java.io.IOException;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.util.List;
+
+import static org.junit.jupiter.api.Assertions.assertFalse;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+public class SlopDomainRecordTest {
+
+    private Path testDir;
+
+    @BeforeEach
+    void setUp() throws IOException  {
+        testDir = Files.createTempDirectory(getClass().getSimpleName());
+    }
+
+    @AfterEach
+    void tearDown() throws IOException {
+        TestUtil.clearTempDir(testDir);
+    }
+
+    @Test
+    public void testWriteRead() throws IOException {
+        var record = new SlopDomainRecord(
+                "domain",
+                1, 2, 3,
+                "state",
+                "redirectDomain",
+                "192.168.0.1",
+                List.of("rss1", "rss2")
+        );
+
+        try (var writer = new SlopDomainRecord.Writer(testDir, 0)) {
+            writer.write(record);
+        }
+
+        try (var reader = new SlopDomainRecord.Reader(testDir, 0)) {
+            assertTrue(reader.hasMore());
+            var readRecord = reader.next();
+            assertFalse(reader.hasMore());
+
+            Assertions.assertEquals(record, readRecord);
+        }
+
+        try (var dwrReader  = new SlopDomainRecord.DomainWithIpReader(testDir, 0)) {
+            assertTrue(dwrReader.hasMore());
+            var readRecord = dwrReader.next();
+            assertFalse(dwrReader.hasMore());
+
+            Assertions.assertEquals(new SlopDomainRecord.DomainWithIpProjection("domain", "192.168.0.1"), readRecord);
+        }
+
+        try (var dnReader = new SlopDomainRecord.DomainNameReader(testDir, 0)) {
+            assertTrue(dnReader.hasMore());
+            var readRecord = dnReader.next();
+            assertFalse(dnReader.hasMore());
+
+            Assertions.assertEquals("domain", readRecord);
+        }
+    }
+}
\ No newline at end of file
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
index e254d51e..7c96699a 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
@@ -50,7 +50,7 @@ public class DocumentLoaderService {
                 try (var reader = new SlopDocumentRecord.MetadataReader(pageRef);
                      LinkdbLoader loader = new LinkdbLoader(domainIdRegistry))
                 {
-                    while (reader.hasNext()) {
+                    while (reader.hasMore()) {
                         loader.accept(reader.next());
                     }
                 }

From 86ea28d6bc4b20a562e4949ad20c603874bbec67 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 29 Jul 2024 14:18:52 +0200
Subject: [PATCH 091/216] (converter/loader) Simplify document record writing
 to not require predicated reads

---
 .../writer/ConverterBatchWriter.java          | 112 ++++++------------
 .../model/processed/SlopDocumentRecord.java   |  58 +--------
 .../processed/SlopDocumentRecordTest.java     |  48 ++++----
 3 files changed, 65 insertions(+), 153 deletions(-)

diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index ea04cbe3..c53de5d2 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -21,9 +21,6 @@ import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.*;
-import java.util.concurrent.Callable;
-import java.util.concurrent.ForkJoinPool;
-import java.util.concurrent.Future;
 
 /** Writer for a single batch of converter parquet files */
 public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriterIf {
@@ -60,39 +57,23 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
         var domain = sideloadSource.getDomain();
 
         writeDomainData(domain);
-
         writeDocumentData(domain.domain, sideloadSource.getDocumentsStream());
     }
 
     @Override
     @SneakyThrows
     public void writeProcessedDomain(ProcessedDomain domain) {
-        var results = ForkJoinPool.commonPool().invokeAll(
-                writeTasks(domain)
-        );
-
-        for (var result : results) {
-            if (result.state() == Future.State.FAILED) {
-                logger.warn("Parquet writing job failed", result.exceptionNow());
+        try {
+            if (domain.documents != null) {
+                writeDocumentData(domain.domain, domain.documents.iterator());
             }
+            writeLinkData(domain);
+            writeDomainData(domain);
+        }
+        catch (IOException e) {
+            logger.error("Data writing job failed", e);
         }
-    }
 
-    private List<Callable<Object>> writeTasks(ProcessedDomain domain) {
-        return List.of(
-                () -> writeDocumentData(domain),
-                () -> writeLinkData(domain),
-                () -> writeDomainData(domain)
-        );
-    }
-
-    private Object writeDocumentData(ProcessedDomain domain) throws IOException {
-        if (domain.documents == null)
-            return this;
-
-        writeDocumentData(domain.domain, domain.documents.iterator());
-
-        return this;
     }
 
     private void writeDocumentData(EdgeDomain domain,
@@ -108,54 +89,39 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
 
         while (documentIterator.hasNext()) {
             var document = documentIterator.next();
-            if (document.details == null) {
-                new SlopDocumentRecord(
-                        domainName,
-                        document.url.toString(),
-                        ordinal,
-                        document.state.toString(),
-                        document.stateReason);
+            var wb = document.words.build(workArea);
+
+            List<GammaCodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
+            byte[] spanCodes = new byte[wb.spans.size()];
+
+            for (int i = 0; i < wb.spans.size(); i++) {
+                var span = wb.spans.get(i);
+
+                spanCodes[i] = span.code();
+                spanSequences.add(span.spans());
             }
-            else {
-                var wb = document.words.build(workArea);
-                List<String> words = wb.keywords;
-                byte[] metas = wb.metadata;
-                List<GammaCodedSequence> positions = wb.positions;
 
-
-                List<GammaCodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
-                byte[] spanCodes = new byte[wb.spans.size()];
-
-                for (int i = 0; i < wb.spans.size(); i++) {
-                    var span = wb.spans.get(i);
-
-                    spanCodes[i] = span.code();
-                    spanSequences.add(span.spans());
-                }
-
-                documentWriter.write(new SlopDocumentRecord(
-                        domainName,
-                        document.url.toString(),
-                        ordinal,
-                        document.state.toString(),
-                        document.stateReason,
-                        document.details.title,
-                        document.details.description,
-                        HtmlFeature.encode(document.details.features),
-                        document.details.standard.name(),
-                        document.details.length,
-                        document.details.hashCode,
-                        (float) document.details.quality,
-                        document.details.metadata.encode(),
-                        document.details.pubYear,
-                        words,
-                        metas,
-                        positions,
-                        spanCodes,
-                        spanSequences
-                ));
-
-            }
+            documentWriter.write(new SlopDocumentRecord(
+                    domainName,
+                    document.url.toString(),
+                    ordinal,
+                    document.state.toString(),
+                    document.stateReason,
+                    document.details.title,
+                    document.details.description,
+                    HtmlFeature.encode(document.details.features),
+                    document.details.standard.name(),
+                    document.details.length,
+                    document.details.hashCode,
+                    (float) document.details.quality,
+                    document.details.metadata.encode(),
+                    document.details.pubYear,
+                    wb.keywords,
+                    wb.metadata,
+                    wb.positions,
+                    spanCodes,
+                    spanSequences
+            ));
 
             ordinal++;
         }
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 2c4671fe..6e3f139e 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -49,16 +49,6 @@ public record SlopDocumentRecord(
         List<GammaCodedSequence> spans
 ) {
 
-    /** Constructor for partial records */
-    public SlopDocumentRecord(String domain,
-                              String url,
-                              int ordinal,
-                              String state,
-                              String stateReason)
-    {
-        this(domain, url, ordinal, state, stateReason, "", "", 0, "", 0, 0L, 0.0f, 0L, null, List.of(), new byte[0], List.of(), new byte[0], List.of());
-    }
-
     public SlopDocumentRecord {
         if (spanCodes.length != spans.size())
             throw new IllegalArgumentException("Span codes and spans must have the same length");
@@ -154,8 +144,6 @@ public record SlopDocumentRecord(
         private final LongColumnReader domainMetadataReader;
         private final IntColumnReader lengthsReader;
 
-        private final StringColumnReader statesColumnReader;
-
         private final ObjectArrayColumnReader<String> keywordsReader;
         private final ByteArrayColumnReader termMetaReader;
         private final GammaCodedSequenceArrayReader termPositionsReader;
@@ -174,8 +162,6 @@ public record SlopDocumentRecord(
             domainMetadataReader = domainMetadata.forPage(page).open(this, baseDir);
             lengthsReader = lengthsColumn.forPage(page).open(this, baseDir);
 
-            statesColumnReader = statesColumn.forPage(page).open(this, baseDir);
-
             keywordsReader = keywordsColumn.forPage(page).open(this, baseDir);
             termMetaReader = termMetaColumn.forPage(page).open(this, baseDir);
             termPositionsReader = termPositionsColumn.forPage(page).open(this, baseDir);
@@ -184,29 +170,12 @@ public record SlopDocumentRecord(
             spansReader = spansColumn.forPage(page).open(this, baseDir);
         }
 
-        KeywordsProjection next = null;
-
         public boolean hasMore() throws IOException {
-            if (next != null)
-                return true;
-            next = getNext();
-            return next != null;
-        }
-
-        public KeywordsProjection next() throws IOException {
-            if (hasMore()) {
-                var ret = next;
-                next = null;
-                return ret;
-            }
-            throw new IllegalStateException("No more records");
+            return domainsReader.hasRemaining();
         }
 
         @Nullable
-        private KeywordsProjection getNext() throws IOException {
-            if (!find(statesColumnReader, "OK"))
-                return null;
-
+        public KeywordsProjection next() throws IOException {
             String domain = domainsReader.get();
             int ordinal = ordinalsReader.get();
             int htmlFeatures = htmlFeaturesReader.get();
@@ -242,8 +211,6 @@ public record SlopDocumentRecord(
         private final StringColumnReader titlesReader;
         private final StringColumnReader descriptionsReader;
 
-        private final StringColumnReader statesColumnReader;
-
         private final IntColumnReader htmlFeaturesReader;
         private final StringColumnReader htmlStandardsReader;
         private final IntColumnReader lengthsReader;
@@ -256,7 +223,6 @@ public record SlopDocumentRecord(
         }
 
         public MetadataReader(Path baseDir, int page) throws IOException {
-            this.statesColumnReader = statesColumn.forPage(page).open(this, baseDir);
             this.domainsReader = domainsColumn.forPage(page).open(this, baseDir);
             this.urlsReader = urlsColumn.forPage(page).open(this, baseDir);
             this.ordinalsReader = ordinalsColumn.forPage(page).open(this, baseDir);
@@ -270,29 +236,11 @@ public record SlopDocumentRecord(
             this.pubYearReader = pubYearColumn.forPage(page).open(this, baseDir);
         }
 
-        MetadataProjection next = null;
-
         public boolean hasMore() throws IOException {
-            if (next != null)
-                return true;
-
-            return (next = getNext()) != null;
+            return domainsReader.hasRemaining();
         }
 
         public MetadataProjection next() throws IOException {
-            if (hasMore()) {
-                var ret = next;
-                next = null;
-                return ret;
-            }
-            throw new IllegalStateException("No more records");
-        }
-
-
-        private MetadataProjection getNext() throws IOException {
-            if (!find(statesColumnReader, "OK"))
-                return null;
-
             int pubYear = pubYearReader.get();
             return new MetadataProjection(
                     domainsReader.get(),
diff --git a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
index 1841a518..9a3aef56 100644
--- a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
+++ b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
@@ -33,8 +33,7 @@ public class SlopDocumentRecordTest {
     @Test
     public void test() throws IOException {
         ByteBuffer workArea = ByteBuffer.allocate(1024);
-        var recordShort = new SlopDocumentRecord("test", "https://test/foo", 0, "ERROR", "Cosmic Ray");
-        var recordLong = new SlopDocumentRecord("example.com", "https://example.com/foo", 1, "OK", "",
+        var record = new SlopDocumentRecord("example.com", "https://example.com/foo", 1, "OK", "",
                 "test",
                 "testtest",
                 1,
@@ -52,8 +51,7 @@ public class SlopDocumentRecordTest {
         );
 
         try (var writer = new SlopDocumentRecord.Writer(testDir, 0)) {
-            writer.write(recordShort);
-            writer.write(recordLong);
+            writer.write(record);
         }
 
         try (var keywordReader = new SlopDocumentRecord.KeywordsProjectionReader(testDir, 0)) {
@@ -62,16 +60,16 @@ public class SlopDocumentRecordTest {
             assertFalse(keywordReader.hasMore());
 
             var expected = new SlopDocumentRecord.KeywordsProjection(
-                    recordLong.domain(),
-                    recordLong.ordinal(),
-                    recordLong.htmlFeatures(),
-                    recordLong.documentMetadata(),
-                    recordLong.length(),
-                    recordLong.words(),
-                    recordLong.metas(),
-                    recordLong.positions(),
-                    recordLong.spanCodes(),
-                    recordLong.spans()
+                    record.domain(),
+                    record.ordinal(),
+                    record.htmlFeatures(),
+                    record.documentMetadata(),
+                    record.length(),
+                    record.words(),
+                    record.metas(),
+                    record.positions(),
+                    record.spanCodes(),
+                    record.spans()
             );
 
             Assertions.assertEquals(expected, readRecord);
@@ -83,17 +81,17 @@ public class SlopDocumentRecordTest {
             assertFalse(docDataReader.hasMore());
 
             var expected2 = new SlopDocumentRecord.MetadataProjection(
-                    recordLong.domain(),
-                    recordLong.url(),
-                    recordLong.ordinal(),
-                    recordLong.title(),
-                    recordLong.description(),
-                    recordLong.htmlFeatures(),
-                    recordLong.htmlStandard(),
-                    recordLong.length(),
-                    recordLong.hash(),
-                    recordLong.quality(),
-                    recordLong.pubYear()
+                    record.domain(),
+                    record.url(),
+                    record.ordinal(),
+                    record.title(),
+                    record.description(),
+                    record.htmlFeatures(),
+                    record.htmlStandard(),
+                    record.length(),
+                    record.hash(),
+                    record.quality(),
+                    record.pubYear()
             );
 
             Assertions.assertEquals(expected2, readRecord);

From 7e4efa45b849ef9f4106efc2b25d09c19062372c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 29 Jul 2024 14:21:21 +0200
Subject: [PATCH 092/216] (converter/loader) Simplify document record writing
 to not require predicated reads

---
 .../marginalia/converting/writer/ConverterBatchWriter.java   | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index c53de5d2..bc47b92d 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -89,6 +89,11 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
 
         while (documentIterator.hasNext()) {
             var document = documentIterator.next();
+
+            if (document.details == null || document.words == null) {
+                continue;
+            }
+
             var wb = document.words.build(workArea);
 
             List<GammaCodedSequence> spanSequences = new ArrayList<>(wb.spans.size());

From 80900107f7c2774ad038f43168835760a06a0a84 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 30 Jul 2024 10:04:59 +0200
Subject: [PATCH 093/216] (restructure) Clean up repo by moving stray features
 into converter-process and crawler-process

---
 build.gradle                                  |   4 +-
 code/execution/build.gradle                   |   6 +-
 .../data-extractors/build.gradle              |   4 +-
 .../nu/marginalia/extractor/AtagExporter.java |   0
 .../nu/marginalia/extractor/ExporterIf.java   |   0
 .../nu/marginalia/extractor/FeedExporter.java |   0
 .../extractor/SampleDataExporter.java         |   0
 .../extractor/TermFrequencyExporter.java      |   0
 .../data-extractors/readme.md                 |   0
 code/features-convert/adblock/build.gradle    |  33 ----
 code/features-convert/adblock/readme.md       |   8 -
 code/features-convert/pubdate/build.gradle    |  34 ----
 code/features-convert/pubdate/readme.md       |   7 -
 code/features-convert/readme.md               |  13 --
 .../features-convert/reddit-json/build.gradle |  44 ------
 .../stackexchange-xml/build.gradle            |  43 ------
 .../stackexchange-xml/readme.md               |  18 ---
 .../summary-extraction/build.gradle           |  42 -----
 .../summary-extraction/readme.md              |  25 ---
 .../topic-detection/build.gradle              |  34 ----
 .../topic-detection/readme.md                 |   4 -
 code/features-crawl/readme.md                 |   8 -
 code/functions/search-query/build.gradle      |   2 +-
 code/libraries/slop/build.gradle              |  57 ++++++-
 code/libraries/slop/readme.md                 | 146 ++++++++++++++++++
 .../processes/converting-process/build.gradle |  16 +-
 .../ft-anchor-keywords}/build.gradle          |   2 +-
 .../marginalia/atags/AnchorTextKeywords.java  |   0
 .../marginalia/atags/model/DomainLinks.java   |   0
 .../java/nu/marginalia/atags/model/Link.java  |   0
 .../marginalia/atags/model/LinkWithText.java  |   0
 .../atags/source/AnchorTagsImpl.java          |   0
 .../atags/source/AnchorTagsSource.java        |   0
 .../atags/source/AnchorTagsSourceFactory.java |   0
 .../resources/atags-stop-list                 |   0
 .../atags/DomainAnchorTagsImplTest.java       |   0
 .../marginalia/util/TestLanguageModels.java   |   0
 .../ft-keyword-extraction}/build.gradle       |   0
 .../keyword/DocumentKeywordExtractor.java     |   0
 .../marginalia/keyword/KeywordExtractor.java  |   0
 .../marginalia/keyword/KeywordMetadata.java   |   0
 .../java/nu/marginalia/keyword/WordReps.java  |   0
 .../keyword/extractors/ArtifactKeywords.java  |   0
 .../keyword/extractors/NameLikeKeywords.java  |   0
 .../extractors/SubjectLikeKeywords.java       |   0
 .../keyword/extractors/TitleKeywords.java     |   0
 .../keyword/extractors/UrlKeywords.java       |   0
 .../keyword/extractors/WordsTfIdfCounts.java  |   0
 .../keyword/model/DocumentKeywords.java       |   0
 .../model/DocumentKeywordsBuilder.java        |   0
 .../ft-keyword-extraction}/readme.md          |   0
 .../test-resources/test-data/java.html        |   0
 .../test-resources/test-data/keyboards.html   |   0
 .../test-resources/test-data/madonna.html     |   0
 .../test-resources/test-data/spam.html        |   0
 .../keyword/DocumentKeywordExtractorTest.java |   0
 .../keyword/SentenceExtractorTest.java        |   0
 .../extractors/ArtifactKeywordsTest.java      |   0
 .../extractors/NameLikeKeywordsTest.java      |   0
 .../extractors/SubjectLikeKeywordsTest.java   |   0
 .../keyword/extractors/TitleKeywordsTest.java |   0
 .../keyword/extractors/UrlKeywordsTest.java   |   0
 .../test/util/TestLanguageModels.java         |   0
 .../classifier}/adblock/AdblockSimulator.java |   2 +-
 .../adblock/GoogleAnwersSpamDetector.java     |   2 +-
 .../classifier}/topic/RecipeDetector.java     |   2 +-
 .../topic/TextileCraftDetector.java           |   2 +-
 .../topic/WoodworkingDetector.java            |   2 +-
 .../processor/logic/FeatureExtractor.java     |  10 +-
 .../plugin/HtmlDocumentProcessorPlugin.java   |   2 +-
 .../specialization/BlogSpecialization.java    |   2 +-
 .../specialization/DefaultSpecialization.java |   2 +-
 .../specialization/JavadocSpecialization.java |   2 +-
 .../specialization/LemmySpecialization.java   |   2 +-
 .../MariadbKbSpecialization.java              |   2 +-
 .../specialization/PhpBBSpecialization.java   |   2 +-
 .../specialization/WikiSpecialization.java    |   2 +-
 .../specialization/XenForoSpecialization.java |   2 +-
 .../pubdate/PubDateEffortLevel.java           |   2 +-
 .../pubdate/PubDateFromHtmlStandard.java      |   2 +-
 .../processor}/pubdate/PubDateHeuristic.java  |   2 +-
 .../processor}/pubdate/PubDateParser.java     |   4 +-
 .../processor}/pubdate/PubDateSniffer.java    |   8 +-
 .../PubDateHeuristicDOMParsingPass1.java      |  12 +-
 .../PubDateHeuristicDOMParsingPass2.java      |  14 +-
 ...PubDateHeuristicGuessFromHtmlStandard.java |  12 +-
 .../PubDateHeuristicHtml5AnyTimeTag.java      |  12 +-
 .../PubDateHeuristicHtml5ArticleDateTag.java  |  12 +-
 .../PubDateHeuristicHtml5ItempropDateTag.java |  12 +-
 .../heuristic/PubDateHeuristicJSONLD.java     |  12 +-
 .../PubDateHeuristicLastModified.java         |  12 +-
 .../heuristic/PubDateHeuristicMicrodata.java  |  10 +-
 .../heuristic/PubDateHeuristicOpenGraph.java  |  12 +-
 .../heuristic/PubDateHeuristicRDFaTag.java    |  12 +-
 .../PubDateHeuristicUrlPatternPass1.java      |  12 +-
 .../PubDateHeuristicUrlPatternPass2.java      |  12 +-
 .../processor}/summary/SummaryExtractor.java  |   4 +-
 .../summary/heuristic/DomFilterHeuristic.java |   2 +-
 .../summary/heuristic/FallbackHeuristic.java  |   2 +-
 .../summary/heuristic/HeuristicTextUtil.java  |   2 +-
 .../heuristic/MetaDescriptionHeuristic.java   |   2 +-
 .../OpenGraphDescriptionHeuristic.java        |   2 +-
 .../heuristic/SummarizingDOMFilter.java       |   7 +-
 .../summary/heuristic/SummaryHeuristic.java   |   2 +-
 .../heuristic/TagDensityHeuristic.java        |   2 +-
 .../integration/reddit/RedditEntryReader.java |   0
 .../integration/reddit/db/RedditDb.java       |   0
 .../model/ProcessableRedditComment.java       |   0
 .../model/ProcessableRedditSubmission.java    |   0
 .../reddit/model/RawRedditComment.java        |   0
 .../reddit/model/RawRedditSubmission.java     |   0
 .../model/StackExchangeComment.java           |   0
 .../model/StackExchangePost.java              |   0
 .../sqlite/StackExchangePostsDb.java          |   0
 .../StackExchange7zXmlEventReaderSource.java  |   0
 .../xml/StackExchangeXmlCommentReader.java    |   0
 .../xml/StackExchangeXmlIterator.java         |   0
 .../xml/StackExchangeXmlPostReader.java       |   0
 .../xml/XmlEventReaderSource.java             |   0
 .../resources/db/reddit.sql                   |   0
 .../resources/db/stackexchange.sql            |   0
 .../test-resources/html/monadnock.html        |   0
 .../test-resources/html/readme.md             |   0
 .../html/summarization/187.shtml              |   0
 .../html/summarization/surrey.html            |   0
 .../html/summarization/surrey.html.1          |   0
 .../test-resources/html/theregister.html      |   0
 .../test-resources/html/work-set/index        |   0
 .../html/work-set/url--1021546012             |   0
 .../html/work-set/url--1028592943             |   0
 .../html/work-set/url--1081293162             |   0
 .../html/work-set/url--1105046394             |   0
 .../html/work-set/url--1146923296             |   0
 .../html/work-set/url--1194694074             |   0
 .../html/work-set/url--1207898281             |   0
 .../html/work-set/url--1268145073             |   0
 .../html/work-set/url--1294876331             |   0
 .../html/work-set/url--1314767420             |   0
 .../html/work-set/url--1316269786             |   0
 .../html/work-set/url--1316766580             |   0
 .../html/work-set/url--1319968043             |   0
 .../html/work-set/url--1338576987             |   0
 .../html/work-set/url--1341909571             |   0
 .../html/work-set/url--1369578579             |   0
 .../html/work-set/url--1437315645             |   0
 .../html/work-set/url--1458954960             |   0
 .../html/work-set/url--1475681345             |   0
 .../html/work-set/url--1498328446             |   0
 .../html/work-set/url--1507779664             |   0
 .../html/work-set/url--1540303379             |   0
 .../html/work-set/url--154898476              |   0
 .../html/work-set/url--1552059399             |   0
 .../html/work-set/url--1557688340             |   0
 .../html/work-set/url--1584145751             |   0
 .../html/work-set/url--1605151204             |   0
 .../html/work-set/url--162269247              |   0
 .../html/work-set/url--1624294488             |   0
 .../html/work-set/url--164108285              |   0
 .../html/work-set/url--1645688243             |   0
 .../html/work-set/url--1658004609             |   0
 .../html/work-set/url--1658558834             |   0
 .../html/work-set/url--1698664879             |   0
 .../html/work-set/url--169975195              |   0
 .../html/work-set/url--1701203332             |   0
 .../html/work-set/url--17281998               |   0
 .../html/work-set/url--1742070028             | Bin
 .../html/work-set/url--1745376814             |   0
 .../html/work-set/url--1749889035             |   0
 .../html/work-set/url--176177364              |   0
 .../html/work-set/url--177014197              |   0
 .../html/work-set/url--1794527707             |   0
 .../html/work-set/url--1797740201             |   0
 .../html/work-set/url--1799098579             |   0
 .../html/work-set/url--1959637826             |   0
 .../html/work-set/url--1971916964             |   0
 .../html/work-set/url--1985840368             |   0
 .../html/work-set/url--2012610859             |   0
 .../html/work-set/url--202178680              |   0
 .../html/work-set/url--2043528727             |   0
 .../html/work-set/url--2081757477             |   0
 .../html/work-set/url--2103982576             |   0
 .../html/work-set/url--2111558769             |   0
 .../html/work-set/url--213168798              |   0
 .../html/work-set/url--232544032              |   0
 .../html/work-set/url--253010011              |   0
 .../html/work-set/url--274250994              |   0
 .../html/work-set/url--332442790              |   0
 .../html/work-set/url--353437903              |   0
 .../html/work-set/url--364546777              |   0
 .../html/work-set/url--379129416              |   0
 .../html/work-set/url--399428149              |   0
 .../html/work-set/url--425233170              |   0
 .../html/work-set/url--434612307              |   0
 .../html/work-set/url--439772328              |   0
 .../html/work-set/url--458002611              |   0
 .../html/work-set/url--506010305              |   0
 .../html/work-set/url--546773534              |   0
 .../html/work-set/url--551288516              |   0
 .../html/work-set/url--602577763              |   0
 .../html/work-set/url--611668054              |   0
 .../html/work-set/url--634771245              |   0
 .../html/work-set/url--639320493              |   0
 .../html/work-set/url--643179018              |   0
 .../html/work-set/url--663772351              |   0
 .../html/work-set/url--670789152              |   0
 .../test-resources/html/work-set/url--6797317 |   0
 .../html/work-set/url--700978490              |   0
 .../html/work-set/url--708035332              |   0
 .../html/work-set/url--804917062              |   0
 .../html/work-set/url--819771302              |   0
 .../html/work-set/url--840796372              |   0
 .../html/work-set/url--841445362              |   0
 .../html/work-set/url--862385354              |   0
 .../html/work-set/url--879796466              |   0
 .../html/work-set/url--89134993               |   0
 .../html/work-set/url--905197876              |   0
 .../html/work-set/url--920328354              |   0
 .../html/work-set/url--952827759              |   0
 .../html/work-set/url--964018507              |   0
 .../html/work-set/url--972614909              |   0
 .../test-resources/html/work-set/url-10088520 |   0
 .../html/work-set/url-1013281103              |   0
 .../html/work-set/url-1019241851              |   0
 .../html/work-set/url-1059944953              |   0
 .../html/work-set/url-1118681302              |   0
 .../html/work-set/url-1179298706              |   0
 .../html/work-set/url-1191749784              |   0
 .../html/work-set/url-1207094790              |   0
 .../html/work-set/url-1213989666              |   0
 .../html/work-set/url-1222442301              |   0
 .../html/work-set/url-130332455               |   0
 .../html/work-set/url-1311055461              |   0
 .../html/work-set/url-1391842722              |   0
 .../html/work-set/url-1457388763              |   0
 .../html/work-set/url-1506356272              |   0
 .../html/work-set/url-1511762169              |   0
 .../html/work-set/url-1534640058              |   0
 .../html/work-set/url-1551513871              |   0
 .../html/work-set/url-1567632447              |   0
 .../html/work-set/url-1623049502              |   0
 .../html/work-set/url-163919330               |   0
 .../html/work-set/url-1661398327              |   0
 .../html/work-set/url-1724309925              |   0
 .../html/work-set/url-1736807128              |   0
 .../html/work-set/url-1739031345              |   0
 .../html/work-set/url-1755745765              |   0
 .../html/work-set/url-1802811100              |   0
 .../html/work-set/url-1805364707              |   0
 .../html/work-set/url-1832702370              |   0
 .../html/work-set/url-1853114311              |   0
 .../html/work-set/url-1924872844              |   0
 .../html/work-set/url-197772804               |   0
 .../html/work-set/url-1984259912              |   0
 .../html/work-set/url-1990903988              |   0
 .../html/work-set/url-2039310951              |   0
 .../html/work-set/url-2040857056              |   0
 .../html/work-set/url-2052613093              |   0
 .../html/work-set/url-2063899866              |   0
 .../html/work-set/url-2115548255              |   0
 .../html/work-set/url-2127148436              |   0
 .../html/work-set/url-2133781904              |   0
 .../html/work-set/url-225690385               |   0
 .../html/work-set/url-226401955               |   0
 .../html/work-set/url-262970770               |   0
 .../test-resources/html/work-set/url-30106798 |   0
 .../html/work-set/url-302167335               |   0
 .../html/work-set/url-327999153               |   0
 .../html/work-set/url-332568225               |   0
 .../html/work-set/url-343223418               |   0
 .../html/work-set/url-383103932               |   0
 .../html/work-set/url-412929678               |   0
 .../html/work-set/url-475213997               |   0
 .../html/work-set/url-483403121               |   0
 .../html/work-set/url-488667993               |   0
 .../test-resources/html/work-set/url-50815201 |   0
 .../html/work-set/url-522685905               |   0
 .../html/work-set/url-570714305               |   0
 .../test-resources/html/work-set/url-58733529 |   0
 .../html/work-set/url-616518304               |   0
 .../html/work-set/url-662169426               |   0
 .../html/work-set/url-677278788               |   0
 .../html/work-set/url-690486170               |   0
 .../html/work-set/url-709693331               |   0
 .../html/work-set/url-734531556               |   0
 .../html/work-set/url-767530276               |   0
 .../html/work-set/url-783154014               |   0
 .../html/work-set/url-796905237               |   0
 .../html/work-set/url-800099955               |   0
 .../html/work-set/url-804101946               |   0
 .../html/work-set/url-830664902               |   0
 .../html/work-set/url-876060686               |   0
 .../html/work-set/url-892584998               |   0
 .../html/work-set/url-942458463               |   0
 .../html/work-set/url-952036171               |   0
 .../html/work-set/url-968207276               |   0
 .../JavadocSpecializationTest.java            |   2 +-
 .../LemmySpecializationTest.java              |   2 +-
 .../WikiSpecializationTest.java               |   2 +-
 .../XenForoSpecializationTest.java            |   2 +-
 .../pubdate/PubDateSnifferTest.java           |   6 +-
 .../processor}/pubdate/PubDateTest.java       |   2 +-
 .../summary/SummaryExtractorTest.java         |   7 +-
 .../heuristic/HeuristicTextUtilTest.java      |   3 +-
 .../reddit/RedditEntryReaderTest.java         |   0
 .../integration/reddit/db/RedditDbTest.java   |   0
 .../StackExchangeXmlCommentReaderTest.java    |   0
 .../xml/StackExchangeXmlPostReaderTest.java   |   0
 .../xml/StringXmlTestEventReader.java         |   0
 code/processes/crawling-process/build.gradle  |   8 +-
 .../ft-content-type}/build.gradle             |   0
 .../marginalia/contenttype/ContentType.java   |   0
 .../contenttype/ContentTypeParser.java        |   0
 .../contenttype/DocumentBodyToString.java     |   0
 .../contenttype/ContentTypeParserTest.java    |   0
 .../contenttype/DocumentBodyToStringTest.java |   0
 .../ft-crawl-blocklist}/build.gradle          |   0
 .../ip_blocklist/GeoIpBlocklist.java          |   0
 .../ip_blocklist/InetAddressCache.java        |   0
 .../marginalia/ip_blocklist/IpBlockList.java  |   0
 .../marginalia/ip_blocklist/UrlBlocklist.java |   0
 .../ft-crawl-blocklist}/readme.md             |   0
 .../ip_blocklist/UrlBlocklistTest.java        |   0
 .../ft-link-parser}/build.gradle              |   0
 .../marginalia/link_parser/FeedExtractor.java |   0
 .../nu/marginalia/link_parser/LinkParser.java |   0
 .../ft-link-parser}/readme.md                 |   0
 .../crawling-process/model/build.gradle       |   2 +-
 code/processes/loading-process/build.gradle   |   2 +-
 .../executor-service/build.gradle             |   6 +-
 code/tools/experiment-runner/build.gradle     |   8 +-
 .../tools/experiments/AdblockExperiment.java  |   2 +-
 .../tools/experiments/TopicExperiment.java    |   8 +-
 gradle/wrapper/gradle-wrapper.properties      |   2 +-
 settings.gradle                               |  18 +--
 334 files changed, 369 insertions(+), 500 deletions(-)
 rename code/{features-convert => execution}/data-extractors/build.gradle (88%)
 rename code/{features-convert => execution}/data-extractors/java/nu/marginalia/extractor/AtagExporter.java (100%)
 rename code/{features-convert => execution}/data-extractors/java/nu/marginalia/extractor/ExporterIf.java (100%)
 rename code/{features-convert => execution}/data-extractors/java/nu/marginalia/extractor/FeedExporter.java (100%)
 rename code/{features-convert => execution}/data-extractors/java/nu/marginalia/extractor/SampleDataExporter.java (100%)
 rename code/{features-convert => execution}/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java (100%)
 rename code/{features-convert => execution}/data-extractors/readme.md (100%)
 delete mode 100644 code/features-convert/adblock/build.gradle
 delete mode 100644 code/features-convert/adblock/readme.md
 delete mode 100644 code/features-convert/pubdate/build.gradle
 delete mode 100644 code/features-convert/pubdate/readme.md
 delete mode 100644 code/features-convert/readme.md
 delete mode 100644 code/features-convert/reddit-json/build.gradle
 delete mode 100644 code/features-convert/stackexchange-xml/build.gradle
 delete mode 100644 code/features-convert/stackexchange-xml/readme.md
 delete mode 100644 code/features-convert/summary-extraction/build.gradle
 delete mode 100644 code/features-convert/summary-extraction/readme.md
 delete mode 100644 code/features-convert/topic-detection/build.gradle
 delete mode 100644 code/features-convert/topic-detection/readme.md
 delete mode 100644 code/features-crawl/readme.md
 create mode 100644 code/libraries/slop/readme.md
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/build.gradle (92%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/AnchorTextKeywords.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/model/DomainLinks.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/model/Link.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/model/LinkWithText.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/source/AnchorTagsImpl.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/source/AnchorTagsSource.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/java/nu/marginalia/atags/source/AnchorTagsSourceFactory.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/resources/atags-stop-list (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java (100%)
 rename code/{features-convert/anchor-keywords => processes/converting-process/ft-anchor-keywords}/test/nu/marginalia/util/TestLanguageModels.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/build.gradle (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/DocumentKeywordExtractor.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/KeywordExtractor.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/KeywordMetadata.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/WordReps.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/extractors/TitleKeywords.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/extractors/UrlKeywords.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/model/DocumentKeywords.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/readme.md (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test-resources/test-data/java.html (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test-resources/test-data/keyboards.html (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test-resources/test-data/madonna.html (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test-resources/test-data/spam.html (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/SentenceExtractorTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/extractors/ArtifactKeywordsTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/extractors/NameLikeKeywordsTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/extractors/SubjectLikeKeywordsTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/keyword/extractors/UrlKeywordsTest.java (100%)
 rename code/{features-convert/keyword-extraction => processes/converting-process/ft-keyword-extraction}/test/nu/marginalia/test/util/TestLanguageModels.java (100%)
 rename code/{features-convert/adblock/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor/classifier}/adblock/AdblockSimulator.java (98%)
 rename code/{features-convert/adblock/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor/classifier}/adblock/GoogleAnwersSpamDetector.java (93%)
 rename code/{features-convert/topic-detection/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor/classifier}/topic/RecipeDetector.java (99%)
 rename code/{features-convert/topic-detection/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor/classifier}/topic/TextileCraftDetector.java (99%)
 rename code/{features-convert/topic-detection/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor/classifier}/topic/WoodworkingDetector.java (98%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/PubDateEffortLevel.java (50%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/PubDateFromHtmlStandard.java (95%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/PubDateHeuristic.java (87%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/PubDateParser.java (99%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/PubDateSniffer.java (93%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java (94%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java (91%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java (69%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java (77%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java (73%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java (73%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicJSONLD.java (89%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicLastModified.java (75%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicMicrodata.java (73%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicOpenGraph.java (73%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicRDFaTag.java (72%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java (83%)
 rename code/{features-convert/pubdate/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java (82%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/SummaryExtractor.java (94%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/DomFilterHeuristic.java (91%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/FallbackHeuristic.java (92%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/HeuristicTextUtil.java (98%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/MetaDescriptionHeuristic.java (83%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/OpenGraphDescriptionHeuristic.java (83%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/SummarizingDOMFilter.java (97%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/SummaryHeuristic.java (73%)
 rename code/{features-convert/summary-extraction/java/nu/marginalia => processes/converting-process/java/nu/marginalia/converting/processor}/summary/heuristic/TagDensityHeuristic.java (96%)
 rename code/{features-convert/reddit-json => processes/converting-process}/java/nu/marginalia/integration/reddit/RedditEntryReader.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/java/nu/marginalia/integration/reddit/db/RedditDb.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/java/nu/marginalia/integration/reddit/model/ProcessableRedditComment.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/java/nu/marginalia/integration/reddit/model/ProcessableRedditSubmission.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/java/nu/marginalia/integration/reddit/model/RawRedditComment.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/java/nu/marginalia/integration/reddit/model/RawRedditSubmission.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/model/StackExchangeComment.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/model/StackExchangePost.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/sqlite/StackExchangePostsDb.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/xml/StackExchange7zXmlEventReaderSource.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReader.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlIterator.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReader.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/java/nu/marginalia/integration/stackexchange/xml/XmlEventReaderSource.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/resources/db/reddit.sql (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/resources/db/stackexchange.sql (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/monadnock.html (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/readme.md (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/summarization/187.shtml (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/summarization/surrey.html (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/summarization/surrey.html.1 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/theregister.html (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/index (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1021546012 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1028592943 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1081293162 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1105046394 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1146923296 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1194694074 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1207898281 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1268145073 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1294876331 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1314767420 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1316269786 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1316766580 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1319968043 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1338576987 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1341909571 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1369578579 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1437315645 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1458954960 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1475681345 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1498328446 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1507779664 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1540303379 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--154898476 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1552059399 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1557688340 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1584145751 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1605151204 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--162269247 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1624294488 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--164108285 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1645688243 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1658004609 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1658558834 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1698664879 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--169975195 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1701203332 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--17281998 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1742070028 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1745376814 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1749889035 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--176177364 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--177014197 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1794527707 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1797740201 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1799098579 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1959637826 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1971916964 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--1985840368 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--2012610859 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--202178680 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--2043528727 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--2081757477 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--2103982576 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--2111558769 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--213168798 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--232544032 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--253010011 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--274250994 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--332442790 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--353437903 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--364546777 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--379129416 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--399428149 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--425233170 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--434612307 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--439772328 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--458002611 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--506010305 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--546773534 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--551288516 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--602577763 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--611668054 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--634771245 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--639320493 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--643179018 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--663772351 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--670789152 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--6797317 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--700978490 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--708035332 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--804917062 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--819771302 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--840796372 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--841445362 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--862385354 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--879796466 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--89134993 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--905197876 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--920328354 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--952827759 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--964018507 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url--972614909 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-10088520 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1013281103 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1019241851 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1059944953 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1118681302 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1179298706 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1191749784 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1207094790 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1213989666 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1222442301 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-130332455 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1311055461 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1391842722 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1457388763 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1506356272 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1511762169 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1534640058 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1551513871 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1567632447 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1623049502 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-163919330 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1661398327 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1724309925 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1736807128 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1739031345 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1755745765 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1802811100 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1805364707 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1832702370 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1853114311 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1924872844 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-197772804 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1984259912 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-1990903988 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2039310951 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2040857056 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2052613093 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2063899866 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2115548255 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2127148436 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-2133781904 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-225690385 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-226401955 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-262970770 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-30106798 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-302167335 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-327999153 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-332568225 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-343223418 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-383103932 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-412929678 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-475213997 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-483403121 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-488667993 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-50815201 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-522685905 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-570714305 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-58733529 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-616518304 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-662169426 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-677278788 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-690486170 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-709693331 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-734531556 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-767530276 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-783154014 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-796905237 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-800099955 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-804101946 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-830664902 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-876060686 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-892584998 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-942458463 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-952036171 (100%)
 rename code/{features-convert/summary-extraction => processes/converting-process}/test-resources/html/work-set/url-968207276 (100%)
 rename code/{features-convert/pubdate/test/nu/marginalia => processes/converting-process/test/nu/marginalia/converting/processor}/pubdate/PubDateSnifferTest.java (98%)
 rename code/{features-convert/pubdate/test/nu/marginalia => processes/converting-process/test/nu/marginalia/converting/processor}/pubdate/PubDateTest.java (88%)
 rename code/{features-convert/summary-extraction/test/nu/marginalia => processes/converting-process/test/nu/marginalia/converting/processor}/summary/SummaryExtractorTest.java (96%)
 rename code/{features-convert/summary-extraction/test/nu/marginalia => processes/converting-process/test/nu/marginalia/converting/processor}/summary/heuristic/HeuristicTextUtilTest.java (93%)
 rename code/{features-convert/reddit-json => processes/converting-process}/test/nu/marginalia/integration/reddit/RedditEntryReaderTest.java (100%)
 rename code/{features-convert/reddit-json => processes/converting-process}/test/nu/marginalia/integration/reddit/db/RedditDbTest.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReaderTest.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReaderTest.java (100%)
 rename code/{features-convert/stackexchange-xml => processes/converting-process}/test/nu/marginalia/integration/stackexchange/xml/StringXmlTestEventReader.java (100%)
 rename code/{features-crawl/content-type => processes/crawling-process/ft-content-type}/build.gradle (100%)
 rename code/{features-crawl/content-type => processes/crawling-process/ft-content-type}/java/nu/marginalia/contenttype/ContentType.java (100%)
 rename code/{features-crawl/content-type => processes/crawling-process/ft-content-type}/java/nu/marginalia/contenttype/ContentTypeParser.java (100%)
 rename code/{features-crawl/content-type => processes/crawling-process/ft-content-type}/java/nu/marginalia/contenttype/DocumentBodyToString.java (100%)
 rename code/{features-crawl/content-type => processes/crawling-process/ft-content-type}/test/nu/marginalia/contenttype/ContentTypeParserTest.java (100%)
 rename code/{features-crawl/content-type => processes/crawling-process/ft-content-type}/test/nu/marginalia/contenttype/DocumentBodyToStringTest.java (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/build.gradle (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/java/nu/marginalia/ip_blocklist/GeoIpBlocklist.java (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/java/nu/marginalia/ip_blocklist/InetAddressCache.java (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/java/nu/marginalia/ip_blocklist/IpBlockList.java (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/java/nu/marginalia/ip_blocklist/UrlBlocklist.java (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/readme.md (100%)
 rename code/{features-crawl/crawl-blocklist => processes/crawling-process/ft-crawl-blocklist}/test/nu/marginalia/ip_blocklist/UrlBlocklistTest.java (100%)
 rename code/{features-crawl/link-parser => processes/crawling-process/ft-link-parser}/build.gradle (100%)
 rename code/{features-crawl/link-parser => processes/crawling-process/ft-link-parser}/java/nu/marginalia/link_parser/FeedExtractor.java (100%)
 rename code/{features-crawl/link-parser => processes/crawling-process/ft-link-parser}/java/nu/marginalia/link_parser/LinkParser.java (100%)
 rename code/{features-crawl/link-parser => processes/crawling-process/ft-link-parser}/readme.md (100%)

diff --git a/build.gradle b/build.gradle
index dad52fa3..a560016b 100644
--- a/build.gradle
+++ b/build.gradle
@@ -44,8 +44,8 @@ subprojects.forEach {it ->
 }
 
 ext {
-    jvmVersion=21
-    dockerImageBase='container-registry.oracle.com/graalvm/jdk:21@sha256:1fd33d4d4eba3a9e1a41a728e39ea217178d257694eea1214fec68d2ed4d3d9b'
+    jvmVersion=22
+    dockerImageBase='container-registry.oracle.com/graalvm/jdk:22'
     dockerImageTag='latest'
     dockerImageRegistry='marginalia'
 }
diff --git a/code/execution/build.gradle b/code/execution/build.gradle
index 354334f3..8e17bfec 100644
--- a/code/execution/build.gradle
+++ b/code/execution/build.gradle
@@ -40,10 +40,8 @@ dependencies {
 
     implementation project(':code:processes:crawling-process:model')
     implementation project(':code:processes:crawling-process:model')
-    implementation project(':code:features-crawl:link-parser')
-    implementation project(':code:features-convert:data-extractors')
-    implementation project(':code:features-convert:stackexchange-xml')
-    implementation project(':code:features-convert:reddit-json')
+    implementation project(':code:processes:crawling-process:ft-link-parser')
+    implementation project(':code:execution:data-extractors')
     implementation project(':code:index:index-journal')
     implementation project(':code:index:api')
     implementation project(':code:processes:process-mq-api')
diff --git a/code/features-convert/data-extractors/build.gradle b/code/execution/data-extractors/build.gradle
similarity index 88%
rename from code/features-convert/data-extractors/build.gradle
rename to code/execution/data-extractors/build.gradle
index 82bf536a..2a0c08c6 100644
--- a/code/features-convert/data-extractors/build.gradle
+++ b/code/execution/data-extractors/build.gradle
@@ -22,8 +22,8 @@ dependencies {
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:term-frequency-dict')
     implementation project(':code:libraries:blocking-thread-pool')
-    implementation project(':code:features-crawl:link-parser')
-    implementation project(':code:features-convert:anchor-keywords')
+    implementation project(':code:processes:crawling-process:ft-link-parser')
+    implementation project(':code:processes:converting-process:ft-anchor-keywords')
     implementation project(':code:processes:crawling-process:model')
     implementation project(':code:processes:converting-process')
     implementation project(':third-party:commons-codec')
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/AtagExporter.java b/code/execution/data-extractors/java/nu/marginalia/extractor/AtagExporter.java
similarity index 100%
rename from code/features-convert/data-extractors/java/nu/marginalia/extractor/AtagExporter.java
rename to code/execution/data-extractors/java/nu/marginalia/extractor/AtagExporter.java
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/ExporterIf.java b/code/execution/data-extractors/java/nu/marginalia/extractor/ExporterIf.java
similarity index 100%
rename from code/features-convert/data-extractors/java/nu/marginalia/extractor/ExporterIf.java
rename to code/execution/data-extractors/java/nu/marginalia/extractor/ExporterIf.java
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/FeedExporter.java b/code/execution/data-extractors/java/nu/marginalia/extractor/FeedExporter.java
similarity index 100%
rename from code/features-convert/data-extractors/java/nu/marginalia/extractor/FeedExporter.java
rename to code/execution/data-extractors/java/nu/marginalia/extractor/FeedExporter.java
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/SampleDataExporter.java b/code/execution/data-extractors/java/nu/marginalia/extractor/SampleDataExporter.java
similarity index 100%
rename from code/features-convert/data-extractors/java/nu/marginalia/extractor/SampleDataExporter.java
rename to code/execution/data-extractors/java/nu/marginalia/extractor/SampleDataExporter.java
diff --git a/code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java b/code/execution/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
similarity index 100%
rename from code/features-convert/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
rename to code/execution/data-extractors/java/nu/marginalia/extractor/TermFrequencyExporter.java
diff --git a/code/features-convert/data-extractors/readme.md b/code/execution/data-extractors/readme.md
similarity index 100%
rename from code/features-convert/data-extractors/readme.md
rename to code/execution/data-extractors/readme.md
diff --git a/code/features-convert/adblock/build.gradle b/code/features-convert/adblock/build.gradle
deleted file mode 100644
index d88d86d3..00000000
--- a/code/features-convert/adblock/build.gradle
+++ /dev/null
@@ -1,33 +0,0 @@
-plugins {
-    id 'java'
-
-
-    id "de.undercouch.download" version "5.1.0"
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation project(':code:common:config')
-
-    implementation libs.bundles.slf4j
-    implementation libs.guava
-    implementation dependencies.create(libs.guice.get()) {
-        exclude group: 'com.google.guava'
-    }
-    implementation libs.notnull
-    implementation libs.jsoup
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
-
diff --git a/code/features-convert/adblock/readme.md b/code/features-convert/adblock/readme.md
deleted file mode 100644
index 32919300..00000000
--- a/code/features-convert/adblock/readme.md
+++ /dev/null
@@ -1,8 +0,0 @@
-# Adblock
-
-Contains an adblock simulator that reads an adblock specifications file and
-uses it to identify if a document has ads.
-
-## Central Classes
-
-* [AdblockSimulator](java/nu/marginalia/adblock/AdblockSimulator.java)
\ No newline at end of file
diff --git a/code/features-convert/pubdate/build.gradle b/code/features-convert/pubdate/build.gradle
deleted file mode 100644
index aeafcd99..00000000
--- a/code/features-convert/pubdate/build.gradle
+++ /dev/null
@@ -1,34 +0,0 @@
-plugins {
-    id 'java'
-
-
-    id "de.undercouch.download" version "5.1.0"
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation project(':code:common:model')
-
-    implementation libs.bundles.slf4j
-    implementation libs.guava
-    implementation dependencies.create(libs.guice.get()) {
-        exclude group: 'com.google.guava'
-    }
-    implementation libs.notnull
-    implementation libs.bundles.gson
-    implementation libs.jsoup
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-    testImplementation project(':code:common:config')
-}
diff --git a/code/features-convert/pubdate/readme.md b/code/features-convert/pubdate/readme.md
deleted file mode 100644
index add657ee..00000000
--- a/code/features-convert/pubdate/readme.md
+++ /dev/null
@@ -1,7 +0,0 @@
-# Pubdate
-
-Contains advanced haruspicy for figuring out when a document was published.
-
-## Central Classes
-
-* [PubDateSniffer](java/nu/marginalia/pubdate/PubDateSniffer.java)
\ No newline at end of file
diff --git a/code/features-convert/readme.md b/code/features-convert/readme.md
deleted file mode 100644
index 2979fdab..00000000
--- a/code/features-convert/readme.md
+++ /dev/null
@@ -1,13 +0,0 @@
-# Converter Features
-
-## Major features
-
-* [keyword-extraction](keyword-extraction/) - Identifies keywords to index in a document
-* [summary-extraction](summary-extraction/) - Generate an excerpt/quote from a website to display on the search results page. 
-
-
-## Smaller features:
-
-* [adblock](adblock/) - Simulates Adblock
-* [pubdate](pubdate/) - Determines when a document was published
-* [topic-detection](topic-detection/) - Tries to identify the topic of a website
diff --git a/code/features-convert/reddit-json/build.gradle b/code/features-convert/reddit-json/build.gradle
deleted file mode 100644
index fed33f4f..00000000
--- a/code/features-convert/reddit-json/build.gradle
+++ /dev/null
@@ -1,44 +0,0 @@
-plugins {
-    id 'java'
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation project(':code:libraries:blocking-thread-pool')
-    implementation project(':code:common:model')
-    implementation libs.notnull
-
-    implementation libs.jsoup
-    implementation libs.sqlite
-
-    implementation libs.guava
-    implementation dependencies.create(libs.guice.get()) {
-        exclude group: 'com.google.guava'
-    }
-    implementation libs.guava
-    implementation libs.gson
-    implementation libs.zstd
-    implementation libs.trove
-    implementation libs.commons.compress
-    implementation libs.xz
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
-
-test {
-    maxHeapSize = "8G"
-    useJUnitPlatform()
-}
diff --git a/code/features-convert/stackexchange-xml/build.gradle b/code/features-convert/stackexchange-xml/build.gradle
deleted file mode 100644
index 62e289b0..00000000
--- a/code/features-convert/stackexchange-xml/build.gradle
+++ /dev/null
@@ -1,43 +0,0 @@
-plugins {
-    id 'java'
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation project(':code:libraries:blocking-thread-pool')
-    implementation project(':code:common:model')
-    implementation libs.notnull
-
-    implementation libs.jsoup
-    implementation libs.sqlite
-
-    implementation libs.guava
-    implementation dependencies.create(libs.guice.get()) {
-        exclude group: 'com.google.guava'
-    }
-    implementation libs.guava
-    implementation libs.zstd
-    implementation libs.trove
-    implementation libs.commons.compress
-    implementation libs.xz
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
-
-test {
-    maxHeapSize = "8G"
-    useJUnitPlatform()
-}
diff --git a/code/features-convert/stackexchange-xml/readme.md b/code/features-convert/stackexchange-xml/readme.md
deleted file mode 100644
index 1701ad7f..00000000
--- a/code/features-convert/stackexchange-xml/readme.md
+++ /dev/null
@@ -1,18 +0,0 @@
-Stackexchange's data is a jumble of questions and answers,
-where the answers refer to the questions with a parentId field.
-
-e.g.
-```xml
-<?xml version="1.0" encoding="utf-8"?>
-<posts>
-  <row Id="1" PostTypeId="1" AcceptedAnswerId="51" CreationDate="2016-01-12T18:45:19.963" Score="10" ViewCount="424" Body="&lt;p&gt;When I've printed an object I've had to choose between high resolution and quick prints.  What techniques or technologies can I use or deploy to speed up my high resolution prints?&lt;/p&gt;&#xA;" OwnerUserId="16" LastActivityDate="2017-10-31T02:31:08.560" Title="How to obtain high resolution prints in a shorter period of time?" Tags="&lt;resolution&gt;&lt;speed&gt;&lt;quality&gt;" AnswerCount="2" CommentCount="6" ContentLicense="CC BY-SA 3.0" />
-  <row Id="2" PostTypeId="1" AcceptedAnswerId="12" CreationDate="2016-01-12T18:45:51.287" Score="34" ViewCount="7377" Body="&lt;p&gt;I would like to buy a 3D printer, but I'm concerned about the health risks that are associated with its operation. Some groups of scientists say it can be &lt;a href=&quot;http://www.techworld.com/news/personal-tech/scientists-warn-of-3d-printing-health-effects-as-tech-hits-high-street-3460992/&quot;&gt;harmful&lt;/a&gt; for humans.&lt;/p&gt;&#xA;&#xA;&lt;p&gt;What do I need to consider before buying a 3D printer if I care about my health? Are there any safe printers?&lt;/p&gt;&#xA;" OwnerUserId="20" LastEditorUserId="334" LastEditDate="2016-11-15T16:16:11.163" LastActivityDate="2019-06-10T23:18:34.190" Title="Is 3D printing safe for your health?" Tags="&lt;print-material&gt;&lt;safety&gt;&lt;health&gt;" AnswerCount="4" CommentCount="1" ContentLicense="CC BY-SA 3.0" />
-  <row Id="12" PostTypeId="2" ParentId="2" CreationDate="2016-01-12T19:13:00.710" Score="23" Body="&lt;p&gt;There is very little information about safety available, as home 3D printers are relatively new. However, plastics such as ABS have a long history in making plastic products, and a study found..." />
-</posts>
-```
-
-Since the search engine wants to extract keywords for each thread
-holistically, not by question or answer, it is necessary to re-arrange
-the data (which is very large).  SQLite does a decent job of enabling
-this task.
-
diff --git a/code/features-convert/summary-extraction/build.gradle b/code/features-convert/summary-extraction/build.gradle
deleted file mode 100644
index 24eec1ca..00000000
--- a/code/features-convert/summary-extraction/build.gradle
+++ /dev/null
@@ -1,42 +0,0 @@
-plugins {
-    id 'java'
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation libs.notnull
-
-    implementation libs.jsoup
-
-    implementation libs.guava
-    implementation dependencies.create(libs.guice.get()) {
-        exclude group: 'com.google.guava'
-    }
-    implementation libs.guava
-    implementation libs.bundles.gson
-    implementation libs.trove
-    implementation libs.fastutil
-    implementation libs.commons.lang3
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-
-    testImplementation project(':code:features-convert:keyword-extraction')
-    testImplementation project(':code:libraries:language-processing')
-    testImplementation project(':code:libraries:term-frequency-dict')
-    testImplementation project(':code:common:config')
-    testImplementation project(':code:common:model')
-}
-
diff --git a/code/features-convert/summary-extraction/readme.md b/code/features-convert/summary-extraction/readme.md
deleted file mode 100644
index b617d947..00000000
--- a/code/features-convert/summary-extraction/readme.md
+++ /dev/null
@@ -1,25 +0,0 @@
-# Summary Extraction
-
-This feature attempts to find a descriptive passage of text that summarizes
-what a search result "is about". It's the text you see below a search result.
-
-It must solve two problems:
-
-1.  Identify which part of the document that contains "the text".
-The crux is that the document may be anywhere from 1993 to the present, with era-appropriate 
-formatting. It may be formatted with &lt;center&gt;ed  &lt;font&gt;-tags, or semantic HTML5. 
-
-2. Identify which part of "the text" best describes the document. 
-
-It uses several naive heuristics to try to find something that makes sense,
-and there is probably room for improvement. 
-
-There are many good techniques for doing this, but they've sadly not proved 
-particularly fast. Whatever solution is used needs to be able to summarize of
-order of a 100,000,000 documents with a time budget of a couple of hours.
-
-
-## Central Classes
-
-* [SummaryExtractor](java/nu/marginalia/summary/SummaryExtractor.java)
-
diff --git a/code/features-convert/topic-detection/build.gradle b/code/features-convert/topic-detection/build.gradle
deleted file mode 100644
index ef29d275..00000000
--- a/code/features-convert/topic-detection/build.gradle
+++ /dev/null
@@ -1,34 +0,0 @@
-plugins {
-    id 'java'
-
-
-    id "de.undercouch.download" version "5.1.0"
-
-    id 'jvm-test-suite'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-apply from: "$rootProject.projectDir/srcsets.gradle"
-
-dependencies {
-    implementation project(':code:common:config')
-    implementation project(':code:libraries:language-processing')
-    implementation project(':third-party:porterstemmer')
-
-    implementation libs.bundles.slf4j
-    implementation libs.guava
-    implementation dependencies.create(libs.guice.get()) {
-        exclude group: 'com.google.guava'
-    }
-    implementation libs.notnull
-    implementation libs.jsoup
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-}
diff --git a/code/features-convert/topic-detection/readme.md b/code/features-convert/topic-detection/readme.md
deleted file mode 100644
index db9a0000..00000000
--- a/code/features-convert/topic-detection/readme.md
+++ /dev/null
@@ -1,4 +0,0 @@
-# Topic Detection
-
-This is an experiment in using hand-crafted naive bayesian filters to detecting the topic of a website.
-It's noteworthy it detects recipes very well.
\ No newline at end of file
diff --git a/code/features-crawl/readme.md b/code/features-crawl/readme.md
deleted file mode 100644
index 4566e980..00000000
--- a/code/features-crawl/readme.md
+++ /dev/null
@@ -1,8 +0,0 @@
-# Crawl Features
-
-These are bits of search-engine related code that are relatively isolated pieces of business logic,
-that benefit from the clarity of being kept separate from the rest of the crawling code.
-
-* [content-type](content-type/) - Content Type identification
-* [crawl-blocklist](crawl-blocklist/) - IP and URL blocklists
-* [link-parser](link-parser/) - Code for parsing and normalizing links
diff --git a/code/functions/search-query/build.gradle b/code/functions/search-query/build.gradle
index deddc7c9..a2d10a59 100644
--- a/code/functions/search-query/build.gradle
+++ b/code/functions/search-query/build.gradle
@@ -31,7 +31,7 @@ dependencies {
 
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:term-frequency-dict')
-    implementation project(':code:features-convert:keyword-extraction')
+    implementation project(':code:processes:converting-process:ft-keyword-extraction')
 
     implementation libs.bundles.slf4j
 
diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
index 03d7f1ea..55b890fd 100644
--- a/code/libraries/slop/build.gradle
+++ b/code/libraries/slop/build.gradle
@@ -1,5 +1,7 @@
 plugins {
     id 'java'
+    id 'application'
+    id 'org.graalvm.buildtools.native' version '0.10.2'
 }
 
 java {
@@ -9,7 +11,51 @@ java {
 }
 
 
-apply from: "$rootProject.projectDir/srcsets.gradle"
+sourceSets {
+    main {
+        java {
+            srcDirs = [
+                    'java',
+                    'build/generated/source/proto/main/grpc',
+                    'build/generated/source/proto/main/java'
+            ]
+        }
+        resources {
+            srcDirs = [ 'resources' ]
+        }
+    }
+    test {
+        java {
+            srcDirs = [ 'test' ]
+        }
+        resources {
+            srcDirs = [ 'test-resources' ]
+        }
+    }
+    demo {
+        java {
+            srcDirs = [ 'demo' ]
+        }
+        resources {
+            srcDirs = [ 'demo-resources' ]
+        }
+
+    }
+}
+
+application {
+    mainClass = 'demo.OneBillionRowsDemo'
+}
+
+graalvmNative {
+    binaries.all {
+        resources.autodetect()
+        buildArgs=['-H:+ForeignAPISupport', '-H:+UnlockExperimentalVMOptions']
+
+    }
+
+    toolchainDetection = false
+}
 
 dependencies {
     implementation libs.bundles.slf4j
@@ -24,7 +70,14 @@ dependencies {
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
 
-    testImplementation libs.sqlite
+    demoImplementation sourceSets.main.output
+    demoImplementation libs.bundles.slf4j
+    demoImplementation libs.notnull
+    demoImplementation libs.commons.lang3
+    demoImplementation libs.lz4
+    demoImplementation libs.commons.compress
+    demoImplementation libs.zstd
+    demoImplementation libs.duckdb
 }
 
 test {
diff --git a/code/libraries/slop/readme.md b/code/libraries/slop/readme.md
new file mode 100644
index 00000000..99e52782
--- /dev/null
+++ b/code/libraries/slop/readme.md
@@ -0,0 +1,146 @@
+# Slop
+
+Slop is a library for columnar data persistence.  It is designed to be used for storing large amounts of data in a way 
+that is both fast and memory-efficient.  The data is write-once, and the slop library offers many facilities for 
+deciding how it should be stored and accessed.
+
+Slop is designed as a low abstraction what-you-see-is-what-you-do library, the reason for
+this is to be able to eliminate copies and other overheads that are common in higher 
+level libraries.  The intent is to get the performance of a hand-rolled solution, but 
+without the complexity and brittleness that comes with hand-rolling an ad-hoc row-based storage
+format.
+
+A lot of what would commonly be kept in a schema description is instead just 
+implemented as code. To aid with portability, slop stores schema information 
+in the file names of the data files, besides the actual name of the column itself.   
+
+A table of demographic information may end up stored in files like this:
+
+```text
+cities.0.dat.s8[].gz
+cities.0.dat-len.varint-le.bin
+population.0.dat.s32le.bin
+average-age.0.dat.f64le.gz
+```
+
+The slop library offers some facilities to aid with data integrity, such as the SlopTable
+class, which is a wrapper that ensures consistent positions for a group of columns, and aids 
+in closing the columns when they are no longer needed.
+
+## Why though?
+
+Slop is fast.  
+
+Depending on compression and encoding choices, it's possible
+to get read speeds that are 5-20x faster than reading from a sqlite database.
+When compression is disabled, Slop will memory map the data, and depending on the 
+contents of the column, it's possible to perform zero copy reads.
+
+Slop is compact.
+
+Depending on compression and encoding choices, the format will be smaller
+than a parquet file containing the equivalent information.
+
+Slop is simple.
+
+There isn't much magic going on under the hood in Slop.  It's designed with the philosophy that a competent programmer
+should be able to reverse engineer the format of the data by just
+looking at a directory listing of the data files.
+
+
+### Relaxed 1BRC (no CSV ingestion time)
+
+Slop is reasonably competitive with DuckDB in terms of read speed,
+especially when reading from Parquet, and the data on disk tends 
+to be smaller.
+
+This is noteworthy given Slop is a single-threaded JVM application,
+and DuckDB is a multi-threaded C++ application.
+
+| Impl                       | Runtime | Size On Disk |
+|----------------------------|---------|--------------|
+| DuckDB in memory           | 2.6s    | 3.0 GB       |
+| Slop in vanilla Java s16   | 4.2s    | 2.8 GB       |
+| Slop in vanilla Java s32   | 4.5s    | 3.8 GB       |
+| Parquet (Snappy) in DuckDB | 4.5s    | 5.5 GB       |
+| Parquet (Zstd) in DuckDB   | 5.5s    | 3.0 GB       |
+
+## Example
+
+With slop it's desirable to keep the schema information in the code.  This is an example of how you might use slop to
+store a table of data with three columns: source, dest, and counts.  The source and dest columns are strings, and the
+counts column is an integer that's stored wit a varint-coding (i.e. like how utf-8 works).  
+
+The data is stored in a directory, and the data is written and read using the `MyData.Writer` and `MyData.Reader` classes.  
+The `MyData` class is itself is a record, and the schema is stored as static fields in the `MyData` class. 
+
+
+```java
+record Population(String city, int population, double avgAge) {
+
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> citiesColumn =
+            new ColumnDesc<>("cities", ColumnType.STRING, StorageType.GZIP);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> populationColumn =
+            new ColumnDesc<>("population", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<DoubleColumnReader, DoubleColumnWriter> averageAgeColumnn =
+            new ColumnDesc<>("average-age", ColumnType.DOUBLE_LE, StorageType.PLAIN);
+
+    public static class Writer extends SlopTable {
+        private final StringColumnWriter citiesWriter;
+        private final IntColumnWriter populationWriter;
+        private final DoubleColumnWriter avgAgeWriter;
+
+        public Writer(Path baseDir) throws IOException {
+            citiesWriter = citiesColumn.create(this, baseDir);
+            populationWriter = populationColumn.create(this, baseDir);
+            avgAgeWriter = averageAgeColumnn.create(this, baseDir);
+        }
+
+        public void write(Population data) throws IOException {
+            citiesWriter.put(data.city);
+            populationWriter.put(data.population);
+            avgAgeWriter.put(data.avgAge);
+        }
+    }
+
+    public static class Reader extends SlopTable {
+        private final StringColumnReader citiesReader;
+        private final IntColumnReader populationReader;
+        private final DoubleColumnReader avgAgeReader;
+
+        public Reader(Path baseDir) throws IOException {
+            citiesReader = citiesColumn.open(this, baseDir);
+            populationReader = populationColumn.open(this, baseDir);
+            avgAgeReader = averageAgeColumnn.open(this, baseDir);
+        }
+
+        public boolean hasRemaining() throws IOException {
+            return citiesReader.hasRemaining();
+        }
+
+        public Population read() throws IOException {
+            return new Population(
+                    citiesReader.get(),
+                    populationReader.get(),
+                    avgAgeReader.get()
+            );
+        }
+    }
+}
+```
+
+## Nested Records
+
+TBW
+
+## Column Types
+
+TBW
+
+## Storage Types
+
+TBW
+
+## Extension
+
+TBW
\ No newline at end of file
diff --git a/code/processes/converting-process/build.gradle b/code/processes/converting-process/build.gradle
index 1dd1edb9..ef728448 100644
--- a/code/processes/converting-process/build.gradle
+++ b/code/processes/converting-process/build.gradle
@@ -47,18 +47,12 @@ dependencies {
     implementation project(':code:processes:converting-process:model')
     implementation project(':code:processes:crawling-process:model')
 
-    implementation project(':code:features-convert:adblock')
-    implementation project(':code:features-convert:anchor-keywords')
-    implementation project(':code:features-convert:topic-detection')
-    implementation project(':code:features-convert:pubdate')
-    implementation project(':code:features-convert:keyword-extraction')
-    implementation project(':code:features-convert:summary-extraction')
-    implementation project(':code:features-convert:stackexchange-xml')
-    implementation project(':code:features-convert:reddit-json')
+    implementation project(':code:processes:converting-process:ft-anchor-keywords')
+    implementation project(':code:processes:converting-process:ft-keyword-extraction')
 
-    implementation project(':code:features-crawl:crawl-blocklist')
-    implementation project(':code:features-crawl:link-parser')
-    implementation project(':code:features-crawl:content-type')
+    implementation project(':code:processes:crawling-process:ft-crawl-blocklist')
+    implementation project(':code:processes:crawling-process:ft-link-parser')
+    implementation project(':code:processes:crawling-process:ft-content-type')
 
     testImplementation project(':code:libraries:term-frequency-dict')
     testImplementation project(':code:processes:crawling-process:model')
diff --git a/code/features-convert/anchor-keywords/build.gradle b/code/processes/converting-process/ft-anchor-keywords/build.gradle
similarity index 92%
rename from code/features-convert/anchor-keywords/build.gradle
rename to code/processes/converting-process/ft-anchor-keywords/build.gradle
index 1c25bd2e..7572cce0 100644
--- a/code/features-convert/anchor-keywords/build.gradle
+++ b/code/processes/converting-process/ft-anchor-keywords/build.gradle
@@ -17,7 +17,7 @@ dependencies {
     implementation project(':code:common:model')
     implementation project(':code:common:db')
     implementation project(':code:common:process')
-    implementation project(':code:features-convert:keyword-extraction')
+    implementation project(':code:processes:converting-process:ft-keyword-extraction')
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:term-frequency-dict')
 
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/model/DomainLinks.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/model/DomainLinks.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/model/DomainLinks.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/model/DomainLinks.java
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/model/Link.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/model/Link.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/model/Link.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/model/Link.java
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/model/LinkWithText.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/model/LinkWithText.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/model/LinkWithText.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/model/LinkWithText.java
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsImpl.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsImpl.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsImpl.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsImpl.java
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSource.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSource.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSource.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSource.java
diff --git a/code/features-convert/anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSourceFactory.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSourceFactory.java
similarity index 100%
rename from code/features-convert/anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSourceFactory.java
rename to code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/source/AnchorTagsSourceFactory.java
diff --git a/code/features-convert/anchor-keywords/resources/atags-stop-list b/code/processes/converting-process/ft-anchor-keywords/resources/atags-stop-list
similarity index 100%
rename from code/features-convert/anchor-keywords/resources/atags-stop-list
rename to code/processes/converting-process/ft-anchor-keywords/resources/atags-stop-list
diff --git a/code/features-convert/anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java b/code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java
similarity index 100%
rename from code/features-convert/anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java
rename to code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java
diff --git a/code/features-convert/anchor-keywords/test/nu/marginalia/util/TestLanguageModels.java b/code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/util/TestLanguageModels.java
similarity index 100%
rename from code/features-convert/anchor-keywords/test/nu/marginalia/util/TestLanguageModels.java
rename to code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/util/TestLanguageModels.java
diff --git a/code/features-convert/keyword-extraction/build.gradle b/code/processes/converting-process/ft-keyword-extraction/build.gradle
similarity index 100%
rename from code/features-convert/keyword-extraction/build.gradle
rename to code/processes/converting-process/ft-keyword-extraction/build.gradle
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/KeywordExtractor.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/KeywordMetadata.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/WordReps.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/WordReps.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/WordReps.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/WordReps.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/ArtifactKeywords.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/NameLikeKeywords.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/SubjectLikeKeywords.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/TitleKeywords.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/UrlKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/UrlKeywords.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/UrlKeywords.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/UrlKeywords.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/extractors/WordsTfIdfCounts.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
diff --git a/code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
similarity index 100%
rename from code/features-convert/keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
rename to code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
diff --git a/code/features-convert/keyword-extraction/readme.md b/code/processes/converting-process/ft-keyword-extraction/readme.md
similarity index 100%
rename from code/features-convert/keyword-extraction/readme.md
rename to code/processes/converting-process/ft-keyword-extraction/readme.md
diff --git a/code/features-convert/keyword-extraction/test-resources/test-data/java.html b/code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/java.html
similarity index 100%
rename from code/features-convert/keyword-extraction/test-resources/test-data/java.html
rename to code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/java.html
diff --git a/code/features-convert/keyword-extraction/test-resources/test-data/keyboards.html b/code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/keyboards.html
similarity index 100%
rename from code/features-convert/keyword-extraction/test-resources/test-data/keyboards.html
rename to code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/keyboards.html
diff --git a/code/features-convert/keyword-extraction/test-resources/test-data/madonna.html b/code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/madonna.html
similarity index 100%
rename from code/features-convert/keyword-extraction/test-resources/test-data/madonna.html
rename to code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/madonna.html
diff --git a/code/features-convert/keyword-extraction/test-resources/test-data/spam.html b/code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/spam.html
similarity index 100%
rename from code/features-convert/keyword-extraction/test-resources/test-data/spam.html
rename to code/processes/converting-process/ft-keyword-extraction/test-resources/test-data/spam.html
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/ArtifactKeywordsTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/ArtifactKeywordsTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/ArtifactKeywordsTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/ArtifactKeywordsTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/NameLikeKeywordsTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/NameLikeKeywordsTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/NameLikeKeywordsTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/NameLikeKeywordsTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/SubjectLikeKeywordsTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/SubjectLikeKeywordsTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/SubjectLikeKeywordsTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/SubjectLikeKeywordsTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/TitleKeywordsTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/UrlKeywordsTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/UrlKeywordsTest.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/keyword/extractors/UrlKeywordsTest.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/extractors/UrlKeywordsTest.java
diff --git a/code/features-convert/keyword-extraction/test/nu/marginalia/test/util/TestLanguageModels.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/test/util/TestLanguageModels.java
similarity index 100%
rename from code/features-convert/keyword-extraction/test/nu/marginalia/test/util/TestLanguageModels.java
rename to code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/test/util/TestLanguageModels.java
diff --git a/code/features-convert/adblock/java/nu/marginalia/adblock/AdblockSimulator.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/adblock/AdblockSimulator.java
similarity index 98%
rename from code/features-convert/adblock/java/nu/marginalia/adblock/AdblockSimulator.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/adblock/AdblockSimulator.java
index 1908fda3..74eecdd0 100644
--- a/code/features-convert/adblock/java/nu/marginalia/adblock/AdblockSimulator.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/adblock/AdblockSimulator.java
@@ -1,4 +1,4 @@
-package nu.marginalia.adblock;
+package nu.marginalia.converting.processor.classifier.adblock;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
diff --git a/code/features-convert/adblock/java/nu/marginalia/adblock/GoogleAnwersSpamDetector.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/adblock/GoogleAnwersSpamDetector.java
similarity index 93%
rename from code/features-convert/adblock/java/nu/marginalia/adblock/GoogleAnwersSpamDetector.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/adblock/GoogleAnwersSpamDetector.java
index 4cec3700..8c554c15 100644
--- a/code/features-convert/adblock/java/nu/marginalia/adblock/GoogleAnwersSpamDetector.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/adblock/GoogleAnwersSpamDetector.java
@@ -1,4 +1,4 @@
-package nu.marginalia.adblock;
+package nu.marginalia.converting.processor.classifier.adblock;
 
 import org.jsoup.nodes.Document;
 
diff --git a/code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/RecipeDetector.java
similarity index 99%
rename from code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/RecipeDetector.java
index 8633b4a0..83a3a246 100644
--- a/code/features-convert/topic-detection/java/nu/marginalia/topic/RecipeDetector.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/RecipeDetector.java
@@ -1,4 +1,4 @@
-package nu.marginalia.topic;
+package nu.marginalia.converting.processor.classifier.topic;
 
 import ca.rmen.porterstemmer.PorterStemmer;
 import com.google.inject.Inject;
diff --git a/code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/TextileCraftDetector.java
similarity index 99%
rename from code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/TextileCraftDetector.java
index 6d8ccff0..4aa339d2 100644
--- a/code/features-convert/topic-detection/java/nu/marginalia/topic/TextileCraftDetector.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/TextileCraftDetector.java
@@ -1,4 +1,4 @@
-package nu.marginalia.topic;
+package nu.marginalia.converting.processor.classifier.topic;
 
 import ca.rmen.porterstemmer.PorterStemmer;
 import com.google.inject.Inject;
diff --git a/code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/WoodworkingDetector.java
similarity index 98%
rename from code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/WoodworkingDetector.java
index 416f103a..60811d15 100644
--- a/code/features-convert/topic-detection/java/nu/marginalia/topic/WoodworkingDetector.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/WoodworkingDetector.java
@@ -1,4 +1,4 @@
-package nu.marginalia.topic;
+package nu.marginalia.converting.processor.classifier.topic;
 
 import ca.rmen.porterstemmer.PorterStemmer;
 import com.google.inject.Inject;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/FeatureExtractor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/FeatureExtractor.java
index c38f63f9..3f08037f 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/FeatureExtractor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/FeatureExtractor.java
@@ -2,14 +2,14 @@ package nu.marginalia.converting.processor.logic;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import nu.marginalia.adblock.AdblockSimulator;
-import nu.marginalia.adblock.GoogleAnwersSpamDetector;
+import nu.marginalia.converting.processor.classifier.adblock.AdblockSimulator;
+import nu.marginalia.converting.processor.classifier.adblock.GoogleAnwersSpamDetector;
+import nu.marginalia.converting.processor.classifier.topic.RecipeDetector;
+import nu.marginalia.converting.processor.classifier.topic.TextileCraftDetector;
+import nu.marginalia.converting.processor.classifier.topic.WoodworkingDetector;
 import nu.marginalia.language.model.DocumentLanguageData;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.HtmlFeature;
-import nu.marginalia.topic.RecipeDetector;
-import nu.marginalia.topic.TextileCraftDetector;
-import nu.marginalia.topic.WoodworkingDetector;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
 import org.jsoup.select.Elements;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
index 76b867fb..d423d599 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
@@ -12,6 +12,7 @@ import nu.marginalia.converting.processor.logic.dom.MeasureLengthVisitor;
 import nu.marginalia.converting.processor.logic.links.FileLinks;
 import nu.marginalia.converting.processor.logic.links.LinkProcessor;
 import nu.marginalia.converting.processor.plugin.specialization.HtmlProcessorSpecializations;
+import nu.marginalia.converting.processor.pubdate.PubDateSniffer;
 import nu.marginalia.gregex.GuardedRegex;
 import nu.marginalia.gregex.GuardedRegexFactory;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
@@ -29,7 +30,6 @@ import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.model.html.HtmlStandard;
 import nu.marginalia.model.idx.DocumentFlags;
 import nu.marginalia.model.idx.DocumentMetadata;
-import nu.marginalia.pubdate.PubDateSniffer;
 import org.jsoup.Jsoup;
 import org.jsoup.nodes.Document;
 import org.slf4j.Logger;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java
index f40654bc..feeb2126 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java
@@ -6,7 +6,7 @@ import com.google.inject.Singleton;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.apache.logging.log4j.util.Strings;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/DefaultSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/DefaultSpecialization.java
index 5a441639..77f1df12 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/DefaultSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/DefaultSpecialization.java
@@ -3,7 +3,7 @@ package nu.marginalia.converting.processor.plugin.specialization;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.jsoup.nodes.Document;
 
 import java.util.ArrayList;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecialization.java
index d930cbd0..38bd415f 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecialization.java
@@ -2,7 +2,7 @@ package nu.marginalia.converting.processor.plugin.specialization;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.apache.commons.lang3.StringUtils;
 import org.jsoup.nodes.Document;
 import org.slf4j.Logger;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/LemmySpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/LemmySpecialization.java
index f85847f4..01ec301c 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/LemmySpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/LemmySpecialization.java
@@ -2,7 +2,7 @@ package nu.marginalia.converting.processor.plugin.specialization;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.jsoup.nodes.Document;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/MariadbKbSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/MariadbKbSpecialization.java
index 3aa35973..26d58775 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/MariadbKbSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/MariadbKbSpecialization.java
@@ -4,7 +4,7 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.jsoup.nodes.Document;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/PhpBBSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/PhpBBSpecialization.java
index 947cc4c0..36584bae 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/PhpBBSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/PhpBBSpecialization.java
@@ -3,7 +3,7 @@ package nu.marginalia.converting.processor.plugin.specialization;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/WikiSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/WikiSpecialization.java
index c6107870..5c2fd2e7 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/WikiSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/WikiSpecialization.java
@@ -4,7 +4,7 @@ import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecialization.java
index 16a222b3..af891889 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecialization.java
@@ -2,7 +2,7 @@ package nu.marginalia.converting.processor.plugin.specialization;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.jsoup.nodes.Document;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateEffortLevel.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateEffortLevel.java
similarity index 50%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateEffortLevel.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateEffortLevel.java
index e2fd4e65..47e22ee0 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateEffortLevel.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateEffortLevel.java
@@ -1,4 +1,4 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
 public enum PubDateEffortLevel {
     LOW,
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateFromHtmlStandard.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateFromHtmlStandard.java
similarity index 95%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateFromHtmlStandard.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateFromHtmlStandard.java
index dfbab8d3..78c27781 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateFromHtmlStandard.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateFromHtmlStandard.java
@@ -1,4 +1,4 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
 import nu.marginalia.model.html.HtmlStandard;
 
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateHeuristic.java
similarity index 87%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateHeuristic.java
index 56355806..d348c75a 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.PubDate;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateParser.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateParser.java
similarity index 99%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateParser.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateParser.java
index 1fbade80..5b139e30 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateParser.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateParser.java
@@ -1,7 +1,7 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
-import nu.marginalia.model.html.HtmlStandard;
 import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 
 import java.time.DateTimeException;
 import java.time.LocalDate;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateSniffer.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateSniffer.java
similarity index 93%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateSniffer.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateSniffer.java
index 90b25915..4ec1c4f9 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/PubDateSniffer.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/PubDateSniffer.java
@@ -1,9 +1,9 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.converting.processor.pubdate.heuristic.*;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.heuristic.*;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.ArrayList;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java
similarity index 94%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java
index 28059f64..5ab86c17 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicDOMParsingPass1.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jetbrains.annotations.NotNull;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java
similarity index 91%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java
index bb625180..eb42a3c4 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicDOMParsingPass2.java
@@ -1,12 +1,12 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateEffortLevel;
-import nu.marginalia.pubdate.PubDateFromHtmlStandard;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateFromHtmlStandard;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jetbrains.annotations.NotNull;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Node;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java
similarity index 69%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java
index 30486f2f..cffbe178 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicGuessFromHtmlStandard.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateEffortLevel;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java
similarity index 77%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java
index 30513a47..1d4d6a90 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5AnyTimeTag.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java
similarity index 73%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java
index 45c8b091..e484e40b 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5ArticleDateTag.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java
similarity index 73%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java
index aa09d392..0cedf842 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicHtml5ItempropDateTag.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicJSONLD.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicJSONLD.java
similarity index 89%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicJSONLD.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicJSONLD.java
index 3ddf58eb..27d25208 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicJSONLD.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicJSONLD.java
@@ -1,16 +1,16 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
 import com.google.gson.Gson;
 import com.google.gson.GsonBuilder;
 import com.google.gson.JsonSyntaxException;
 import com.google.gson.annotations.SerializedName;
 import lombok.ToString;
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Collections;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicLastModified.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicLastModified.java
similarity index 75%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicLastModified.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicLastModified.java
index ca42d469..0bc1a4bc 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicLastModified.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicLastModified.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicMicrodata.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicMicrodata.java
similarity index 73%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicMicrodata.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicMicrodata.java
index 584375f2..04858bbd 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicMicrodata.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicMicrodata.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicOpenGraph.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicOpenGraph.java
similarity index 73%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicOpenGraph.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicOpenGraph.java
index 74a7a654..0c1bc6d3 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicOpenGraph.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicOpenGraph.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateEffortLevel;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicRDFaTag.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicRDFaTag.java
similarity index 72%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicRDFaTag.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicRDFaTag.java
index 1ed20019..a158bd9a 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicRDFaTag.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicRDFaTag.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateEffortLevel;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java
similarity index 83%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java
index 6a6d5630..16a55c5f 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicUrlPatternPass1.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java
similarity index 82%
rename from code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java
index ea3ab9d9..e5226266 100644
--- a/code/features-convert/pubdate/java/nu/marginalia/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/pubdate/heuristic/PubDateHeuristicUrlPatternPass2.java
@@ -1,11 +1,11 @@
-package nu.marginalia.pubdate.heuristic;
+package nu.marginalia.converting.processor.pubdate.heuristic;
 
-import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.model.crawl.PubDate;
-import nu.marginalia.pubdate.PubDateHeuristic;
-import nu.marginalia.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateEffortLevel;
+import nu.marginalia.converting.processor.pubdate.PubDateHeuristic;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.pubdate.PubDateEffortLevel;
+import nu.marginalia.model.crawl.PubDate;
+import nu.marginalia.model.html.HtmlStandard;
 import org.jsoup.nodes.Document;
 
 import java.util.Optional;
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/SummaryExtractor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/SummaryExtractor.java
similarity index 94%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/SummaryExtractor.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/SummaryExtractor.java
index 0e422390..7a9bd3da 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/SummaryExtractor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/SummaryExtractor.java
@@ -1,8 +1,8 @@
-package nu.marginalia.summary;
+package nu.marginalia.converting.processor.summary;
 
 import com.google.inject.Inject;
 import com.google.inject.name.Named;
-import nu.marginalia.summary.heuristic.*;
+import nu.marginalia.converting.processor.summary.heuristic.*;
 import org.apache.commons.lang3.StringUtils;
 import org.jsoup.nodes.Document;
 
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/DomFilterHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java
similarity index 91%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/DomFilterHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java
index a06d4408..7a1c2be3 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/DomFilterHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import com.google.inject.Inject;
 import com.google.inject.name.Named;
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/FallbackHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/FallbackHeuristic.java
similarity index 92%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/FallbackHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/FallbackHeuristic.java
index caf37137..53d5c656 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/FallbackHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/FallbackHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/HeuristicTextUtil.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/HeuristicTextUtil.java
similarity index 98%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/HeuristicTextUtil.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/HeuristicTextUtil.java
index 6beac2eb..3c7bfa9f 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/HeuristicTextUtil.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/HeuristicTextUtil.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import org.apache.commons.lang3.StringUtils;
 
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/MetaDescriptionHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/MetaDescriptionHeuristic.java
similarity index 83%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/MetaDescriptionHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/MetaDescriptionHeuristic.java
index d48b6c3b..4ccdc09b 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/MetaDescriptionHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/MetaDescriptionHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import org.jsoup.nodes.Document;
 
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/OpenGraphDescriptionHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/OpenGraphDescriptionHeuristic.java
similarity index 83%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/OpenGraphDescriptionHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/OpenGraphDescriptionHeuristic.java
index 70f56bd3..4bcfd8e6 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/OpenGraphDescriptionHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/OpenGraphDescriptionHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import org.jsoup.nodes.Document;
 
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/SummarizingDOMFilter.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/SummarizingDOMFilter.java
similarity index 97%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/SummarizingDOMFilter.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/SummarizingDOMFilter.java
index f72b0eae..ab327744 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/SummarizingDOMFilter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/SummarizingDOMFilter.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import com.google.common.base.Strings;
 import org.apache.commons.lang3.StringUtils;
@@ -10,7 +10,6 @@ import org.jsoup.select.NodeFilter;
 import java.util.*;
 import java.util.function.Function;
 
-import static nu.marginalia.summary.heuristic.HeuristicTextUtil.countOccurrencesOfAnyWord;
 import static org.jsoup.internal.StringUtil.isActuallyWhitespace;
 import static org.jsoup.internal.StringUtil.isInvisibleChar;
 
@@ -107,8 +106,8 @@ public class SummarizingDOMFilter implements NodeFilter {
                 if (wholeText.length() > 128)
                     return 0;
 
-                return countOccurrencesOfAnyWord(wholeText, importantWords)
-                        - countOccurrencesOfAnyWord(wholeText, badWords);
+                return HeuristicTextUtil.countOccurrencesOfAnyWord(wholeText, importantWords)
+                        - HeuristicTextUtil.countOccurrencesOfAnyWord(wholeText, badWords);
             });
 
             if (cnt > 0) {
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/SummaryHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/SummaryHeuristic.java
similarity index 73%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/SummaryHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/SummaryHeuristic.java
index 54b1c33a..c3cef4bb 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/SummaryHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/SummaryHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import org.jsoup.nodes.Document;
 
diff --git a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/TagDensityHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/TagDensityHeuristic.java
similarity index 96%
rename from code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/TagDensityHeuristic.java
rename to code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/TagDensityHeuristic.java
index 170afec0..dfea3709 100644
--- a/code/features-convert/summary-extraction/java/nu/marginalia/summary/heuristic/TagDensityHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/TagDensityHeuristic.java
@@ -1,4 +1,4 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
 import com.google.inject.Inject;
 import com.google.inject.name.Named;
diff --git a/code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/RedditEntryReader.java b/code/processes/converting-process/java/nu/marginalia/integration/reddit/RedditEntryReader.java
similarity index 100%
rename from code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/RedditEntryReader.java
rename to code/processes/converting-process/java/nu/marginalia/integration/reddit/RedditEntryReader.java
diff --git a/code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/db/RedditDb.java b/code/processes/converting-process/java/nu/marginalia/integration/reddit/db/RedditDb.java
similarity index 100%
rename from code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/db/RedditDb.java
rename to code/processes/converting-process/java/nu/marginalia/integration/reddit/db/RedditDb.java
diff --git a/code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/ProcessableRedditComment.java b/code/processes/converting-process/java/nu/marginalia/integration/reddit/model/ProcessableRedditComment.java
similarity index 100%
rename from code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/ProcessableRedditComment.java
rename to code/processes/converting-process/java/nu/marginalia/integration/reddit/model/ProcessableRedditComment.java
diff --git a/code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/ProcessableRedditSubmission.java b/code/processes/converting-process/java/nu/marginalia/integration/reddit/model/ProcessableRedditSubmission.java
similarity index 100%
rename from code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/ProcessableRedditSubmission.java
rename to code/processes/converting-process/java/nu/marginalia/integration/reddit/model/ProcessableRedditSubmission.java
diff --git a/code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/RawRedditComment.java b/code/processes/converting-process/java/nu/marginalia/integration/reddit/model/RawRedditComment.java
similarity index 100%
rename from code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/RawRedditComment.java
rename to code/processes/converting-process/java/nu/marginalia/integration/reddit/model/RawRedditComment.java
diff --git a/code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/RawRedditSubmission.java b/code/processes/converting-process/java/nu/marginalia/integration/reddit/model/RawRedditSubmission.java
similarity index 100%
rename from code/features-convert/reddit-json/java/nu/marginalia/integration/reddit/model/RawRedditSubmission.java
rename to code/processes/converting-process/java/nu/marginalia/integration/reddit/model/RawRedditSubmission.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/model/StackExchangeComment.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/model/StackExchangeComment.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/model/StackExchangeComment.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/model/StackExchangeComment.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/model/StackExchangePost.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/model/StackExchangePost.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/model/StackExchangePost.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/model/StackExchangePost.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/sqlite/StackExchangePostsDb.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/sqlite/StackExchangePostsDb.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/sqlite/StackExchangePostsDb.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/sqlite/StackExchangePostsDb.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchange7zXmlEventReaderSource.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchange7zXmlEventReaderSource.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchange7zXmlEventReaderSource.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchange7zXmlEventReaderSource.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReader.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReader.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReader.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReader.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlIterator.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlIterator.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlIterator.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlIterator.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReader.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReader.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReader.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReader.java
diff --git a/code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/XmlEventReaderSource.java b/code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/XmlEventReaderSource.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/java/nu/marginalia/integration/stackexchange/xml/XmlEventReaderSource.java
rename to code/processes/converting-process/java/nu/marginalia/integration/stackexchange/xml/XmlEventReaderSource.java
diff --git a/code/features-convert/reddit-json/resources/db/reddit.sql b/code/processes/converting-process/resources/db/reddit.sql
similarity index 100%
rename from code/features-convert/reddit-json/resources/db/reddit.sql
rename to code/processes/converting-process/resources/db/reddit.sql
diff --git a/code/features-convert/stackexchange-xml/resources/db/stackexchange.sql b/code/processes/converting-process/resources/db/stackexchange.sql
similarity index 100%
rename from code/features-convert/stackexchange-xml/resources/db/stackexchange.sql
rename to code/processes/converting-process/resources/db/stackexchange.sql
diff --git a/code/features-convert/summary-extraction/test-resources/html/monadnock.html b/code/processes/converting-process/test-resources/html/monadnock.html
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/monadnock.html
rename to code/processes/converting-process/test-resources/html/monadnock.html
diff --git a/code/features-convert/summary-extraction/test-resources/html/readme.md b/code/processes/converting-process/test-resources/html/readme.md
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/readme.md
rename to code/processes/converting-process/test-resources/html/readme.md
diff --git a/code/features-convert/summary-extraction/test-resources/html/summarization/187.shtml b/code/processes/converting-process/test-resources/html/summarization/187.shtml
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/summarization/187.shtml
rename to code/processes/converting-process/test-resources/html/summarization/187.shtml
diff --git a/code/features-convert/summary-extraction/test-resources/html/summarization/surrey.html b/code/processes/converting-process/test-resources/html/summarization/surrey.html
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/summarization/surrey.html
rename to code/processes/converting-process/test-resources/html/summarization/surrey.html
diff --git a/code/features-convert/summary-extraction/test-resources/html/summarization/surrey.html.1 b/code/processes/converting-process/test-resources/html/summarization/surrey.html.1
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/summarization/surrey.html.1
rename to code/processes/converting-process/test-resources/html/summarization/surrey.html.1
diff --git a/code/features-convert/summary-extraction/test-resources/html/theregister.html b/code/processes/converting-process/test-resources/html/theregister.html
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/theregister.html
rename to code/processes/converting-process/test-resources/html/theregister.html
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/index b/code/processes/converting-process/test-resources/html/work-set/index
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/index
rename to code/processes/converting-process/test-resources/html/work-set/index
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1021546012 b/code/processes/converting-process/test-resources/html/work-set/url--1021546012
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1021546012
rename to code/processes/converting-process/test-resources/html/work-set/url--1021546012
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1028592943 b/code/processes/converting-process/test-resources/html/work-set/url--1028592943
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1028592943
rename to code/processes/converting-process/test-resources/html/work-set/url--1028592943
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1081293162 b/code/processes/converting-process/test-resources/html/work-set/url--1081293162
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1081293162
rename to code/processes/converting-process/test-resources/html/work-set/url--1081293162
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1105046394 b/code/processes/converting-process/test-resources/html/work-set/url--1105046394
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1105046394
rename to code/processes/converting-process/test-resources/html/work-set/url--1105046394
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1146923296 b/code/processes/converting-process/test-resources/html/work-set/url--1146923296
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1146923296
rename to code/processes/converting-process/test-resources/html/work-set/url--1146923296
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1194694074 b/code/processes/converting-process/test-resources/html/work-set/url--1194694074
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1194694074
rename to code/processes/converting-process/test-resources/html/work-set/url--1194694074
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1207898281 b/code/processes/converting-process/test-resources/html/work-set/url--1207898281
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1207898281
rename to code/processes/converting-process/test-resources/html/work-set/url--1207898281
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1268145073 b/code/processes/converting-process/test-resources/html/work-set/url--1268145073
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1268145073
rename to code/processes/converting-process/test-resources/html/work-set/url--1268145073
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1294876331 b/code/processes/converting-process/test-resources/html/work-set/url--1294876331
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1294876331
rename to code/processes/converting-process/test-resources/html/work-set/url--1294876331
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1314767420 b/code/processes/converting-process/test-resources/html/work-set/url--1314767420
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1314767420
rename to code/processes/converting-process/test-resources/html/work-set/url--1314767420
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1316269786 b/code/processes/converting-process/test-resources/html/work-set/url--1316269786
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1316269786
rename to code/processes/converting-process/test-resources/html/work-set/url--1316269786
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1316766580 b/code/processes/converting-process/test-resources/html/work-set/url--1316766580
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1316766580
rename to code/processes/converting-process/test-resources/html/work-set/url--1316766580
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1319968043 b/code/processes/converting-process/test-resources/html/work-set/url--1319968043
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1319968043
rename to code/processes/converting-process/test-resources/html/work-set/url--1319968043
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1338576987 b/code/processes/converting-process/test-resources/html/work-set/url--1338576987
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1338576987
rename to code/processes/converting-process/test-resources/html/work-set/url--1338576987
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1341909571 b/code/processes/converting-process/test-resources/html/work-set/url--1341909571
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1341909571
rename to code/processes/converting-process/test-resources/html/work-set/url--1341909571
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1369578579 b/code/processes/converting-process/test-resources/html/work-set/url--1369578579
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1369578579
rename to code/processes/converting-process/test-resources/html/work-set/url--1369578579
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1437315645 b/code/processes/converting-process/test-resources/html/work-set/url--1437315645
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1437315645
rename to code/processes/converting-process/test-resources/html/work-set/url--1437315645
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1458954960 b/code/processes/converting-process/test-resources/html/work-set/url--1458954960
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1458954960
rename to code/processes/converting-process/test-resources/html/work-set/url--1458954960
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1475681345 b/code/processes/converting-process/test-resources/html/work-set/url--1475681345
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1475681345
rename to code/processes/converting-process/test-resources/html/work-set/url--1475681345
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1498328446 b/code/processes/converting-process/test-resources/html/work-set/url--1498328446
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1498328446
rename to code/processes/converting-process/test-resources/html/work-set/url--1498328446
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1507779664 b/code/processes/converting-process/test-resources/html/work-set/url--1507779664
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1507779664
rename to code/processes/converting-process/test-resources/html/work-set/url--1507779664
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1540303379 b/code/processes/converting-process/test-resources/html/work-set/url--1540303379
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1540303379
rename to code/processes/converting-process/test-resources/html/work-set/url--1540303379
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--154898476 b/code/processes/converting-process/test-resources/html/work-set/url--154898476
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--154898476
rename to code/processes/converting-process/test-resources/html/work-set/url--154898476
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1552059399 b/code/processes/converting-process/test-resources/html/work-set/url--1552059399
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1552059399
rename to code/processes/converting-process/test-resources/html/work-set/url--1552059399
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1557688340 b/code/processes/converting-process/test-resources/html/work-set/url--1557688340
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1557688340
rename to code/processes/converting-process/test-resources/html/work-set/url--1557688340
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1584145751 b/code/processes/converting-process/test-resources/html/work-set/url--1584145751
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1584145751
rename to code/processes/converting-process/test-resources/html/work-set/url--1584145751
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1605151204 b/code/processes/converting-process/test-resources/html/work-set/url--1605151204
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1605151204
rename to code/processes/converting-process/test-resources/html/work-set/url--1605151204
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--162269247 b/code/processes/converting-process/test-resources/html/work-set/url--162269247
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--162269247
rename to code/processes/converting-process/test-resources/html/work-set/url--162269247
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1624294488 b/code/processes/converting-process/test-resources/html/work-set/url--1624294488
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1624294488
rename to code/processes/converting-process/test-resources/html/work-set/url--1624294488
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--164108285 b/code/processes/converting-process/test-resources/html/work-set/url--164108285
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--164108285
rename to code/processes/converting-process/test-resources/html/work-set/url--164108285
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1645688243 b/code/processes/converting-process/test-resources/html/work-set/url--1645688243
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1645688243
rename to code/processes/converting-process/test-resources/html/work-set/url--1645688243
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1658004609 b/code/processes/converting-process/test-resources/html/work-set/url--1658004609
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1658004609
rename to code/processes/converting-process/test-resources/html/work-set/url--1658004609
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1658558834 b/code/processes/converting-process/test-resources/html/work-set/url--1658558834
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1658558834
rename to code/processes/converting-process/test-resources/html/work-set/url--1658558834
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1698664879 b/code/processes/converting-process/test-resources/html/work-set/url--1698664879
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1698664879
rename to code/processes/converting-process/test-resources/html/work-set/url--1698664879
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--169975195 b/code/processes/converting-process/test-resources/html/work-set/url--169975195
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--169975195
rename to code/processes/converting-process/test-resources/html/work-set/url--169975195
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1701203332 b/code/processes/converting-process/test-resources/html/work-set/url--1701203332
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1701203332
rename to code/processes/converting-process/test-resources/html/work-set/url--1701203332
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--17281998 b/code/processes/converting-process/test-resources/html/work-set/url--17281998
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--17281998
rename to code/processes/converting-process/test-resources/html/work-set/url--17281998
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1742070028 b/code/processes/converting-process/test-resources/html/work-set/url--1742070028
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1742070028
rename to code/processes/converting-process/test-resources/html/work-set/url--1742070028
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1745376814 b/code/processes/converting-process/test-resources/html/work-set/url--1745376814
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1745376814
rename to code/processes/converting-process/test-resources/html/work-set/url--1745376814
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1749889035 b/code/processes/converting-process/test-resources/html/work-set/url--1749889035
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1749889035
rename to code/processes/converting-process/test-resources/html/work-set/url--1749889035
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--176177364 b/code/processes/converting-process/test-resources/html/work-set/url--176177364
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--176177364
rename to code/processes/converting-process/test-resources/html/work-set/url--176177364
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--177014197 b/code/processes/converting-process/test-resources/html/work-set/url--177014197
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--177014197
rename to code/processes/converting-process/test-resources/html/work-set/url--177014197
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1794527707 b/code/processes/converting-process/test-resources/html/work-set/url--1794527707
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1794527707
rename to code/processes/converting-process/test-resources/html/work-set/url--1794527707
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1797740201 b/code/processes/converting-process/test-resources/html/work-set/url--1797740201
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1797740201
rename to code/processes/converting-process/test-resources/html/work-set/url--1797740201
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1799098579 b/code/processes/converting-process/test-resources/html/work-set/url--1799098579
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1799098579
rename to code/processes/converting-process/test-resources/html/work-set/url--1799098579
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1959637826 b/code/processes/converting-process/test-resources/html/work-set/url--1959637826
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1959637826
rename to code/processes/converting-process/test-resources/html/work-set/url--1959637826
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1971916964 b/code/processes/converting-process/test-resources/html/work-set/url--1971916964
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1971916964
rename to code/processes/converting-process/test-resources/html/work-set/url--1971916964
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--1985840368 b/code/processes/converting-process/test-resources/html/work-set/url--1985840368
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--1985840368
rename to code/processes/converting-process/test-resources/html/work-set/url--1985840368
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--2012610859 b/code/processes/converting-process/test-resources/html/work-set/url--2012610859
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--2012610859
rename to code/processes/converting-process/test-resources/html/work-set/url--2012610859
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--202178680 b/code/processes/converting-process/test-resources/html/work-set/url--202178680
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--202178680
rename to code/processes/converting-process/test-resources/html/work-set/url--202178680
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--2043528727 b/code/processes/converting-process/test-resources/html/work-set/url--2043528727
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--2043528727
rename to code/processes/converting-process/test-resources/html/work-set/url--2043528727
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--2081757477 b/code/processes/converting-process/test-resources/html/work-set/url--2081757477
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--2081757477
rename to code/processes/converting-process/test-resources/html/work-set/url--2081757477
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--2103982576 b/code/processes/converting-process/test-resources/html/work-set/url--2103982576
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--2103982576
rename to code/processes/converting-process/test-resources/html/work-set/url--2103982576
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--2111558769 b/code/processes/converting-process/test-resources/html/work-set/url--2111558769
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--2111558769
rename to code/processes/converting-process/test-resources/html/work-set/url--2111558769
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--213168798 b/code/processes/converting-process/test-resources/html/work-set/url--213168798
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--213168798
rename to code/processes/converting-process/test-resources/html/work-set/url--213168798
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--232544032 b/code/processes/converting-process/test-resources/html/work-set/url--232544032
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--232544032
rename to code/processes/converting-process/test-resources/html/work-set/url--232544032
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--253010011 b/code/processes/converting-process/test-resources/html/work-set/url--253010011
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--253010011
rename to code/processes/converting-process/test-resources/html/work-set/url--253010011
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--274250994 b/code/processes/converting-process/test-resources/html/work-set/url--274250994
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--274250994
rename to code/processes/converting-process/test-resources/html/work-set/url--274250994
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--332442790 b/code/processes/converting-process/test-resources/html/work-set/url--332442790
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--332442790
rename to code/processes/converting-process/test-resources/html/work-set/url--332442790
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--353437903 b/code/processes/converting-process/test-resources/html/work-set/url--353437903
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--353437903
rename to code/processes/converting-process/test-resources/html/work-set/url--353437903
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--364546777 b/code/processes/converting-process/test-resources/html/work-set/url--364546777
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--364546777
rename to code/processes/converting-process/test-resources/html/work-set/url--364546777
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--379129416 b/code/processes/converting-process/test-resources/html/work-set/url--379129416
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--379129416
rename to code/processes/converting-process/test-resources/html/work-set/url--379129416
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--399428149 b/code/processes/converting-process/test-resources/html/work-set/url--399428149
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--399428149
rename to code/processes/converting-process/test-resources/html/work-set/url--399428149
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--425233170 b/code/processes/converting-process/test-resources/html/work-set/url--425233170
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--425233170
rename to code/processes/converting-process/test-resources/html/work-set/url--425233170
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--434612307 b/code/processes/converting-process/test-resources/html/work-set/url--434612307
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--434612307
rename to code/processes/converting-process/test-resources/html/work-set/url--434612307
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--439772328 b/code/processes/converting-process/test-resources/html/work-set/url--439772328
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--439772328
rename to code/processes/converting-process/test-resources/html/work-set/url--439772328
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--458002611 b/code/processes/converting-process/test-resources/html/work-set/url--458002611
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--458002611
rename to code/processes/converting-process/test-resources/html/work-set/url--458002611
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--506010305 b/code/processes/converting-process/test-resources/html/work-set/url--506010305
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--506010305
rename to code/processes/converting-process/test-resources/html/work-set/url--506010305
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--546773534 b/code/processes/converting-process/test-resources/html/work-set/url--546773534
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--546773534
rename to code/processes/converting-process/test-resources/html/work-set/url--546773534
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--551288516 b/code/processes/converting-process/test-resources/html/work-set/url--551288516
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--551288516
rename to code/processes/converting-process/test-resources/html/work-set/url--551288516
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--602577763 b/code/processes/converting-process/test-resources/html/work-set/url--602577763
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--602577763
rename to code/processes/converting-process/test-resources/html/work-set/url--602577763
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--611668054 b/code/processes/converting-process/test-resources/html/work-set/url--611668054
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--611668054
rename to code/processes/converting-process/test-resources/html/work-set/url--611668054
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--634771245 b/code/processes/converting-process/test-resources/html/work-set/url--634771245
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--634771245
rename to code/processes/converting-process/test-resources/html/work-set/url--634771245
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--639320493 b/code/processes/converting-process/test-resources/html/work-set/url--639320493
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--639320493
rename to code/processes/converting-process/test-resources/html/work-set/url--639320493
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--643179018 b/code/processes/converting-process/test-resources/html/work-set/url--643179018
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--643179018
rename to code/processes/converting-process/test-resources/html/work-set/url--643179018
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--663772351 b/code/processes/converting-process/test-resources/html/work-set/url--663772351
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--663772351
rename to code/processes/converting-process/test-resources/html/work-set/url--663772351
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--670789152 b/code/processes/converting-process/test-resources/html/work-set/url--670789152
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--670789152
rename to code/processes/converting-process/test-resources/html/work-set/url--670789152
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--6797317 b/code/processes/converting-process/test-resources/html/work-set/url--6797317
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--6797317
rename to code/processes/converting-process/test-resources/html/work-set/url--6797317
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--700978490 b/code/processes/converting-process/test-resources/html/work-set/url--700978490
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--700978490
rename to code/processes/converting-process/test-resources/html/work-set/url--700978490
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--708035332 b/code/processes/converting-process/test-resources/html/work-set/url--708035332
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--708035332
rename to code/processes/converting-process/test-resources/html/work-set/url--708035332
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--804917062 b/code/processes/converting-process/test-resources/html/work-set/url--804917062
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--804917062
rename to code/processes/converting-process/test-resources/html/work-set/url--804917062
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--819771302 b/code/processes/converting-process/test-resources/html/work-set/url--819771302
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--819771302
rename to code/processes/converting-process/test-resources/html/work-set/url--819771302
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--840796372 b/code/processes/converting-process/test-resources/html/work-set/url--840796372
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--840796372
rename to code/processes/converting-process/test-resources/html/work-set/url--840796372
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--841445362 b/code/processes/converting-process/test-resources/html/work-set/url--841445362
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--841445362
rename to code/processes/converting-process/test-resources/html/work-set/url--841445362
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--862385354 b/code/processes/converting-process/test-resources/html/work-set/url--862385354
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--862385354
rename to code/processes/converting-process/test-resources/html/work-set/url--862385354
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--879796466 b/code/processes/converting-process/test-resources/html/work-set/url--879796466
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--879796466
rename to code/processes/converting-process/test-resources/html/work-set/url--879796466
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--89134993 b/code/processes/converting-process/test-resources/html/work-set/url--89134993
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--89134993
rename to code/processes/converting-process/test-resources/html/work-set/url--89134993
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--905197876 b/code/processes/converting-process/test-resources/html/work-set/url--905197876
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--905197876
rename to code/processes/converting-process/test-resources/html/work-set/url--905197876
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--920328354 b/code/processes/converting-process/test-resources/html/work-set/url--920328354
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--920328354
rename to code/processes/converting-process/test-resources/html/work-set/url--920328354
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--952827759 b/code/processes/converting-process/test-resources/html/work-set/url--952827759
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--952827759
rename to code/processes/converting-process/test-resources/html/work-set/url--952827759
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--964018507 b/code/processes/converting-process/test-resources/html/work-set/url--964018507
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--964018507
rename to code/processes/converting-process/test-resources/html/work-set/url--964018507
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url--972614909 b/code/processes/converting-process/test-resources/html/work-set/url--972614909
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url--972614909
rename to code/processes/converting-process/test-resources/html/work-set/url--972614909
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-10088520 b/code/processes/converting-process/test-resources/html/work-set/url-10088520
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-10088520
rename to code/processes/converting-process/test-resources/html/work-set/url-10088520
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1013281103 b/code/processes/converting-process/test-resources/html/work-set/url-1013281103
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1013281103
rename to code/processes/converting-process/test-resources/html/work-set/url-1013281103
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1019241851 b/code/processes/converting-process/test-resources/html/work-set/url-1019241851
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1019241851
rename to code/processes/converting-process/test-resources/html/work-set/url-1019241851
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1059944953 b/code/processes/converting-process/test-resources/html/work-set/url-1059944953
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1059944953
rename to code/processes/converting-process/test-resources/html/work-set/url-1059944953
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1118681302 b/code/processes/converting-process/test-resources/html/work-set/url-1118681302
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1118681302
rename to code/processes/converting-process/test-resources/html/work-set/url-1118681302
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1179298706 b/code/processes/converting-process/test-resources/html/work-set/url-1179298706
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1179298706
rename to code/processes/converting-process/test-resources/html/work-set/url-1179298706
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1191749784 b/code/processes/converting-process/test-resources/html/work-set/url-1191749784
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1191749784
rename to code/processes/converting-process/test-resources/html/work-set/url-1191749784
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1207094790 b/code/processes/converting-process/test-resources/html/work-set/url-1207094790
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1207094790
rename to code/processes/converting-process/test-resources/html/work-set/url-1207094790
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1213989666 b/code/processes/converting-process/test-resources/html/work-set/url-1213989666
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1213989666
rename to code/processes/converting-process/test-resources/html/work-set/url-1213989666
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1222442301 b/code/processes/converting-process/test-resources/html/work-set/url-1222442301
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1222442301
rename to code/processes/converting-process/test-resources/html/work-set/url-1222442301
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-130332455 b/code/processes/converting-process/test-resources/html/work-set/url-130332455
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-130332455
rename to code/processes/converting-process/test-resources/html/work-set/url-130332455
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1311055461 b/code/processes/converting-process/test-resources/html/work-set/url-1311055461
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1311055461
rename to code/processes/converting-process/test-resources/html/work-set/url-1311055461
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1391842722 b/code/processes/converting-process/test-resources/html/work-set/url-1391842722
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1391842722
rename to code/processes/converting-process/test-resources/html/work-set/url-1391842722
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1457388763 b/code/processes/converting-process/test-resources/html/work-set/url-1457388763
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1457388763
rename to code/processes/converting-process/test-resources/html/work-set/url-1457388763
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1506356272 b/code/processes/converting-process/test-resources/html/work-set/url-1506356272
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1506356272
rename to code/processes/converting-process/test-resources/html/work-set/url-1506356272
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1511762169 b/code/processes/converting-process/test-resources/html/work-set/url-1511762169
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1511762169
rename to code/processes/converting-process/test-resources/html/work-set/url-1511762169
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1534640058 b/code/processes/converting-process/test-resources/html/work-set/url-1534640058
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1534640058
rename to code/processes/converting-process/test-resources/html/work-set/url-1534640058
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1551513871 b/code/processes/converting-process/test-resources/html/work-set/url-1551513871
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1551513871
rename to code/processes/converting-process/test-resources/html/work-set/url-1551513871
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1567632447 b/code/processes/converting-process/test-resources/html/work-set/url-1567632447
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1567632447
rename to code/processes/converting-process/test-resources/html/work-set/url-1567632447
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1623049502 b/code/processes/converting-process/test-resources/html/work-set/url-1623049502
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1623049502
rename to code/processes/converting-process/test-resources/html/work-set/url-1623049502
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-163919330 b/code/processes/converting-process/test-resources/html/work-set/url-163919330
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-163919330
rename to code/processes/converting-process/test-resources/html/work-set/url-163919330
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1661398327 b/code/processes/converting-process/test-resources/html/work-set/url-1661398327
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1661398327
rename to code/processes/converting-process/test-resources/html/work-set/url-1661398327
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1724309925 b/code/processes/converting-process/test-resources/html/work-set/url-1724309925
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1724309925
rename to code/processes/converting-process/test-resources/html/work-set/url-1724309925
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1736807128 b/code/processes/converting-process/test-resources/html/work-set/url-1736807128
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1736807128
rename to code/processes/converting-process/test-resources/html/work-set/url-1736807128
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1739031345 b/code/processes/converting-process/test-resources/html/work-set/url-1739031345
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1739031345
rename to code/processes/converting-process/test-resources/html/work-set/url-1739031345
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1755745765 b/code/processes/converting-process/test-resources/html/work-set/url-1755745765
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1755745765
rename to code/processes/converting-process/test-resources/html/work-set/url-1755745765
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1802811100 b/code/processes/converting-process/test-resources/html/work-set/url-1802811100
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1802811100
rename to code/processes/converting-process/test-resources/html/work-set/url-1802811100
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1805364707 b/code/processes/converting-process/test-resources/html/work-set/url-1805364707
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1805364707
rename to code/processes/converting-process/test-resources/html/work-set/url-1805364707
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1832702370 b/code/processes/converting-process/test-resources/html/work-set/url-1832702370
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1832702370
rename to code/processes/converting-process/test-resources/html/work-set/url-1832702370
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1853114311 b/code/processes/converting-process/test-resources/html/work-set/url-1853114311
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1853114311
rename to code/processes/converting-process/test-resources/html/work-set/url-1853114311
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1924872844 b/code/processes/converting-process/test-resources/html/work-set/url-1924872844
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1924872844
rename to code/processes/converting-process/test-resources/html/work-set/url-1924872844
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-197772804 b/code/processes/converting-process/test-resources/html/work-set/url-197772804
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-197772804
rename to code/processes/converting-process/test-resources/html/work-set/url-197772804
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1984259912 b/code/processes/converting-process/test-resources/html/work-set/url-1984259912
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1984259912
rename to code/processes/converting-process/test-resources/html/work-set/url-1984259912
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-1990903988 b/code/processes/converting-process/test-resources/html/work-set/url-1990903988
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-1990903988
rename to code/processes/converting-process/test-resources/html/work-set/url-1990903988
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2039310951 b/code/processes/converting-process/test-resources/html/work-set/url-2039310951
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2039310951
rename to code/processes/converting-process/test-resources/html/work-set/url-2039310951
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2040857056 b/code/processes/converting-process/test-resources/html/work-set/url-2040857056
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2040857056
rename to code/processes/converting-process/test-resources/html/work-set/url-2040857056
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2052613093 b/code/processes/converting-process/test-resources/html/work-set/url-2052613093
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2052613093
rename to code/processes/converting-process/test-resources/html/work-set/url-2052613093
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2063899866 b/code/processes/converting-process/test-resources/html/work-set/url-2063899866
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2063899866
rename to code/processes/converting-process/test-resources/html/work-set/url-2063899866
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2115548255 b/code/processes/converting-process/test-resources/html/work-set/url-2115548255
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2115548255
rename to code/processes/converting-process/test-resources/html/work-set/url-2115548255
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2127148436 b/code/processes/converting-process/test-resources/html/work-set/url-2127148436
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2127148436
rename to code/processes/converting-process/test-resources/html/work-set/url-2127148436
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-2133781904 b/code/processes/converting-process/test-resources/html/work-set/url-2133781904
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-2133781904
rename to code/processes/converting-process/test-resources/html/work-set/url-2133781904
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-225690385 b/code/processes/converting-process/test-resources/html/work-set/url-225690385
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-225690385
rename to code/processes/converting-process/test-resources/html/work-set/url-225690385
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-226401955 b/code/processes/converting-process/test-resources/html/work-set/url-226401955
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-226401955
rename to code/processes/converting-process/test-resources/html/work-set/url-226401955
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-262970770 b/code/processes/converting-process/test-resources/html/work-set/url-262970770
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-262970770
rename to code/processes/converting-process/test-resources/html/work-set/url-262970770
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-30106798 b/code/processes/converting-process/test-resources/html/work-set/url-30106798
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-30106798
rename to code/processes/converting-process/test-resources/html/work-set/url-30106798
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-302167335 b/code/processes/converting-process/test-resources/html/work-set/url-302167335
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-302167335
rename to code/processes/converting-process/test-resources/html/work-set/url-302167335
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-327999153 b/code/processes/converting-process/test-resources/html/work-set/url-327999153
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-327999153
rename to code/processes/converting-process/test-resources/html/work-set/url-327999153
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-332568225 b/code/processes/converting-process/test-resources/html/work-set/url-332568225
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-332568225
rename to code/processes/converting-process/test-resources/html/work-set/url-332568225
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-343223418 b/code/processes/converting-process/test-resources/html/work-set/url-343223418
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-343223418
rename to code/processes/converting-process/test-resources/html/work-set/url-343223418
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-383103932 b/code/processes/converting-process/test-resources/html/work-set/url-383103932
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-383103932
rename to code/processes/converting-process/test-resources/html/work-set/url-383103932
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-412929678 b/code/processes/converting-process/test-resources/html/work-set/url-412929678
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-412929678
rename to code/processes/converting-process/test-resources/html/work-set/url-412929678
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-475213997 b/code/processes/converting-process/test-resources/html/work-set/url-475213997
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-475213997
rename to code/processes/converting-process/test-resources/html/work-set/url-475213997
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-483403121 b/code/processes/converting-process/test-resources/html/work-set/url-483403121
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-483403121
rename to code/processes/converting-process/test-resources/html/work-set/url-483403121
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-488667993 b/code/processes/converting-process/test-resources/html/work-set/url-488667993
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-488667993
rename to code/processes/converting-process/test-resources/html/work-set/url-488667993
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-50815201 b/code/processes/converting-process/test-resources/html/work-set/url-50815201
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-50815201
rename to code/processes/converting-process/test-resources/html/work-set/url-50815201
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-522685905 b/code/processes/converting-process/test-resources/html/work-set/url-522685905
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-522685905
rename to code/processes/converting-process/test-resources/html/work-set/url-522685905
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-570714305 b/code/processes/converting-process/test-resources/html/work-set/url-570714305
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-570714305
rename to code/processes/converting-process/test-resources/html/work-set/url-570714305
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-58733529 b/code/processes/converting-process/test-resources/html/work-set/url-58733529
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-58733529
rename to code/processes/converting-process/test-resources/html/work-set/url-58733529
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-616518304 b/code/processes/converting-process/test-resources/html/work-set/url-616518304
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-616518304
rename to code/processes/converting-process/test-resources/html/work-set/url-616518304
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-662169426 b/code/processes/converting-process/test-resources/html/work-set/url-662169426
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-662169426
rename to code/processes/converting-process/test-resources/html/work-set/url-662169426
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-677278788 b/code/processes/converting-process/test-resources/html/work-set/url-677278788
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-677278788
rename to code/processes/converting-process/test-resources/html/work-set/url-677278788
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-690486170 b/code/processes/converting-process/test-resources/html/work-set/url-690486170
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-690486170
rename to code/processes/converting-process/test-resources/html/work-set/url-690486170
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-709693331 b/code/processes/converting-process/test-resources/html/work-set/url-709693331
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-709693331
rename to code/processes/converting-process/test-resources/html/work-set/url-709693331
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-734531556 b/code/processes/converting-process/test-resources/html/work-set/url-734531556
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-734531556
rename to code/processes/converting-process/test-resources/html/work-set/url-734531556
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-767530276 b/code/processes/converting-process/test-resources/html/work-set/url-767530276
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-767530276
rename to code/processes/converting-process/test-resources/html/work-set/url-767530276
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-783154014 b/code/processes/converting-process/test-resources/html/work-set/url-783154014
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-783154014
rename to code/processes/converting-process/test-resources/html/work-set/url-783154014
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-796905237 b/code/processes/converting-process/test-resources/html/work-set/url-796905237
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-796905237
rename to code/processes/converting-process/test-resources/html/work-set/url-796905237
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-800099955 b/code/processes/converting-process/test-resources/html/work-set/url-800099955
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-800099955
rename to code/processes/converting-process/test-resources/html/work-set/url-800099955
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-804101946 b/code/processes/converting-process/test-resources/html/work-set/url-804101946
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-804101946
rename to code/processes/converting-process/test-resources/html/work-set/url-804101946
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-830664902 b/code/processes/converting-process/test-resources/html/work-set/url-830664902
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-830664902
rename to code/processes/converting-process/test-resources/html/work-set/url-830664902
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-876060686 b/code/processes/converting-process/test-resources/html/work-set/url-876060686
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-876060686
rename to code/processes/converting-process/test-resources/html/work-set/url-876060686
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-892584998 b/code/processes/converting-process/test-resources/html/work-set/url-892584998
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-892584998
rename to code/processes/converting-process/test-resources/html/work-set/url-892584998
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-942458463 b/code/processes/converting-process/test-resources/html/work-set/url-942458463
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-942458463
rename to code/processes/converting-process/test-resources/html/work-set/url-942458463
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-952036171 b/code/processes/converting-process/test-resources/html/work-set/url-952036171
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-952036171
rename to code/processes/converting-process/test-resources/html/work-set/url-952036171
diff --git a/code/features-convert/summary-extraction/test-resources/html/work-set/url-968207276 b/code/processes/converting-process/test-resources/html/work-set/url-968207276
similarity index 100%
rename from code/features-convert/summary-extraction/test-resources/html/work-set/url-968207276
rename to code/processes/converting-process/test-resources/html/work-set/url-968207276
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecializationTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecializationTest.java
index 355921ea..a9b60211 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecializationTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/JavadocSpecializationTest.java
@@ -1,7 +1,7 @@
 package nu.marginalia.converting.processor.plugin.specialization;
 
 import nu.marginalia.converting.processor.logic.DocumentGeneratorExtractor;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import nu.marginalia.test.CommonTestData;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.BeforeAll;
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/LemmySpecializationTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/LemmySpecializationTest.java
index 7aab1759..6d72bb51 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/LemmySpecializationTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/LemmySpecializationTest.java
@@ -1,7 +1,7 @@
 package nu.marginalia.converting.processor.plugin.specialization;
 
 import nu.marginalia.converting.processor.logic.DocumentGeneratorExtractor;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import nu.marginalia.test.CommonTestData;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.BeforeAll;
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/WikiSpecializationTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/WikiSpecializationTest.java
index 1fc23148..63d43296 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/WikiSpecializationTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/WikiSpecializationTest.java
@@ -1,6 +1,6 @@
 package nu.marginalia.converting.processor.plugin.specialization;
 
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import nu.marginalia.test.CommonTestData;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.BeforeAll;
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecializationTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecializationTest.java
index 40914ba8..581dea3c 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecializationTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/plugin/specialization/XenForoSpecializationTest.java
@@ -1,7 +1,7 @@
 package nu.marginalia.converting.processor.plugin.specialization;
 
 import nu.marginalia.converting.processor.logic.DocumentGeneratorExtractor;
-import nu.marginalia.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import nu.marginalia.test.CommonTestData;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.BeforeAll;
diff --git a/code/features-convert/pubdate/test/nu/marginalia/pubdate/PubDateSnifferTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/pubdate/PubDateSnifferTest.java
similarity index 98%
rename from code/features-convert/pubdate/test/nu/marginalia/pubdate/PubDateSnifferTest.java
rename to code/processes/converting-process/test/nu/marginalia/converting/processor/pubdate/PubDateSnifferTest.java
index efd320e8..c0ef172c 100644
--- a/code/features-convert/pubdate/test/nu/marginalia/pubdate/PubDateSnifferTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/pubdate/PubDateSnifferTest.java
@@ -1,9 +1,11 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
 import nu.marginalia.WmsaHome;
+import nu.marginalia.converting.processor.pubdate.PubDateParser;
+import nu.marginalia.converting.processor.pubdate.PubDateSniffer;
+import nu.marginalia.converting.processor.pubdate.heuristic.PubDateHeuristicDOMParsingPass2;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.html.HtmlStandard;
-import nu.marginalia.pubdate.heuristic.PubDateHeuristicDOMParsingPass2;
 import org.jsoup.Jsoup;
 import org.junit.jupiter.api.Test;
 
diff --git a/code/features-convert/pubdate/test/nu/marginalia/pubdate/PubDateTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/pubdate/PubDateTest.java
similarity index 88%
rename from code/features-convert/pubdate/test/nu/marginalia/pubdate/PubDateTest.java
rename to code/processes/converting-process/test/nu/marginalia/converting/processor/pubdate/PubDateTest.java
index 64bd1f73..a9eb5cb3 100644
--- a/code/features-convert/pubdate/test/nu/marginalia/pubdate/PubDateTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/pubdate/PubDateTest.java
@@ -1,4 +1,4 @@
-package nu.marginalia.pubdate;
+package nu.marginalia.converting.processor.pubdate;
 
 import nu.marginalia.model.crawl.PubDate;
 import org.junit.jupiter.api.Test;
diff --git a/code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java
similarity index 96%
rename from code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java
rename to code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java
index f11eb304..0cc18d0d 100644
--- a/code/features-convert/summary-extraction/test/nu/marginalia/summary/SummaryExtractorTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java
@@ -1,13 +1,12 @@
-package nu.marginalia.summary;
+package nu.marginalia.converting.processor.summary;
 
 import lombok.SneakyThrows;
 import nu.marginalia.WmsaHome;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
+import nu.marginalia.converting.processor.summary.heuristic.*;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.segmentation.NgramLexicon;
-import nu.marginalia.summary.heuristic.*;
-import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.jsoup.Jsoup;
 import org.jsoup.nodes.Document;
 import org.junit.jupiter.api.Assertions;
diff --git a/code/features-convert/summary-extraction/test/nu/marginalia/summary/heuristic/HeuristicTextUtilTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/heuristic/HeuristicTextUtilTest.java
similarity index 93%
rename from code/features-convert/summary-extraction/test/nu/marginalia/summary/heuristic/HeuristicTextUtilTest.java
rename to code/processes/converting-process/test/nu/marginalia/converting/processor/summary/heuristic/HeuristicTextUtilTest.java
index 9ea11fac..38da765e 100644
--- a/code/features-convert/summary-extraction/test/nu/marginalia/summary/heuristic/HeuristicTextUtilTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/heuristic/HeuristicTextUtilTest.java
@@ -1,5 +1,6 @@
-package nu.marginalia.summary.heuristic;
+package nu.marginalia.converting.processor.summary.heuristic;
 
+import nu.marginalia.converting.processor.summary.heuristic.HeuristicTextUtil;
 import org.junit.jupiter.api.Test;
 
 import java.util.Set;
diff --git a/code/features-convert/reddit-json/test/nu/marginalia/integration/reddit/RedditEntryReaderTest.java b/code/processes/converting-process/test/nu/marginalia/integration/reddit/RedditEntryReaderTest.java
similarity index 100%
rename from code/features-convert/reddit-json/test/nu/marginalia/integration/reddit/RedditEntryReaderTest.java
rename to code/processes/converting-process/test/nu/marginalia/integration/reddit/RedditEntryReaderTest.java
diff --git a/code/features-convert/reddit-json/test/nu/marginalia/integration/reddit/db/RedditDbTest.java b/code/processes/converting-process/test/nu/marginalia/integration/reddit/db/RedditDbTest.java
similarity index 100%
rename from code/features-convert/reddit-json/test/nu/marginalia/integration/reddit/db/RedditDbTest.java
rename to code/processes/converting-process/test/nu/marginalia/integration/reddit/db/RedditDbTest.java
diff --git a/code/features-convert/stackexchange-xml/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReaderTest.java b/code/processes/converting-process/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReaderTest.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReaderTest.java
rename to code/processes/converting-process/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlCommentReaderTest.java
diff --git a/code/features-convert/stackexchange-xml/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReaderTest.java b/code/processes/converting-process/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReaderTest.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReaderTest.java
rename to code/processes/converting-process/test/nu/marginalia/integration/stackexchange/xml/StackExchangeXmlPostReaderTest.java
diff --git a/code/features-convert/stackexchange-xml/test/nu/marginalia/integration/stackexchange/xml/StringXmlTestEventReader.java b/code/processes/converting-process/test/nu/marginalia/integration/stackexchange/xml/StringXmlTestEventReader.java
similarity index 100%
rename from code/features-convert/stackexchange-xml/test/nu/marginalia/integration/stackexchange/xml/StringXmlTestEventReader.java
rename to code/processes/converting-process/test/nu/marginalia/integration/stackexchange/xml/StringXmlTestEventReader.java
diff --git a/code/processes/crawling-process/build.gradle b/code/processes/crawling-process/build.gradle
index 4fdea7d8..2d34904f 100644
--- a/code/processes/crawling-process/build.gradle
+++ b/code/processes/crawling-process/build.gradle
@@ -37,10 +37,10 @@ dependencies {
     implementation project(':code:processes:crawling-process:model')
 
 
-    implementation project(':code:features-convert:anchor-keywords')
-    implementation project(':code:features-crawl:crawl-blocklist')
-    implementation project(':code:features-crawl:link-parser')
-    implementation project(':code:features-crawl:content-type')
+    implementation project(':code:processes:converting-process:ft-anchor-keywords')
+    implementation project(':code:processes:crawling-process:ft-crawl-blocklist')
+    implementation project(':code:processes:crawling-process:ft-link-parser')
+    implementation project(':code:processes:crawling-process:ft-content-type')
     implementation project(':third-party:commons-codec')
 
     implementation libs.bundles.slf4j
diff --git a/code/features-crawl/content-type/build.gradle b/code/processes/crawling-process/ft-content-type/build.gradle
similarity index 100%
rename from code/features-crawl/content-type/build.gradle
rename to code/processes/crawling-process/ft-content-type/build.gradle
diff --git a/code/features-crawl/content-type/java/nu/marginalia/contenttype/ContentType.java b/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/ContentType.java
similarity index 100%
rename from code/features-crawl/content-type/java/nu/marginalia/contenttype/ContentType.java
rename to code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/ContentType.java
diff --git a/code/features-crawl/content-type/java/nu/marginalia/contenttype/ContentTypeParser.java b/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/ContentTypeParser.java
similarity index 100%
rename from code/features-crawl/content-type/java/nu/marginalia/contenttype/ContentTypeParser.java
rename to code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/ContentTypeParser.java
diff --git a/code/features-crawl/content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java b/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
similarity index 100%
rename from code/features-crawl/content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
rename to code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
diff --git a/code/features-crawl/content-type/test/nu/marginalia/contenttype/ContentTypeParserTest.java b/code/processes/crawling-process/ft-content-type/test/nu/marginalia/contenttype/ContentTypeParserTest.java
similarity index 100%
rename from code/features-crawl/content-type/test/nu/marginalia/contenttype/ContentTypeParserTest.java
rename to code/processes/crawling-process/ft-content-type/test/nu/marginalia/contenttype/ContentTypeParserTest.java
diff --git a/code/features-crawl/content-type/test/nu/marginalia/contenttype/DocumentBodyToStringTest.java b/code/processes/crawling-process/ft-content-type/test/nu/marginalia/contenttype/DocumentBodyToStringTest.java
similarity index 100%
rename from code/features-crawl/content-type/test/nu/marginalia/contenttype/DocumentBodyToStringTest.java
rename to code/processes/crawling-process/ft-content-type/test/nu/marginalia/contenttype/DocumentBodyToStringTest.java
diff --git a/code/features-crawl/crawl-blocklist/build.gradle b/code/processes/crawling-process/ft-crawl-blocklist/build.gradle
similarity index 100%
rename from code/features-crawl/crawl-blocklist/build.gradle
rename to code/processes/crawling-process/ft-crawl-blocklist/build.gradle
diff --git a/code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/GeoIpBlocklist.java b/code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/GeoIpBlocklist.java
similarity index 100%
rename from code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/GeoIpBlocklist.java
rename to code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/GeoIpBlocklist.java
diff --git a/code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/InetAddressCache.java b/code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/InetAddressCache.java
similarity index 100%
rename from code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/InetAddressCache.java
rename to code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/InetAddressCache.java
diff --git a/code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/IpBlockList.java b/code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/IpBlockList.java
similarity index 100%
rename from code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/IpBlockList.java
rename to code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/IpBlockList.java
diff --git a/code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/UrlBlocklist.java b/code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/UrlBlocklist.java
similarity index 100%
rename from code/features-crawl/crawl-blocklist/java/nu/marginalia/ip_blocklist/UrlBlocklist.java
rename to code/processes/crawling-process/ft-crawl-blocklist/java/nu/marginalia/ip_blocklist/UrlBlocklist.java
diff --git a/code/features-crawl/crawl-blocklist/readme.md b/code/processes/crawling-process/ft-crawl-blocklist/readme.md
similarity index 100%
rename from code/features-crawl/crawl-blocklist/readme.md
rename to code/processes/crawling-process/ft-crawl-blocklist/readme.md
diff --git a/code/features-crawl/crawl-blocklist/test/nu/marginalia/ip_blocklist/UrlBlocklistTest.java b/code/processes/crawling-process/ft-crawl-blocklist/test/nu/marginalia/ip_blocklist/UrlBlocklistTest.java
similarity index 100%
rename from code/features-crawl/crawl-blocklist/test/nu/marginalia/ip_blocklist/UrlBlocklistTest.java
rename to code/processes/crawling-process/ft-crawl-blocklist/test/nu/marginalia/ip_blocklist/UrlBlocklistTest.java
diff --git a/code/features-crawl/link-parser/build.gradle b/code/processes/crawling-process/ft-link-parser/build.gradle
similarity index 100%
rename from code/features-crawl/link-parser/build.gradle
rename to code/processes/crawling-process/ft-link-parser/build.gradle
diff --git a/code/features-crawl/link-parser/java/nu/marginalia/link_parser/FeedExtractor.java b/code/processes/crawling-process/ft-link-parser/java/nu/marginalia/link_parser/FeedExtractor.java
similarity index 100%
rename from code/features-crawl/link-parser/java/nu/marginalia/link_parser/FeedExtractor.java
rename to code/processes/crawling-process/ft-link-parser/java/nu/marginalia/link_parser/FeedExtractor.java
diff --git a/code/features-crawl/link-parser/java/nu/marginalia/link_parser/LinkParser.java b/code/processes/crawling-process/ft-link-parser/java/nu/marginalia/link_parser/LinkParser.java
similarity index 100%
rename from code/features-crawl/link-parser/java/nu/marginalia/link_parser/LinkParser.java
rename to code/processes/crawling-process/ft-link-parser/java/nu/marginalia/link_parser/LinkParser.java
diff --git a/code/features-crawl/link-parser/readme.md b/code/processes/crawling-process/ft-link-parser/readme.md
similarity index 100%
rename from code/features-crawl/link-parser/readme.md
rename to code/processes/crawling-process/ft-link-parser/readme.md
diff --git a/code/processes/crawling-process/model/build.gradle b/code/processes/crawling-process/model/build.gradle
index 5e4879d1..50103c41 100644
--- a/code/processes/crawling-process/model/build.gradle
+++ b/code/processes/crawling-process/model/build.gradle
@@ -22,7 +22,7 @@ dependencies {
     implementation project(':code:common:config')
     implementation project(':code:common:process')
     implementation project(':code:index:api')
-    implementation project(':code:features-crawl:content-type')
+    implementation project(':code:processes:crawling-process:ft-content-type')
     implementation project(':code:libraries:language-processing')
     implementation project(':third-party:parquet-floor')
     implementation project(':third-party:commons-codec')
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 57bf8eaf..341db8ab 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -39,7 +39,7 @@ dependencies {
 
     implementation project(':code:processes:crawling-process:model')
     implementation project(':code:processes:converting-process:model')
-    implementation project(':code:features-convert:keyword-extraction')
+    implementation project(':code:processes:converting-process:ft-keyword-extraction')
 
     implementation project(':code:functions:link-graph:partition')
 
diff --git a/code/services-core/executor-service/build.gradle b/code/services-core/executor-service/build.gradle
index 74696bf3..b53aa404 100644
--- a/code/services-core/executor-service/build.gradle
+++ b/code/services-core/executor-service/build.gradle
@@ -47,10 +47,8 @@ dependencies {
 
     implementation project(':code:processes:crawling-process:model')
     implementation project(':code:processes:crawling-process:model')
-    implementation project(':code:features-crawl:link-parser')
-    implementation project(':code:features-convert:data-extractors')
-    implementation project(':code:features-convert:stackexchange-xml')
-    implementation project(':code:features-convert:reddit-json')
+    implementation project(':code:processes:crawling-process:ft-link-parser')
+    implementation project(':code:execution:data-extractors')
     implementation project(':code:index:index-journal')
     implementation project(':code:index:api')
     implementation project(':code:processes:process-mq-api')
diff --git a/code/tools/experiment-runner/build.gradle b/code/tools/experiment-runner/build.gradle
index 2aea9f76..d011a973 100644
--- a/code/tools/experiment-runner/build.gradle
+++ b/code/tools/experiment-runner/build.gradle
@@ -35,11 +35,9 @@ dependencies {
     implementation project(':code:processes:crawling-process:model')
 
     implementation project(':third-party:commons-codec')
-    implementation project(':code:features-crawl:link-parser')
-    implementation project(':code:features-convert:adblock')
-    implementation project(':code:features-convert:anchor-keywords')
-    implementation project(':code:features-convert:topic-detection')
-    implementation project(':code:features-convert:keyword-extraction')
+    implementation project(':code:processes:crawling-process:ft-link-parser')
+    implementation project(':code:processes:converting-process:ft-anchor-keywords')
+    implementation project(':code:processes:converting-process:ft-keyword-extraction')
 
     implementation libs.bundles.slf4j
     implementation libs.notnull
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java
index 60cb6938..dc46f3bd 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AdblockExperiment.java
@@ -1,8 +1,8 @@
 package nu.marginalia.tools.experiments;
 
 import com.google.inject.Inject;
-import nu.marginalia.adblock.AdblockSimulator;
 import nu.marginalia.converting.processor.DocumentProcessor;
+import nu.marginalia.converting.processor.classifier.adblock.AdblockSimulator;
 import nu.marginalia.model.crawldata.CrawledDocument;
 import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
index ad2be0bb..5ea9551d 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
@@ -2,14 +2,14 @@ package nu.marginalia.tools.experiments;
 
 import com.google.inject.Inject;
 import nu.marginalia.WmsaHome;
-import nu.marginalia.adblock.GoogleAnwersSpamDetector;
+import nu.marginalia.converting.processor.classifier.adblock.GoogleAnwersSpamDetector;
+import nu.marginalia.converting.processor.classifier.topic.RecipeDetector;
+import nu.marginalia.converting.processor.classifier.topic.TextileCraftDetector;
+import nu.marginalia.converting.processor.classifier.topic.WoodworkingDetector;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
-import nu.marginalia.topic.RecipeDetector;
-import nu.marginalia.topic.TextileCraftDetector;
-import nu.marginalia.topic.WoodworkingDetector;
 import org.jsoup.Jsoup;
 
 public class TopicExperiment extends LegacyExperiment {
diff --git a/gradle/wrapper/gradle-wrapper.properties b/gradle/wrapper/gradle-wrapper.properties
index 48c0a02c..0d184210 100644
--- a/gradle/wrapper/gradle-wrapper.properties
+++ b/gradle/wrapper/gradle-wrapper.properties
@@ -1,5 +1,5 @@
 distributionBase=GRADLE_USER_HOME
 distributionPath=wrapper/dists
-distributionUrl=https\://services.gradle.org/distributions/gradle-8.7-bin.zip
+distributionUrl=https\://services.gradle.org/distributions/gradle-8.8-bin.zip
 zipStoreBase=GRADLE_USER_HOME
 zipStorePath=wrapper/dists
diff --git a/settings.gradle b/settings.gradle
index 78ec0028..03d4273d 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -56,19 +56,12 @@ include 'code:features-search:screenshots'
 include 'code:features-search:random-websites'
 include 'code:features-search:feedlot-client'
 
-include 'code:features-convert:adblock'
-include 'code:features-convert:anchor-keywords'
-include 'code:features-convert:data-extractors'
-include 'code:features-convert:stackexchange-xml'
-include 'code:features-convert:reddit-json'
-include 'code:features-convert:pubdate'
-include 'code:features-convert:summary-extraction'
-include 'code:features-convert:keyword-extraction'
-include 'code:features-convert:topic-detection'
+include 'code:processes:converting-process:ft-anchor-keywords'
+include 'code:execution:data-extractors'
 
-include 'code:features-crawl:crawl-blocklist'
-include 'code:features-crawl:link-parser'
-include 'code:features-crawl:content-type'
+include 'code:processes:crawling-process:ft-crawl-blocklist'
+include 'code:processes:crawling-process:ft-link-parser'
+include 'code:processes:crawling-process:ft-content-type'
 
 include 'code:processes:process-mq-api'
 
@@ -82,6 +75,7 @@ include 'code:common:process'
 
 include 'code:processes:converting-process'
 include 'code:processes:converting-process:model'
+include 'code:processes:converting-process:ft-keyword-extraction'
 
 include 'code:processes:crawling-process'
 include 'code:processes:crawling-process:model'

From b316b55be99386f0b4e42b600b5160cbc75c2731 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 30 Jul 2024 12:01:53 +0200
Subject: [PATCH 094/216] (index) Experimental initial integration of document
 spans into index

---
 .../aggregate/CompiledQueryAggregates.java    |  9 --
 .../aggregate/CqPositionsOperator.java        | 85 -------------------
 code/index/index-forward/build.gradle         |  1 +
 .../index/forward/ForwardIndexParameters.java |  2 +-
 .../index/forward/ForwardIndexReader.java     | 19 +++++
 .../ForwardIndexConverter.java                |  4 +-
 .../index/forward/spans/DocumentSpan.java     | 77 +++++++++++++++++
 .../index/forward/spans/DocumentSpans.java    | 35 ++++++++
 .../{ => spans}/ForwardIndexSpansReader.java  | 26 ++----
 .../{ => spans}/ForwardIndexSpansWriter.java  |  5 +-
 .../index/forward/spans/SpansCodec.java       | 17 ++++
 .../forward/ForwardIndexConverterTest.java    |  1 +
 .../forward/ForwardIndexSpansReaderTest.java  | 31 ++++---
 .../nu/marginalia/index/IndexGrpcService.java |  3 +
 .../index/index/CombinedIndexReader.java      |  9 +-
 .../results/IndexResultRankingService.java    |  2 +-
 .../results/IndexResultScoreCalculator.java   | 54 ++++++++++--
 .../results/model/TermCoherenceGroupList.java | 54 +++++++++++-
 .../index/CombinedIndexReaderTest.java        |  2 +-
 ...IndexQueryServiceIntegrationSmokeTest.java |  2 +-
 .../IndexQueryServiceIntegrationTest.java     |  2 +-
 .../sequence/SequenceOperations.java          | 61 ++++++++++++-
 .../nu/marginalia/sequence/io/BitReader.java  | 10 ++-
 .../sequence/SequenceOperationsTest.java      | 13 ++-
 .../sentence/tag/HtmlStringTagger.java        |  4 +-
 .../language/sentence/tag/HtmlTag.java        | 22 ++---
 .../model/DocumentKeywordsBuilder.java        |  2 +-
 .../index/IndexConstructorMain.java           |  2 +-
 .../test/nu/marginalia/IntegrationTest.java   |  2 +-
 29 files changed, 394 insertions(+), 162 deletions(-)
 delete mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqPositionsOperator.java
 rename code/index/index-forward/java/nu/marginalia/index/forward/{ => construction}/ForwardIndexConverter.java (97%)
 create mode 100644 code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
 create mode 100644 code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
 rename code/index/index-forward/java/nu/marginalia/index/forward/{ => spans}/ForwardIndexSpansReader.java (56%)
 rename code/index/index-forward/java/nu/marginalia/index/forward/{ => spans}/ForwardIndexSpansWriter.java (93%)
 create mode 100644 code/index/index-forward/java/nu/marginalia/index/forward/spans/SpansCodec.java

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java
index 2ca45dca..7dd48394 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CompiledQueryAggregates.java
@@ -59,13 +59,4 @@ public class CompiledQueryAggregates {
         return new ArrayList<>(query.root().visit(new CqQueryPathsOperator(query)));
     }
 
-    /** Using the bitwise AND operator, aggregate all possible combined values of the long generated by the provided operator */
-    public static <T> LongSet positionsAggregate(CompiledQuery<T> query, ToLongFunction<T> operator) {
-        return query.root().visit(new CqPositionsOperator(query, operator));
-    }
-
-    /** Using the bitwise AND operator, aggregate all possible combined values of the long generated by the provided operator */
-    public static <T> LongSet positionsAggregate(CompiledQueryLong query, LongUnaryOperator operator) {
-        return query.root().visit(new CqPositionsOperator(query, operator));
-    }
 }
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqPositionsOperator.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqPositionsOperator.java
deleted file mode 100644
index 715c4cb2..00000000
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/aggregate/CqPositionsOperator.java
+++ /dev/null
@@ -1,85 +0,0 @@
-package nu.marginalia.api.searchquery.model.compiled.aggregate;
-
-import it.unimi.dsi.fastutil.longs.LongArraySet;
-import it.unimi.dsi.fastutil.longs.LongOpenHashSet;
-import it.unimi.dsi.fastutil.longs.LongSet;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.compiled.CqExpression;
-
-import java.util.List;
-import java.util.function.IntToLongFunction;
-import java.util.function.LongUnaryOperator;
-import java.util.function.ToLongFunction;
-
-public class CqPositionsOperator implements CqExpression.ObjectVisitor<LongSet> {
-    private final IntToLongFunction operator;
-
-    public <T> CqPositionsOperator(CompiledQuery<T> query, ToLongFunction<T> operator) {
-        this.operator = idx -> operator.applyAsLong(query.at(idx));
-    }
-
-    public CqPositionsOperator(CompiledQueryLong query, LongUnaryOperator operator) {
-        this.operator = idx -> operator.applyAsLong(query.at(idx));
-    }
-
-    @Override
-    public LongSet onAnd(List<? extends CqExpression> parts) {
-        LongSet ret = new LongArraySet();
-
-        for (var part : parts) {
-            ret = comineSets(ret, part.visit(this));
-        }
-
-        return ret;
-    }
-
-    private LongSet comineSets(LongSet a, LongSet b) {
-        if (a.isEmpty())
-            return b;
-        if (b.isEmpty())
-            return a;
-
-        LongSet ret = newSet(a.size() * b.size());
-
-        var ai = a.longIterator();
-
-        while (ai.hasNext()) {
-            long aval = ai.nextLong();
-
-            var bi = b.longIterator();
-            while (bi.hasNext()) {
-                ret.add(aval & bi.nextLong());
-            }
-        }
-
-        return ret;
-    }
-
-    @Override
-    public LongSet onOr(List<? extends CqExpression> parts) {
-        LongSet ret = newSet(parts.size());
-
-        for (var part : parts) {
-            ret.addAll(part.visit(this));
-        }
-
-        return ret;
-    }
-
-    @Override
-    public LongSet onLeaf(int idx) {
-        var set = newSet(1);
-        set.add(operator.applyAsLong(idx));
-        return set;
-    }
-
-    /** Allocate a new set suitable for a collection with the provided cardinality */
-    private LongSet newSet(int cardinality) {
-        if (cardinality < 8)
-            return new LongArraySet(cardinality);
-        else
-            return new LongOpenHashSet(cardinality);
-    }
-
-}
diff --git a/code/index/index-forward/build.gradle b/code/index/index-forward/build.gradle
index 3506281f..cb3a3c19 100644
--- a/code/index/index-forward/build.gradle
+++ b/code/index/index-forward/build.gradle
@@ -17,6 +17,7 @@ dependencies {
     implementation project(':code:libraries:btree')
     implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
+    implementation project(':code:libraries:language-processing')
     implementation project(':code:index:query')
     implementation project(':code:index:index-journal')
     implementation project(':code:common:model')
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java
index cef76eb0..0d9eea61 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexParameters.java
@@ -1,6 +1,6 @@
 package nu.marginalia.index.forward;
 
-class ForwardIndexParameters {
+public class ForwardIndexParameters {
     public static final int ENTRY_SIZE = 3;
     public static final int METADATA_OFFSET = 0;
     public static final int FEATURES_OFFSET = 1;
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
index 902c7344..c4ab010d 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
@@ -3,11 +3,14 @@ package nu.marginalia.index.forward;
 import gnu.trove.map.hash.TLongIntHashMap;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
+import nu.marginalia.index.forward.spans.DocumentSpans;
+import nu.marginalia.index.forward.spans.ForwardIndexSpansReader;
 import nu.marginalia.model.id.UrlIdCodec;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
+import java.lang.foreign.Arena;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
@@ -30,6 +33,7 @@ public class ForwardIndexReader {
     private final LongArray data;
 
     private final ForwardIndexSpansReader spansReader;
+
     private final Logger logger = LoggerFactory.getLogger(getClass());
 
     public ForwardIndexReader(Path idsFile,
@@ -121,6 +125,21 @@ public class ForwardIndexReader {
         return idToOffset.get(docId);
     }
 
+    public DocumentSpans getDocumentSpans(Arena arena, long docId) {
+        long offset = idxForDoc(docId);
+        if (offset < 0) return new DocumentSpans();
+
+        long encodedOffset = data.get(ENTRY_SIZE * offset + SPANS_OFFSET);
+
+        try {
+            return spansReader.readSpans(arena, encodedOffset);
+        }
+        catch (IOException ex) {
+            logger.error("Failed to read spans for doc " + docId, ex);
+            return new DocumentSpans();
+        }
+    }
+
 
     public int totalDocCount() {
         return idToOffset.size();
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
similarity index 97%
rename from code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
rename to code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
index 72bdd71f..a216b584 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
@@ -1,9 +1,11 @@
-package nu.marginalia.index.forward;
+package nu.marginalia.index.forward.construction;
 
 import it.unimi.dsi.fastutil.longs.Long2IntOpenHashMap;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.index.forward.ForwardIndexParameters;
+import nu.marginalia.index.forward.spans.ForwardIndexSpansWriter;
 import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentMetadata;
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
new file mode 100644
index 00000000..f1f0c6c7
--- /dev/null
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -0,0 +1,77 @@
+package nu.marginalia.index.forward.spans;
+
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.sequence.CodedSequence;
+import nu.marginalia.sequence.SequenceOperations;
+
+public class DocumentSpan {
+
+    /** A list of the interlaced start and end positions of each span in the document of this type */
+    private final CodedSequence startsEnds;
+
+    public DocumentSpan(CodedSequence startsEnds) {
+        this.startsEnds = startsEnds;
+    }
+
+    public DocumentSpan() {
+        this.startsEnds = null;
+    }
+
+    public boolean containsPosition(int position) {
+        if (startsEnds == null) {
+            return false;
+        }
+
+        var iter = startsEnds.iterator();
+        while (iter.hasNext()) {
+            int start = iter.nextInt();
+            if (start > position) {
+                return false;
+            }
+            int end = iter.nextInt();
+            if (end > position) {
+                return true;
+            }
+        }
+
+        return false;
+    }
+
+    public boolean containsRange(int rangeStart, int len) {
+        if (startsEnds == null) {
+            return false;
+        }
+
+        var iter = startsEnds.iterator();
+        while (iter.hasNext()) {
+            int start = iter.nextInt();
+            if (start > rangeStart) {
+                return false;
+            }
+            int end = iter.nextInt();
+            if (end > rangeStart + len) {
+                return true;
+            }
+        }
+
+        return false;
+    }
+
+    public boolean overlapsRange(CodedSequence sequence) {
+        return SequenceOperations.intersectSequences(iterator(), sequence.iterator());
+    }
+
+    /** Returns an iterator over the start and end positions of each span in the document of this type */
+    public IntIterator iterator() {
+        if (null == startsEnds) {
+            return IntList.of().iterator();
+        }
+
+        return startsEnds.iterator();
+    }
+
+    public int size() {
+        return startsEnds.valueCount() / 2;
+    }
+}
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
new file mode 100644
index 00000000..a8ed94f0
--- /dev/null
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -0,0 +1,35 @@
+package nu.marginalia.index.forward.spans;
+
+import nu.marginalia.language.sentence.tag.HtmlTag;
+import nu.marginalia.sequence.CodedSequence;
+
+public class DocumentSpans {
+    private static DocumentSpan EMPTY_SPAN = new DocumentSpan();
+
+    public DocumentSpan title = EMPTY_SPAN;
+    public DocumentSpan heading = EMPTY_SPAN;
+
+    public DocumentSpan nav = EMPTY_SPAN;
+    public DocumentSpan pageHeader = EMPTY_SPAN;
+    public DocumentSpan pageFooter = EMPTY_SPAN;
+    public DocumentSpan code = EMPTY_SPAN;
+    public DocumentSpan pre = EMPTY_SPAN;
+
+    void accept(byte code, CodedSequence positions) {
+        if (code == HtmlTag.HEADING.code)
+            this.heading = new DocumentSpan(positions);
+        else if (code == HtmlTag.TITLE.code)
+            this.title = new DocumentSpan(positions);
+        else if (code == HtmlTag.NAV.code)
+            this.nav = new DocumentSpan(positions);
+        else if (code == HtmlTag.PAGE_HEADER.code)
+            this.pageHeader = new DocumentSpan(positions);
+        else if (code == HtmlTag.PAGE_FOOTER.code)
+            this.pageFooter = new DocumentSpan(positions);
+        else if (code == HtmlTag.CODE.code)
+            this.code = new DocumentSpan(positions);
+        else if (code == HtmlTag.PRE.code)
+            this.pre = new DocumentSpan(positions);
+    }
+
+}
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java
similarity index 56%
rename from code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java
rename to code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java
index a670658d..5bbadb08 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansReader.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java
@@ -1,6 +1,5 @@
-package nu.marginalia.index.forward;
+package nu.marginalia.index.forward.spans;
 
-import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.GammaCodedSequence;
 
 import java.io.IOException;
@@ -9,8 +8,6 @@ import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
-import java.util.ArrayList;
-import java.util.List;
 
 @SuppressWarnings("preview")
 public class ForwardIndexSpansReader implements AutoCloseable {
@@ -20,9 +17,9 @@ public class ForwardIndexSpansReader implements AutoCloseable {
         this.spansFileChannel = (FileChannel) Files.newByteChannel(spansFile, StandardOpenOption.READ);
     }
 
-    public List<SpanData> readSpans(Arena arena, long encodedOffset) throws IOException {
-        long size = encodedOffset & 0xFFF_FFFF;
-        long offset = encodedOffset >>> 28;
+    public DocumentSpans readSpans(Arena arena, long encodedOffset) throws IOException {
+        long size = SpansCodec.decodeSize(encodedOffset);
+        long offset = SpansCodec.decodeStartOffset(encodedOffset);
 
         var buffer = arena.allocate(size).asByteBuffer();
         buffer.clear();
@@ -33,22 +30,16 @@ public class ForwardIndexSpansReader implements AutoCloseable {
 
         int count = buffer.get();
 
-        List<SpanData> ret = new ArrayList<>();
+        DocumentSpans ret = new DocumentSpans();
+
         while (count-- > 0) {
             byte code = buffer.get();
             short len = buffer.getShort();
 
-            final int pos = buffer.position();
-
-            // Decode the gamma-coded sequence; this will advance the buffer position
-            // in a not entirely predictable way, so we need to save the position
-            buffer.limit(buffer.position() + len);
-            var sequence = new GammaCodedSequence(buffer).values();
-            ret.add(new SpanData(code, sequence));
+            ret.accept(code, new GammaCodedSequence(buffer.slice(buffer.position(), len)));
 
             // Reset the buffer position to the end of the span
-            buffer.position(pos + len);
-            buffer.limit(buffer.capacity());
+            buffer.position(buffer.position() + len);
         }
 
         return ret;
@@ -59,5 +50,4 @@ public class ForwardIndexSpansReader implements AutoCloseable {
         spansFileChannel.close();
     }
 
-    public record SpanData(byte code, IntList data) {}
 }
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansWriter.java
similarity index 93%
rename from code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java
rename to code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansWriter.java
index 973257c0..4bdebd59 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexSpansWriter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansWriter.java
@@ -1,4 +1,4 @@
-package nu.marginalia.index.forward;
+package nu.marginalia.index.forward.spans;
 
 import java.io.IOException;
 import java.nio.ByteBuffer;
@@ -42,8 +42,7 @@ public class ForwardIndexSpansWriter implements AutoCloseable {
     }
 
     public long endRecord() {
-        return stateStartOffset << 28 | stateLength;
-
+        return SpansCodec.encode(stateStartOffset, stateLength);
     }
 
     @Override
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/SpansCodec.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/SpansCodec.java
new file mode 100644
index 00000000..7330f593
--- /dev/null
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/SpansCodec.java
@@ -0,0 +1,17 @@
+package nu.marginalia.index.forward.spans;
+
+public class SpansCodec {
+    public static long encode(long startOffset, long size) {
+        assert size < 0x1000_0000L : "Size must be less than 2^28";
+
+        return startOffset << 28 | (size & 0xFFF_FFFFL);
+    }
+
+    public static long decodeStartOffset(long encoded) {
+        return encoded >>> 28;
+    }
+
+    public static long decodeSize(long encoded) {
+        return encoded & 0x0FFF_FFFFL;
+    }
+}
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
index 0c5255d5..59026876 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexConverterTest.java
@@ -2,6 +2,7 @@ package nu.marginalia.index.forward;
 
 import lombok.SneakyThrows;
 import nu.marginalia.index.domainrankings.DomainRankings;
+import nu.marginalia.index.forward.construction.ForwardIndexConverter;
 import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.model.id.UrlIdCodec;
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
index b77a0f5a..055a50a4 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
@@ -1,6 +1,7 @@
 package nu.marginalia.index.forward;
 
-import it.unimi.dsi.fastutil.ints.IntList;
+import nu.marginalia.index.forward.spans.ForwardIndexSpansReader;
+import nu.marginalia.index.forward.spans.ForwardIndexSpansWriter;
 import nu.marginalia.sequence.GammaCodedSequence;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.Test;
@@ -11,7 +12,7 @@ import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
-import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.*;
 
 class ForwardIndexSpansReaderTest {
     Path testFile = Files.createTempFile("test", ".idx");
@@ -32,12 +33,12 @@ class ForwardIndexSpansReaderTest {
         long offset2;
         try (var writer = new ForwardIndexSpansWriter(testFile)) {
             writer.beginRecord(1);
-            writer.writeSpan((byte) 'a', GammaCodedSequence.generate(wa, 1, 3, 5).buffer());
+            writer.writeSpan((byte) 'h', GammaCodedSequence.generate(wa, 1, 3, 5, 8).buffer());
             offset1 = writer.endRecord();
 
             writer.beginRecord(2);
-            writer.writeSpan((byte) 'b', GammaCodedSequence.generate(wa, 2, 4, 6).buffer());
-            writer.writeSpan((byte) 'c', GammaCodedSequence.generate(wa, 3, 5, 7).buffer());
+            writer.writeSpan((byte) 'c', GammaCodedSequence.generate(wa, 2, 4, 6, 7).buffer());
+            writer.writeSpan((byte) 'p', GammaCodedSequence.generate(wa, 3, 5).buffer());
             offset2 = writer.endRecord();
         }
 
@@ -47,17 +48,21 @@ class ForwardIndexSpansReaderTest {
             var spans1 = reader.readSpans(arena, offset1);
             var spans2 = reader.readSpans(arena, offset2);
 
-            assertEquals(1, spans1.size());
+            assertEquals(2, spans1.heading.size());
 
-            assertEquals('a', spans1.get(0).code());
-            assertEquals(IntList.of(1, 3, 5), spans1.get(0).data());
+            assertEquals(2, spans2.code.size());
 
-            assertEquals(2, spans2.size());
+            assertFalse(spans2.code.containsPosition(1));
+            assertTrue(spans2.code.containsPosition(3));
+            assertFalse(spans2.code.containsPosition(5));
+            assertTrue(spans2.code.containsPosition(6));
+            assertFalse(spans2.code.containsPosition(7));
+            assertFalse(spans2.code.containsPosition(8));
 
-            assertEquals('b', spans2.get(0).code());
-            assertEquals(IntList.of(2, 4, 6), spans2.get(0).data());
-            assertEquals('c', spans2.get(1).code());
-            assertEquals(IntList.of(3, 5, 7), spans2.get(1).data());
+            assertEquals(1, spans2.pre.size());
+
+            assertEquals(0, spans2.pageFooter.size());
+            assertFalse(spans2.pageFooter.containsPosition(8));
         }
     }
 }
\ No newline at end of file
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index 2b075e58..b16b456d 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -317,6 +317,9 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                 try {
                     executeSearch();
                 }
+                catch (Exception ex) {
+                    logger.error("Error in index lookup", ex);
+                }
                 finally {
                     synchronized (remainingIndexTasks) {
                         if (remainingIndexTasks.decrementAndGet() == 0) {
diff --git a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
index 01a5fd06..de52d1c5 100644
--- a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
+++ b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
@@ -8,6 +8,7 @@ import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggre
 import nu.marginalia.index.FullReverseIndexReader;
 import nu.marginalia.index.PrioReverseIndexReader;
 import nu.marginalia.index.forward.ForwardIndexReader;
+import nu.marginalia.index.forward.spans.DocumentSpans;
 import nu.marginalia.index.model.QueryParams;
 import nu.marginalia.index.model.SearchTerms;
 import nu.marginalia.index.query.IndexQuery;
@@ -186,11 +187,17 @@ public class CombinedIndexReader {
     /** Retrieves the HTML features for the specified document */
     public int getHtmlFeatures(long docId) {
         return forwardIndexReader.getHtmlFeatures(docId);
-    }    /** Retrieves the HTML features for the specified document */
+    }
+
+    /** Retrieves the HTML features for the specified document */
     public int getDocumentSize(long docId) {
         return forwardIndexReader.getDocumentSize(docId);
     }
 
+    /** Retrieves the document spans for the specified document */
+    public DocumentSpans getDocumentSpans(Arena arena, long docId) {
+        return forwardIndexReader.getDocumentSpans(arena, docId);
+    }
 
     /** Close the indexes (this is not done immediately)
      * */
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 3973b016..59fda6f8 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -98,7 +98,7 @@ public class IndexResultRankingService {
                 }
 
                 // Calculate the preliminary score
-                var score = resultRanker.calculateScore(resultIds.at(i), searchTerms, flags, positions);
+                var score = resultRanker.calculateScore(arena, resultIds.at(i), searchTerms, flags, positions);
                 if (score != null) {
                     results.add(score);
                 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 751839bd..127b1bbb 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -3,15 +3,18 @@ package nu.marginalia.index.results;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
+import nu.marginalia.api.searchquery.model.compiled.aggregate.CqDoubleSumOperator;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
+import nu.marginalia.index.forward.spans.DocumentSpans;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.QueryParams;
 import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.results.model.QuerySearchTerms;
+import nu.marginalia.index.results.model.TermCoherenceGroupList;
 import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.crawl.PubDate;
 import nu.marginalia.model.id.UrlIdCodec;
@@ -22,6 +25,7 @@ import nu.marginalia.sequence.CodedSequence;
 import nu.marginalia.sequence.SequenceOperations;
 
 import javax.annotation.Nullable;
+import java.lang.foreign.Arena;
 
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.booleanAggregate;
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.intMaxMinAggregate;
@@ -50,7 +54,8 @@ public class IndexResultScoreCalculator {
     private final long flagsFilterMask = WordFlags.Title.asBit() | WordFlags.Subjects.asBit() | WordFlags.UrlDomain.asBit() | WordFlags.UrlPath.asBit() | WordFlags.ExternalLink.asBit();
 
     @Nullable
-    public SearchResultItem calculateScore(long combinedId,
+    public SearchResultItem calculateScore(Arena arena,
+                                           long combinedId,
                                            QuerySearchTerms searchTerms,
                                            long[] wordFlags,
                                            CodedSequence[] positions)
@@ -78,8 +83,7 @@ public class IndexResultScoreCalculator {
         long docMetadata = index.getDocumentMetadata(docId);
         int htmlFeatures = index.getHtmlFeatures(docId);
         int docSize = index.getDocumentSize(docId);
-
-        int bestCoherence = searchTerms.coherences.testOptional(positions);
+        DocumentSpans spans = index.getDocumentSpans(arena, docId);
 
         double score = calculateSearchResultValue(
                 wordFlagsQuery,
@@ -88,7 +92,9 @@ public class IndexResultScoreCalculator {
                 docMetadata,
                 htmlFeatures,
                 docSize,
-                bestCoherence,
+                spans,
+                positions,
+                searchTerms.coherences,
                 rankingContext);
 
         SearchResultItem searchResult = new SearchResultItem(docId,
@@ -169,10 +175,13 @@ public class IndexResultScoreCalculator {
 
     public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
                                              CompiledQueryInt positionsCountQuery,
-                                             CompiledQuery<CodedSequence> positionsQuery, long documentMetadata,
+                                             CompiledQuery<CodedSequence> positionsQuery,
+                                             long documentMetadata,
                                              int features,
                                              int length,
-                                             int bestCoherence,
+                                             DocumentSpans spans,
+                                             CodedSequence[] positions,
+                                             TermCoherenceGroupList coherences,
                                              ResultRankingContext ctx)
     {
         if (length < 0) {
@@ -205,6 +214,33 @@ public class IndexResultScoreCalculator {
             temporalBias = 0;
         }
 
+
+        int numCoherenceAll = coherences.countOptional(positions);
+        int bestCoherenceAll = coherences.testOptional(positions);
+        int bestCoherenceTitle = coherences.testOptional(positions, spans.title);
+        int bestCoherenceHeading = coherences.testOptional(positions, spans.heading);
+
+        double spanWeightedScore = positionsQuery.root.visit(new CqDoubleSumOperator(positionsQuery, termPos -> {
+            if (termPos == null)
+                return 0;
+
+            if (spans.title.overlapsRange(termPos))
+                return 5.0;
+            if (spans.heading.overlapsRange(termPos))
+                return 2.5;
+            if (spans.code.overlapsRange(termPos))
+                return 0.25;
+            if (spans.pre.overlapsRange(termPos))
+                return 0.25;
+            if (spans.nav.overlapsRange(termPos))
+                return 0.25;
+            if (spans.pageHeader.overlapsRange(termPos))
+                return 0.25;
+            if (spans.pageFooter.overlapsRange(termPos))
+                return 0.25;
+            return 1.0;
+        }));
+
         double overallPart = averageSentenceLengthPenalty
                 + documentLengthPenalty
                 + qualityPenalty
@@ -212,7 +248,11 @@ public class IndexResultScoreCalculator {
                 + topologyBonus
                 + temporalBias
                 + flagsPenalty
-                + bestCoherence;
+                + bestCoherenceAll
+                + bestCoherenceTitle
+                + bestCoherenceHeading
+                + numCoherenceAll / 4.
+                + spanWeightedScore;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
         double tcfFirstPosition = 0.;
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index b8cce960..9096af7a 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -2,6 +2,7 @@ package nu.marginalia.index.results.model;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
+import nu.marginalia.index.forward.spans.DocumentSpan;
 import nu.marginalia.index.model.SearchTermsUtil;
 import nu.marginalia.index.results.model.ids.TermIdList;
 import nu.marginalia.sequence.CodedSequence;
@@ -40,7 +41,7 @@ public class TermCoherenceGroupList {
 
     public int testOptional(CodedSequence[] positions) {
         int best = 0;
-        for (var coherenceSet : mandatoryGroups) {
+        for (var coherenceSet : optionalGroups) {
             if (coherenceSet.test(positions)) {
                 best = Math.max(coherenceSet.size, best);
             }
@@ -48,6 +49,25 @@ public class TermCoherenceGroupList {
         return best;
     }
 
+    public int countOptional(CodedSequence[] positions) {
+        int ct = 0;
+        for (var coherenceSet : optionalGroups) {
+            if (coherenceSet.test(positions)) {
+                ct++;
+            }
+        }
+        return ct;
+    }
+
+    public int testOptional(CodedSequence[] positions, DocumentSpan span) {
+        int best = 0;
+        for (var coherenceSet : optionalGroups) {
+            if (coherenceSet.test(span, positions)) {
+                best = Math.max(coherenceSet.size, best);
+            }
+        }
+        return best;
+    }
 
     public static final class TermCoherenceGroup {
         private final int[] offsets;
@@ -92,5 +112,37 @@ public class TermCoherenceGroupList {
 
             return SequenceOperations.intersectSequences(sequences);
         }
+
+
+        public boolean test(DocumentSpan span, CodedSequence[] positions) {
+            IntIterator[] sequences = new IntIterator[present.cardinality()];
+
+            for (int oi = 0, si = 0; oi < offsets.length; oi++) {
+                if (!present.get(oi)) {
+                    continue;
+                }
+                int offset = offsets[oi];
+                if (offset < 0)
+                    return false;
+
+                // Create iterators that are offset by their relative position in the
+                // sequence.  This is done by subtracting the index from the offset,
+                // so that when we intersect them, an overlap means that the terms are
+                // in the correct order.  Note the offset is negative!
+
+                sequences[si++] = positions[offset].offsetIterator(-oi);
+            }
+
+            var intersections = SequenceOperations.findIntersections(sequences);
+
+            for (int idx = 0; idx < intersections.size(); idx++) {
+                if (span.containsRange(intersections.getInt(idx), sequences.length)) {
+                    return true;
+                }
+            }
+
+            return false;
+        }
+
     }
 }
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
index f52d1b99..379ff399 100644
--- a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -9,8 +9,8 @@ import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.forward.construction.ForwardIndexConverter;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.IndexJournal;
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 39c54fa6..60501571 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -11,8 +11,8 @@ import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.forward.construction.ForwardIndexConverter;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.index.journal.IndexJournalSlopWriter;
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 44c73cb8..eb83f714 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -13,8 +13,8 @@ import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.forward.construction.ForwardIndexConverter;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.index.journal.IndexJournalSlopWriter;
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 7a026862..11df084e 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -1,6 +1,8 @@
 package nu.marginalia.sequence;
 
+import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
 
 public class SequenceOperations {
 
@@ -30,7 +32,7 @@ public class SequenceOperations {
             if (values[i] == max) {
                 successes++;
             } else {
-                successes = 0;
+                successes = 1;
 
                 // Discard values until we reach the maximum value seen so far,
                 // or until the end of the sequence is reached
@@ -49,6 +51,63 @@ public class SequenceOperations {
         return true;
     }
 
+    public static IntList findIntersections(IntIterator... sequences) {
+
+        if (sequences.length <= 1)
+            return IntList.of();
+
+        // Initialize values and find the maximum value
+        int[] values = new int[sequences.length];
+
+        for (int i = 0; i < sequences.length; i++) {
+            if (sequences[i].hasNext())
+                values[i] = sequences[i].nextInt();
+            else
+                return IntList.of();
+        }
+
+        // Intersect the sequences by advancing all values smaller than the maximum seen so far
+        // until they are equal to the maximum value, or until the end of the sequence is reached
+        int max = Integer.MIN_VALUE;
+        int successes = 0;
+
+        IntList ret = new IntArrayList();
+
+        outer:
+        for (int i = 0;; i = (i + 1) % sequences.length)
+        {
+            if (successes == sequences.length) {
+                ret.add(max);
+                successes = 1;
+
+                if (sequences[i].hasNext()) {
+                    max = sequences[i].nextInt();
+                } else {
+                    break;
+                }
+            } else if (values[i] == max) {
+                successes++;
+            } else {
+                successes = 1;
+
+                // Discard values until we reach the maximum value seen so far,
+                // or until the end of the sequence is reached
+                while (values[i] < max) {
+                    if (sequences[i].hasNext()) {
+                        values[i] = sequences[i].nextInt();
+                    } else {
+                        break outer;
+                    }
+                }
+
+                // Update the maximum value, if necessary
+                max = Math.max(max, values[i]);
+            }
+        }
+
+        return ret;
+    }
+
     /** Return the minimum word distance between two sequences, or a negative value if either sequence is empty.
      * */
     public static int minDistance(IntIterator seqA, IntIterator seqB)
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 03f553c2..756ed7ab 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -162,7 +162,15 @@ public class BitReader {
         }
         else { // There's no more data to read!
             refillCallback.run();
-            readNext();
+            if (underlying.hasRemaining()) {
+                readNext();
+            }
+            else {
+                // We've attempted to re-fill the buffer, but there's still no data to read, so we fail to avoid
+                // blowing up the stack with recursion
+                throw new IllegalStateException("No more data to read after attempted re-fill of underlying buffer");
+            }
+
         }
     }
 }
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index dbae6f29..e77ce0c5 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -1,6 +1,6 @@
 package nu.marginalia.sequence;
 
-import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
 import org.junit.jupiter.api.Test;
 
 import java.nio.ByteBuffer;
@@ -63,6 +63,17 @@ class SequenceOperationsTest {
         assertTrue(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator(), seq3.iterator()));
     }
 
+    @Test
+    void intersectSequencesDeepMatch3findIntersections() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 1, 3, 4, 7, 8, 9, 10, 11);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 8, 10, 14);
+        GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 1, 5, 8, 9, 10);
+
+        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(seq1.iterator(), seq2.iterator(), seq3.iterator()));
+    }
+
+
     @Test
     void intersectSequencesDeepMismatch() {
         ByteBuffer wa = ByteBuffer.allocate(1024);
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
index 283e8959..d6b83f56 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
@@ -54,8 +54,8 @@ public class HtmlStringTagger implements NodeVisitor {
                 case "code" -> pushTag(HtmlTag.CODE, el);
                 case "title" -> pushTag(HtmlTag.TITLE, el);
                 case "nav" -> pushTag(HtmlTag.NAV, el);
-                case "header" -> pushTag(HtmlTag.HEADER, el);
-                case "footer" -> pushTag(HtmlTag.FOOTER, el);
+                case "header" -> pushTag(HtmlTag.PAGE_HEADER, el);
+                case "footer" -> pushTag(HtmlTag.PAGE_FOOTER, el);
                 case "h1", "h2", "h3", "h4", "h5", "h6" -> pushTag(HtmlTag.HEADING, el);
             }
         }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
index 51396990..f01f8461 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
@@ -1,21 +1,21 @@
 package nu.marginalia.language.sentence.tag;
 
 public enum HtmlTag {
-    SCRIPT('s', true, false),
-    STYLE('S', true, false),
-    CODE('c', false, true),
-    PRE('p', false, true),
-    TITLE('t', false, false),
-    HEADING('h', false, false),
-    NAV('n', false, false),
-    HEADER('H',false, false),
-    FOOTER('f', false, false);
+    SCRIPT((byte) 's', true, false),
+    STYLE((byte) 'S', true, false),
+    CODE((byte) 'c', false, true),
+    PRE((byte) 'p', false, true),
+    TITLE((byte) 't', false, false),
+    HEADING((byte) 'h', false, false),
+    NAV((byte) 'n', false, false),
+    PAGE_HEADER((byte) 'H',false, false),
+    PAGE_FOOTER((byte) 'f', false, false);
 
-    public char code;
+    public byte code;
     public boolean exclude;
     public boolean nonLanguage;
 
-    HtmlTag(char code, boolean exclude, boolean nonLanguage) {
+    HtmlTag(byte code, boolean exclude, boolean nonLanguage) {
         this.code = code;
         this.exclude = exclude;
         this.nonLanguage = nonLanguage;
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index d73495be..693e94a2 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -144,7 +144,7 @@ public class DocumentKeywordsBuilder {
 
     public void addSpans(List<DocumentWordSpan> newSpans) {
         for (var span : newSpans) {
-            wordSpans.computeIfAbsent(span.tag().code, k -> new ArrayList<>()).add(span);
+            wordSpans.computeIfAbsent((char) span.tag().code, k -> new ArrayList<>()).add(span);
         }
     }
 
diff --git a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
index 6c55db6c..ef93b554 100644
--- a/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
+++ b/code/processes/index-constructor-process/java/nu/marginalia/index/IndexConstructorMain.java
@@ -9,8 +9,8 @@ import nu.marginalia.ProcessConfigurationModule;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.forward.construction.ForwardIndexConverter;
 import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.model.id.UrlIdCodec;
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 7ec8841b..820525b9 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -18,8 +18,8 @@ import nu.marginalia.index.ReverseIndexPrioFileNames;
 import nu.marginalia.index.construction.full.FullIndexConstructor;
 import nu.marginalia.index.construction.prio.PrioIndexConstructor;
 import nu.marginalia.index.domainrankings.DomainRankings;
-import nu.marginalia.index.forward.ForwardIndexConverter;
 import nu.marginalia.index.forward.ForwardIndexFileNames;
+import nu.marginalia.index.forward.construction.ForwardIndexConverter;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.index.model.SearchParameters;

From 6d7b886aaa62b8536622bb4d7987aa8d395fb7b6 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 30 Jul 2024 19:43:27 +0200
Subject: [PATCH 095/216] (converter) Correct sort order of files in control
 storage GUI

Previously it was sorted on a field that would switch to just showing the time whenever the date was the same as the day's date, leading to a bizarre sort order where files created today was typically shown first, followed by the rest of the files with the oldest date first.
---
 .../control/node/svc/ControlNodeService.java      | 15 ++++-----------
 1 file changed, 4 insertions(+), 11 deletions(-)

diff --git a/code/services-core/control-service/java/nu/marginalia/control/node/svc/ControlNodeService.java b/code/services-core/control-service/java/nu/marginalia/control/node/svc/ControlNodeService.java
index 5427abf9..32267155 100644
--- a/code/services-core/control-service/java/nu/marginalia/control/node/svc/ControlNodeService.java
+++ b/code/services-core/control-service/java/nu/marginalia/control/node/svc/ControlNodeService.java
@@ -1,10 +1,8 @@
 package nu.marginalia.control.node.svc;
 
-import com.google.common.base.Strings;
 import com.google.inject.Inject;
 import com.zaxxer.hikari.HikariDataSource;
 import lombok.SneakyThrows;
-import nu.marginalia.service.ServiceMonitors;
 import nu.marginalia.control.ControlRendererFactory;
 import nu.marginalia.control.RedirectControl;
 import nu.marginalia.control.Redirects;
@@ -12,11 +10,12 @@ import nu.marginalia.control.node.model.*;
 import nu.marginalia.control.sys.model.EventLogEntry;
 import nu.marginalia.control.sys.svc.EventLogService;
 import nu.marginalia.control.sys.svc.HeartbeatService;
+import nu.marginalia.executor.client.ExecutorClient;
 import nu.marginalia.nodecfg.NodeConfigurationService;
 import nu.marginalia.nodecfg.model.NodeConfiguration;
-import nu.marginalia.storage.FileStorageService;
-import nu.marginalia.executor.client.ExecutorClient;
 import nu.marginalia.service.ServiceId;
+import nu.marginalia.service.ServiceMonitors;
+import nu.marginalia.storage.FileStorageService;
 import nu.marginalia.storage.model.*;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -24,16 +23,10 @@ import spark.Request;
 import spark.Response;
 import spark.Spark;
 
-import javax.annotation.Nullable;
-import java.io.BufferedReader;
 import java.io.IOException;
-import java.io.InputStreamReader;
 import java.nio.file.Path;
-import java.sql.DriverManager;
-import java.sql.ResultSet;
 import java.sql.SQLException;
 import java.util.*;
-import java.util.stream.Stream;
 
 public class ControlNodeService {
     private final FileStorageService fileStorageService;
@@ -403,7 +396,7 @@ public class ControlNodeService {
             // Sort by timestamp, then by relPath
             // this ensures that the newest file is listed last
             items.sort(Comparator
-                    .comparing(FileStorageWithActions::getTimestamp)
+                    .comparing(FileStorageWithActions::getTimestampFull)
                     .thenComparing(FileStorageWithActions::getRelPath)
             );
 

From dc5c668940cee550d9b6e9a988c011d6ae6ab0f2 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 31 Jul 2024 10:06:53 +0200
Subject: [PATCH 096/216] (index) Re-enable parallelization of index
 construction, disable parallel sorting during construction

The first change, running index construction in parallel, was previously how it was done, but it was changed to run sequentially to see how it would affect performance.  It got worse, so the change is reverted.

Though it's been noted that sorting in parallel is likely not a good idea as it leads to a lot of I/O thrashing, so this is changed to be done sequentially.
---
 .../full/FullIndexConstructor.java            |  2 +-
 .../full/FullPreindexDocuments.java           | 20 ++-----------------
 .../prio/PrioIndexConstructor.java            |  2 +-
 .../prio/PrioPreindexDocuments.java           | 19 ++----------------
 4 files changed, 6 insertions(+), 37 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
index c1ce1b5c..a3b25669 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexConstructor.java
@@ -62,7 +62,7 @@ public class FullIndexConstructor {
             var journalVersions = journal.get().pages();
 
             journalVersions
-                .stream()
+                .parallelStream()
                 .map(in -> {
                     preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), journalVersions.size());
                     return construct(in, posConstructor);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 407ac93d..09ea2e04 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -18,9 +18,6 @@ import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
 import java.util.List;
-import java.util.concurrent.ExecutorService;
-import java.util.concurrent.Executors;
-import java.util.concurrent.TimeUnit;
 
 /** A LongArray with document data, segmented according to
  * the associated FullPreindexWordSegments data
@@ -117,29 +114,16 @@ public class FullPreindexDocuments {
     }
 
     @SneakyThrows
-    private static void sortDocsFile(LongArray docsFileMap, FullPreindexWordSegments segments) throws IOException {
+    private static void sortDocsFile(LongArray docsFileMap, FullPreindexWordSegments segments) {
 
         var iter = segments.iterator(RECORD_SIZE_LONGS);
 
-        ExecutorService sortingWorkers = Executors.newWorkStealingPool(Runtime.getRuntime().availableProcessors());
-
         while (iter.next()) {
             long iterStart = iter.startOffset;
             long iterEnd = iter.endOffset;
 
-            if (iter.size() < 1024) {
-                docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd);
-            }
-            else {
-                sortingWorkers.execute(() ->
-                    docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd));
-            }
+            docsFileMap.quickSortN(RECORD_SIZE_LONGS, iterStart, iterEnd);
         }
-
-        sortingWorkers.shutdown();
-        while (!sortingWorkers.awaitTermination(1, TimeUnit.HOURS));
-
-        sortingWorkers.close();
     }
 
     public void delete() throws IOException {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
index f382f91b..cddad7a4 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java
@@ -57,7 +57,7 @@ public class PrioIndexConstructor {
             var journalVersions = journal.get().pages();
 
             journalVersions
-                .stream()
+                .parallelStream()
                 .map(in -> {
                     preindexHeartbeat.progress("PREINDEX/MERGE", progress.incrementAndGet(), journalVersions.size());
                     return construct(in);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index 9d6a708f..a3ab8642 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -15,9 +15,6 @@ import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
-import java.util.concurrent.ExecutorService;
-import java.util.concurrent.Executors;
-import java.util.concurrent.TimeUnit;
 
 /** A LongArray with document data, segmented according to
  * the associated FullPreindexWordSegments data
@@ -101,28 +98,16 @@ public class PrioPreindexDocuments {
     }
 
     @SneakyThrows
-    private static void sortDocsFile(LongArray docsFileMap, PrioPreindexWordSegments segments) throws IOException {
+    private static void sortDocsFile(LongArray docsFileMap, PrioPreindexWordSegments segments) {
 
         var iter = segments.iterator(RECORD_SIZE_LONGS);
 
-        ExecutorService sortingWorkers = Executors.newWorkStealingPool(Runtime.getRuntime().availableProcessors());
-
         while (iter.next()) {
             long iterStart = iter.startOffset;
             long iterEnd = iter.endOffset;
 
-            if (iter.size() < 1024) {
-                docsFileMap.sort(iterStart, iterEnd);
-            }
-            else {
-                sortingWorkers.execute(() -> docsFileMap.sort(iterStart, iterEnd));
-            }
+            docsFileMap.sort(iterStart, iterEnd);
         }
-
-        sortingWorkers.shutdown();
-        while (!sortingWorkers.awaitTermination(1, TimeUnit.HOURS));
-
-        sortingWorkers.close();
     }
 
     public void delete() throws IOException {

From 2ef66ce0cab498a19d83877d6fc82fac51d62f24 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 31 Jul 2024 10:31:03 +0200
Subject: [PATCH 097/216] (actor) Reset NEW flag earlier when auto-deletion is
 disabled

Don't wait until the loader step is finished to reset the NEW flag, as this leaves manually processed (but not yet loaded) crawl data stuck in "CREATING" in the GUI.
---
 .../actor/task/ConvertAndLoadActor.java       | 50 +++++++++++--------
 1 file changed, 29 insertions(+), 21 deletions(-)

diff --git a/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java b/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
index b508d84e..b4446199 100644
--- a/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
+++ b/code/execution/java/nu/marginalia/actor/task/ConvertAndLoadActor.java
@@ -113,6 +113,12 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
                 if (rsp.state() != MqMessageState.OK)
                     yield new Error("Converter failed");
 
+                if (!shouldAutoClean()) {
+                    // If we're not auto-cleaning, we need to clean the NEW flag for the processed storage
+                    storageService.setFileStorageState(processedId, FileStorageState.UNSET);
+                    // (if we do auto-clean, we skip this step and purge the items after loading)
+                }
+
                 yield new Load(List.of(processedId));
             }
             case Load(List<FileStorageId> processedIds, long msgId) when msgId < 0 -> {
@@ -140,9 +146,20 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
 
                 if (rsp.state() != MqMessageState.OK) {
                     yield new Error("Loader failed");
-                } else {
-                    cleanProcessedStorage(processedIds);
                 }
+
+                // If we're auto-cleaning, flag the processed files for deletion if they have the NEW flag,
+                // indicating they've recently been created.  We need to check this, so we don't delete archived
+                // stuff that's being loaded manually
+
+                if (shouldAutoClean()) {
+                    for (var id : processedIds) {
+                        if (FileStorageState.NEW.equals(storageService.getStorage(id).state())) {
+                            storageService.flagFileForDeletion(id);
+                        }
+                    }
+                }
+
                 yield new Backup(processedIds);
             }
             case Backup(List<FileStorageId> processedIds) -> {
@@ -204,6 +221,16 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
         return mqIndexConstructorOutbox.sendAsync(new CreateIndexRequest(index));
     }
 
+    private boolean shouldAutoClean() {
+        try {
+            return nodeConfigurationService.get(nodeId).autoClean();
+        }
+        catch (SQLException ex) {
+            logger.error("Error getting node configuration", ex);
+            return false; // safe dafault
+        }
+    }
+
 
     @Override
     public String describe() {
@@ -233,24 +260,5 @@ public class ConvertAndLoadActor extends RecordActorPrototype {
         this.nodeId = serviceConfiguration.node();
     }
 
-    private void cleanProcessedStorage(List<FileStorageId> processedStorageId) {
-        try {
-            var config = nodeConfigurationService.get(nodeId);
-
-            for (var id : processedStorageId) {
-                if (FileStorageState.NEW.equals(storageService.getStorage(id).state())) {
-                    if (config.autoClean()) {
-                        storageService.flagFileForDeletion(id);
-                    }
-                    else {
-                        storageService.setFileStorageState(id, FileStorageState.UNSET);
-                    }
-                }
-            }
-        }
-        catch (SQLException ex) {
-            logger.error("Error in clean-up", ex);
-        }
-    }
 
 }

From 046ffc775224e0a9b9099994f0e3db3826230e5e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 31 Jul 2024 10:39:50 +0200
Subject: [PATCH 098/216] (build) Upgrade jib to 3.4.3

---
 build.gradle                                            | 3 ++-
 code/services-application/api-service/build.gradle      | 2 +-
 code/services-application/dating-service/build.gradle   | 2 +-
 code/services-application/explorer-service/build.gradle | 2 +-
 code/services-application/search-service/build.gradle   | 2 +-
 code/services-core/assistant-service/build.gradle       | 2 +-
 code/services-core/control-service/build.gradle         | 2 +-
 code/services-core/executor-service/build.gradle        | 2 +-
 code/services-core/index-service/build.gradle           | 2 +-
 code/services-core/query-service/build.gradle           | 2 +-
 code/tools/screenshot-capture-tool/build.gradle         | 2 +-
 11 files changed, 12 insertions(+), 11 deletions(-)

diff --git a/build.gradle b/build.gradle
index a560016b..f2307cb5 100644
--- a/build.gradle
+++ b/build.gradle
@@ -6,7 +6,7 @@ plugins {
 
     // This is a workaround for a bug in the Jib plugin that causes it to stall randomly
     // https://github.com/GoogleContainerTools/jib/issues/3347
-    id 'com.google.cloud.tools.jib' version '3.4.2' apply(false)
+    id 'com.google.cloud.tools.jib' version '3.4.3' apply(false)
 }
 
 group 'marginalia'
@@ -48,6 +48,7 @@ ext {
     dockerImageBase='container-registry.oracle.com/graalvm/jdk:22'
     dockerImageTag='latest'
     dockerImageRegistry='marginalia'
+    jibVersion = '3.4.3'
 }
 
 idea {
diff --git a/code/services-application/api-service/build.gradle b/code/services-application/api-service/build.gradle
index 848091f3..85de3320 100644
--- a/code/services-application/api-service/build.gradle
+++ b/code/services-application/api-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 java {
diff --git a/code/services-application/dating-service/build.gradle b/code/services-application/dating-service/build.gradle
index 7ada938f..e8da6e4e 100644
--- a/code/services-application/dating-service/build.gradle
+++ b/code/services-application/dating-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/services-application/explorer-service/build.gradle b/code/services-application/explorer-service/build.gradle
index d2d75348..d9442ebd 100644
--- a/code/services-application/explorer-service/build.gradle
+++ b/code/services-application/explorer-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/services-application/search-service/build.gradle b/code/services-application/search-service/build.gradle
index 1e9f527d..e7a6bd66 100644
--- a/code/services-application/search-service/build.gradle
+++ b/code/services-application/search-service/build.gradle
@@ -5,7 +5,7 @@ plugins {
     id 'application'
     id 'jvm-test-suite'
 
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/services-core/assistant-service/build.gradle b/code/services-core/assistant-service/build.gradle
index a892d0aa..1dd2cfd6 100644
--- a/code/services-core/assistant-service/build.gradle
+++ b/code/services-core/assistant-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/services-core/control-service/build.gradle b/code/services-core/control-service/build.gradle
index f326801d..c476ff10 100644
--- a/code/services-core/control-service/build.gradle
+++ b/code/services-core/control-service/build.gradle
@@ -2,7 +2,7 @@ plugins {
     id 'java'
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 java {
diff --git a/code/services-core/executor-service/build.gradle b/code/services-core/executor-service/build.gradle
index b53aa404..24af8dd9 100644
--- a/code/services-core/executor-service/build.gradle
+++ b/code/services-core/executor-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/services-core/index-service/build.gradle b/code/services-core/index-service/build.gradle
index 7c7b1e0a..df3773f9 100644
--- a/code/services-core/index-service/build.gradle
+++ b/code/services-core/index-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/services-core/query-service/build.gradle b/code/services-core/query-service/build.gradle
index 70a3738e..70c71826 100644
--- a/code/services-core/query-service/build.gradle
+++ b/code/services-core/query-service/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 application {
diff --git a/code/tools/screenshot-capture-tool/build.gradle b/code/tools/screenshot-capture-tool/build.gradle
index a022c803..dd8f99c0 100644
--- a/code/tools/screenshot-capture-tool/build.gradle
+++ b/code/tools/screenshot-capture-tool/build.gradle
@@ -3,7 +3,7 @@ plugins {
 
     id 'application'
     id 'jvm-test-suite'
-    id 'com.google.cloud.tools.jib' version '3.4.2'
+    id 'com.google.cloud.tools.jib' version '3.4.3'
 }
 
 java {

From 15745b692e3d724e0a893e466af7a5c19b6e628f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 31 Jul 2024 21:50:02 +0200
Subject: [PATCH 099/216] (index) Coherences need to be able to deal with null
 values among positions

---
 .../results/model/TermCoherenceGroupList.java    | 16 ++++++++++++++--
 1 file changed, 14 insertions(+), 2 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index 9096af7a..2721611b 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -30,6 +30,7 @@ public class TermCoherenceGroupList {
     }
 
     public boolean testMandatory(CodedSequence[] positions) {
+
         for (var coherenceSet : mandatoryGroups) {
             if (!coherenceSet.test(positions)) {
                 return false;
@@ -40,6 +41,7 @@ public class TermCoherenceGroupList {
     }
 
     public int testOptional(CodedSequence[] positions) {
+
         int best = 0;
         for (var coherenceSet : optionalGroups) {
             if (coherenceSet.test(positions)) {
@@ -50,6 +52,7 @@ public class TermCoherenceGroupList {
     }
 
     public int countOptional(CodedSequence[] positions) {
+
         int ct = 0;
         for (var coherenceSet : optionalGroups) {
             if (coherenceSet.test(positions)) {
@@ -60,6 +63,7 @@ public class TermCoherenceGroupList {
     }
 
     public int testOptional(CodedSequence[] positions, DocumentSpan span) {
+
         int best = 0;
         for (var coherenceSet : optionalGroups) {
             if (coherenceSet.test(span, positions)) {
@@ -107,7 +111,11 @@ public class TermCoherenceGroupList {
                 // so that when we intersect them, an overlap means that the terms are
                 // in the correct order.  Note the offset is negative!
 
-                sequences[si++] = positions[offset].offsetIterator(-oi);
+                var posForTerm = positions[offset];
+                if (posForTerm == null) {
+                    return false;
+                }
+                sequences[si++] = posForTerm.offsetIterator(-oi);
             }
 
             return SequenceOperations.intersectSequences(sequences);
@@ -130,7 +138,11 @@ public class TermCoherenceGroupList {
                 // so that when we intersect them, an overlap means that the terms are
                 // in the correct order.  Note the offset is negative!
 
-                sequences[si++] = positions[offset].offsetIterator(-oi);
+                var posForTerm = positions[offset];
+                if (posForTerm == null) {
+                    return false;
+                }
+                sequences[si++] = posForTerm.offsetIterator(-oi);
             }
 
             var intersections = SequenceOperations.findIntersections(sequences);

From e2107901ec63eb1fc2cb26a2b0879088ac6b9036 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 1 Aug 2024 11:46:30 +0200
Subject: [PATCH 100/216] (index) Add span information for anchor tags, tweak
 ranking params

---
 .../index/forward/spans/DocumentSpans.java    | 12 +---
 .../index/results/Bm25GraphVisitor.java       |  6 +-
 .../results/IndexResultScoreCalculator.java   | 57 ++++++++++---------
 .../sentence/tag/HtmlStringTagger.java        |  8 +--
 .../language/sentence/tag/HtmlTag.java        | 14 ++---
 5 files changed, 47 insertions(+), 50 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
index a8ed94f0..6eebbd63 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -10,10 +10,8 @@ public class DocumentSpans {
     public DocumentSpan heading = EMPTY_SPAN;
 
     public DocumentSpan nav = EMPTY_SPAN;
-    public DocumentSpan pageHeader = EMPTY_SPAN;
-    public DocumentSpan pageFooter = EMPTY_SPAN;
     public DocumentSpan code = EMPTY_SPAN;
-    public DocumentSpan pre = EMPTY_SPAN;
+    public DocumentSpan anchor = EMPTY_SPAN;
 
     void accept(byte code, CodedSequence positions) {
         if (code == HtmlTag.HEADING.code)
@@ -22,14 +20,10 @@ public class DocumentSpans {
             this.title = new DocumentSpan(positions);
         else if (code == HtmlTag.NAV.code)
             this.nav = new DocumentSpan(positions);
-        else if (code == HtmlTag.PAGE_HEADER.code)
-            this.pageHeader = new DocumentSpan(positions);
-        else if (code == HtmlTag.PAGE_FOOTER.code)
-            this.pageFooter = new DocumentSpan(positions);
         else if (code == HtmlTag.CODE.code)
             this.code = new DocumentSpan(positions);
-        else if (code == HtmlTag.PRE.code)
-            this.pre = new DocumentSpan(positions);
+        else if (code == HtmlTag.ANCHOR.code)
+            this.anchor = new DocumentSpan(positions);
     }
 
 }
diff --git a/code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java b/code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java
index 9416bf13..95b665ff 100644
--- a/code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java
+++ b/code/index/java/nu/marginalia/index/results/Bm25GraphVisitor.java
@@ -13,7 +13,7 @@ import java.util.List;
 public class Bm25GraphVisitor implements CqExpression.DoubleVisitor {
     private static final long AVG_LENGTH = 5000;
 
-    private final CqDataInt counts;
+    private final float[] counts;
     private final CqDataInt frequencies;
 
     private final double k1;
@@ -25,7 +25,7 @@ public class Bm25GraphVisitor implements CqExpression.DoubleVisitor {
     private final BitSet mask;
 
     public Bm25GraphVisitor(Bm25Parameters bm25Parameters,
-                            CqDataInt counts,
+                            float[] counts,
                             int length,
                             ResultRankingContext ctx) {
         this.length = length;
@@ -65,7 +65,7 @@ public class Bm25GraphVisitor implements CqExpression.DoubleVisitor {
             return 0;
         }
 
-        double count = counts.get(idx);
+        double count = counts[idx];
         int freq = frequencies.get(idx);
 
         return invFreq(docCount, freq) * f(count, length);
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 127b1bbb..6557c180 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -3,7 +3,6 @@ package nu.marginalia.index.results;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
-import nu.marginalia.api.searchquery.model.compiled.aggregate.CqDoubleSumOperator;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
@@ -87,7 +86,6 @@ public class IndexResultScoreCalculator {
 
         double score = calculateSearchResultValue(
                 wordFlagsQuery,
-                positionsCountQuery,
                 positionsQuery,
                 docMetadata,
                 htmlFeatures,
@@ -174,7 +172,6 @@ public class IndexResultScoreCalculator {
     }
 
     public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
-                                             CompiledQueryInt positionsCountQuery,
                                              CompiledQuery<CodedSequence> positionsQuery,
                                              long documentMetadata,
                                              int features,
@@ -214,32 +211,39 @@ public class IndexResultScoreCalculator {
             temporalBias = 0;
         }
 
-
         int numCoherenceAll = coherences.countOptional(positions);
         int bestCoherenceAll = coherences.testOptional(positions);
         int bestCoherenceTitle = coherences.testOptional(positions, spans.title);
         int bestCoherenceHeading = coherences.testOptional(positions, spans.heading);
 
-        double spanWeightedScore = positionsQuery.root.visit(new CqDoubleSumOperator(positionsQuery, termPos -> {
-            if (termPos == null)
-                return 0;
+        float[] weightedCounts = new float[compiledQuery.size()];
+        int firstPosition = Integer.MAX_VALUE;
+
+        for (int i = 0; i < weightedCounts.length; i++) {
+            if (positions[i] != null) {
+                var iter = positions[i].iterator();
+
+                if (!ctx.regularMask.get(i)) {
+                    continue;
+                }
+
+                while (iter.hasNext()) {
+                    int pos = iter.nextInt();
+
+                    firstPosition = Math.min(firstPosition, pos);
+
+                    if (spans.title.containsPosition(pos) || spans.heading.containsPosition(pos))
+                        weightedCounts[i] += 2.5f;
+                    else if (spans.code.containsPosition(pos))
+                        weightedCounts[i] += 0.25f;
+                    else if (spans.anchor.containsPosition(pos))
+                        weightedCounts[i] += 0.2f;
+                    else if (spans.nav.containsPosition(pos))
+                        weightedCounts[i] += 0.1f;
+                }
+            }
+        }
 
-            if (spans.title.overlapsRange(termPos))
-                return 5.0;
-            if (spans.heading.overlapsRange(termPos))
-                return 2.5;
-            if (spans.code.overlapsRange(termPos))
-                return 0.25;
-            if (spans.pre.overlapsRange(termPos))
-                return 0.25;
-            if (spans.nav.overlapsRange(termPos))
-                return 0.25;
-            if (spans.pageHeader.overlapsRange(termPos))
-                return 0.25;
-            if (spans.pageFooter.overlapsRange(termPos))
-                return 0.25;
-            return 1.0;
-        }));
 
         double overallPart = averageSentenceLengthPenalty
                 + documentLengthPenalty
@@ -251,13 +255,12 @@ public class IndexResultScoreCalculator {
                 + bestCoherenceAll
                 + bestCoherenceTitle
                 + bestCoherenceHeading
-                + numCoherenceAll / 4.
-                + spanWeightedScore;
+                + numCoherenceAll / 4.;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
-        double tcfFirstPosition = 0.;
+        double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.max(1, firstPosition));
 
-        double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, positionsCountQuery.data, length, ctx));
+        double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
 
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
index d6b83f56..d6cd823d 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlStringTagger.java
@@ -51,11 +51,11 @@ public class HtmlStringTagger implements NodeVisitor {
             switch (tagName) {
                 case "script" -> pushTag(HtmlTag.SCRIPT, el);
                 case "style" -> pushTag(HtmlTag.STYLE, el);
-                case "code" -> pushTag(HtmlTag.CODE, el);
+                case "input", "select", "form", "button" -> pushTag(HtmlTag.FORM, el);
+                case "code", "pre" -> pushTag(HtmlTag.CODE, el);
                 case "title" -> pushTag(HtmlTag.TITLE, el);
-                case "nav" -> pushTag(HtmlTag.NAV, el);
-                case "header" -> pushTag(HtmlTag.PAGE_HEADER, el);
-                case "footer" -> pushTag(HtmlTag.PAGE_FOOTER, el);
+                case "a" -> pushTag(HtmlTag.ANCHOR, el);
+                case "nav", "header", "footer" -> pushTag(HtmlTag.NAV, el);
                 case "h1", "h2", "h3", "h4", "h5", "h6" -> pushTag(HtmlTag.HEADING, el);
             }
         }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
index f01f8461..89dd542a 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
@@ -1,15 +1,15 @@
 package nu.marginalia.language.sentence.tag;
 
 public enum HtmlTag {
-    SCRIPT((byte) 's', true, false),
-    STYLE((byte) 'S', true, false),
-    CODE((byte) 'c', false, true),
-    PRE((byte) 'p', false, true),
+    FORM((byte) 0, true, false),
+    SCRIPT((byte) 0, true, false),
+    STYLE((byte) 0, true, false),
+
+    ANCHOR((byte) 'a', false, false),
     TITLE((byte) 't', false, false),
     HEADING((byte) 'h', false, false),
-    NAV((byte) 'n', false, false),
-    PAGE_HEADER((byte) 'H',false, false),
-    PAGE_FOOTER((byte) 'f', false, false);
+    CODE((byte) 'c', false, true),
+    NAV((byte) 'n', false, false);
 
     public byte code;
     public boolean exclude;

From 38e2089c3f58801a37a71d2c48047c6e51f9e644 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 1 Aug 2024 11:58:59 +0200
Subject: [PATCH 101/216] (perf) Code was still spending a lot of time
 resolving charsets

... in the failure case which wasn't captured by memoization.
---
 .../contenttype/DocumentBodyToString.java     | 30 +++++++++++++------
 1 file changed, 21 insertions(+), 9 deletions(-)

diff --git a/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java b/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
index a867a3c2..8187871e 100644
--- a/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
+++ b/code/processes/crawling-process/ft-content-type/java/nu/marginalia/contenttype/DocumentBodyToString.java
@@ -1,34 +1,46 @@
 package nu.marginalia.contenttype;
 
-import java.nio.charset.*;
+import java.nio.charset.Charset;
+import java.nio.charset.IllegalCharsetNameException;
+import java.nio.charset.StandardCharsets;
+import java.nio.charset.UnsupportedCharsetException;
 import java.util.Map;
 import java.util.concurrent.ConcurrentHashMap;
 
 public class DocumentBodyToString {
-    private static final Map<String, Charset> charsetMap = new ConcurrentHashMap<>();
+    private static final Map<ContentType, Charset> charsetMap = new ConcurrentHashMap<>();
 
     /** Get the string data from a document body, given the content type and charset */
     public static String getStringData(ContentType type, byte[] data) {
-        Charset charset;
+        final Charset charset;
+
+        if (type.charset() == null || type.charset().isBlank()) {
+            charset = StandardCharsets.UTF_8;
+        } else {
+            charset = charsetMap.computeIfAbsent(type, DocumentBodyToString::computeCharset);
+        }
+
+        return new String(data, charset);
+    }
+
+    private static Charset computeCharset(ContentType type) {
         try {
             if (type.charset() == null || type.charset().isBlank())
-                charset = StandardCharsets.UTF_8;
+                return StandardCharsets.UTF_8;
             else {
-                charset = charsetMap.computeIfAbsent(type.charset(), Charset::forName);
+                return Charset.forName(type.charset());
             }
         }
         catch (IllegalCharsetNameException ex) {
             // Fall back to UTF-8 if we don't understand what this is.  It's *probably* fine? Maybe?
-            charset = StandardCharsets.UTF_8;
+            return StandardCharsets.UTF_8;
         }
         catch (UnsupportedCharsetException ex) {
             // This is usually like Macintosh Latin
             // (https://en.wikipedia.org/wiki/Macintosh_Latin_encoding)
             //
             // It's close enough to 8859-1 to serve
-            charset = StandardCharsets.ISO_8859_1;
+            return StandardCharsets.ISO_8859_1;
         }
-
-        return new String(data, charset);
     }
 }

From 1a268c24c89477ab97abf7987f2e7333472d4fc0 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 1 Aug 2024 12:04:55 +0200
Subject: [PATCH 102/216] (perf) Reduce DomPruningFilter hash table
 recalculation

---
 .../converting/processor/logic/dom/DomPruningFilter.java        | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java
index 39fd3ed2..51264400 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java
@@ -18,7 +18,7 @@ public class DomPruningFilter implements NodeFilter {
 
     private final double pruneThreshold;
 
-    private final Map<Node, NodeData> data = new HashMap<>();
+    private final Map<Node, NodeData> data = new HashMap<>(256);
     private final NodeData dummy = new NodeData(Integer.MAX_VALUE, 1, 0);
 
     public DomPruningFilter(double pruneThreshold) {

From 6228f46af16819200b9f83bf6269975865d7ba5d Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 2 Aug 2024 12:21:03 +0200
Subject: [PATCH 103/216] (loader) Reduce log spam

---
 .../nu/marginalia/loading/links/DomainLinksLoaderService.java   | 2 --
 1 file changed, 2 deletions(-)

diff --git a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
index 790e80a3..8dbe281a 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
@@ -57,8 +57,6 @@ public class DomainLinksLoaderService {
         try (var domainLinkReader = new SlopDomainLinkRecord.Reader(pageRef);
              var linkLoader = new LinkLoader(domainIdRegistry))
         {
-            logger.info("Loading links from {}:{}", pageRef.baseDir(), pageRef.page());
-
             domainLinkReader.forEach(linkLoader::accept);
         }
     }

From 4430a391202e98670a0ff60207acb60b250ae569 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 2 Aug 2024 12:32:47 +0200
Subject: [PATCH 104/216] (loader) Clean up

---
 .../model/processed/SlopDomainLinkRecord.java |  6 ++---
 .../links/DomainLinksLoaderService.java       | 24 +++++++++----------
 2 files changed, 14 insertions(+), 16 deletions(-)

diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index 7cb3b7df..b40253fd 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -9,7 +9,7 @@ import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
 import java.nio.file.Path;
-import java.util.function.Consumer;
+import java.util.function.BiConsumer;
 
 public record SlopDomainLinkRecord(
         String source,
@@ -39,9 +39,9 @@ public record SlopDomainLinkRecord(
             return sourcesReader.hasRemaining();
         }
 
-        public void forEach(Consumer<SlopDomainLinkRecord> recordConsumer) throws IOException {
+        public void forEach(BiConsumer<String /* source */, String /* dest */> recordConsumer) throws IOException {
             while (hasMore()) {
-                recordConsumer.accept(next());
+                recordConsumer.accept(sourcesReader.get(), destsReader.get());
             }
         }
 
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
index 8dbe281a..640afd76 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
@@ -31,7 +31,9 @@ public class DomainLinksLoaderService {
                              ProcessHeartbeat heartbeat,
                              LoaderInputData inputData) throws IOException {
 
-        try (var task = heartbeat.createAdHocTaskHeartbeat("LINKS")) {
+        try (var task = heartbeat.createAdHocTaskHeartbeat("LINKS");
+             var linkLoader = new LinkLoader(domainIdRegistry))
+        {
             Collection<SlopPageRef<SlopDomainLinkRecord>> pageRefs = inputData.listDomainLinkPages();
 
             int processed = 0;
@@ -39,7 +41,10 @@ public class DomainLinksLoaderService {
             for (var pageRef : pageRefs) {
                 task.progress("LOAD", processed++, pageRefs.size());
 
-                loadLinksFromFile(domainIdRegistry, pageRef);
+                try (var domainLinkReader = new SlopDomainLinkRecord.Reader(pageRef))
+                {
+                    domainLinkReader.forEach(linkLoader::accept);
+                }
             }
 
             task.progress("LOAD", processed, pageRefs.size());
@@ -53,15 +58,8 @@ public class DomainLinksLoaderService {
         return true;
     }
 
-    private void loadLinksFromFile(DomainIdRegistry domainIdRegistry, SlopPageRef pageRef) throws IOException {
-        try (var domainLinkReader = new SlopDomainLinkRecord.Reader(pageRef);
-             var linkLoader = new LinkLoader(domainIdRegistry))
-        {
-            domainLinkReader.forEach(linkLoader::accept);
-        }
-    }
 
-    class LinkLoader implements AutoCloseable {
+    private class LinkLoader implements AutoCloseable {
         private final DomainIdRegistry domainIdRegistry;
 
         public LinkLoader(DomainIdRegistry domainIdRegistry) {
@@ -69,10 +67,10 @@ public class DomainLinksLoaderService {
         }
 
         @SneakyThrows
-        void accept(SlopDomainLinkRecord record) {
+        void accept(String source, String dest) {
             domainLinkDbWriter.write(
-                    domainIdRegistry.getDomainId(record.source()),
-                    domainIdRegistry.getDomainId(record.dest())
+                    domainIdRegistry.getDomainId(source),
+                    domainIdRegistry.getDomainId(dest)
             );
         }
 

From 57929ff242846829312e14aab67473a299fa2362 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 2 Aug 2024 20:22:56 +0200
Subject: [PATCH 105/216] (coded-sequence) Varint sequence

---
 code/libraries/coded-sequence/build.gradle    |  13 ++
 .../sequence/VarintCodedSequence.java         | 198 ++++++++++++++++++
 .../marginalia/bench/SequenceBenchmarks.java  |  71 +++++++
 .../sequence/VarintCodedSequenceTest.java     |  50 +++++
 4 files changed, 332 insertions(+)
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
 create mode 100644 code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
 create mode 100644 code/libraries/coded-sequence/test/nu/marginalia/sequence/VarintCodedSequenceTest.java

diff --git a/code/libraries/coded-sequence/build.gradle b/code/libraries/coded-sequence/build.gradle
index 56f7d6f8..d87ef5a8 100644
--- a/code/libraries/coded-sequence/build.gradle
+++ b/code/libraries/coded-sequence/build.gradle
@@ -1,5 +1,6 @@
 plugins {
     id 'java'
+    id "me.champeau.jmh" version "0.6.6"
 }
 
 java {
@@ -24,3 +25,15 @@ dependencies {
 test {
     useJUnitPlatform()
 }
+
+jmh {
+    jvmArgs = [ "--enable-preview" ]
+}
+tasks.withType(me.champeau.jmh.WithJavaToolchain).configureEach {
+    javaLauncher.set(javaToolchains.launcherFor {
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
+    })
+}
+tasks.withType(me.champeau.jmh.JmhBytecodeGeneratorTask).configureEach {
+    jvmArgs = ["--enable-preview"]
+}
\ No newline at end of file
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
new file mode 100644
index 00000000..bf49e2b2
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
@@ -0,0 +1,198 @@
+package nu.marginalia.sequence;
+
+import it.unimi.dsi.fastutil.ints.IntArrayList;
+import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
+
+import java.nio.ByteBuffer;
+
+public class VarintCodedSequence implements CodedSequence {
+
+    private final ByteBuffer raw;
+
+    private final int startPos;
+    private final int startLimit;
+
+    public VarintCodedSequence(ByteBuffer buffer) {
+        this.raw = buffer;
+
+        this.startPos = buffer.position();
+        this.startLimit = buffer.limit();
+    }
+
+    private static int requiredBufferSize(int[] values) {
+        int prev = 0;
+        int size = 0;
+
+        for (int value : values) {
+            size += varintSize(value - prev);
+            prev = value;
+        }
+
+        return size + varintSize(size + 1);
+    }
+
+    private static int varintSize(int value) {
+        int bits = 32 - Integer.numberOfLeadingZeros(value);
+        return (bits + 6) / 7;
+    }
+
+    public static VarintCodedSequence generate(int... values) {
+        int bufferSize = requiredBufferSize(values);
+        ByteBuffer buffer = ByteBuffer.allocate(bufferSize);
+
+        int prev = 0;
+
+        encodeValue(buffer, values.length + 1);
+
+        for (int value : values) {
+            int toEncode = value - prev;
+            assert toEncode > 0 : "Values must be strictly increasing";
+
+            encodeValue(buffer, toEncode);
+
+            prev = value;
+        }
+
+        buffer.flip();
+
+        return new VarintCodedSequence(buffer);
+    }
+
+    private static void encodeValue(ByteBuffer buffer, int value) {
+        if (value < 0x80) {
+            buffer.put((byte) value);
+        }
+        else if (value < 0x4_000) {
+            buffer.put((byte) (value >>> (7) | 0x80));
+            buffer.put((byte) (value & 0x7F));
+        }
+        else if (value < 0x20_0000) {
+            buffer.put((byte) (value >>> (14) | 0x80));
+            buffer.put((byte) (value >>> (7) | 0x80));
+            buffer.put((byte) (value & 0x7F));
+        }
+        else if (value < 0x1000_0000) {
+            buffer.putInt(Integer.expand(value, 0x00808080) | 0x80808000);
+        }
+        else {
+            throw new IllegalArgumentException("Value too large to encode");
+        }
+    }
+
+    @Override
+    public byte[] bytes() {
+        return raw.array();
+    }
+
+    @Override
+    public IntIterator iterator() {
+        return new VarintSequenceIterator(buffer());
+    }
+
+    @Override
+    public IntIterator offsetIterator(int offset) {
+        return new VarintSequenceIterator(buffer(), offset);
+    }
+
+    @Override
+    public IntList values() {
+        var buffer = buffer();
+
+        int val = 0;
+        int count = decodeValue(buffer) - 1;
+
+        IntArrayList list = new IntArrayList(count);
+
+        while (buffer.hasRemaining()) {
+            val += decodeValue(buffer);
+            list.add(val);
+        }
+
+        return list;
+    }
+
+    @Override
+    public ByteBuffer buffer() {
+        raw.position(startPos);
+        raw.limit(startLimit);
+
+        return raw;
+    }
+
+    @Override
+    public int bufferSize() {
+        return raw.capacity();
+    }
+
+    @Override
+    public int valueCount() {
+        var buffer = buffer();
+        return decodeValue(buffer) - 1;
+    }
+
+    private static int decodeValue(ByteBuffer buffer) {
+        // most common case gets a fast path, this is a fairly large performance win
+        // on average, something like 10-20% faster than not having this check
+        byte b = buffer.get();
+        if ((b & 0x80) == 0) {
+            return b;
+        }
+
+        int value = b;
+        do {
+            b = buffer.get();
+            value = value << 7 | (b & 0x7F);
+        } while ((b & 0x80) != 0);
+
+        return value;
+    }
+
+    public static class VarintSequenceIterator implements IntIterator {
+
+        private final ByteBuffer buffer;
+        int rem = 0;
+        private int last;
+        private int next = Integer.MIN_VALUE;
+
+        public VarintSequenceIterator(ByteBuffer buffer, int zero) {
+            this.buffer = buffer;
+            if (zero == Integer.MIN_VALUE) {
+                throw new IllegalArgumentException("Integer.MIN_VALUE is a reserved offset that may not be used as zero point");
+            }
+
+            last = zero;
+            rem = decodeValue(buffer) - 1;
+        }
+
+        public VarintSequenceIterator(ByteBuffer buffer) {
+            this(buffer, 0);
+        }
+
+        // This is BitWriter.getGamma with more checks in place for streaming iteration
+        @Override
+        public boolean hasNext() {
+            if (next != Integer.MIN_VALUE) return true;
+            if (--rem < 0) return false;
+
+            int delta = decodeValue(buffer);
+
+            last += delta;
+            next = last;
+
+            return true;
+        }
+
+        @Override
+        public int nextInt() {
+            if (hasNext()) {
+                int ret = next;
+                next = Integer.MIN_VALUE;
+                return ret;
+            }
+            throw new ArrayIndexOutOfBoundsException("No more data to read");
+        }
+
+
+    }
+}
diff --git a/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java b/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
new file mode 100644
index 00000000..f09e82bb
--- /dev/null
+++ b/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
@@ -0,0 +1,71 @@
+package nu.marginalia.bench;
+
+import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
+import org.openjdk.jmh.annotations.*;
+
+import java.nio.ByteBuffer;
+
+public class SequenceBenchmarks {
+
+    @State(Scope.Benchmark)
+    public static class SequenceState {
+        VarintCodedSequence vcs;
+        GammaCodedSequence gcs;
+        ByteBuffer workArea;
+        int[] valueBuffer;
+        public SequenceState()
+        {
+            valueBuffer = new int[128];
+
+            workArea = ByteBuffer.allocate(65536);
+            vcs = VarintCodedSequence.generate(1, 3, 5, 16, 1024, 2048);
+            gcs = GammaCodedSequence.generate(workArea, 1, 3, 5, 16, 1024, 2048);
+        }
+    }
+
+    @Fork(value = 5, warmups = 5)
+    @Warmup(iterations = 5)
+    @Benchmark
+    @BenchmarkMode(Mode.Throughput)
+    public int vcsDecode(SequenceState state) {
+        var iter = state.vcs.iterator();
+        int sum = 0;
+        while (iter.hasNext()) {
+            sum += iter.nextInt();
+        }
+        return sum;
+    }
+
+
+//    @Fork(value = 1, warmups = 1)
+//    @Warmup(iterations = 1)
+//    @Benchmark
+//    @BenchmarkMode(Mode.Throughput)
+//    public int gcsDecode(SequenceState state) {
+//        var iter = state.gcs.iterator();
+//        int sum = 0;
+//        while (iter.hasNext()) {
+//            sum += iter.nextInt();
+//        }
+//        return sum;
+//    }
+
+//    @Fork(value = 1, warmups = 1)
+//    @Warmup(iterations = 1)
+//    @Benchmark
+//    @BenchmarkMode(Mode.Throughput)
+//    public VarintCodedSequence vcsEncode(SequenceState state) {
+//        return VarintCodedSequence.generate(1, 3, 5, 16, 1024, 2048, 4096, 4098, 4100);
+//    }
+
+//    @Fork(value = 1, warmups = 1)
+//    @Warmup(iterations = 1)
+//    @Benchmark
+//    @BenchmarkMode(Mode.Throughput)
+//    public GammaCodedSequence gcsEncode(SequenceState state) {
+//        return GammaCodedSequence.generate(state.workArea, 1, 3, 5, 16, 1024, 2048, 4096, 4098, 4100);
+//    }
+
+
+}
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/VarintCodedSequenceTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/VarintCodedSequenceTest.java
new file mode 100644
index 00000000..67554b04
--- /dev/null
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/VarintCodedSequenceTest.java
@@ -0,0 +1,50 @@
+package nu.marginalia.sequence;
+
+import org.junit.jupiter.api.Test;
+
+import static org.junit.jupiter.api.Assertions.*;
+
+class VarintCodedSequenceTest {
+    @Test
+    public void testSimple() {
+        var sequence = VarintCodedSequence.generate(1, 3, 5, 16, 1024, 2048, 40000, 268435446);
+
+        assertEquals(8, sequence.valueCount());
+
+        var values = sequence.values();
+        System.out.println(values);
+        assertEquals(1, values.getInt(0));
+        assertEquals(3, values.getInt(1));
+        assertEquals(5, values.getInt(2));
+        assertEquals(16, values.getInt(3));
+        assertEquals(1024, values.getInt(4));
+        assertEquals(2048, values.getInt(5));
+        assertEquals(40000, values.getInt(6));
+        assertEquals(268435446, values.getInt(7));
+
+
+        var iter = sequence.iterator();
+        assertEquals(1, iter.nextInt());
+        assertEquals(3, iter.nextInt());
+        assertEquals(5, iter.nextInt());
+        assertEquals(16, iter.nextInt());
+        assertEquals(1024, iter.nextInt());
+        assertEquals(2048, iter.nextInt());
+        assertEquals(40000, iter.nextInt());
+        assertEquals(268435446, iter.nextInt());
+
+    }
+
+    @Test
+    public void testEmpty() {
+        var sequence = VarintCodedSequence.generate();
+
+        assertEquals(0, sequence.valueCount());
+
+        var values = sequence.values();
+        assertTrue(values.isEmpty());
+
+        var iter = sequence.iterator();
+        assertFalse(iter.hasNext());
+    }
+}
\ No newline at end of file

From d8a99784e58b81ddcafebdd23a71b80fa8258e47 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 2 Aug 2024 20:26:07 +0200
Subject: [PATCH 106/216] (index) Adding a few experimental relevance signals

---
 .../index/results/IndexResultScoreCalculator.java      |  7 ++++++-
 .../index/results/model/TermCoherenceGroupList.java    | 10 ++++++++++
 2 files changed, 16 insertions(+), 1 deletion(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 6557c180..b68b8849 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -216,6 +216,9 @@ public class IndexResultScoreCalculator {
         int bestCoherenceTitle = coherences.testOptional(positions, spans.title);
         int bestCoherenceHeading = coherences.testOptional(positions, spans.heading);
 
+        boolean allInTitle = coherences.allOptionalInSpan(positions, spans.title);
+        boolean allInHeading = coherences.allOptionalInSpan(positions, spans.heading);
+
         float[] weightedCounts = new float[compiledQuery.size()];
         int firstPosition = Integer.MAX_VALUE;
 
@@ -255,7 +258,9 @@ public class IndexResultScoreCalculator {
                 + bestCoherenceAll
                 + bestCoherenceTitle
                 + bestCoherenceHeading
-                + numCoherenceAll / 4.;
+                + numCoherenceAll / 4.
+                + (allInTitle ? 5.0 : 0)
+                + (allInHeading ? 2.5 : 0);
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
         double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.max(1, firstPosition));
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index 2721611b..f9364639 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -73,6 +73,16 @@ public class TermCoherenceGroupList {
         return best;
     }
 
+    public boolean allOptionalInSpan(CodedSequence[] positions, DocumentSpan span) {
+        for (var coherenceSet : optionalGroups) {
+            if (!coherenceSet.test(span, positions)) {
+                return false;
+            }
+        }
+        return true;
+    }
+
+
     public static final class TermCoherenceGroup {
         private final int[] offsets;
         private final BitSet present;

From c6c8b059bf173c001b5a6fe6f5e2a6b10c5da59a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 10:10:12 +0200
Subject: [PATCH 107/216] (index) Return some variant of the previously removed
 'Bm25PrioGraphVisitor'

---
 .../results/IndexResultScoreCalculator.java   |   2 +
 .../index/results/TermFlagsGraphVisitor.java  | 128 ++++++++++++++++++
 2 files changed, 130 insertions(+)
 create mode 100644 code/index/java/nu/marginalia/index/results/TermFlagsGraphVisitor.java

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index b68b8849..00fff916 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -266,12 +266,14 @@ public class IndexResultScoreCalculator {
         double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.max(1, firstPosition));
 
         double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
+        double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
 
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
                 tcfAvgDist + tcfFirstPosition
                         + bM25
+                        + bFlags
                         + Math.max(0, overallPart),
                 -Math.min(0, overallPart));
 
diff --git a/code/index/java/nu/marginalia/index/results/TermFlagsGraphVisitor.java b/code/index/java/nu/marginalia/index/results/TermFlagsGraphVisitor.java
new file mode 100644
index 00000000..e4255a5e
--- /dev/null
+++ b/code/index/java/nu/marginalia/index/results/TermFlagsGraphVisitor.java
@@ -0,0 +1,128 @@
+package nu.marginalia.index.results;
+
+import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
+import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
+import nu.marginalia.api.searchquery.model.compiled.CqExpression;
+import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
+import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
+import nu.marginalia.model.idx.WordFlags;
+
+import java.util.List;
+
+public class TermFlagsGraphVisitor implements CqExpression.DoubleVisitor {
+    private static final long AVG_LENGTH = 5000;
+
+    private final CqDataLong wordMetaData;
+    private final CqDataInt frequencies;
+    private final float[] counts;
+    private final Bm25Parameters bm25Parameters;
+
+    private final int docCount;
+
+    public TermFlagsGraphVisitor(Bm25Parameters bm25Parameters,
+                                 CqDataLong wordMetaData,
+                                 float[] counts,
+                                 ResultRankingContext ctx) {
+        this.bm25Parameters = bm25Parameters;
+        this.counts = counts;
+        this.docCount = ctx.termFreqDocCount();
+        this.wordMetaData = wordMetaData;
+        this.frequencies = ctx.fullCounts;
+    }
+
+    @Override
+    public double onAnd(List<? extends CqExpression> parts) {
+        double value = 0;
+        for (var part : parts) {
+            value += part.visit(this);
+        }
+        return value;
+    }
+
+    @Override
+    public double onOr(List<? extends CqExpression> parts) {
+        double value = 0;
+        for (var part : parts) {
+            value = Math.max(value, part.visit(this));
+        }
+        return value;
+    }
+
+    @Override
+    public double onLeaf(int idx) {
+        double count = evaluatePriorityScore(idx);
+
+        int freq = frequencies.get(idx);
+
+        // note we override b to zero for priority terms as they are independent of document length
+        return invFreq(docCount, freq) * f(bm25Parameters.k(), 0, count, 0);
+    }
+
+    private double evaluatePriorityScore(int idx) {
+        byte wordMeta = (byte) wordMetaData.get(idx);
+        float pcount = counts[idx];
+
+        double qcount = 0.;
+
+        if ((wordMeta & WordFlags.ExternalLink.asBit()) != 0) {
+
+            qcount += 2.5;
+
+            if ((wordMeta & WordFlags.UrlDomain.asBit()) != 0)
+                qcount += 2.5;
+            else if ((wordMeta & WordFlags.UrlPath.asBit()) != 0)
+                qcount += 1.5;
+
+            if ((wordMeta & WordFlags.Site.asBit()) != 0)
+                qcount += 1.25;
+            if ((wordMeta & WordFlags.SiteAdjacent.asBit()) != 0)
+                qcount += 1.25;
+        }
+        else {
+            if ((wordMeta & WordFlags.UrlDomain.asBit()) != 0)
+                qcount += 3;
+            else if ((wordMeta & WordFlags.UrlPath.asBit()) != 0)
+                qcount += 1;
+
+            if ((wordMeta & WordFlags.Site.asBit()) != 0)
+                qcount += 0.5;
+            if ((wordMeta & WordFlags.SiteAdjacent.asBit()) != 0)
+                qcount += 0.5;
+        }
+
+        if ((wordMeta & WordFlags.Title.asBit()) != 0)
+            qcount += 1.5;
+
+        if (pcount > 2) {
+            if ((wordMeta & WordFlags.Subjects.asBit()) != 0)
+                qcount += 1.25;
+            if ((wordMeta & WordFlags.NamesWords.asBit()) != 0)
+                qcount += 0.25;
+        }
+
+        return qcount;
+    }
+
+
+    /**
+     *
+     * @param docCount Number of documents
+     * @param freq Number of matching documents
+     */
+    private double invFreq(int docCount, int freq) {
+        return Math.log(1.0 + (docCount - freq + 0.5) / (freq + 0.5));
+    }
+
+    /**
+     *
+     * @param k  determines the size of the impact of a single term
+     * @param b  determines the magnitude of the length normalization
+     * @param count   number of occurrences in the document
+     * @param length  document length
+     */
+    private double f(double k, double b, double count, int length) {
+        final double lengthRatio = (double) length / AVG_LENGTH;
+
+        return (count * (k + 1)) / (count + k * (1 - b + b * lengthRatio));
+    }
+}
\ No newline at end of file

From eba284436157b87c28a812960f01239b27f45282 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 10:32:46 +0200
Subject: [PATCH 108/216] (index) Experimental ranking signals

---
 .../marginalia/bench/SequenceBenchmarks.java  | 27 ++++++++++++++++---
 1 file changed, 23 insertions(+), 4 deletions(-)

diff --git a/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java b/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
index f09e82bb..534e0c6b 100644
--- a/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
+++ b/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
@@ -1,5 +1,7 @@
 package nu.marginalia.bench;
 
+import it.unimi.dsi.fastutil.ints.IntArrayList;
+import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.sequence.VarintCodedSequence;
 import org.openjdk.jmh.annotations.*;
@@ -12,27 +14,44 @@ public class SequenceBenchmarks {
     public static class SequenceState {
         VarintCodedSequence vcs;
         GammaCodedSequence gcs;
+        IntList list;
         ByteBuffer workArea;
+        int[] arrayValues;
         int[] valueBuffer;
         public SequenceState()
         {
             valueBuffer = new int[128];
 
             workArea = ByteBuffer.allocate(65536);
+            arrayValues = new int[] { 1, 3, 5, 16, 1024, 2048, 4096, 4098, 4100 };
+            list = new IntArrayList(arrayValues);
             vcs = VarintCodedSequence.generate(1, 3, 5, 16, 1024, 2048);
             gcs = GammaCodedSequence.generate(workArea, 1, 3, 5, 16, 1024, 2048);
         }
     }
 
+//    @Fork(value = 5, warmups = 5)
+//    @Warmup(iterations = 5)
+//    @Benchmark
+//    @BenchmarkMode(Mode.Throughput)
+//    public int vcsDecode(SequenceState state) {
+//        var iter = state.vcs.iterator();
+//        int sum = 0;
+//        while (iter.hasNext()) {
+//            sum += iter.nextInt();
+//        }
+//        return sum;
+//    }
+
     @Fork(value = 5, warmups = 5)
     @Warmup(iterations = 5)
     @Benchmark
     @BenchmarkMode(Mode.Throughput)
-    public int vcsDecode(SequenceState state) {
-        var iter = state.vcs.iterator();
+    public int listDecode2(SequenceState state) {
+        var list = state.arrayValues;
         int sum = 0;
-        while (iter.hasNext()) {
-            sum += iter.nextInt();
+        for (int i = 0; i < list.length; i++) {
+            sum += list[i];
         }
         return sum;
     }

From c2cedfa83ced6eb390f39af92e5b95ddba91f594 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 10:33:41 +0200
Subject: [PATCH 109/216] (index) Experimental ranking signals

---
 .../results/IndexResultScoreCalculator.java   | 34 ++++++++++++-------
 .../results/model/TermCoherenceGroupList.java | 11 ++++++
 2 files changed, 33 insertions(+), 12 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 00fff916..433ed3e2 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -211,13 +211,28 @@ public class IndexResultScoreCalculator {
             temporalBias = 0;
         }
 
-        int numCoherenceAll = coherences.countOptional(positions);
-        int bestCoherenceAll = coherences.testOptional(positions);
-        int bestCoherenceTitle = coherences.testOptional(positions, spans.title);
-        int bestCoherenceHeading = coherences.testOptional(positions, spans.heading);
+        float coherenceScore = 0.f;
 
-        boolean allInTitle = coherences.allOptionalInSpan(positions, spans.title);
-        boolean allInHeading = coherences.allOptionalInSpan(positions, spans.heading);
+        // Calculate a bonus for keyword coherences when large ones exist
+        int largestOptional = coherences.largestOptional();
+        if (largestOptional >= 2) {
+
+            int bestInTitle = coherences.testOptional(positions, spans.title);
+            int bestInHeading = coherences.testOptional(positions, spans.heading);
+            int best = coherences.testOptional(positions);
+
+            if (largestOptional == bestInTitle) {
+                coherenceScore = 2.0f * largestOptional;
+            }
+            else if (largestOptional == bestInHeading) {
+                coherenceScore = 1.5f * largestOptional;
+            }
+            else if (largestOptional == best) {
+                coherenceScore = 0.75f * largestOptional;
+            }
+
+            coherenceScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+        }
 
         float[] weightedCounts = new float[compiledQuery.size()];
         int firstPosition = Integer.MAX_VALUE;
@@ -255,12 +270,7 @@ public class IndexResultScoreCalculator {
                 + topologyBonus
                 + temporalBias
                 + flagsPenalty
-                + bestCoherenceAll
-                + bestCoherenceTitle
-                + bestCoherenceHeading
-                + numCoherenceAll / 4.
-                + (allInTitle ? 5.0 : 0)
-                + (allInHeading ? 2.5 : 0);
+                + coherenceScore;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
         double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.max(1, firstPosition));
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index f9364639..c1d64c3d 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -82,6 +82,17 @@ public class TermCoherenceGroupList {
         return true;
     }
 
+    public int numOptional() {
+        return optionalGroups.size();
+    }
+    public int largestOptional() {
+        int best = 0;
+        for (var coherenceSet : optionalGroups) {
+            best = Math.max(coherenceSet.size, best);
+        }
+        return best;
+    }
+
 
     public static final class TermCoherenceGroup {
         private final int[] offsets;

From bf26ead01001eefa2b5db2582b16a4d41bac5470 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 11:36:30 +0200
Subject: [PATCH 110/216] (index) Remove hasPrioTerm check as we should sort
 this out in ranking

---
 .../results/IndexResultRankingService.java    | 18 +---------
 .../results/IndexResultScoreCalculator.java   | 34 +++++--------------
 .../index/results/model/QuerySearchTerms.java |  3 --
 3 files changed, 10 insertions(+), 45 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 59fda6f8..90331d14 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -179,7 +179,6 @@ public class IndexResultRankingService {
     public QuerySearchTerms getSearchTerms(CompiledQuery<String> compiledQuery, SearchQuery searchQuery) {
 
         LongArrayList termIdsList = new LongArrayList();
-        LongArrayList termIdsPrio = new LongArrayList();
 
         TObjectLongHashMap<String> termToId = new TObjectLongHashMap<>(10, 0.75f, -1);
 
@@ -189,7 +188,7 @@ public class IndexResultRankingService {
             termToId.put(word, id);
         }
 
-        for (var term : searchQuery.searchTermsAdvice) {
+        for (var term : searchQuery.searchTermsPriority) {
             if (termToId.containsKey(term)) {
                 continue;
             }
@@ -199,21 +198,7 @@ public class IndexResultRankingService {
             termToId.put(term, id);
         }
 
-        for (var term : searchQuery.searchTermsPriority) {
-            if (termToId.containsKey(term)) {
-                long id = SearchTermsUtil.getWordId(term);
-                termIdsPrio.add(id);
-            }
-            else {
-                long id = SearchTermsUtil.getWordId(term);
-                termIdsList.add(id);
-                termIdsPrio.add(id);
-                termToId.put(term, id);
-            }
-        }
-
         var idsAll = new TermIdList(termIdsList);
-        var idsPrio = new TermIdList(termIdsPrio);
 
         var constraints = new ArrayList<TermCoherenceGroupList.TermCoherenceGroup>();
         for (var coherence : searchQuery.searchTermCoherences) {
@@ -222,7 +207,6 @@ public class IndexResultRankingService {
 
         return new QuerySearchTerms(termToId,
                 idsAll,
-                idsPrio,
                 new TermCoherenceGroupList(constraints)
         );
     }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 433ed3e2..32f5f78b 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -99,10 +99,6 @@ public class IndexResultScoreCalculator {
                 docMetadata,
                 htmlFeatures);
 
-        if (hasPrioTerm(searchTerms, positions)) {
-            score = 0.75 * score;
-        }
-
         searchResult.setScore(score);
 
         return searchResult;
@@ -123,19 +119,6 @@ public class IndexResultScoreCalculator {
         return false;
     }
 
-    private boolean hasPrioTerm(QuerySearchTerms searchTerms, CodedSequence[] positions) {
-        var allTerms = searchTerms.termIdsAll;
-        var prioTerms = searchTerms.termIdsPrio;
-
-        for (int i = 0; i < allTerms.size(); i++) {
-            if (positions[i] != null && prioTerms.contains(allTerms.at(i))) {
-                return true;
-            }
-        }
-
-        return false;
-    }
-
     private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
                                                    QueryStrategy queryStrategy)
     {
@@ -216,18 +199,19 @@ public class IndexResultScoreCalculator {
         // Calculate a bonus for keyword coherences when large ones exist
         int largestOptional = coherences.largestOptional();
         if (largestOptional >= 2) {
-
-            int bestInTitle = coherences.testOptional(positions, spans.title);
-            int bestInHeading = coherences.testOptional(positions, spans.heading);
-            int best = coherences.testOptional(positions);
-
-            if (largestOptional == bestInTitle) {
+            if (largestOptional == coherences.testOptional(positions, spans.title)) {
                 coherenceScore = 2.0f * largestOptional;
             }
-            else if (largestOptional == bestInHeading) {
+            else if (largestOptional == coherences.testOptional(positions, spans.heading)) {
                 coherenceScore = 1.5f * largestOptional;
             }
-            else if (largestOptional == best) {
+            else if (largestOptional == coherences.testOptional(positions, spans.anchor)) {
+                coherenceScore = 0.2f * largestOptional;
+            }
+            else if (largestOptional == coherences.testOptional(positions, spans.nav)) {
+                coherenceScore = 0.1f * largestOptional;
+            }
+            else if (largestOptional == coherences.testOptional(positions)) {
                 coherenceScore = 0.75f * largestOptional;
             }
 
diff --git a/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java b/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java
index bbb7cf30..d72e0ea9 100644
--- a/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java
+++ b/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java
@@ -6,17 +6,14 @@ import nu.marginalia.index.results.model.ids.TermIdList;
 public class QuerySearchTerms {
     private final TObjectLongHashMap<String> termToId;
     public final TermIdList termIdsAll;
-    public final TermIdList termIdsPrio;
 
     public final TermCoherenceGroupList coherences;
 
     public QuerySearchTerms(TObjectLongHashMap<String> termToId,
                             TermIdList termIdsAll,
-                            TermIdList termIdsPrio,
                             TermCoherenceGroupList coherences) {
         this.termToId = termToId;
         this.termIdsAll = termIdsAll;
-        this.termIdsPrio = termIdsPrio;
         this.coherences = coherences;
     }
 

From 8462e88b8fed60daaa974db1ee604a76faa6add1 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 12:04:23 +0200
Subject: [PATCH 111/216] (index) Add min-dist factor and adjust rankings

---
 .../results/ResultRankingParameters.java      |  2 +-
 .../results/IndexResultScoreCalculator.java   | 37 ++++++++++---
 .../sequence/SequenceOperations.java          | 53 +++++++++++++++++++
 .../sequence/SequenceOperationsTest.java      | 12 +++++
 4 files changed, 95 insertions(+), 9 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
index 7a5b7937..68e2b094 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
@@ -50,7 +50,7 @@ public class ResultRankingParameters {
                 .shortSentencePenalty(5)
                 .bm25Weight(1.)
                 .tcfAvgDist(25.)
-                .tcfFirstPosition(1) // FIXME: what's a good default?
+                .tcfFirstPosition(5) // FIXME: what's a good default?
                 .temporalBias(TemporalBias.NONE)
                 .temporalBiasWeight(1. / (5.))
                 .exportDebugData(false)
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 32f5f78b..1f802c2c 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.results;
 
+import it.unimi.dsi.fastutil.ints.IntIterator;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
@@ -25,6 +26,8 @@ import nu.marginalia.sequence.SequenceOperations;
 
 import javax.annotation.Nullable;
 import java.lang.foreign.Arena;
+import java.util.ArrayList;
+import java.util.List;
 
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.booleanAggregate;
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.intMaxMinAggregate;
@@ -221,18 +224,35 @@ public class IndexResultScoreCalculator {
         float[] weightedCounts = new float[compiledQuery.size()];
         int firstPosition = Integer.MAX_VALUE;
 
-        for (int i = 0; i < weightedCounts.length; i++) {
-            if (positions[i] != null) {
-                var iter = positions[i].iterator();
+        float keywordMinDistFac = 0;
+        if (positions.length > 2) {
+            List<IntIterator> iterators = new ArrayList<>(positions.length);
 
-                if (!ctx.regularMask.get(i)) {
-                    continue;
+            for (int i = 0; i < positions.length; i++) {
+                if (positions[i] != null && ctx.regularMask.get(i)) {
+                    iterators.add(positions[i].iterator());
                 }
+            }
+
+            if (iterators.size() > 2) {
+                int minDist = SequenceOperations.minDistance(iterators);
+
+                if (minDist < 32) {
+                    keywordMinDistFac = 2.0f / (1.f + (float) Math.sqrt(minDist));
+                } else {
+                    keywordMinDistFac = -1.0f * (float) Math.sqrt(minDist);
+                }
+            }
+        }
+
+        for (int i = 0; i < weightedCounts.length; i++) {
+            if (positions[i] != null && ctx.regularMask.get(i)) {
+                var iter = positions[i].iterator();
 
                 while (iter.hasNext()) {
                     int pos = iter.nextInt();
 
-                    firstPosition = Math.min(firstPosition, pos);
+                    firstPosition = Math.max(firstPosition, pos);
 
                     if (spans.title.containsPosition(pos) || spans.heading.containsPosition(pos))
                         weightedCounts[i] += 2.5f;
@@ -254,10 +274,11 @@ public class IndexResultScoreCalculator {
                 + topologyBonus
                 + temporalBias
                 + flagsPenalty
-                + coherenceScore;
+                + coherenceScore
+                + keywordMinDistFac;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
-        double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.max(1, firstPosition));
+        double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(Math.max(1, firstPosition)));
 
         double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
         double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 11df084e..64ee2b5a 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -4,6 +4,8 @@ import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 
+import java.util.List;
+
 public class SequenceOperations {
 
     /** Return true if the sequences intersect, false otherwise.
@@ -142,4 +144,55 @@ public class SequenceOperations {
 
         return minDistance;
     }
+
+    public static int minDistance(List<IntIterator> iterators) {
+        if (iterators.size() <= 1)
+            return 0;
+
+        int[] values = new int[iterators.size()];
+
+        for (int i = 0; i < iterators.size(); i++) {
+            if (iterators.get(i).hasNext())
+                values[i] = iterators.get(i).nextInt();
+            else
+                return 0;
+        }
+
+        int minDist = Integer.MAX_VALUE;
+        int successes = 0;
+
+        int minVal = Integer.MAX_VALUE;
+        int maxVal = Integer.MIN_VALUE;
+
+        for (int val : values) {
+            minVal = Math.min(minVal, val);
+            maxVal = Math.max(maxVal, val);
+        }
+
+        minDist = Math.min(minDist, maxVal - minVal);
+
+        for (int i = 0; successes < iterators.size(); i = (i + 1) % iterators.size())
+        {
+            if (values[i] == minVal) {
+                if (!iterators.get(i).hasNext()) {
+                    break;
+                }
+                values[i] = iterators.get(i).nextInt();
+
+                if (values[i] > maxVal) {
+                    maxVal = values[i];
+                }
+                if (values[i] > minVal) {
+                    minVal = Integer.MAX_VALUE;
+                    for (int val : values) {
+                        minVal = Math.min(minVal, val);
+                    }
+                }
+
+                minDist = Math.min(minDist, maxVal - minVal);
+            }
+        }
+
+        return minDist;
+    }
 }
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index e77ce0c5..6e235407 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -4,6 +4,7 @@ import it.unimi.dsi.fastutil.ints.IntList;
 import org.junit.jupiter.api.Test;
 
 import java.nio.ByteBuffer;
+import java.util.List;
 
 import static org.junit.jupiter.api.Assertions.*;
 
@@ -83,4 +84,15 @@ class SequenceOperationsTest {
         assertFalse(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator()));
     }
 
+    @Test
+    void testMinDistance() {
+        ByteBuffer wa = ByteBuffer.allocate(1024);
+        GammaCodedSequence seq1 = GammaCodedSequence.generate(wa, 11, 80, 160);
+        GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 20, 50, 100);
+        GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 30, 60, 90);
+
+        assertEquals(19, SequenceOperations.minDistance(List.of(seq1.iterator(), seq2.iterator(), seq3.iterator())));
+
+
+    }
 }
\ No newline at end of file

From e48f52fabaaee971822c3a4c0f62ef46eaf5e967 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 13:24:03 +0200
Subject: [PATCH 112/216] (experiment) Add add-hoc filter runner

---
 .../classifier/topic/AdHocDetector.java       | 53 +++++++++++++++++++
 .../tools/ExperimentRunnerMain.java           |  2 +-
 .../tools/experiments/TopicExperiment.java    | 36 ++++++-------
 3 files changed, 70 insertions(+), 21 deletions(-)
 create mode 100644 code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/AdHocDetector.java

diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/AdHocDetector.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/AdHocDetector.java
new file mode 100644
index 00000000..2e52c865
--- /dev/null
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/classifier/topic/AdHocDetector.java
@@ -0,0 +1,53 @@
+package nu.marginalia.converting.processor.classifier.topic;
+
+import ca.rmen.porterstemmer.PorterStemmer;
+import nu.marginalia.language.model.DocumentLanguageData;
+import org.apache.commons.lang3.StringUtils;
+
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+
+import static java.lang.Math.max;
+import static java.lang.Math.sqrt;
+
+public class AdHocDetector {
+    private static final int AVG_LENGTH = 1000;
+
+    private final Map<String, Double> termValues = new HashMap<>();
+
+    public AdHocDetector(List<String> terms) {
+        PorterStemmer ps = new PorterStemmer();
+
+        for (String term : terms) {
+            String[] parts = StringUtils.split(term, ' ');
+            termValues.put(ps.stemWord(parts[0]), Double.parseDouble(parts[1]));
+        }
+    }
+
+    public double testP(DocumentLanguageData dld) {
+
+        Map<String, Double> values = new HashMap<>();
+        int count = 0;
+        for (var sentence : dld) {
+
+            for (var stemmed : sentence.stemmedWords) {
+                count++;
+
+                final Double value = termValues.get(stemmed);
+
+                if (value != null) {
+                    values.merge(stemmed, value, (a,b) -> 0.5*a + b);
+                }
+            }
+
+        }
+
+        if (count == 0) return 0.;
+
+        double lengthPenalty = sqrt(AVG_LENGTH)/sqrt(max(AVG_LENGTH, count));
+
+        return values.values().stream().mapToDouble(Double::valueOf).sum() * lengthPenalty;
+    }
+
+}
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java b/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
index a7879747..d71e0f47 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
@@ -28,7 +28,7 @@ public class ExperimentRunnerMain {
 
     public static void main(String... args) throws IOException {
         if (args.length < 2) {
-            System.err.println("Expected arguments: plan.yaml experiment-name [experiment-args]");
+            System.err.println("Expected arguments: crawl-data-path experiment-name [experiment-args]");
             return;
         }
 
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
index 5ea9551d..00ed63ac 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/TopicExperiment.java
@@ -1,25 +1,30 @@
 package nu.marginalia.tools.experiments;
 
 import com.google.inject.Inject;
+import lombok.SneakyThrows;
 import nu.marginalia.WmsaHome;
-import nu.marginalia.converting.processor.classifier.adblock.GoogleAnwersSpamDetector;
-import nu.marginalia.converting.processor.classifier.topic.RecipeDetector;
-import nu.marginalia.converting.processor.classifier.topic.TextileCraftDetector;
-import nu.marginalia.converting.processor.classifier.topic.WoodworkingDetector;
+import nu.marginalia.converting.processor.classifier.topic.AdHocDetector;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.crawldata.CrawledDomain;
 import nu.marginalia.tools.LegacyExperiment;
 import org.jsoup.Jsoup;
 
+import java.nio.file.Files;
+import java.nio.file.Path;
+
 public class TopicExperiment extends LegacyExperiment {
 
-    RecipeDetector recipeDetector = new RecipeDetector();
-    WoodworkingDetector woodworkingDetector = new WoodworkingDetector();
-    TextileCraftDetector textileCraftDetector = new TextileCraftDetector();
-    GoogleAnwersSpamDetector spamDetector = new GoogleAnwersSpamDetector();
+    AdHocDetector detector;
 
     SentenceExtractor se = new SentenceExtractor(WmsaHome.getLanguageModels());
+    Path filename = null;
+
+    @SneakyThrows
+    public void args(String... args) {
+        filename = Path.of(args[0]);
+        detector = new AdHocDetector(Files.readAllLines(filename));
+    }
 
     @Inject
     public TopicExperiment() {
@@ -38,20 +43,11 @@ public class TopicExperiment extends LegacyExperiment {
             parsed.body().filter(new DomPruningFilter(0.5));
             var dld = se.extractSentences(parsed);
 
-            if (dld.totalNumWords() < 250)
+            if (dld.totalNumWords() < 50)
                 continue;
 
-            if (textileCraftDetector.testP(dld) > 0.3) {
-                System.out.println("textilecraft\t" + doc.url);
-            }
-            if (woodworkingDetector.testP(dld) > 0.1) {
-                System.out.println("woodworking\t" + doc.url);
-            }
-            if (recipeDetector.testP(dld) > 0.5) {
-                System.out.println("recipe\t" + doc.url);
-            }
-            if (spamDetector.testP(parsed) > 0.5) {
-                System.out.println("GA spam\t" + doc.url);
+            if (detector.testP(dld) > 0.5) {
+                System.out.println("match\t" + doc.url);
             }
 
         }

From ec5a17ad139882779a45bee4ad909f6280e39ddb Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 14:07:02 +0200
Subject: [PATCH 113/216] (index) Tune ranking for verbatim matches in the
 title, rewarding shorter titles

---
 .../index/forward/spans/DocumentSpan.java        | 16 ++++++++++++++++
 .../results/IndexResultScoreCalculator.java      |  7 ++++++-
 2 files changed, 22 insertions(+), 1 deletion(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index f1f0c6c7..9daed76c 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -71,6 +71,22 @@ public class DocumentSpan {
         return startsEnds.iterator();
     }
 
+    public int length() {
+        if (null == startsEnds) {
+            return 0;
+        }
+
+        int len = 0;
+        var iter = startsEnds.iterator();
+
+        while (iter.hasNext()) {
+            len -= iter.nextInt();
+            len += iter.nextInt();
+        }
+
+        return len;
+    }
+
     public int size() {
         return startsEnds.valueCount() / 2;
     }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 1f802c2c..4d44b03a 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -197,13 +197,18 @@ public class IndexResultScoreCalculator {
             temporalBias = 0;
         }
 
+        final int titleLength = spans.title.length();
+
         float coherenceScore = 0.f;
 
         // Calculate a bonus for keyword coherences when large ones exist
         int largestOptional = coherences.largestOptional();
         if (largestOptional >= 2) {
             if (largestOptional == coherences.testOptional(positions, spans.title)) {
-                coherenceScore = 2.0f * largestOptional;
+                // verbatim title match
+                coherenceScore = 4.0f * largestOptional;
+                // additional bonus if the match is most of the title's length
+                coherenceScore += 2.f * largestOptional / titleLength;
             }
             else if (largestOptional == coherences.testOptional(positions, spans.heading)) {
                 coherenceScore = 1.5f * largestOptional;

From dd15676d335af9636ebedd040395c5763644c877 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 14:18:04 +0200
Subject: [PATCH 114/216] (index) Tune ranking for verbatim matches in the
 title, rewarding shorter titles

---
 .../results/IndexResultScoreCalculator.java   | 84 ++++++++++++++-----
 1 file changed, 63 insertions(+), 21 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 4d44b03a..730cd718 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -201,30 +201,52 @@ public class IndexResultScoreCalculator {
 
         float coherenceScore = 0.f;
 
+        boolean verbatimMatchInTitle;
+        boolean verbatimMatchInHeading;
+        boolean verbatimMatchInAnchor;
+        boolean verbatimMatchInNav;
+        boolean verbatimMatchInCode;
+        boolean verbatimMatchInBody;
+
         // Calculate a bonus for keyword coherences when large ones exist
         int largestOptional = coherences.largestOptional();
         if (largestOptional >= 2) {
-            if (largestOptional == coherences.testOptional(positions, spans.title)) {
-                // verbatim title match
-                coherenceScore = 4.0f * largestOptional;
-                // additional bonus if the match is most of the title's length
-                coherenceScore += 2.f * largestOptional / titleLength;
-            }
-            else if (largestOptional == coherences.testOptional(positions, spans.heading)) {
-                coherenceScore = 1.5f * largestOptional;
-            }
-            else if (largestOptional == coherences.testOptional(positions, spans.anchor)) {
-                coherenceScore = 0.2f * largestOptional;
-            }
-            else if (largestOptional == coherences.testOptional(positions, spans.nav)) {
-                coherenceScore = 0.1f * largestOptional;
-            }
-            else if (largestOptional == coherences.testOptional(positions)) {
-                coherenceScore = 0.75f * largestOptional;
-            }
-
-            coherenceScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+            verbatimMatchInTitle = (largestOptional == coherences.testOptional(positions, spans.title));
+            verbatimMatchInHeading = (largestOptional == coherences.testOptional(positions, spans.heading));
+            verbatimMatchInAnchor = (largestOptional == coherences.testOptional(positions, spans.anchor));
+            verbatimMatchInNav = (largestOptional == coherences.testOptional(positions, spans.nav));
+            verbatimMatchInCode = (largestOptional == coherences.testOptional(positions, spans.code));
+            verbatimMatchInBody = (largestOptional == coherences.testOptional(positions));
         }
+        else {
+            verbatimMatchInTitle = false;
+            verbatimMatchInHeading = false;
+            verbatimMatchInAnchor = false;
+            verbatimMatchInNav = false;
+            verbatimMatchInCode = false;
+            verbatimMatchInBody = false;
+        }
+
+        if (verbatimMatchInTitle) {
+            // verbatim title match
+            coherenceScore = 4.0f * largestOptional;
+            // additional bonus if the match is most of the title's length
+            coherenceScore += 2.f * largestOptional / titleLength;
+        }
+        else if (verbatimMatchInHeading) {
+            coherenceScore = 1.5f * largestOptional;
+        }
+        else if (verbatimMatchInAnchor || verbatimMatchInCode) {
+            coherenceScore = 0.2f * largestOptional;
+        }
+        else if (verbatimMatchInNav) {
+            coherenceScore = 0.1f * largestOptional;
+        }
+        else if (verbatimMatchInBody) {
+            coherenceScore = 0.75f * largestOptional;
+        }
+
+        coherenceScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
 
         float[] weightedCounts = new float[compiledQuery.size()];
         int firstPosition = Integer.MAX_VALUE;
@@ -250,8 +272,14 @@ public class IndexResultScoreCalculator {
             }
         }
 
+        int searchableKeywordsCount = 0;
+        int unorderedMatchInTitleCount = 0;
+        int unorderedMatchInHeadingCount = 0;
+
         for (int i = 0; i < weightedCounts.length; i++) {
             if (positions[i] != null && ctx.regularMask.get(i)) {
+                searchableKeywordsCount ++;
+
                 var iter = positions[i].iterator();
 
                 while (iter.hasNext()) {
@@ -259,8 +287,14 @@ public class IndexResultScoreCalculator {
 
                     firstPosition = Math.max(firstPosition, pos);
 
-                    if (spans.title.containsPosition(pos) || spans.heading.containsPosition(pos))
+                    if (spans.title.containsPosition(pos)) {
+                        unorderedMatchInTitleCount++;
                         weightedCounts[i] += 2.5f;
+                    }
+                    else if (spans.heading.containsPosition(pos)) {
+                        unorderedMatchInHeadingCount++;
+                        weightedCounts[i] += 2.5f;
+                    }
                     else if (spans.code.containsPosition(pos))
                         weightedCounts[i] += 0.25f;
                     else if (spans.anchor.containsPosition(pos))
@@ -271,6 +305,14 @@ public class IndexResultScoreCalculator {
             }
         }
 
+        if (!verbatimMatchInTitle && unorderedMatchInTitleCount == searchableKeywordsCount) {
+            coherenceScore += 2.5f * unorderedMatchInTitleCount;
+            coherenceScore += 2.f * unorderedMatchInTitleCount / titleLength;
+        }
+
+        if (!verbatimMatchInHeading && unorderedMatchInHeadingCount == searchableKeywordsCount) {
+            coherenceScore += 2.0f * unorderedMatchInHeadingCount;
+        }
 
         double overallPart = averageSentenceLengthPenalty
                 + documentLengthPenalty

From b21f8538a83ffa523c00658fedc9da5e9be75239 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 14:41:38 +0200
Subject: [PATCH 115/216] (index) Tune ranking for verbatim matches in the
 title, rewarding shorter titles

---
 .../results/IndexResultScoreCalculator.java      | 16 +++++++++++++---
 1 file changed, 13 insertions(+), 3 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 730cd718..74895cf2 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -280,6 +280,9 @@ public class IndexResultScoreCalculator {
             if (positions[i] != null && ctx.regularMask.get(i)) {
                 searchableKeywordsCount ++;
 
+                boolean titleMatch = false;
+                boolean headingMatch = false;
+
                 var iter = positions[i].iterator();
 
                 while (iter.hasNext()) {
@@ -288,11 +291,11 @@ public class IndexResultScoreCalculator {
                     firstPosition = Math.max(firstPosition, pos);
 
                     if (spans.title.containsPosition(pos)) {
-                        unorderedMatchInTitleCount++;
+                        titleMatch = true;
                         weightedCounts[i] += 2.5f;
                     }
                     else if (spans.heading.containsPosition(pos)) {
-                        unorderedMatchInHeadingCount++;
+                        headingMatch = true;
                         weightedCounts[i] += 2.5f;
                     }
                     else if (spans.code.containsPosition(pos))
@@ -302,10 +305,17 @@ public class IndexResultScoreCalculator {
                     else if (spans.nav.containsPosition(pos))
                         weightedCounts[i] += 0.1f;
                 }
+
+                if (titleMatch) {
+                    unorderedMatchInTitleCount++;
+                }
+                if (headingMatch) {
+                    unorderedMatchInHeadingCount++;
+                }
             }
         }
 
-        if (!verbatimMatchInTitle && unorderedMatchInTitleCount == searchableKeywordsCount) {
+        if (!verbatimMatchInTitle && searchableKeywordsCount > 2 && unorderedMatchInTitleCount == searchableKeywordsCount) {
             coherenceScore += 2.5f * unorderedMatchInTitleCount;
             coherenceScore += 2.f * unorderedMatchInTitleCount / titleLength;
         }

From ee49c01d8663451c8200e998087cfb79283ecf82 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 3 Aug 2024 14:47:23 +0200
Subject: [PATCH 116/216] (index) Tune ranking for verbatim matches in the
 title, rewarding shorter titles

---
 .../index/results/IndexResultScoreCalculator.java           | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 74895cf2..aa414c1e 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -197,7 +197,7 @@ public class IndexResultScoreCalculator {
             temporalBias = 0;
         }
 
-        final int titleLength = spans.title.length();
+        final int titleLength = Math.max(1, spans.title.length());
 
         float coherenceScore = 0.f;
 
@@ -246,7 +246,9 @@ public class IndexResultScoreCalculator {
             coherenceScore = 0.75f * largestOptional;
         }
 
-        coherenceScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+        if (coherences.numOptional() > 0) {
+            coherenceScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+        }
 
         float[] weightedCounts = new float[compiledQuery.size()];
         int firstPosition = Integer.MAX_VALUE;

From 9bc665628b1e09cccfb8efeba15f9b2806a5c2fc Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 4 Aug 2024 10:57:52 +0200
Subject: [PATCH 117/216] (slop) VarintLE implementation, correct enum8 column

---
 code/libraries/slop/build.gradle              |   2 -
 .../slop/column/dynamic/VarintColumn.java     | 197 +++++++++++++++++-
 .../slop/column/string/EnumColumn.java        |   4 +-
 .../slop/column/VarintColumnTest.java         |  48 +++++
 4 files changed, 241 insertions(+), 10 deletions(-)

diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
index 55b890fd..e2612734 100644
--- a/code/libraries/slop/build.gradle
+++ b/code/libraries/slop/build.gradle
@@ -16,8 +16,6 @@ sourceSets {
         java {
             srcDirs = [
                     'java',
-                    'build/generated/source/proto/main/grpc',
-                    'build/generated/source/proto/main/java'
             ]
         }
         resources {
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
index 9a8f08a9..08d42fcd 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
@@ -6,25 +6,36 @@ import nu.marginalia.slop.storage.StorageReader;
 import nu.marginalia.slop.storage.StorageWriter;
 
 import java.io.IOException;
+import java.nio.ByteOrder;
 import java.nio.file.Path;
 
 public class VarintColumn {
 
     public static VarintColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
+        if (columnDesc.byteOrder() == ByteOrder.BIG_ENDIAN) {
+            return new ReaderBE(columnDesc, Storage.reader(path, columnDesc, true));
+        }
+        else {
+            return new ReaderLE(columnDesc, Storage.reader(path, columnDesc, true));
+        }
+
     }
 
     public static VarintColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
+        if (columnDesc.byteOrder() == ByteOrder.BIG_ENDIAN) {
+            return new WriterBE(columnDesc, Storage.writer(path, columnDesc));
+        } else {
+            return new WriterLE(columnDesc, Storage.writer(path, columnDesc));
+        }
     }
 
 
-    private static class Writer implements VarintColumnWriter {
+    private static class WriterBE implements VarintColumnWriter {
         private final ColumnDesc<?, ?> columnDesc;
         private final StorageWriter writer;
         private long position = 0;
 
-        public Writer(ColumnDesc<?,?> columnDesc, StorageWriter writer) throws IOException {
+        public WriterBE(ColumnDesc<?,?> columnDesc, StorageWriter writer) throws IOException {
             this.columnDesc = columnDesc;
             this.writer = writer;
         }
@@ -59,13 +70,114 @@ public class VarintColumn {
         }
     }
 
-    private static class Reader implements VarintColumnReader {
+    private static class WriterLE implements VarintColumnWriter {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final StorageWriter writer;
+        private long position = 0;
+
+        public WriterLE(ColumnDesc<?,?> columnDesc, StorageWriter writer) throws IOException {
+            this.columnDesc = columnDesc;
+            this.writer = writer;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        public void put(long value) throws IOException {
+            position++;
+
+            if (value < 0)
+                throw new IllegalArgumentException("Value must be positive");
+
+            if (value < (1<<7)) {
+                writer.putByte((byte) value);
+            }
+            else if (value < (1<<14)) {
+                writer.putByte((byte) (value >>> (7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else if (value < (1<<21)) {
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else if (value < (1<<28)) {
+                writer.putByte((byte) ((value >>> 21) | 0x80));
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else if (value < (1L<<35)) {
+                writer.putByte((byte) ((value >>> 28) | 0x80));
+                writer.putByte((byte) ((value >>> 21) | 0x80));
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else if (value < (1L<<42)) {
+                writer.putByte((byte) ((value >>> 35) | 0x80));
+                writer.putByte((byte) ((value >>> 28) | 0x80));
+                writer.putByte((byte) ((value >>> 21) | 0x80));
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else if (value < (1L<<49)) {
+                writer.putByte((byte) ((value >>> 42) | 0x80));
+                writer.putByte((byte) ((value >>> 35) | 0x80));
+                writer.putByte((byte) ((value >>> 28) | 0x80));
+                writer.putByte((byte) ((value >>> 21) | 0x80));
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else if (value < (1L<<56)) {
+                writer.putByte((byte) ((value >>> 49) | 0x80));
+                writer.putByte((byte) ((value >>> 42) | 0x80));
+                writer.putByte((byte) ((value >>> 35) | 0x80));
+                writer.putByte((byte) ((value >>> 28) | 0x80));
+                writer.putByte((byte) ((value >>> 21) | 0x80));
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+            else {
+                writer.putByte((byte) ((value >>> 56) | 0x80));
+                writer.putByte((byte) ((value >>> 49) | 0x80));
+                writer.putByte((byte) ((value >>> 42) | 0x80));
+                writer.putByte((byte) ((value >>> 35) | 0x80));
+                writer.putByte((byte) ((value >>> 28) | 0x80));
+                writer.putByte((byte) ((value >>> 21) | 0x80));
+                writer.putByte((byte) ((value >>> 14) | 0x80));
+                writer.putByte((byte) ((value >>> 7) | 0x80));
+                writer.putByte((byte) (value & 0x7F));
+            }
+        }
+
+        public void put(long[] values) throws IOException {
+            for (long val : values) {
+                put(val);
+            }
+        }
+
+        public long position() {
+            return position;
+        }
+
+        public void close() throws IOException {
+            writer.close();
+        }
+    }
+
+    private static class ReaderBE implements VarintColumnReader {
         private final ColumnDesc<?, ?> columnDesc;
         private final StorageReader reader;
 
         private long position = 0;
 
-        public Reader(ColumnDesc<?,?> columnDesc, StorageReader reader) throws IOException {
+        public ReaderBE(ColumnDesc<?,?> columnDesc, StorageReader reader) throws IOException {
             this.columnDesc = columnDesc;
             this.reader = reader;
         }
@@ -130,4 +242,77 @@ public class VarintColumn {
         }
     }
 
+    private static class ReaderLE implements VarintColumnReader {
+        private final ColumnDesc<?, ?> columnDesc;
+        private final StorageReader reader;
+
+        private long position = 0;
+
+        public ReaderLE(ColumnDesc<?,?> columnDesc, StorageReader reader) throws IOException {
+            this.columnDesc = columnDesc;
+            this.reader = reader;
+        }
+
+        @Override
+        public ColumnDesc<?, ?> columnDesc() {
+            return columnDesc;
+        }
+
+        public int get() throws IOException {
+            position++;
+
+            byte b = reader.getByte();
+            if ((b & 0x80) == 0) {
+                return b;
+            }
+
+            int value = b & 0x7F;
+            do {
+                b = reader.getByte();
+                value = (value << 7) | (b & 0x7F);
+            } while ((b & 0x80) != 0);
+
+
+            return value;
+        }
+
+        public long getLong() throws IOException {
+            position++;
+
+            byte b = reader.getByte();
+            if ((b & 0x80) == 0) {
+                return b;
+            }
+
+            long value = b & 0x7F;
+            do {
+                b = reader.getByte();
+                value = value << 7 | (b & 0x7F);
+            } while ((b & 0x80) != 0);
+
+            return value;
+        }
+
+        @Override
+        public long position() {
+            return position;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (long i = 0; i < positions; i++) {
+                get();
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return reader.hasRemaining();
+        }
+
+        @Override
+        public void close() throws IOException {
+            reader.close();
+        }
+    }
 }
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
index f2d36e0a..0470f5fa 100644
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
+++ b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
@@ -39,7 +39,7 @@ public class EnumColumn {
         );
     }
     public static EnumColumnReader open8(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(
+        return new Reader8(
                 columnDesc,
                 StringColumn.open(path,
                         columnDesc.createSupplementaryColumn(
@@ -47,7 +47,7 @@ public class EnumColumn {
                                 ColumnType.TXTSTRING,
                                 StorageType.PLAIN)
                 ),
-                VarintColumn.open(path,
+                ByteColumn.open(path,
                         columnDesc.createSupplementaryColumn(
                                 ColumnFunction.DATA,
                                 ColumnType.BYTE,
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
index 5dbf180b..78e29a01 100644
--- a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
+++ b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
@@ -12,6 +12,9 @@ import org.junit.jupiter.api.Test;
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Random;
 
 import static org.junit.jupiter.api.Assertions.assertEquals;
 
@@ -99,4 +102,49 @@ class VarintColumnTest {
         }
     }
 
+    @Test
+    void testFuzz() throws IOException {
+        var name1 = new ColumnDesc("test1",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.VARINT_LE,
+                StorageType.PLAIN);
+
+        var name2 = new ColumnDesc("test2",
+                0,
+                ColumnFunction.DATA,
+                ColumnType.VARINT_BE,
+                StorageType.PLAIN);
+
+        List<Long> values = new ArrayList<>();
+        var rand = new Random();
+
+        for (int i = 0; i < 50_000; i++) {
+            values.add(rand.nextLong(0, Short.MAX_VALUE));
+            values.add(rand.nextLong(0, Byte.MAX_VALUE));
+            values.add(rand.nextLong(0, Integer.MAX_VALUE));
+            values.add(rand.nextLong(0, Long.MAX_VALUE));
+        }
+
+        try (var column1 = VarintColumn.create(tempDir, name1);
+             var column2 = VarintColumn.create(tempDir, name2)
+        ) {
+            for (var value : values) {
+                column1.put(value);
+                column2.put(value);
+            }
+        }
+        try (var column1 = VarintColumn.open(tempDir, name1);
+                var column2 = VarintColumn.open(tempDir, name2)
+            ) {
+                int idx = 0;
+                for (var value : values) {
+                    idx++;
+                    assertEquals(value, column1.getLong(), " idx: " + idx);
+                    assertEquals(value, column2.getLong());
+                }
+            }
+
+    }
+
 }
\ No newline at end of file

From c379be846c01bb8eef66b7d7e6fdd42ef2b45628 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 4 Aug 2024 10:58:23 +0200
Subject: [PATCH 118/216] (slop) Update readme

---
 code/libraries/slop/readme.md | 50 ++++++++++++++++++++++++-----------
 1 file changed, 34 insertions(+), 16 deletions(-)

diff --git a/code/libraries/slop/readme.md b/code/libraries/slop/readme.md
index 99e52782..49ece70c 100644
--- a/code/libraries/slop/readme.md
+++ b/code/libraries/slop/readme.md
@@ -25,7 +25,7 @@ average-age.0.dat.f64le.gz
 
 The slop library offers some facilities to aid with data integrity, such as the SlopTable
 class, which is a wrapper that ensures consistent positions for a group of columns, and aids 
-in closing the columns when they are no longer needed.
+in closing the columns when they are no longer needed.  Beyond that, you're on your own.
 
 ## Why though?
 
@@ -44,26 +44,42 @@ than a parquet file containing the equivalent information.
 Slop is simple.
 
 There isn't much magic going on under the hood in Slop.  It's designed with the philosophy that a competent programmer
-should be able to reverse engineer the format of the data by just
-looking at a directory listing of the data files.
+should be able to reverse engineer the format of the data by just looking 
+at a directory listing of the data files.  Despite being a very obscure library, 
+this gives the data a sort of portability.
 
 
 ### Relaxed 1BRC (no CSV ingestion time)
 
-Slop is reasonably competitive with DuckDB in terms of read speed,
-especially when reading from Parquet, and the data on disk tends 
-to be smaller.
+A benchmark against DuckDB, which is another excellent columnar storage library, albeit
+one that is more featureful and safe than Slop is.
 
-This is noteworthy given Slop is a single-threaded JVM application,
-and DuckDB is a multi-threaded C++ application.
+The benchmark is a relaxed 1BRC, aggregate a billion rows of temperature data by city, 
+and then calculate max/min/avg.  This omits the CSV ingestion time from the original
+challenge, which means the numbers are not directly comparable with other 1BRC benchmarks.
 
-| Impl                       | Runtime | Size On Disk |
-|----------------------------|---------|--------------|
-| DuckDB in memory           | 2.6s    | 3.0 GB       |
-| Slop in vanilla Java s16   | 4.2s    | 2.8 GB       |
-| Slop in vanilla Java s32   | 4.5s    | 3.8 GB       |
-| Parquet (Snappy) in DuckDB | 4.5s    | 5.5 GB       |
-| Parquet (Zstd) in DuckDB   | 5.5s    | 3.0 GB       |
+| Impl                                    | Runtime | Size On Disk |
+|-----------------------------------------|---------|--------------|
+| Parallel Slop, s16                      | 0.64s   | 2.8 GB       |
+| Parallel Slop, varint                   | 0.90s   | 2.8 GB       |
+| DuckDB<sup>1</sup>                      | 2.6s    | 3.0 GB       |
+| Slop, s16                               | 4.2s    | 2.8 GB       |
+| Slop, s32                               | 4.5s    | 3.8 GB       |
+| Parquet<sup>2</sup> (Snappy) in DuckDB  | 4.5s    | 5.5 GB       |
+| Parquet<sup>2</sup> (Zstd) in DuckDB    | 5.5s    | 3.0 GB       |
+| JDBC<sup>3</sup>                        | 6500s   | 3.0 GB       |
+
+<sup>[1]</sup> Benchmark loads the data into DuckDB's native table format, 
+performs an aggregation within the database, and then fetches the results via JDBC.
+
+<sup>[2]</sup> Benchmark loads the data from Parquet in DuckDB, performs an 
+aggregation within the database, and then fetches the results via JDBC.
+
+<sup>[3]</sup> Benchmark loads the data into DuckDB's native table format, 
+then streaming it as-is over JDBC to Java for processing, with fetch size = 1000.
+This is a very common usage pattern in Enterprise Java applications, although
+usually you'd have an ORM in between the JDBC and the application code adding even
+more overhead.  The numbers are extrapolated from a 100M benchmark, as I value my time.
 
 ## Example
 
@@ -131,7 +147,9 @@ record Population(String city, int population, double avgAge) {
 
 ## Nested Records
 
-TBW
+Nested records are not supported in slop, although array values are supported.  If you need to store nested records,
+you've got the options of flattening them, representing them as arrays, or serializing them into a byte array and 
+storing that.
 
 ## Column Types
 

From 2080e316169f8b5d272f554e6afc7072f99067cb Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 4 Aug 2024 12:00:29 +0200
Subject: [PATCH 119/216] (converter) Store link text positions

To help offer verbatim matches for external link texts, we assign these positions in the document a bit after the actual document ends.  Integrating this information with the ranking is not performed here.
---
 .../index/forward/spans/DocumentSpan.java     |  4 ++
 .../forward/ForwardIndexSpansReaderTest.java  |  8 +--
 .../language/sentence/tag/HtmlTag.java        |  7 ++-
 .../marginalia/atags/AnchorTextKeywords.java  | 53 +++++++++++--------
 .../atags/DomainAnchorTagsImplTest.java       |  3 --
 .../keyword/DocumentKeywordExtractor.java     | 48 ++++++++++++++---
 .../java/nu/marginalia/keyword/LinkTexts.java | 19 +++++++
 .../model/DocumentKeywordsBuilder.java        | 16 ------
 .../keyword/DocumentKeywordExtractorTest.java |  4 +-
 .../keyword/SentenceExtractorTest.java        |  2 +-
 .../processor/DocumentDecorator.java          |  9 +---
 .../processor/DocumentProcessor.java          | 21 ++++++--
 .../converting/processor/DomainProcessor.java |  4 +-
 .../AbstractDocumentProcessorPlugin.java      |  3 +-
 .../plugin/HtmlDocumentProcessorPlugin.java   |  7 ++-
 .../PlainTextDocumentProcessorPlugin.java     |  7 ++-
 .../sideload/SideloaderProcessing.java        |  4 +-
 .../sideload/dirtree/DirtreeSideloader.java   |  2 +
 .../EncyclopediaMarginaliaNuSideloader.java   | 12 ++---
 .../sideload/reddit/RedditSideloader.java     | 20 +++----
 .../StackexchangeSideloader.java              |  8 ++-
 .../sideload/warc/WarcSideloader.java         |  2 +
 .../summary/SummaryExtractorTest.java         |  4 +-
 .../tools/ExperimentRunnerMain.java           |  1 -
 .../tools/experiments/AtagsExperiment.java    | 52 ------------------
 .../SentenceStatisticsExperiment.java         |  3 +-
 26 files changed, 170 insertions(+), 153 deletions(-)
 create mode 100644 code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/LinkTexts.java
 delete mode 100644 code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 9daed76c..b2a4def4 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -88,6 +88,10 @@ public class DocumentSpan {
     }
 
     public int size() {
+        if (null == startsEnds) {
+            return 0;
+        }
+
         return startsEnds.valueCount() / 2;
     }
 }
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
index 055a50a4..72fa4b41 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
@@ -38,7 +38,7 @@ class ForwardIndexSpansReaderTest {
 
             writer.beginRecord(2);
             writer.writeSpan((byte) 'c', GammaCodedSequence.generate(wa, 2, 4, 6, 7).buffer());
-            writer.writeSpan((byte) 'p', GammaCodedSequence.generate(wa, 3, 5).buffer());
+            writer.writeSpan((byte) 'a', GammaCodedSequence.generate(wa, 3, 5).buffer());
             offset2 = writer.endRecord();
         }
 
@@ -59,10 +59,10 @@ class ForwardIndexSpansReaderTest {
             assertFalse(spans2.code.containsPosition(7));
             assertFalse(spans2.code.containsPosition(8));
 
-            assertEquals(1, spans2.pre.size());
+            assertEquals(1, spans2.anchor.size());
 
-            assertEquals(0, spans2.pageFooter.size());
-            assertFalse(spans2.pageFooter.containsPosition(8));
+            assertEquals(0, spans2.title.size());
+            assertFalse(spans2.title.containsPosition(8));
         }
     }
 }
\ No newline at end of file
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
index 89dd542a..b7fc1c9b 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
@@ -9,7 +9,12 @@ public enum HtmlTag {
     TITLE((byte) 't', false, false),
     HEADING((byte) 'h', false, false),
     CODE((byte) 'c', false, true),
-    NAV((byte) 'n', false, false);
+    NAV((byte) 'n', false, false),
+
+    // pseudo-tags for internal use
+    EXTERNAL_LINKTEXT((byte) 'x', false, false),
+
+    ;
 
     public byte code;
     public boolean exclude;
diff --git a/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
index 4b9ce5fb..2e0b6bd7 100644
--- a/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
+++ b/code/processes/converting-process/ft-anchor-keywords/java/nu/marginalia/atags/AnchorTextKeywords.java
@@ -2,7 +2,9 @@ package nu.marginalia.atags;
 
 import com.google.inject.Inject;
 import nu.marginalia.atags.model.DomainLinks;
-import nu.marginalia.keyword.KeywordExtractor;
+import nu.marginalia.atags.model.Link;
+import nu.marginalia.keyword.LinkTexts;
+import nu.marginalia.language.model.DocumentSentence;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.EdgeUrl;
@@ -13,14 +15,12 @@ import java.io.InputStreamReader;
 import java.util.*;
 
 public class AnchorTextKeywords {
-    private final KeywordExtractor keywordExtractor;
     private final SentenceExtractor sentenceExtractor;
     private final Set<String> stopList;
+
     @Inject
-    public AnchorTextKeywords(KeywordExtractor keywordExtractor,
-                              SentenceExtractor sentenceExtractor)
+    public AnchorTextKeywords(SentenceExtractor sentenceExtractor)
     {
-        this.keywordExtractor = keywordExtractor;
         this.sentenceExtractor = sentenceExtractor;
 
         stopList = readStoplist();
@@ -30,7 +30,7 @@ public class AnchorTextKeywords {
         Set<String> ret = new HashSet<>();
 
         try (var resource = Objects.requireNonNull(ClassLoader.getSystemResourceAsStream("atags-stop-list"),
-                "Could not load word frequency table");
+                "Could not load anchor tags stop list");
              var br = new BufferedReader(new InputStreamReader(resource))
         ) {
             while (true) {
@@ -47,29 +47,40 @@ public class AnchorTextKeywords {
         return ret;
     }
 
-    public Map<String, Integer> getAnchorTextKeywords(DomainLinks links, EdgeUrl url) {
-        var keywordsRaw = links.forUrl(url);
+    public LinkTexts getAnchorTextKeywords(DomainLinks links, EdgeUrl url) {
+        List<Link> keywordsRaw = links.forUrl(url);
+
+        List<DocumentSentence> ret = new ArrayList<>(keywordsRaw.size());
 
         // Extract and count keywords from anchor text
-        Map<String, Integer> wordsWithCount = new HashMap<>();
-        for (var keyword : keywordsRaw) {
+        for (Link keyword : keywordsRaw) {
             if (stopList.contains(keyword.text().toLowerCase()))
                 continue;
 
-            var sentence = sentenceExtractor.extractSentence(keyword.text(), EnumSet.noneOf(HtmlTag.class));
-            for (var wordSpan : keywordExtractor.getKeywordsFromSentence(sentence)) {
-                wordsWithCount.merge(sentence.constructWordFromSpan(wordSpan), 1, Integer::sum);
-            }
+            var sentence = sentenceExtractor.extractSentence(keyword.text(), EnumSet.of(HtmlTag.EXTERNAL_LINKTEXT));
+            ret.add(sentence);
         }
 
-        // Filter out keywords that appear infrequently
-        final Map<String, Integer> keywords = new HashMap<>(wordsWithCount.size());
-        for (var wordEntry : wordsWithCount.entrySet()) {
-            if (wordEntry.getValue() > 2) {
-                keywords.put(wordEntry.getKey(), wordEntry.getValue());
-            }
+        return new LinkTexts(ret);
+    }
+
+    public LinkTexts getAnchorTextKeywords(DomainLinks links, List<EdgeUrl> urls) {
+        List<Link> keywordsRaw = new ArrayList<>();
+        for (var url : urls) {
+            links.forUrl(url);
         }
 
-        return keywords;
+        List<DocumentSentence> ret = new ArrayList<>(keywordsRaw.size());
+
+        // Extract and count keywords from anchor text
+        for (Link keyword : keywordsRaw) {
+            if (stopList.contains(keyword.text().toLowerCase()))
+                continue;
+
+            var sentence = sentenceExtractor.extractSentence(keyword.text(), EnumSet.of(HtmlTag.EXTERNAL_LINKTEXT));
+            ret.add(sentence);
+        }
+
+        return new LinkTexts(ret);
     }
 }
diff --git a/code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java b/code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java
index 17443c51..143759ca 100644
--- a/code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java
+++ b/code/processes/converting-process/ft-anchor-keywords/test/nu/marginalia/atags/DomainAnchorTagsImplTest.java
@@ -1,11 +1,9 @@
 package nu.marginalia.atags;
 
 import nu.marginalia.atags.source.AnchorTagsImpl;
-import nu.marginalia.keyword.KeywordExtractor;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.segmentation.NgramLexicon;
 import nu.marginalia.util.TestLanguageModels;
 import org.junit.jupiter.api.Test;
 
@@ -39,7 +37,6 @@ class DomainAnchorTagsImplTest {
             System.out.println(tags.forUrl(new EdgeUrl("http://www.chiark.greenend.org.uk/~sgtatham/putt")));
 
             var atagsKeywords = new AnchorTextKeywords(
-                    new KeywordExtractor(),
                     new SentenceExtractor(
                             TestLanguageModels.getLanguageModels()
                     )
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index 8e28b550..c6f87dd0 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -36,7 +36,7 @@ public class DocumentKeywordExtractor {
     }
 
 
-    public DocumentKeywordsBuilder extractKeywords(DocumentLanguageData dld, EdgeUrl url) {
+    public DocumentKeywordsBuilder extractKeywords(DocumentLanguageData dld, LinkTexts linkTexts, EdgeUrl url) {
 
         var tfIdfCounts = new WordsTfIdfCounts(dict, keywordExtractor, dld);
 
@@ -55,7 +55,7 @@ public class DocumentKeywordExtractor {
 
         DocumentKeywordsBuilder wordsBuilder = new DocumentKeywordsBuilder();
 
-        createSimpleWords(wordsBuilder, keywordMetadata, dld);
+        createSimpleWords(wordsBuilder, keywordMetadata, dld, linkTexts);
 
         createNGramTermsFromSet(wordsBuilder, keywordMetadata, titleKeywords);
         createNGramTermsFromSet(wordsBuilder, keywordMetadata, subjectLikeKeywords);
@@ -103,17 +103,19 @@ public class DocumentKeywordExtractor {
 
     private void createSimpleWords(DocumentKeywordsBuilder wordsBuilder,
                                   KeywordMetadata metadata,
-                                  DocumentLanguageData dld)
+                                  DocumentLanguageData dld,
+                                  LinkTexts linkTexts)
     {
         // we use 1-based indexing since the data
         // will be gamma encoded, and it can't represent 0
         int pos = 0;
 
-        List<SpanRecorder> spanRecorders = List.of(
-                new SpanRecorder(HtmlTag.TITLE),
-                new SpanRecorder(HtmlTag.HEADING),
-                new SpanRecorder(HtmlTag.CODE)
-        );
+        List<SpanRecorder> spanRecorders = new ArrayList<>();
+        for (var htmlTag : HtmlTag.values()) {
+            if (!htmlTag.exclude) {
+                spanRecorders.add(new SpanRecorder(htmlTag));
+            }
+        }
 
         for (DocumentSentence sent : dld) {
 
@@ -155,6 +157,36 @@ public class DocumentKeywordExtractor {
         for (var recorder : spanRecorders) {
             wordsBuilder.addSpans(recorder.finish(pos));
         }
+
+        pos += 2; // add some padding to the end of the document before we start adding a-tag words
+
+        for (var linkText : linkTexts) {
+
+            for (var word : linkText) {
+                pos++;
+
+                if (word.isStopWord()) {
+                    continue;
+                }
+
+                String w = word.wordLowerCase();
+                if (matchesWordPattern(w)) {
+                    /* Add information about term positions */
+                    wordsBuilder.addPos(w, pos);
+
+                    /* Add metadata for word */
+                    wordsBuilder.addMeta(w, metadata.getMetadataForWord(word.stemmed()));
+                }
+            }
+
+            // add some padding between separate link texts so we don't match across their boundaries
+
+            pos+=2;
+        }
+
+        for (var recorder : spanRecorders) {
+            wordsBuilder.addSpans(recorder.finish(pos));
+        }
     }
 
     boolean matchesWordPattern(String s) {
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/LinkTexts.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/LinkTexts.java
new file mode 100644
index 00000000..c1ade6b4
--- /dev/null
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/LinkTexts.java
@@ -0,0 +1,19 @@
+package nu.marginalia.keyword;
+
+import nu.marginalia.language.model.DocumentSentence;
+import org.jetbrains.annotations.NotNull;
+
+import java.util.Iterator;
+import java.util.List;
+
+public record LinkTexts(List<DocumentSentence> linkTexts) implements Iterable<DocumentSentence> {
+    public LinkTexts() {
+        this(List.of());
+    }
+
+    @NotNull
+    @Override
+    public Iterator<DocumentSentence> iterator() {
+        return linkTexts.iterator();
+    }
+}
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 693e94a2..699cf096 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -113,22 +113,6 @@ public class DocumentKeywordsBuilder {
         newWords.forEach(word -> wordToMeta.putIfAbsent(word, meta));
     }
 
-    public void addAnchorTerms(Map<String, Integer> keywords) {
-        byte flagA = WordFlags.ExternalLink.asBit();
-        byte flagB = (byte) (flagA | WordFlags.Site.asBit());
-        byte flagC = (byte) (flagB | WordFlags.SiteAdjacent.asBit());
-
-        keywords.forEach((word, count) -> {
-            if (count > 5) {
-                wordToMeta.mergeByte(word, flagC, (a, b) -> (byte) (a|b));
-            } else if (count > 2) {
-                wordToMeta.mergeByte(word, flagB, (a, b) -> (byte) (a|b));
-            } else {
-                wordToMeta.mergeByte(word, flagA, (a, b) -> (byte) (a|b));
-            }
-        });
-    }
-
     public List<String> getWordsWithAnyFlag(long flags) {
         List<String> ret = new ArrayList<>();
 
diff --git a/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
index 71c3befe..83996e41 100644
--- a/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
+++ b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/DocumentKeywordExtractorTest.java
@@ -48,7 +48,7 @@ class DocumentKeywordExtractorTest {
         var doc = Jsoup.parse(html);
         doc.filter(new DomPruningFilter(0.5));
 
-        var keywords = extractor.extractKeywords(se.extractSentences(doc), new EdgeUrl("https://pmortensen.eu/world2/2021/12/24/rapoo-mechanical-keyboards-gotchas-and-setup/"));
+        var keywords = extractor.extractKeywords(se.extractSentences(doc), new LinkTexts(), new EdgeUrl("https://pmortensen.eu/world2/2021/12/24/rapoo-mechanical-keyboards-gotchas-and-setup/"));
 
         keywords.getWordToMeta().forEach((k, v) -> {
             if (k.contains("_")) {
@@ -68,7 +68,7 @@ class DocumentKeywordExtractorTest {
 
         var keywords = extractor.extractKeywords(
                 se.extractSentences(doc),
-                new EdgeUrl("https://encyclopedia.marginalia.nu/article/Don't_Tell_Me_(Madonna_song)")
+                new LinkTexts(), new EdgeUrl("https://encyclopedia.marginalia.nu/article/Don't_Tell_Me_(Madonna_song)")
         );
 
         var keywordsBuilt = keywords.build(ByteBuffer.allocate(1024));
diff --git a/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
index fe868e68..4efa274d 100644
--- a/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
+++ b/code/processes/converting-process/ft-keyword-extraction/test/nu/marginalia/keyword/SentenceExtractorTest.java
@@ -43,7 +43,7 @@ class SentenceExtractorTest {
                 var doc = Jsoup.parse(Files.readString(file.toPath()));
                 long start = System.currentTimeMillis();
                 var dld = se.extractSentences(doc);
-                documentKeywordExtractor.extractKeywords(dld, url);
+                documentKeywordExtractor.extractKeywords(dld, new LinkTexts(), url);
                 total += (System.currentTimeMillis() - start);
             }
             System.out.println(total);
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentDecorator.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentDecorator.java
index 02e22f4f..2a4fbcb1 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentDecorator.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentDecorator.java
@@ -1,7 +1,5 @@
 package nu.marginalia.converting.processor;
 
-import nu.marginalia.atags.AnchorTextKeywords;
-import nu.marginalia.atags.model.DomainLinks;
 import nu.marginalia.converting.model.ProcessedDocument;
 
 import java.util.HashSet;
@@ -9,23 +7,20 @@ import java.util.Set;
 
 public class DocumentDecorator {
     private final Set<String> extraSearchTerms = new HashSet<>();
-    private final AnchorTextKeywords keywords;
 
-    public DocumentDecorator(AnchorTextKeywords keywords) {
-        this.keywords = keywords;
+    public DocumentDecorator() {
     }
 
     public void addTerm(String term) {
         extraSearchTerms.add(term);
     }
 
-    public void apply(ProcessedDocument doc, DomainLinks externalDomainLinks) {
+    public void apply(ProcessedDocument doc) {
         if (doc == null)
             return;
         if (doc.words == null)
             return;
 
         doc.words.addAllSyntheticTerms(extraSearchTerms);
-        doc.words.addAnchorTerms(keywords.getAnchorTextKeywords(externalDomainLinks, doc.url));
     }
 }
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java
index d4fac8aa..36eae72a 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/DocumentProcessor.java
@@ -1,12 +1,14 @@
 package nu.marginalia.converting.processor;
 
 import com.google.inject.Inject;
+import nu.marginalia.atags.AnchorTextKeywords;
 import nu.marginalia.atags.model.DomainLinks;
 import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.processor.plugin.AbstractDocumentProcessorPlugin;
 import nu.marginalia.converting.processor.plugin.HtmlDocumentProcessorPlugin;
 import nu.marginalia.converting.processor.plugin.PlainTextDocumentProcessorPlugin;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.HtmlFeature;
@@ -33,11 +35,14 @@ public class DocumentProcessor {
 
 
     private final List<AbstractDocumentProcessorPlugin> processorPlugins = new ArrayList<>();
+    private final AnchorTextKeywords anchorTextKeywords;
 
     @Inject
     public DocumentProcessor(HtmlDocumentProcessorPlugin htmlDocumentProcessorPlugin,
-                             PlainTextDocumentProcessorPlugin plainTextDocumentProcessorPlugin)
+                             PlainTextDocumentProcessorPlugin plainTextDocumentProcessorPlugin,
+                             AnchorTextKeywords anchorTextKeywords)
     {
+        this.anchorTextKeywords = anchorTextKeywords;
 
         processorPlugins.add(htmlDocumentProcessorPlugin);
         processorPlugins.add(plainTextDocumentProcessorPlugin);
@@ -81,7 +86,12 @@ public class DocumentProcessor {
         return ret;
     }
 
-    private void processDocument(CrawledDocument crawledDocument, DocumentClass documentClass, DocumentDecorator documentDecorator, DomainLinks externalDomainLinks, ProcessedDocument ret) throws URISyntaxException, DisqualifiedException {
+    private void processDocument(CrawledDocument crawledDocument,
+                                 DocumentClass documentClass,
+                                 DocumentDecorator documentDecorator,
+                                 DomainLinks externalDomainLinks,
+                                 ProcessedDocument ret) throws URISyntaxException, DisqualifiedException
+    {
 
         var crawlerStatus = CrawlerDocumentStatus.valueOf(crawledDocument.crawlerStatus);
         if (crawlerStatus != CrawlerDocumentStatus.OK) {
@@ -100,12 +110,15 @@ public class DocumentProcessor {
 
         final var plugin = findPlugin(crawledDocument);
 
-        AbstractDocumentProcessorPlugin.DetailsWithWords detailsWithWords = plugin.createDetails(crawledDocument, documentClass);
+        EdgeUrl url = new EdgeUrl(crawledDocument.url);
+        LinkTexts linkTexts = anchorTextKeywords.getAnchorTextKeywords(externalDomainLinks, url);
+
+        AbstractDocumentProcessorPlugin.DetailsWithWords detailsWithWords = plugin.createDetails(crawledDocument, linkTexts, documentClass);
 
         ret.details = detailsWithWords.details();
         ret.words = detailsWithWords.words();
 
-        documentDecorator.apply(ret, externalDomainLinks);
+        documentDecorator.apply(ret);
 
         if (Boolean.TRUE.equals(crawledDocument.hasCookies)
          && ret.details != null
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java
index 966a6939..0328709c 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/DomainProcessor.java
@@ -104,7 +104,7 @@ public class DomainProcessor {
             domain = new ProcessedDomain();
             domain.sizeloadSizeAdvice = sizeHint == 0 ? 10_000 : sizeHint;
 
-            documentDecorator = new DocumentDecorator(anchorTextKeywords);
+            documentDecorator = new DocumentDecorator();
 
             processDomain(crawledDomain, domain, documentDecorator);
 
@@ -179,7 +179,7 @@ public class DomainProcessor {
         }
 
         DomainLinks externalDomainLinks = anchorTagsSource.getAnchorTags(crawledDomain.getDomain());
-        DocumentDecorator documentDecorator = new DocumentDecorator(anchorTextKeywords);
+        DocumentDecorator documentDecorator = new DocumentDecorator();
 
         // Process Domain Record
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
index 79f6aebd..b03468ca 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/AbstractDocumentProcessorPlugin.java
@@ -3,6 +3,7 @@ package nu.marginalia.converting.processor.plugin;
 import nu.marginalia.converting.model.DisqualifiedException;
 import nu.marginalia.converting.model.ProcessedDocumentDetails;
 import nu.marginalia.converting.processor.DocumentClass;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.filter.LanguageFilter;
 import nu.marginalia.language.model.DocumentLanguageData;
@@ -24,7 +25,7 @@ public abstract class AbstractDocumentProcessorPlugin {
         this.languageFilter = languageFilter;
     }
 
-    public abstract DetailsWithWords createDetails(CrawledDocument crawledDocument, DocumentClass documentClass) throws DisqualifiedException, URISyntaxException;
+    public abstract DetailsWithWords createDetails(CrawledDocument crawledDocument, LinkTexts linkTexts, DocumentClass documentClass) throws DisqualifiedException, URISyntaxException;
     public abstract boolean isApplicable(CrawledDocument doc);
 
     protected void checkDocumentLanguage(DocumentLanguageData dld) throws DisqualifiedException {
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
index d423d599..101462ef 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
@@ -16,6 +16,7 @@ import nu.marginalia.converting.processor.pubdate.PubDateSniffer;
 import nu.marginalia.gregex.GuardedRegex;
 import nu.marginalia.gregex.GuardedRegexFactory;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.filter.LanguageFilter;
 import nu.marginalia.language.model.DocumentLanguageData;
@@ -103,7 +104,9 @@ public class HtmlDocumentProcessorPlugin extends AbstractDocumentProcessorPlugin
     }
 
     @Override
-    public DetailsWithWords createDetails(CrawledDocument crawledDocument, DocumentClass documentClass)
+    public DetailsWithWords createDetails(CrawledDocument crawledDocument,
+                                          LinkTexts linkTexts,
+                                          DocumentClass documentClass)
             throws DisqualifiedException, URISyntaxException {
 
         String documentBody = crawledDocument.documentBody;
@@ -169,7 +172,7 @@ public class HtmlDocumentProcessorPlugin extends AbstractDocumentProcessorPlugin
                 (int) -ret.quality, // ret.quality is negative
                 documentFlags);
 
-        DocumentKeywordsBuilder words = keywordExtractor.extractKeywords(dld, url);
+        DocumentKeywordsBuilder words = keywordExtractor.extractKeywords(dld, linkTexts, url);
 
         ret.description = specialization.getSummary(doc, words.importantWords);
         ret.generator = generatorParts.type();
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
index c85dfeda..2007a5ed 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/PlainTextDocumentProcessorPlugin.java
@@ -9,6 +9,7 @@ import nu.marginalia.converting.processor.logic.DocumentLengthLogic;
 import nu.marginalia.converting.processor.logic.PlainTextLogic;
 import nu.marginalia.converting.util.LineUtils;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.language.filter.LanguageFilter;
 import nu.marginalia.language.sentence.ThreadLocalSentenceExtractorProvider;
@@ -65,7 +66,9 @@ public class PlainTextDocumentProcessorPlugin extends AbstractDocumentProcessorP
     }
 
     @Override
-    public DetailsWithWords createDetails(CrawledDocument crawledDocument, DocumentClass documentClass)
+    public DetailsWithWords createDetails(CrawledDocument crawledDocument,
+                                          LinkTexts linkTexts,
+                                          DocumentClass documentClass)
             throws DisqualifiedException, URISyntaxException {
 
         String documentBody = crawledDocument.documentBody;
@@ -104,7 +107,7 @@ public class PlainTextDocumentProcessorPlugin extends AbstractDocumentProcessorP
         ret.metadata = new DocumentMetadata(documentLengthLogic.getEncodedAverageLength(dld),
                 pubDate.yearByte(), (int) -ret.quality, documentFlags);
 
-        DocumentKeywordsBuilder words = keywordExtractor.extractKeywords(dld, url);
+        DocumentKeywordsBuilder words = keywordExtractor.extractKeywords(dld, linkTexts, url);
 
         var tagWords = new MetaTagsBuilder()
                 .addPubDate(pubDate)
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
index 84b3ab53..b7cf244b 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/SideloaderProcessing.java
@@ -7,6 +7,7 @@ import nu.marginalia.converting.model.GeneratorType;
 import nu.marginalia.converting.model.ProcessedDocument;
 import nu.marginalia.converting.processor.DocumentClass;
 import nu.marginalia.converting.processor.plugin.HtmlDocumentProcessorPlugin;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.crawl.PubDate;
@@ -37,6 +38,7 @@ public class SideloaderProcessing {
                                              DomainLinks domainLinks,
                                              GeneratorType type,
                                              DocumentClass documentClass,
+                                             LinkTexts linkTexts,
                                              int pubYear,
                                              int size) throws URISyntaxException {
         var crawledDoc = new CrawledDocument(
@@ -64,7 +66,7 @@ public class SideloaderProcessing {
 
         var ret = new ProcessedDocument();
         try {
-            var details = htmlProcessorPlugin.createDetails(crawledDoc, documentClass);
+            var details = htmlProcessorPlugin.createDetails(crawledDoc, linkTexts, documentClass);
 
             ret.words = details.words();
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/dirtree/DirtreeSideloader.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/dirtree/DirtreeSideloader.java
index 252f9086..f82fa02b 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/dirtree/DirtreeSideloader.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/dirtree/DirtreeSideloader.java
@@ -8,6 +8,7 @@ import nu.marginalia.converting.model.ProcessedDomain;
 import nu.marginalia.converting.processor.DocumentClass;
 import nu.marginalia.converting.sideload.SideloadSource;
 import nu.marginalia.converting.sideload.SideloaderProcessing;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.crawl.DomainIndexingState;
 
@@ -86,6 +87,7 @@ public class DirtreeSideloader implements SideloadSource, AutoCloseable {
                 .processDocument(url, body, extraKeywords, new DomainLinks(),
                         GeneratorType.DOCS,
                         DocumentClass.NORMAL,
+                        new LinkTexts(),
                         LocalDate.now().getYear(),
                         10_000);
     }
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/encyclopedia/EncyclopediaMarginaliaNuSideloader.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/encyclopedia/EncyclopediaMarginaliaNuSideloader.java
index 17c83250..dae8f499 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/encyclopedia/EncyclopediaMarginaliaNuSideloader.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/encyclopedia/EncyclopediaMarginaliaNuSideloader.java
@@ -28,7 +28,9 @@ import java.net.URISyntaxException;
 import java.net.URLEncoder;
 import java.nio.charset.StandardCharsets;
 import java.nio.file.Path;
-import java.sql.*;
+import java.sql.Connection;
+import java.sql.DriverManager;
+import java.sql.SQLException;
 import java.time.LocalDate;
 import java.util.Iterator;
 import java.util.List;
@@ -135,16 +137,10 @@ public class EncyclopediaMarginaliaNuSideloader implements SideloadSource, AutoC
                         domainLinks,
                         GeneratorType.WIKI,
                         DocumentClass.SIDELOAD,
+                        anchorTextKeywords.getAnchorTextKeywords(domainLinks, new EdgeUrl(fullUrl)),
                         LocalDate.now().getYear(),
                         10_000_000);
 
-        // Add anchor text keywords
-        if (doc.isProcessedFully()) {
-            doc.words.addAnchorTerms(
-                    anchorTextKeywords.getAnchorTextKeywords(domainLinks, doc.url)
-            );
-        }
-
         return doc;
     }
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java
index 7f5c8b4b..e46d8d4d 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/reddit/RedditSideloader.java
@@ -142,6 +142,12 @@ public class RedditSideloader implements SideloadSource {
             extraKeywords.add(author);
         }
 
+        List<EdgeUrl> urls = List.of(
+                new EdgeUrl("https://old.reddit.com/r/" + permalink),
+                new EdgeUrl("https://www.reddit.com/r/" + permalink),
+                new EdgeUrl("https://reddit.com/r/" + permalink)
+        );
+
         var doc = sideloaderProcessing
                 .processDocument(fullUrl,
                         fullHtml,
@@ -149,23 +155,13 @@ public class RedditSideloader implements SideloadSource {
                         domainLinks,
                         GeneratorType.WIKI,
                         DocumentClass.SIDELOAD,
+                        anchorTextKeywords.getAnchorTextKeywords(domainLinks, urls),
                         pubYear,
                         10_000_000);
 
 
         if (doc.isProcessedFully()) {
-            for (String url : List.of(
-                    STR."https://old.reddit.com/r/\{permalink}",
-                    STR."https://www.reddit.com/r/\{permalink}",
-                    STR."https://reddit.com/r/\{permalink}"
-            )) {
-                EdgeUrl.parse(url)
-                        .map(parsed -> anchorTextKeywords.getAnchorTextKeywords(domainLinks, parsed))
-                        .filter(parsed -> !parsed.isEmpty())
-                        .ifPresent(doc.words::addAnchorTerms);
-            }
-
-            for (var keyword : extraKeywords) {
+             for (var keyword : extraKeywords) {
                 doc.words.addMeta(keyword, WordFlags.Subjects.asBit());
             }
 
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/stackexchange/StackexchangeSideloader.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/stackexchange/StackexchangeSideloader.java
index 53be14aa..7baabee6 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/stackexchange/StackexchangeSideloader.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/stackexchange/StackexchangeSideloader.java
@@ -1,10 +1,14 @@
 package nu.marginalia.converting.sideload.stackexchange;
 
 import lombok.SneakyThrows;
-import nu.marginalia.converting.model.*;
+import nu.marginalia.converting.model.GeneratorType;
+import nu.marginalia.converting.model.ProcessedDocument;
+import nu.marginalia.converting.model.ProcessedDocumentDetails;
+import nu.marginalia.converting.model.ProcessedDomain;
 import nu.marginalia.converting.sideload.SideloadSource;
 import nu.marginalia.integration.stackexchange.sqlite.StackExchangePostsDb;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.language.sentence.ThreadLocalSentenceExtractorProvider;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
@@ -122,7 +126,7 @@ public class StackexchangeSideloader implements SideloadSource {
             var dld = sentenceExtractorProvider.get().extractSentences(doc);
 
             ret.url = url;
-            ret.words = keywordExtractor.extractKeywords(dld, url);
+            ret.words = keywordExtractor.extractKeywords(dld, new LinkTexts(), url);
             ret.words.addAllSyntheticTerms(List.of(
                     "site:" + domainName,
                     "site:" + url.domain.topDomain,
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/sideload/warc/WarcSideloader.java b/code/processes/converting-process/java/nu/marginalia/converting/sideload/warc/WarcSideloader.java
index 791f0665..a645e485 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/sideload/warc/WarcSideloader.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/sideload/warc/WarcSideloader.java
@@ -10,6 +10,7 @@ import nu.marginalia.converting.model.ProcessedDomain;
 import nu.marginalia.converting.processor.DocumentClass;
 import nu.marginalia.converting.sideload.SideloadSource;
 import nu.marginalia.converting.sideload.SideloaderProcessing;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawl.DomainIndexingState;
@@ -138,6 +139,7 @@ public class WarcSideloader implements SideloadSource, AutoCloseable {
                         new DomainLinks(),
                         GeneratorType.DOCS,
                         DocumentClass.SIDELOAD,
+                        new LinkTexts(),
                         LocalDate.now().getYear(), // TODO: This should be the actual year of the document
                         10_000));
     }
diff --git a/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java b/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java
index 0cc18d0d..2b4dc30e 100644
--- a/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java
+++ b/code/processes/converting-process/test/nu/marginalia/converting/processor/summary/SummaryExtractorTest.java
@@ -2,9 +2,9 @@ package nu.marginalia.converting.processor.summary;
 
 import lombok.SneakyThrows;
 import nu.marginalia.WmsaHome;
-import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import nu.marginalia.converting.processor.summary.heuristic.*;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
 import org.jsoup.Jsoup;
@@ -39,7 +39,7 @@ class SummaryExtractorTest {
     @SneakyThrows
     Set<String> getImportantWords(Document doc) {
         var dld = setenceExtractor.extractSentences(doc);
-        var keywords = keywordExtractor.extractKeywords(dld, new EdgeUrl(
+        var keywords = keywordExtractor.extractKeywords(dld, new LinkTexts(), new EdgeUrl(
                 "https://www.marginalia.nu/"
         ));
         System.out.println(keywords.importantWords);
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java b/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
index d71e0f47..08d2a662 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/ExperimentRunnerMain.java
@@ -19,7 +19,6 @@ public class ExperimentRunnerMain {
             "test", TestExperiment.class,
             "adblock", AdblockExperiment.class,
             "topic", TopicExperiment.class,
-            "atags", AtagsExperiment.class,
             "sentence-statistics", SentenceStatisticsExperiment.class,
             "site-statistics", SiteStatisticsExperiment.class,
             "export-atags", ExportExternalLinksExperiment.class,
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java
deleted file mode 100644
index 4f63f564..00000000
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/AtagsExperiment.java
+++ /dev/null
@@ -1,52 +0,0 @@
-package nu.marginalia.tools.experiments;
-
-import com.google.inject.Inject;
-import com.zaxxer.hikari.HikariDataSource;
-import lombok.SneakyThrows;
-import nu.marginalia.ProcessConfiguration;
-import nu.marginalia.atags.AnchorTextKeywords;
-import nu.marginalia.atags.source.AnchorTagsSource;
-import nu.marginalia.atags.source.AnchorTagsSourceFactory;
-import nu.marginalia.model.EdgeDomain;
-import nu.marginalia.model.EdgeUrl;
-import nu.marginalia.model.crawldata.CrawledDomain;
-import nu.marginalia.tools.LegacyExperiment;
-
-import java.sql.SQLException;
-
-public class AtagsExperiment extends LegacyExperiment {
-
-
-    private final AnchorTextKeywords keywords;
-    private final AnchorTagsSource source;
-
-    @Inject
-    public AtagsExperiment(AnchorTextKeywords keywords, HikariDataSource dataSource) throws SQLException {
-        this.keywords = keywords;
-        this.source = new AnchorTagsSourceFactory(dataSource, new ProcessConfiguration(null, 1, null))
-                .create();
-
-    }
-
-    @Override
-    @SneakyThrows
-    public boolean process(CrawledDomain domain) {
-        var atags = source.getAnchorTags(new EdgeDomain(domain.domain));
-        for (var doc : domain.doc) {
-            if (doc.documentBody == null)
-                continue;
-
-            var newKeywords = keywords.getAnchorTextKeywords(atags, new EdgeUrl(doc.url));
-            if (!newKeywords.isEmpty()) {
-                System.out.println(newKeywords + " " + doc.url);
-            }
-        }
-        return true;
-    }
-
-    @Override
-    @SneakyThrows
-    public void onFinish() {
-        source.close();
-    }
-}
diff --git a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
index 579aaa2e..030024bd 100644
--- a/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
+++ b/code/tools/experiment-runner/java/nu/marginalia/tools/experiments/SentenceStatisticsExperiment.java
@@ -5,6 +5,7 @@ import lombok.SneakyThrows;
 import nu.marginalia.WmsaHome;
 import nu.marginalia.converting.processor.logic.dom.DomPruningFilter;
 import nu.marginalia.keyword.DocumentKeywordExtractor;
+import nu.marginalia.keyword.LinkTexts;
 import nu.marginalia.language.sentence.SentenceExtractor;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.crawldata.CrawledDomain;
@@ -54,7 +55,7 @@ public class SentenceStatisticsExperiment extends LegacyExperiment {
             parsed.body().filter(new DomPruningFilter(0.5));
 
             var dld = se.extractSentences(parsed);
-            var keywords = documentKeywordExtractor.extractKeywords(dld, new EdgeUrl(doc.url));
+            var keywords = documentKeywordExtractor.extractKeywords(dld, new LinkTexts(), new EdgeUrl(doc.url));
 
             keywords.build(workArea);
         }

From ca6e2db2b9efb38ab46aeea7e77904345d170c3a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 6 Aug 2024 10:23:23 +0200
Subject: [PATCH 120/216] (index) Include external link texts in verbatim score

---
 .../index/forward/spans/DocumentSpans.java    |  4 +++
 .../results/IndexResultScoreCalculator.java   | 31 ++++++++++++-------
 2 files changed, 23 insertions(+), 12 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
index 6eebbd63..8f8d5cf5 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -13,6 +13,8 @@ public class DocumentSpans {
     public DocumentSpan code = EMPTY_SPAN;
     public DocumentSpan anchor = EMPTY_SPAN;
 
+    public DocumentSpan externalLinkText = EMPTY_SPAN;
+
     void accept(byte code, CodedSequence positions) {
         if (code == HtmlTag.HEADING.code)
             this.heading = new DocumentSpan(positions);
@@ -24,6 +26,8 @@ public class DocumentSpans {
             this.code = new DocumentSpan(positions);
         else if (code == HtmlTag.ANCHOR.code)
             this.anchor = new DocumentSpan(positions);
+        else if (code == HtmlTag.EXTERNAL_LINKTEXT.code)
+            this.externalLinkText = new DocumentSpan(positions);
     }
 
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index aa414c1e..b4349314 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -199,7 +199,7 @@ public class IndexResultScoreCalculator {
 
         final int titleLength = Math.max(1, spans.title.length());
 
-        float coherenceScore = 0.f;
+        float verbatimMatchScore = 0.f;
 
         boolean verbatimMatchInTitle;
         boolean verbatimMatchInHeading;
@@ -207,6 +207,7 @@ public class IndexResultScoreCalculator {
         boolean verbatimMatchInNav;
         boolean verbatimMatchInCode;
         boolean verbatimMatchInBody;
+        boolean verbatimMatchInExtLink;
 
         // Calculate a bonus for keyword coherences when large ones exist
         int largestOptional = coherences.largestOptional();
@@ -216,6 +217,7 @@ public class IndexResultScoreCalculator {
             verbatimMatchInAnchor = (largestOptional == coherences.testOptional(positions, spans.anchor));
             verbatimMatchInNav = (largestOptional == coherences.testOptional(positions, spans.nav));
             verbatimMatchInCode = (largestOptional == coherences.testOptional(positions, spans.code));
+            verbatimMatchInExtLink = (largestOptional == coherences.testOptional(positions, spans.code));
             verbatimMatchInBody = (largestOptional == coherences.testOptional(positions));
         }
         else {
@@ -225,29 +227,34 @@ public class IndexResultScoreCalculator {
             verbatimMatchInNav = false;
             verbatimMatchInCode = false;
             verbatimMatchInBody = false;
+            verbatimMatchInExtLink = false;
         }
 
         if (verbatimMatchInTitle) {
             // verbatim title match
-            coherenceScore = 4.0f * largestOptional;
+            verbatimMatchScore = 4.0f * largestOptional;
             // additional bonus if the match is most of the title's length
-            coherenceScore += 2.f * largestOptional / titleLength;
+            verbatimMatchScore += 2.f * largestOptional / titleLength;
         }
         else if (verbatimMatchInHeading) {
-            coherenceScore = 1.5f * largestOptional;
+            verbatimMatchScore = 1.5f * largestOptional;
         }
         else if (verbatimMatchInAnchor || verbatimMatchInCode) {
-            coherenceScore = 0.2f * largestOptional;
+            verbatimMatchScore = 0.2f * largestOptional;
         }
         else if (verbatimMatchInNav) {
-            coherenceScore = 0.1f * largestOptional;
+            verbatimMatchScore = 0.1f * largestOptional;
         }
         else if (verbatimMatchInBody) {
-            coherenceScore = 0.75f * largestOptional;
+            verbatimMatchScore = 0.75f * largestOptional;
         }
 
         if (coherences.numOptional() > 0) {
-            coherenceScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+            verbatimMatchScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+        }
+
+        if (verbatimMatchInExtLink) { // Nudge the result up if there is a verbatim match in the external link text
+            verbatimMatchScore += 1.0f * largestOptional;
         }
 
         float[] weightedCounts = new float[compiledQuery.size()];
@@ -318,12 +325,12 @@ public class IndexResultScoreCalculator {
         }
 
         if (!verbatimMatchInTitle && searchableKeywordsCount > 2 && unorderedMatchInTitleCount == searchableKeywordsCount) {
-            coherenceScore += 2.5f * unorderedMatchInTitleCount;
-            coherenceScore += 2.f * unorderedMatchInTitleCount / titleLength;
+            verbatimMatchScore += 2.5f * unorderedMatchInTitleCount;
+            verbatimMatchScore += 2.f * unorderedMatchInTitleCount / titleLength;
         }
 
         if (!verbatimMatchInHeading && unorderedMatchInHeadingCount == searchableKeywordsCount) {
-            coherenceScore += 2.0f * unorderedMatchInHeadingCount;
+            verbatimMatchScore += 2.0f * unorderedMatchInHeadingCount;
         }
 
         double overallPart = averageSentenceLengthPenalty
@@ -333,7 +340,7 @@ public class IndexResultScoreCalculator {
                 + topologyBonus
                 + temporalBias
                 + flagsPenalty
-                + coherenceScore
+                + verbatimMatchScore
                 + keywordMinDistFac;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));

From 8569bb8e119c476fcfc1ee2d8f7110f305878c21 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 6 Aug 2024 10:34:05 +0200
Subject: [PATCH 121/216] (index) Avoid divide-by-zero when minDist returns 0

---
 .../index/results/IndexResultScoreCalculator.java          | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index b4349314..f85436af 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -270,12 +270,13 @@ public class IndexResultScoreCalculator {
                 }
             }
 
-            if (iterators.size() > 2) {
-                int minDist = SequenceOperations.minDistance(iterators);
-
+            int minDist = SequenceOperations.minDistance(iterators);
+            if (minDist > 0) {
                 if (minDist < 32) {
+                    // If min-dist is sufficiently small, we give a tapering reward to the document
                     keywordMinDistFac = 2.0f / (1.f + (float) Math.sqrt(minDist));
                 } else {
+                    // if it is too large, we add a mounting penalty
                     keywordMinDistFac = -1.0f * (float) Math.sqrt(minDist);
                 }
             }

From df6a05b9a756f5fa0fa50d390a9334832769d9b2 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 6 Aug 2024 10:52:52 +0200
Subject: [PATCH 122/216] (index) Avoid hypothetical divide-by-zero in
 tcfAvgDist

---
 .../marginalia/index/results/IndexResultScoreCalculator.java  | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index f85436af..1d52e2c4 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -345,7 +345,7 @@ public class IndexResultScoreCalculator {
                 + keywordMinDistFac;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
-        double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(Math.max(1, firstPosition)));
+        double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
 
         double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
         double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
@@ -474,7 +474,7 @@ public class IndexResultScoreCalculator {
             }
         }
 
-        if (cnt > 0) {
+        if (cnt > 0 && sum > 0) {
             return sum / cnt;
         } else {
             return 1000.;

From f01267bc6b274c0eb12783b63c2ccfc90538f050 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 6 Aug 2024 11:16:28 +0200
Subject: [PATCH 123/216] (index) Don't load fwd index offsets into a hash
 table at start.

This makes the service take forever to start up.  Memory map the data instead and binary search.  This is a bit slower, but not by much.
---
 .../index/forward/ForwardIndexReader.java     | 35 ++++++++-----------
 1 file changed, 14 insertions(+), 21 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
index c4ab010d..216ed78d 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/ForwardIndexReader.java
@@ -1,6 +1,5 @@
 package nu.marginalia.index.forward;
 
-import gnu.trove.map.hash.TLongIntHashMap;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.forward.spans.DocumentSpans;
@@ -29,7 +28,7 @@ import static nu.marginalia.index.forward.ForwardIndexParameters.*;
  * The metadata is a binary encoding of {@see nu.marginalia.idx.DocumentMetadata}
  */
 public class ForwardIndexReader {
-    private final TLongIntHashMap idToOffset;
+    private final LongArray ids;
     private final LongArray data;
 
     private final ForwardIndexSpansReader spansReader;
@@ -41,21 +40,21 @@ public class ForwardIndexReader {
                               Path spansFile) throws IOException {
         if (!Files.exists(dataFile)) {
             logger.warn("Failed to create ForwardIndexReader, {} is absent", dataFile);
-            idToOffset = null;
+            ids = null;
             data = null;
             spansReader = null;
             return;
         }
         else if (!Files.exists(idsFile)) {
             logger.warn("Failed to create ForwardIndexReader, {} is absent", idsFile);
-            idToOffset = null;
+            ids = null;
             data = null;
             spansReader = null;
             return;
         }
         else if (!Files.exists(spansFile)) {
             logger.warn("Failed to create ForwardIndexReader, {} is absent", spansFile);
-            idToOffset = null;
+            ids = null;
             data = null;
             spansReader = null;
             return;
@@ -63,21 +62,13 @@ public class ForwardIndexReader {
 
         logger.info("Switching forward index");
 
-        idToOffset = loadIds(idsFile);
+        ids = loadIds(idsFile);
         data = loadData(dataFile);
         spansReader = new ForwardIndexSpansReader(spansFile);
     }
 
-    private static TLongIntHashMap loadIds(Path idsFile) throws IOException {
-        try (var idsArray = LongArrayFactory.mmapForReadingShared(idsFile)) {
-            assert idsArray.size() < Integer.MAX_VALUE;
-
-            var ids = new TLongIntHashMap((int) idsArray.size(), 0.5f, -1, -1);
-            // This hash table should be of the same size as the number of documents, so typically less than 1 Gb
-            idsArray.forEach(0, idsArray.size(), (pos, val) -> ids.put(val, (int) pos));
-
-            return ids;
-        }
+    private static LongArray loadIds(Path idsFile) throws IOException {
+        return LongArrayFactory.mmapForReadingShared(idsFile);
     }
 
     private static LongArray loadData(Path dataFile) throws IOException {
@@ -115,14 +106,16 @@ public class ForwardIndexReader {
     private int idxForDoc(long docId) {
         assert UrlIdCodec.getRank(docId) == 0 : "Forward Index Reader fed dirty reverse index id";
 
-        if (getClass().desiredAssertionStatus()) {
-            long offset = idToOffset.get(docId);
-            if (offset < 0) { // Ideally we'd always check this, but this is a very hot method
+        long offset = ids.binarySearch(docId, 0, ids.size());
+
+        if (offset >= ids.size() || offset < 0 || ids.get(offset) != docId) {
+            if (getClass().desiredAssertionStatus()) {
                 logger.warn("Could not find offset for doc {}", docId);
             }
+            return -1;
         }
 
-        return idToOffset.get(docId);
+        return (int) offset;
     }
 
     public DocumentSpans getDocumentSpans(Arena arena, long docId) {
@@ -142,7 +135,7 @@ public class ForwardIndexReader {
 
 
     public int totalDocCount() {
-        return idToOffset.size();
+        return (int) ids.size();
     }
 
     public void close() {

From 680ad19c7d51fdff31113bec2bec2f650a767f3a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 6 Aug 2024 11:16:56 +0200
Subject: [PATCH 124/216] (keyword-extraction) Correct behavior when loading
 spans so that they are not double-loaded causing errors

---
 .../keyword/DocumentKeywordExtractor.java      | 18 ++++++++++++------
 1 file changed, 12 insertions(+), 6 deletions(-)

diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index c6f87dd0..9559d246 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -118,10 +118,6 @@ public class DocumentKeywordExtractor {
         }
 
         for (DocumentSentence sent : dld) {
-
-            if (wordsBuilder.size() > 1500)
-                break;
-
             for (var word : sent) {
                 pos++;
 
@@ -156,8 +152,13 @@ public class DocumentKeywordExtractor {
 
         for (var recorder : spanRecorders) {
             wordsBuilder.addSpans(recorder.finish(pos));
+
+            // reset the recorder, so we can use it again without adding the same positions twice
+            recorder.reset();
         }
 
+        // Next add synthetic positions to the document for anchor texts
+
         pos += 2; // add some padding to the end of the document before we start adding a-tag words
 
         for (var linkText : linkTexts) {
@@ -180,7 +181,6 @@ public class DocumentKeywordExtractor {
             }
 
             // add some padding between separate link texts so we don't match across their boundaries
-
             pos+=2;
         }
 
@@ -247,7 +247,7 @@ public class DocumentKeywordExtractor {
             else {
                 if (start > 0) {
                     spans.add(new DocumentKeywordsBuilder.DocumentWordSpan(htmlTag, start, pos));
-                    start = -1;
+                    start = 0;
                 }
             }
         }
@@ -255,8 +255,14 @@ public class DocumentKeywordExtractor {
         public List<DocumentKeywordsBuilder.DocumentWordSpan> finish(int length) {
             if (start > 0) {
                 spans.add(new DocumentKeywordsBuilder.DocumentWordSpan(htmlTag, start, length));
+                start = 0;
             }
             return spans;
         }
+
+        public void reset() {
+            spans.clear();
+            start = 0;
+        }
     }
 }

From 7babdb87d51b9d17078c24b04aec648460606ae2 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 7 Aug 2024 10:10:44 +0200
Subject: [PATCH 125/216] (index) Remove intermediate models

---
 .../model/results/SearchResultSet.java        |  22 ---
 .../nu/marginalia/index/IndexGrpcService.java | 154 +++++++-----------
 .../results/IndexResultRankingService.java    |  66 +++++---
 ...IndexQueryServiceIntegrationSmokeTest.java |  16 +-
 .../IndexQueryServiceIntegrationTest.java     |   8 +-
 5 files changed, 116 insertions(+), 150 deletions(-)
 delete mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultSet.java

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultSet.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultSet.java
deleted file mode 100644
index 09468162..00000000
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultSet.java
+++ /dev/null
@@ -1,22 +0,0 @@
-package nu.marginalia.api.searchquery.model.results;
-
-import lombok.AllArgsConstructor;
-import lombok.Getter;
-import lombok.ToString;
-
-import java.util.ArrayList;
-import java.util.Comparator;
-import java.util.List;
-
-@AllArgsConstructor @Getter @ToString
-public class SearchResultSet {
-    public SearchResultSet() {
-        results = new ArrayList<>();
-    }
-
-    public List<DecoratedSearchResultItem> results;
-    public int size() {
-        return results.size();
-    }
-
-}
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index b16b456d..68e077a4 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -8,14 +8,15 @@ import io.prometheus.client.Gauge;
 import io.prometheus.client.Histogram;
 import it.unimi.dsi.fastutil.longs.LongArrayList;
 import lombok.SneakyThrows;
-import nu.marginalia.api.searchquery.*;
+import nu.marginalia.api.searchquery.IndexApiGrpc;
+import nu.marginalia.api.searchquery.RpcDecoratedResultItem;
+import nu.marginalia.api.searchquery.RpcIndexQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.compiled.CqDataInt;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.api.searchquery.model.results.SearchResultSet;
 import nu.marginalia.array.page.LongQueryBuffer;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.SearchParameters;
@@ -113,7 +114,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
 
             long endTime = System.currentTimeMillis() + request.getQueryLimits().getTimeoutMs();
 
-            SearchResultSet results = wmsa_query_time
+            List<RpcDecoratedResultItem> results = wmsa_query_time
                     .labels(nodeName, "GRPC")
                     .time(() -> {
                         // Perform the search
@@ -132,48 +133,8 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
             }
 
             // Send the results back to the client
-            for (var result : results.results) {
-
-                var rawResult = result.rawIndexResult;
-
-                var rawItem = RpcRawResultItem.newBuilder();
-                rawItem.setCombinedId(rawResult.combinedId);
-                rawItem.setHtmlFeatures(rawResult.htmlFeatures);
-                rawItem.setEncodedDocMetadata(rawResult.encodedDocMetadata);
-                rawItem.setHasPriorityTerms(rawResult.hasPrioTerm);
-
-                for (var score : rawResult.keywordScores) {
-                    rawItem.addKeywordScores(
-                            RpcResultKeywordScore.newBuilder()
-                                    .setFlags(score.flags)
-                                    .setPositions(score.positionCount)
-                                    .setKeyword(score.keyword)
-                    );
-                }
-
-                var decoratedBuilder = RpcDecoratedResultItem.newBuilder()
-                        .setDataHash(result.dataHash)
-                        .setDescription(result.description)
-                        .setFeatures(result.features)
-                        .setFormat(result.format)
-                        .setRankingScore(result.rankingScore)
-                        .setTitle(result.title)
-                        .setUrl(result.url.toString())
-                        .setUrlQuality(result.urlQuality)
-                        .setWordsTotal(result.wordsTotal)
-                        .setBestPositions(result.bestPositions)
-                        .setResultsFromDomain(result.resultsFromDomain)
-                        .setRawItem(rawItem);
-
-                var rankingDetails = IndexProtobufCodec.convertRankingDetails(result.rankingDetails);
-                if (rankingDetails != null) {
-                    decoratedBuilder.setRankingDetails(rankingDetails);
-                }
-
-                if (result.pubYear != null) {
-                    decoratedBuilder.setPubYear(result.pubYear);
-                }
-                responseObserver.onNext(decoratedBuilder.build());
+            for (var result : results) {
+                responseObserver.onNext(result);
             }
 
             responseObserver.onCompleted();
@@ -187,7 +148,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
 
     // exists for test access
     @SneakyThrows
-    SearchResultSet justQuery(SearchSpecification specsSet) {
+    List<RpcDecoratedResultItem> justQuery(SearchSpecification specsSet) {
         return executeSearch(new SearchParameters(specsSet, getSearchSet(specsSet)));
     }
 
@@ -210,11 +171,11 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
     }
 
     // accessible for tests
-    public SearchResultSet executeSearch(SearchParameters params) throws SQLException, InterruptedException {
+    public List<RpcDecoratedResultItem> executeSearch(SearchParameters params) throws SQLException, InterruptedException {
 
         if (!statefulIndex.isLoaded()) {
             // Short-circuit if the index is not loaded, as we trivially know that there can be no results
-            return new SearchResultSet(List.of());
+            return List.of();
         }
 
         ResultRankingContext rankingContext = createRankingContext(params.rankingParams,
@@ -223,7 +184,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
 
         var queryExecution = new QueryExecution(rankingContext, params.fetchSize);
 
-        var ret = queryExecution.run(params);
+        List<RpcDecoratedResultItem> ret = queryExecution.run(params);
 
         wmsa_index_query_exec_block_time
                 .labels(nodeName)
@@ -235,30 +196,69 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
         return ret;
     }
 
+    /** This class is responsible for ranking the results and adding the best results to the
+     * resultHeap, which depending on the state of the indexLookup threads may or may not block
+     */
+    private ResultRankingContext createRankingContext(ResultRankingParameters rankingParams,
+                                                      CompiledQuery<String> compiledQuery,
+                                                      CompiledQueryLong compiledQueryIds)
+    {
+
+        int[] full = new int[compiledQueryIds.size()];
+        int[] prio = new int[compiledQueryIds.size()];
+
+        BitSet ngramsMask = new BitSet(compiledQuery.size());
+        BitSet regularMask = new BitSet(compiledQuery.size());
+
+        var currentIndex = statefulIndex.get();
+
+        for (int idx = 0; idx < compiledQueryIds.size(); idx++) {
+            long id = compiledQueryIds.at(idx);
+            full[idx] = currentIndex.numHits(id);
+            prio[idx] = currentIndex.numHitsPrio(id);
+
+            if (compiledQuery.at(idx).contains("_")) {
+                ngramsMask.set(idx);
+            }
+            else {
+                regularMask.set(idx);
+            }
+        }
+
+        return new ResultRankingContext(currentIndex.totalDocCount(),
+                rankingParams,
+                ngramsMask,
+                regularMask,
+                new CqDataInt(full),
+                new CqDataInt(prio));
+    }
+
     /** This class is responsible for executing a search query. It uses a thread pool to
      * execute the subqueries and their valuation in parallel. The results are then combined
      * into a bounded priority queue, and finally the best results are returned.
      */
     private class QueryExecution {
+
         private static final Executor workerPool = Executors.newWorkStealingPool(indexValuationThreads*4);
 
         /** The queue where the results from the index lookup threads are placed,
          * pending ranking by the result ranker threads */
         private final ArrayBlockingQueue<CombinedDocIdList> resultCandidateQueue
                 = new ArrayBlockingQueue<>(8);
-
         private final ResultPriorityQueue resultHeap;
+
         private final ResultRankingContext resultRankingContext;
-
         private final AtomicInteger remainingIndexTasks = new AtomicInteger(0);
-        private final AtomicInteger remainingValuationTasks = new AtomicInteger(0);
 
+        private final AtomicInteger remainingValuationTasks = new AtomicInteger(0);
         private final AtomicLong blockTime = new AtomicLong(0);
+
         private final AtomicLong stallTime = new AtomicLong(0);
 
         public long getStallTime() {
             return stallTime.get();
         }
+
         public long getBlockTime() {
             return blockTime.get();
         }
@@ -269,7 +269,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
         }
 
         /** Execute a search query */
-        public SearchResultSet run(SearchParameters parameters) throws SQLException, InterruptedException {
+        public List<RpcDecoratedResultItem> run(SearchParameters parameters) throws SQLException, InterruptedException {
 
             var terms = new SearchTerms(parameters.query, parameters.compiledQueryIds);
 
@@ -286,7 +286,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
             awaitCompletion();
 
             // Return the best results
-            return new SearchResultSet(resultValuator.selectBestResults(parameters, resultHeap));
+            return resultValuator.selectBestResults(parameters, resultHeap);
         }
 
         /** Wait for all tasks to complete */
@@ -297,12 +297,12 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                 }
             }
         }
-
         /** This class is responsible for executing a subquery and adding the results to the
          * resultCandidateQueue, which depending on the state of the valuator threads may
          * or may not block */
         class IndexLookup implements Runnable {
             private final IndexQuery query;
+
             private final IndexSearchBudget budget;
 
             IndexLookup(IndexQuery query,
@@ -344,7 +344,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                         results.add(buffer.data.get(i));
                     }
 
-                    if (results.size() < 512) {
+                    if (results.size() >= 512) {
                         enqueueResults(new CombinedDocIdList(results));
                         results.clear();
                     }
@@ -371,13 +371,11 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                     logger.warn("Interrupted while waiting to offer resultIds to queue", e);
                 }
             }
-        }
 
-        /** This class is responsible for ranking the results and adding the best results to the
-         * resultHeap, which depending on the state of the indexLookup threads may or may not block
-         */
+        }
         class ResultRanker implements Runnable {
             private final SearchParameters parameters;
+
             private final ResultRankingContext rankingContext;
 
             ResultRanker(SearchParameters parameters, ResultRankingContext rankingContext) {
@@ -401,7 +399,6 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                     }
                 }
             }
-
             private boolean execute() throws InterruptedException {
                 long start = System.currentTimeMillis();
 
@@ -426,43 +423,10 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
 
                 return true; // keep going
             }
+
         }
 
     }
 
-    private ResultRankingContext createRankingContext(ResultRankingParameters rankingParams,
-                                                      CompiledQuery<String> compiledQuery,
-                                                      CompiledQueryLong compiledQueryIds)
-    {
-
-        int[] full = new int[compiledQueryIds.size()];
-        int[] prio = new int[compiledQueryIds.size()];
-
-        BitSet ngramsMask = new BitSet(compiledQuery.size());
-        BitSet regularMask = new BitSet(compiledQuery.size());
-
-        var currentIndex = statefulIndex.get();
-
-        for (int idx = 0; idx < compiledQueryIds.size(); idx++) {
-            long id = compiledQueryIds.at(idx);
-            full[idx] = currentIndex.numHits(id);
-            prio[idx] = currentIndex.numHitsPrio(id);
-
-            if (compiledQuery.at(idx).contains("_")) {
-                ngramsMask.set(idx);
-            }
-            else {
-                regularMask.set(idx);
-            }
-        }
-
-        return new ResultRankingContext(currentIndex.totalDocCount(),
-                rankingParams,
-                ngramsMask,
-                regularMask,
-                new CqDataInt(full),
-                new CqDataInt(prio));
-    }
-
 }
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 90331d14..8c94cefd 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -6,9 +6,11 @@ import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import gnu.trove.map.hash.TObjectLongHashMap;
 import it.unimi.dsi.fastutil.longs.LongArrayList;
+import nu.marginalia.api.searchquery.RpcDecoratedResultItem;
+import nu.marginalia.api.searchquery.RpcRawResultItem;
+import nu.marginalia.api.searchquery.RpcResultKeywordScore;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
-import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
 import nu.marginalia.index.index.CombinedIndexReader;
@@ -109,8 +111,8 @@ public class IndexResultRankingService {
     }
 
 
-    public List<DecoratedSearchResultItem> selectBestResults(SearchParameters params,
-                                                     Collection<SearchResultItem> results) throws SQLException {
+    public List<RpcDecoratedResultItem> selectBestResults(SearchParameters params,
+                                                          Collection<SearchResultItem> results) throws SQLException {
 
         var domainCountFilter = new IndexResultDomainDeduplicator(params.limitByDomain);
 
@@ -141,7 +143,7 @@ public class IndexResultRankingService {
             detailsById.put(item.urlId(), item);
         }
 
-        List<DecoratedSearchResultItem> resultItems = new ArrayList<>(resultsList.size());
+        List<RpcDecoratedResultItem> resultItems = new ArrayList<>(resultsList.size());
 
         // Decorate the results with the document details
         for (var result : resultsList) {
@@ -153,23 +155,45 @@ public class IndexResultRankingService {
                 continue;
             }
 
-            // Create a decorated search result item from the result and the document data
-            resultItems.add(new DecoratedSearchResultItem(
-                    result,
-                    docData.url(),
-                    docData.title(),
-                    docData.description(),
-                    docData.urlQuality(),
-                    docData.format(),
-                    docData.features(),
-                    docData.pubYear(),
-                    docData.dataHash(),
-                    docData.wordsTotal(),
-                    0L, //bestPositions(wordMetas),
-                    result.getScore(),
-                    domainCountFilter.getCount(result),
-                    null
-            ));
+            var rawItem = RpcRawResultItem.newBuilder();
+
+            rawItem.setCombinedId(result.combinedId);
+            rawItem.setHtmlFeatures(result.htmlFeatures);
+            rawItem.setEncodedDocMetadata(result.encodedDocMetadata);
+            rawItem.setHasPriorityTerms(result.hasPrioTerm);
+
+            for (var score : result.keywordScores) {
+                rawItem.addKeywordScores(
+                        RpcResultKeywordScore.newBuilder()
+                                .setFlags(score.flags)
+                                .setPositions(score.positionCount)
+                                .setKeyword(score.keyword)
+                );
+            }
+
+            var decoratedBuilder = RpcDecoratedResultItem.newBuilder()
+                    .setDataHash(docData.dataHash())
+                    .setDescription(docData.description())
+                    .setFeatures(docData.features())
+                    .setFormat(docData.format())
+                    .setRankingScore(result.getScore())
+                    .setTitle(docData.title())
+                    .setUrl(docData.url().toString())
+                    .setUrlQuality(docData.urlQuality())
+                    .setWordsTotal(docData.wordsTotal())
+                    .setBestPositions(0 /* FIXME */)
+                    .setResultsFromDomain(domainCountFilter.getCount(result))
+                    .setRawItem(rawItem);
+
+            if (docData.pubYear() != null) {
+                decoratedBuilder.setPubYear(docData.pubYear());
+            }
+
+            /* FIXME
+            var rankingDetails = IndexProtobufCodec.convertRankingDetails(result.rankingDetails);
+            if (rankingDetails != null) {
+                decoratedBuilder.setRankingDetails(rankingDetails);
+            }*/
         }
 
         return resultItems;
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 60501571..5021f2ee 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -130,9 +130,9 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         int[] idxes = new int[] { 30, 510, 90, 150, 210, 270, 330, 390, 450 };
         long[] ids = IntStream.of(idxes).mapToLong(this::fullId).toArray();
-        long[] actual = rsp.results
+        long[] actual = rsp
                 .stream()
-                .mapToLong(i -> i.rawIndexResult.getDocumentId())
+                .mapToLong(i -> i.getRawItem().getCombinedId())
                 .toArray();
 
         System.out.println(Arrays.toString(actual));
@@ -177,9 +177,9 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         int[] idxes = new int[] { 504, 360, 420, 480, 240, 180, 300, 120, 280, 440 };
         long[] ids = IntStream.of(idxes).mapToLong(Long::valueOf).toArray();
-        long[] actual = rsp.results
+        long[] actual = rsp
                 .stream()
-                .mapToLong(i -> i.rawIndexResult.getDocumentId())
+                .mapToLong(i -> i.getRawItem().getCombinedId())
                 .map(UrlIdCodec::getDocumentOrdinal)
                 .toArray();
 
@@ -224,7 +224,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
                                 Collections.emptyList())).build());
         int[] idxes = new int[] {  210, 270 };
         long[] ids = IntStream.of(idxes).mapToLong(id -> UrlIdCodec.encodeId(id/100, id)).toArray();
-        long[] actual = rsp.results.stream().mapToLong(i -> i.rawIndexResult.getDocumentId()).toArray();
+        long[] actual = rsp.stream().mapToLong(i -> i.getRawItem().getCombinedId()).toArray();
 
         Assertions.assertArrayEquals(ids, actual);
     }
@@ -262,12 +262,12 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         Set<Integer> years = new HashSet<>();
 
-        for (var res : rsp.results) {
-            years.add(DocumentMetadata.decodeYear(res.rawIndexResult.encodedDocMetadata));
+        for (var res : rsp) {
+            years.add(DocumentMetadata.decodeYear(res.getRawItem().getCombinedId()));
         }
 
         assertEquals(Set.of(1998), years);
-        assertEquals(rsp.results.size(), 10);
+        assertEquals(rsp.size(), 10);
 
     }
 
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index eb83f714..569b7937 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -347,8 +347,8 @@ public class IndexQueryServiceIntegrationTest {
 
         System.out.println(rsp);
 
-        for (var result : rsp.results) {
-            long docId = result.rawIndexResult.getDocumentId();
+        for (var result : rsp) {
+            long docId = result.getRawItem().getCombinedId();
             actual.add(new MockDataDocument(UrlIdCodec.getDomainId(docId), UrlIdCodec.getDocumentOrdinal(docId)));
         }
 
@@ -382,9 +382,9 @@ public class IndexQueryServiceIntegrationTest {
                         includeAndCohere("hello", "world")
                 )));
 
-        assertEquals(1, rsp.results.size());
+        assertEquals(1, rsp.size());
         assertEquals(d(2,2).docId(),
-                rsp.results.get(0).rawIndexResult.getDocumentId());
+                rsp.get(0).getRawItem().getCombinedId());
     }
 
     SearchSpecification basicQuery(Function<SearchSpecification.SearchSpecificationBuilder, SearchSpecification.SearchSpecificationBuilder> mutator)

From 2e89b555932480b5e377be5655097eb896b48a90 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 9 Aug 2024 12:57:25 +0200
Subject: [PATCH 126/216] (wip) Repair qdebug utility and show new ranking
 details

---
 .../api/searchquery/IndexProtobufCodec.java   |  42 ------
 .../api/searchquery/QueryProtobufCodec.java   | 129 ++++++++++++++----
 .../model/results/SearchResultItem.java       |   3 +
 .../model/results/debug/DebugFactor.java      |   4 +
 .../model/results/debug/DebugFactorGroup.java |   5 +
 .../results/debug/DebugRankingFactors.java    |  38 ++++++
 .../model/results/debug/DebugTermFactor.java  |   4 +
 .../results/debug/DebugTermFactorGroup.java   |   6 +
 .../results/debug/ResultRankingDetails.java   |   5 +-
 .../results/debug/ResultRankingInputs.java    |   5 -
 .../results/debug/ResultRankingOutputs.java   |  16 ---
 .../api/src/main/protobuf/query-api.proto     |  27 ++--
 .../nu/marginalia/index/IndexGrpcService.java |  13 +-
 .../results/IndexResultRankingService.java    |  88 ++++++++++--
 .../results/IndexResultScoreCalculator.java   |  78 ++++++++++-
 .../IndexResultDomainDeduplicatorTest.java    |   2 +-
 .../marginalia/query/QueryBasicInterface.java |   6 +-
 .../resources/templates/qdebug.hdb            |  39 +++---
 18 files changed, 361 insertions(+), 149 deletions(-)
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactor.java
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactorGroup.java
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactor.java
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactorGroup.java
 delete mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingInputs.java
 delete mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index 2b5cbaa0..898264e8 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -4,9 +4,6 @@ import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingDetails;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingInputs;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingOutputs;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.index.query.limit.SpecificationLimitType;
@@ -147,43 +144,4 @@ public class IndexProtobufCodec {
         return builder.build();
     }
 
-
-    public static RpcResultRankingDetails convertRankingDetails(ResultRankingDetails rankingDetails) {
-        if (rankingDetails == null) {
-            return null;
-        }
-
-        return RpcResultRankingDetails.newBuilder()
-                .setInputs(convertRankingInputs(rankingDetails.inputs()))
-                .setOutput(convertRankingOutput(rankingDetails.outputs()))
-                .build();
-    }
-
-    private static RpcResultRankingOutputs convertRankingOutput(ResultRankingOutputs outputs) {
-        return RpcResultRankingOutputs.newBuilder()
-                .setAverageSentenceLengthPenalty(outputs.averageSentenceLengthPenalty())
-                .setQualityPenalty(outputs.qualityPenalty())
-                .setRankingBonus(outputs.rankingBonus())
-                .setTopologyBonus(outputs.topologyBonus())
-                .setDocumentLengthPenalty(outputs.documentLengthPenalty())
-                .setTemporalBias(outputs.temporalBias())
-                .setFlagsPenalty(outputs.flagsPenalty())
-                .setOverallPart(outputs.overallPart())
-                .setTcfAvgDist(outputs.tcfAvgDist())
-                .setTcfFirstPosition(outputs.tcfFirstPosition())
-                .setBm25Part(outputs.bm25())
-                .build();
-    }
-
-    private static RpcResultRankingInputs convertRankingInputs(ResultRankingInputs inputs) {
-        return RpcResultRankingInputs.newBuilder()
-                .setRank(inputs.rank())
-                .setAsl(inputs.asl())
-                .setQuality(inputs.quality())
-                .setSize(inputs.size())
-                .setTopology(inputs.topology())
-                .setYear(inputs.year())
-                .addAllFlags(inputs.flags())
-                .build();
-    }
 }
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
index 691d374a..e6e68431 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
@@ -9,13 +9,17 @@ import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
 import nu.marginalia.api.searchquery.model.results.SearchResultKeywordScore;
+import nu.marginalia.api.searchquery.model.results.debug.DebugFactor;
+import nu.marginalia.api.searchquery.model.results.debug.DebugFactorGroup;
+import nu.marginalia.api.searchquery.model.results.debug.DebugTermFactorGroup;
 import nu.marginalia.api.searchquery.model.results.debug.ResultRankingDetails;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingInputs;
-import nu.marginalia.api.searchquery.model.results.debug.ResultRankingOutputs;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.model.EdgeUrl;
 
 import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
 
 public class QueryProtobufCodec {
 
@@ -138,45 +142,109 @@ public class QueryProtobufCodec {
     private static ResultRankingDetails convertRankingDetails(RpcResultRankingDetails rankingDetails) {
         if (rankingDetails == null)
             return null;
-        var inputs = rankingDetails.getInputs();
-        var outputs = rankingDetails.getOutput();
+
+        var docData = rankingDetails.getDocumentOutputs();
+        var termData = rankingDetails.getTermOutputs();
 
         return new ResultRankingDetails(
-                convertRankingInputs(inputs),
-                convertRankingOutputs(outputs)
+                convertDocumentOutputs(docData),
+                convertTermData(termData)
         );
 
     }
 
-    private static ResultRankingOutputs convertRankingOutputs(RpcResultRankingOutputs outputs) {
-        return new ResultRankingOutputs(
-                outputs.getAverageSentenceLengthPenalty(),
-                outputs.getQualityPenalty(),
-                outputs.getRankingBonus(),
-                outputs.getTopologyBonus(),
-                outputs.getDocumentLengthPenalty(),
-                outputs.getTemporalBias(),
-                outputs.getFlagsPenalty(),
-                outputs.getOverallPart(),
-                outputs.getBm25Part(),
-                outputs.getTcfAvgDist(),
-                outputs.getTcfFirstPosition()
+    private static List<DebugTermFactorGroup> convertTermData(RpcResultTermRankingOutputs termData) {
+        Map<String, Long> termIdByName = new HashMap<>();
+        Map<String, List<DebugFactor>> factorsByTerm = new HashMap<>();
 
-        );
+        for (int i = 0; i < termData.getTermCount(); i++) {
+            termIdByName.put(termData.getTerm(i), termData.getTermId(i));
+            factorsByTerm.computeIfAbsent(termData.getTerm(i), k -> new ArrayList<>())
+                    .add(new DebugFactor(termData.getFactor(i), termData.getValue(i)));
+        }
+
+        Map<String, List<DebugFactorGroup>> factorGroupsByTerm = new HashMap<>();
+        for (var entry : factorsByTerm.entrySet()) {
+            String term = entry.getKey();
+            var factorsList = entry.getValue();
+
+            Map<String, List<DebugFactor>> factorsByGroup = new HashMap<>();
+
+            for (var factor : factorsList) {
+                String[] parts = factor.factor().split("\\.");
+
+                String group, name;
+
+                if (parts.length != 2) {
+                    group = "unknown";
+                    name = parts[0];
+                } else {
+                    group = parts[0];
+                    name = parts[1];
+                }
+
+
+                factorsByGroup.computeIfAbsent(group, k -> new ArrayList<>())
+                        .add(new DebugFactor(name, factor.value()));
+            }
+
+            factorsByGroup.forEach((groupName, groupData) -> {
+                factorGroupsByTerm.computeIfAbsent(term, k -> new ArrayList<>())
+                        .add(new DebugFactorGroup(groupName, groupData));
+            });
+
+        }
+
+        List<DebugTermFactorGroup> groups = new ArrayList<>();
+
+        for (var entry : factorGroupsByTerm.entrySet()) {
+            groups.add(new DebugTermFactorGroup(entry.getKey(), termIdByName.get(entry.getKey()), entry.getValue()));
+        }
+
+        return groups;
     }
 
-    private static ResultRankingInputs convertRankingInputs(RpcResultRankingInputs inputs) {
-        return new ResultRankingInputs(
-                inputs.getRank(),
-                inputs.getAsl(),
-                inputs.getQuality(),
-                inputs.getSize(),
-                inputs.getTopology(),
-                inputs.getYear(),
-                inputs.getFlagsList()
-        );
+    private static List<DebugFactorGroup> convertDocumentOutputs(RpcResultDocumentRankingOutputs docData) {
+
+        List<DebugFactor> unclusteredFactors = new ArrayList<>();
+        for (int i = 0; i < docData.getFactorCount(); i++) {
+            String factor = docData.getFactor(i);
+            String value = docData.getValue(i);
+            unclusteredFactors.add(new DebugFactor(factor, value));
+        }
+
+        Map<String, List<DebugFactor>> factorsByGroup = new HashMap<>();
+
+        for (var factor : unclusteredFactors) {
+            String factorName = factor.factor();
+            String value = factor.value();
+
+            String[] parts = factorName.split("\\.");
+
+            String group, name;
+
+            if (parts.length != 2) {
+                group = "unknown";
+                name = factorName;
+            }
+            else {
+                group = parts[0];
+                name = parts[1];
+            }
+
+            factorsByGroup.computeIfAbsent(group, k -> new ArrayList<>())
+                    .add(new DebugFactor(name, value));
+        }
+
+        List<DebugFactorGroup> groups = new ArrayList<>();
+        for (var entry : factorsByGroup.entrySet()) {
+            groups.add(new DebugFactorGroup(entry.getKey(), entry.getValue()));
+        }
+
+        return groups;
     }
 
+
     private static SearchResultItem convertRawResult(RpcRawResultItem rawItem) {
         var keywordScores = new ArrayList<SearchResultKeywordScore>(rawItem.getKeywordScoresCount());
 
@@ -189,6 +257,7 @@ public class QueryProtobufCodec {
                 rawItem.getHtmlFeatures(),
                 keywordScores,
                 rawItem.getHasPriorityTerms(),
+                null, // Not set
                 Double.NaN // Not set
         );
     }
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
index dbd94638..c9599b2e 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
@@ -2,6 +2,7 @@ package nu.marginalia.api.searchquery.model.results;
 
 import lombok.AllArgsConstructor;
 import lombok.Getter;
+import nu.marginalia.api.searchquery.model.results.debug.DebugRankingFactors;
 import nu.marginalia.model.id.UrlIdCodec;
 import org.jetbrains.annotations.NotNull;
 
@@ -27,6 +28,8 @@ public class SearchResultItem implements Comparable<SearchResultItem> {
 
     public boolean hasPrioTerm;
 
+    public DebugRankingFactors debugRankingFactors;
+
     public SearchResultItem(long combinedId,
                             long encodedDocMetadata,
                             int htmlFeatures) {
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactor.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactor.java
new file mode 100644
index 00000000..9eb2f6c6
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactor.java
@@ -0,0 +1,4 @@
+package nu.marginalia.api.searchquery.model.results.debug;
+
+public record DebugFactor(String factor, String value) {
+}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactorGroup.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactorGroup.java
new file mode 100644
index 00000000..245cdb8c
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugFactorGroup.java
@@ -0,0 +1,5 @@
+package nu.marginalia.api.searchquery.model.results.debug;
+
+import java.util.List;
+
+public record DebugFactorGroup(String name, List<DebugFactor> factors) {}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java
new file mode 100644
index 00000000..25d012d3
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java
@@ -0,0 +1,38 @@
+package nu.marginalia.api.searchquery.model.results.debug;
+
+import it.unimi.dsi.fastutil.ints.IntIterator;
+
+import java.util.ArrayList;
+import java.util.List;
+import java.util.StringJoiner;
+
+public class DebugRankingFactors {
+    private final List<DebugFactor> documentFactors = new ArrayList<>();
+    private final List<DebugTermFactor> termFactors = new ArrayList<>();
+
+    public DebugRankingFactors() {}
+
+    public void addDocumentFactor(String factor, String value) {
+        documentFactors.add(new DebugFactor(factor, value));
+    }
+
+    public void addTermFactor(long termId, String factor, String value) {
+        termFactors.add(new DebugTermFactor(termId, null, factor, value));
+    }
+    public void addTermFactor(long termId, String factor, IntIterator sequenceIter) {
+        if (!sequenceIter.hasNext()) return;
+
+        StringJoiner joiner = new StringJoiner(",");
+        while (sequenceIter.hasNext()) {
+            joiner.add(String.valueOf(sequenceIter.nextInt()));
+        }
+        termFactors.add(new DebugTermFactor(termId, null, factor, joiner.toString()));
+    }
+    public List<DebugFactor> getDocumentFactors() {
+        return documentFactors;
+    }
+
+    public List<DebugTermFactor> getTermFactors() {
+        return termFactors;
+    }
+}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactor.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactor.java
new file mode 100644
index 00000000..84b944f3
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactor.java
@@ -0,0 +1,4 @@
+package nu.marginalia.api.searchquery.model.results.debug;
+
+public record DebugTermFactor(long termId, String term, String factor, String value) {
+}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactorGroup.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactorGroup.java
new file mode 100644
index 00000000..303b7eec
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugTermFactorGroup.java
@@ -0,0 +1,6 @@
+package nu.marginalia.api.searchquery.model.results.debug;
+
+import java.util.List;
+
+public record DebugTermFactorGroup(String term, long termId, List<DebugFactorGroup> factorList) {
+}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingDetails.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingDetails.java
index c94200e2..e4bca962 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingDetails.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingDetails.java
@@ -1,6 +1,9 @@
 package nu.marginalia.api.searchquery.model.results.debug;
 
-public record ResultRankingDetails(ResultRankingInputs inputs, ResultRankingOutputs outputs)
+import java.util.List;
+
+public record ResultRankingDetails(List<DebugFactorGroup> docFactorGroups,
+                                   List<DebugTermFactorGroup> termFactorGroups)
 {
 
 }
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingInputs.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingInputs.java
deleted file mode 100644
index 86169416..00000000
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingInputs.java
+++ /dev/null
@@ -1,5 +0,0 @@
-package nu.marginalia.api.searchquery.model.results.debug;
-
-import java.util.List;
-
-public record ResultRankingInputs(int rank, int asl, int quality, int size, int topology, int year, List<String> flags) {}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java
deleted file mode 100644
index e9c490e8..00000000
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/ResultRankingOutputs.java
+++ /dev/null
@@ -1,16 +0,0 @@
-package nu.marginalia.api.searchquery.model.results.debug;
-
-
-public record ResultRankingOutputs(double averageSentenceLengthPenalty,
-                                   double qualityPenalty,
-                                   double rankingBonus,
-                                   double topologyBonus,
-                                   double documentLengthPenalty,
-                                   double temporalBias,
-                                   double flagsPenalty,
-                                   double overallPart,
-                                   double bm25,
-                                   double tcfAvgDist,
-                                   double tcfFirstPosition)
-{
-}
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index ee6e669b..640e5fdb 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -143,8 +143,8 @@ message RpcResultRankingParameters {
 }
 
 message RpcResultRankingDetails {
-  RpcResultRankingInputs inputs = 1;
-  RpcResultRankingOutputs output = 2;
+  RpcResultDocumentRankingOutputs documentOutputs = 1;
+  RpcResultTermRankingOutputs termOutputs = 2;
 }
 
 message RpcResultRankingInputs {
@@ -158,19 +158,16 @@ message RpcResultRankingInputs {
 }
 
 /** Summary of the output of the ranking function */
-message RpcResultRankingOutputs {
-  double averageSentenceLengthPenalty = 1;
-  double qualityPenalty = 2;
-  double rankingBonus = 3;
-  double topologyBonus = 4;
-  double documentLengthPenalty = 5;
-  double temporalBias = 6;
-  double flagsPenalty = 7;
-  double overallPart = 8;
-  double bm25Part = 9;
-  // 10-14 unused
-  double tcfAvgDist = 15;
-  double tcfFirstPosition = 16;
+message RpcResultDocumentRankingOutputs {
+  repeated string factor = 1;
+  repeated string value = 2;
+}
+
+message RpcResultTermRankingOutputs {
+  repeated int64 termId = 1;
+  repeated string term = 2;
+  repeated string factor = 3;
+  repeated string value = 4;
 }
 
 /* Defines a single subquery */
diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index 68e077a4..e1614166 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -118,7 +118,13 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                     .labels(nodeName, "GRPC")
                     .time(() -> {
                         // Perform the search
-                        return executeSearch(params);
+                        try {
+                            return executeSearch(params);
+                        }
+                        catch (Exception ex) {
+                            logger.error("Error in handling request", ex);
+                            return List.of();
+                        }
                     });
 
             // Prometheus bookkeeping
@@ -286,7 +292,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
             awaitCompletion();
 
             // Return the best results
-            return resultValuator.selectBestResults(parameters, resultHeap);
+            return resultValuator.selectBestResults(parameters, resultRankingContext, resultHeap);
         }
 
         /** Wait for all tasks to complete */
@@ -399,6 +405,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                     }
                 }
             }
+
             private boolean execute() throws InterruptedException {
                 long start = System.currentTimeMillis();
 
@@ -417,7 +424,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                     stallTime.addAndGet(System.currentTimeMillis() - start);
 
                     resultHeap.addAll(
-                            resultValuator.rankResults(parameters, rankingContext, resultIds)
+                            resultValuator.rankResults(parameters, false, rankingContext, resultIds)
                     );
                 }
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 8c94cefd..810a1880 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -6,13 +6,13 @@ import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import gnu.trove.map.hash.TObjectLongHashMap;
 import it.unimi.dsi.fastutil.longs.LongArrayList;
-import nu.marginalia.api.searchquery.RpcDecoratedResultItem;
-import nu.marginalia.api.searchquery.RpcRawResultItem;
-import nu.marginalia.api.searchquery.RpcResultKeywordScore;
+import nu.marginalia.api.searchquery.*;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
+import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
+import nu.marginalia.api.searchquery.model.results.debug.DebugRankingFactors;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.SearchParameters;
@@ -48,6 +48,7 @@ public class IndexResultRankingService {
     }
 
     public List<SearchResultItem> rankResults(SearchParameters params,
+                                              boolean exportDebugData,
                                               ResultRankingContext rankingContext,
                                               CombinedDocIdList resultIds)
     {
@@ -99,10 +100,19 @@ public class IndexResultRankingService {
                     continue;
                 }
 
-                // Calculate the preliminary score
-                var score = resultRanker.calculateScore(arena, resultIds.at(i), searchTerms, flags, positions);
-                if (score != null) {
-                    results.add(score);
+                if (!exportDebugData) {
+                    var score = resultRanker.calculateScore(arena, null, resultIds.at(i), searchTerms, flags, positions);
+                    if (score != null) {
+                        results.add(score);
+                    }
+                }
+                else {
+                    var rankingFactors = new DebugRankingFactors();
+                    var score = resultRanker.calculateScore(arena, rankingFactors, resultIds.at(i), searchTerms, flags, positions);
+                    if (score != null) {
+                        score.debugRankingFactors = rankingFactors;
+                        results.add(score);
+                    }
                 }
             }
 
@@ -112,6 +122,7 @@ public class IndexResultRankingService {
 
 
     public List<RpcDecoratedResultItem> selectBestResults(SearchParameters params,
+                                                          ResultRankingContext resultRankingContext,
                                                           Collection<SearchResultItem> results) throws SQLException {
 
         var domainCountFilter = new IndexResultDomainDeduplicator(params.limitByDomain);
@@ -136,6 +147,25 @@ public class IndexResultRankingService {
             }
         }
 
+        // If we're exporting debug data from the ranking, we need to re-run the ranking calculation
+        // for the selected results, as this would be comically expensive to do for all the results we
+        // discard along the way
+
+        if (params.rankingParams.exportDebugData) {
+            var combinedIdsList = new LongArrayList(resultsList.size());
+            for (var item : resultsList) {
+                combinedIdsList.add(item.combinedId);
+            }
+
+            resultsList.clear();
+            resultsList.addAll(this.rankResults(
+                    params,
+                    true,
+                    resultRankingContext,
+                    new CombinedDocIdList(combinedIdsList))
+            );
+        }
+
         // Fetch the document details for the selected results in one go, from the local document database
         // for this index partition
         Map<Long, DocdbUrlDetail> detailsById = new HashMap<>(idsList.size());
@@ -189,11 +219,45 @@ public class IndexResultRankingService {
                 decoratedBuilder.setPubYear(docData.pubYear());
             }
 
-            /* FIXME
-            var rankingDetails = IndexProtobufCodec.convertRankingDetails(result.rankingDetails);
-            if (rankingDetails != null) {
-                decoratedBuilder.setRankingDetails(rankingDetails);
-            }*/
+            if (result.debugRankingFactors != null) {
+                var debugFactors = result.debugRankingFactors;
+                var detailsBuilder = RpcResultRankingDetails.newBuilder();
+                var documentOutputs = RpcResultDocumentRankingOutputs.newBuilder();
+
+                for (var factor : debugFactors.getDocumentFactors()) {
+                    documentOutputs.addFactor(factor.factor());
+                    documentOutputs.addValue(factor.value());
+                }
+
+                detailsBuilder.setDocumentOutputs(documentOutputs);
+
+                var termOutputs = RpcResultTermRankingOutputs.newBuilder();
+
+                CqDataLong termIds = params.compiledQueryIds.data;;
+
+                for (var entry : debugFactors.getTermFactors()) {
+                    String term = "[ERROR IN LOOKUP]";
+
+                    // CURSED: This is a linear search, but the number of terms is small, and it's in a debug path
+                    for (int i = 0; i < termIds.size(); i++) {
+                        if (termIds.get(i) == entry.termId()) {
+                            term = params.compiledQuery.at(i);
+                            break;
+                        }
+                    }
+
+                    termOutputs
+                            .addTermId(entry.termId())
+                            .addTerm(term)
+                            .addFactor(entry.factor())
+                            .addValue(entry.value());
+                }
+
+                detailsBuilder.setTermOutputs(termOutputs);
+                decoratedBuilder.setRankingDetails(detailsBuilder);
+            }
+
+            resultItems.add(decoratedBuilder.build());
         }
 
         return resultItems;
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 1d52e2c4..9b5d0e33 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -7,6 +7,7 @@ import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
+import nu.marginalia.api.searchquery.model.results.debug.DebugRankingFactors;
 import nu.marginalia.index.forward.spans.DocumentSpans;
 import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
@@ -57,6 +58,7 @@ public class IndexResultScoreCalculator {
 
     @Nullable
     public SearchResultItem calculateScore(Arena arena,
+                                           @Nullable DebugRankingFactors rankingFactors,
                                            long combinedId,
                                            QuerySearchTerms searchTerms,
                                            long[] wordFlags,
@@ -88,6 +90,8 @@ public class IndexResultScoreCalculator {
         DocumentSpans spans = index.getDocumentSpans(arena, docId);
 
         double score = calculateSearchResultValue(
+                rankingFactors,
+                searchTerms,
                 wordFlagsQuery,
                 positionsQuery,
                 docMetadata,
@@ -157,7 +161,9 @@ public class IndexResultScoreCalculator {
         return true;
     }
 
-    public double calculateSearchResultValue(CompiledQueryLong wordFlagsQuery,
+    public double calculateSearchResultValue(DebugRankingFactors rankingFactors,
+                                             QuerySearchTerms searchTerms,
+                                             CompiledQueryLong wordFlagsQuery,
                                              CompiledQuery<CodedSequence> positionsQuery,
                                              long documentMetadata,
                                              int features,
@@ -344,12 +350,82 @@ public class IndexResultScoreCalculator {
                 + verbatimMatchScore
                 + keywordMinDistFac;
 
+
+
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
         double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
 
         double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
         double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
 
+        if (rankingFactors != null) {
+            rankingFactors.addDocumentFactor("overall.averageSentenceLengthPenalty", Double.toString(averageSentenceLengthPenalty));
+            rankingFactors.addDocumentFactor("overall.documentLengthPenalty", Double.toString(documentLengthPenalty));
+            rankingFactors.addDocumentFactor("overall.qualityPenalty", Double.toString(qualityPenalty));
+            rankingFactors.addDocumentFactor("overall.rankingBonus", Double.toString(rankingBonus));
+            rankingFactors.addDocumentFactor("overall.topologyBonus", Double.toString(topologyBonus));
+            rankingFactors.addDocumentFactor("overall.temporalBias", Double.toString(temporalBias));
+            rankingFactors.addDocumentFactor("overall.flagsPenalty", Double.toString(flagsPenalty));
+            rankingFactors.addDocumentFactor("overall.verbatimMatchScore", Double.toString(verbatimMatchScore));
+            rankingFactors.addDocumentFactor("overall.keywordMinDistFac", Double.toString(keywordMinDistFac));
+
+            rankingFactors.addDocumentFactor("tcf.avgDist", Double.toString(tcfAvgDist));
+            rankingFactors.addDocumentFactor("tcf.firstPosition", Double.toString(tcfFirstPosition));
+
+            rankingFactors.addDocumentFactor("bm25.main", Double.toString(bM25));
+            rankingFactors.addDocumentFactor("bm25.flags", Double.toString(bFlags));
+
+            for (int i = 0; i < searchTerms.termIdsAll.size(); i++) {
+                long termId = searchTerms.termIdsAll.at(i);
+
+                rankingFactors.addTermFactor(termId, "factor.weightedCount", Double.toString(weightedCounts[i]));
+                byte flags = (byte) wordFlagsQuery.at(i);
+
+                for (var flag : WordFlags.values()) {
+                    if (flag.isPresent(flags)) {
+                        rankingFactors.addTermFactor(termId, "flags." + flag.name(), "true");
+                    }
+                }
+
+                if (verbatimMatchInAnchor) {
+                    rankingFactors.addTermFactor(termId, "verbatim.anchor", "true");
+                }
+                if (verbatimMatchInBody) {
+                    rankingFactors.addTermFactor(termId, "verbatim.body", "true");
+                }
+                if (verbatimMatchInCode) {
+                    rankingFactors.addTermFactor(termId, "verbatim.code", "true");
+                }
+                if (verbatimMatchInExtLink) {
+                    rankingFactors.addTermFactor(termId, "verbatim.extLink", "true");
+                }
+                if (verbatimMatchInHeading) {
+                    rankingFactors.addTermFactor(termId, "verbatim.heading", "true");
+                }
+                if (verbatimMatchInNav) {
+                    rankingFactors.addTermFactor(termId, "verbatim.nav", "true");
+                }
+                if (verbatimMatchInTitle) {
+                    rankingFactors.addTermFactor(termId, "verbatim.title", "true");
+                }
+
+                rankingFactors.addTermFactor(termId, "unordered.title", Integer.toString(unorderedMatchInTitleCount));
+                rankingFactors.addTermFactor(termId, "unordered.heading", Integer.toString(unorderedMatchInHeadingCount));
+
+                if (positions[i] != null) {
+                    rankingFactors.addTermFactor(termId, "positions.all", positions[i].iterator());
+                    rankingFactors.addTermFactor(termId, "positions.title", SequenceOperations.findIntersections(spans.title.iterator(), positions[i].iterator()).iterator());
+                    rankingFactors.addTermFactor(termId, "positions.heading", SequenceOperations.findIntersections(spans.heading.iterator(), positions[i].iterator()).iterator());
+                    rankingFactors.addTermFactor(termId, "positions.anchor", SequenceOperations.findIntersections(spans.anchor.iterator(), positions[i].iterator()).iterator());
+                    rankingFactors.addTermFactor(termId, "positions.code", SequenceOperations.findIntersections(spans.code.iterator(), positions[i].iterator()).iterator());
+                    rankingFactors.addTermFactor(termId, "positions.nav", SequenceOperations.findIntersections(spans.nav.iterator(), positions[i].iterator()).iterator());
+                    rankingFactors.addTermFactor(termId, "positions.externalLinkText", SequenceOperations.findIntersections(spans.externalLinkText.iterator(), positions[i].iterator()).iterator());
+                }
+
+            }
+
+        }
+
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
diff --git a/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java b/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
index 4966e5f0..de538945 100644
--- a/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
+++ b/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
@@ -25,7 +25,7 @@ class IndexResultDomainDeduplicatorTest {
     }
 
     SearchResultItem forId(int domain, int ordinal) {
-        return new SearchResultItem(UrlIdCodec.encodeId(domain, ordinal), 0, 0, List.of(),false, Double.NaN);
+        return new SearchResultItem(UrlIdCodec.encodeId(domain, ordinal), 0, 0, List.of(),false, null, Double.NaN);
     }
 
 }
\ No newline at end of file
diff --git a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
index 4ed3b838..73a989bf 100644
--- a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
+++ b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
@@ -3,12 +3,12 @@ package nu.marginalia.query;
 import com.google.common.base.Strings;
 import com.google.gson.Gson;
 import com.google.inject.Inject;
+import nu.marginalia.api.searchquery.model.query.QueryParams;
 import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.functions.searchquery.QueryGRPCService;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.model.gson.GsonFactory;
-import nu.marginalia.api.searchquery.model.query.QueryParams;
 import nu.marginalia.renderer.MustacheRenderer;
 import nu.marginalia.renderer.RendererFactory;
 import spark.Request;
@@ -82,7 +82,7 @@ public class QueryBasicInterface {
                 domainCount, count, 250, 8192
         ), set);
 
-        var rankingParams = rankingParamsFromRequest(request);
+        var rankingParams = debugRankingParamsFromRequest(request);
 
         var detailedDirectResult = queryGRPCService.executeDirect(
                 queryString, queryParams, rankingParams
@@ -98,7 +98,7 @@ public class QueryBasicInterface {
         );
     }
 
-    private ResultRankingParameters rankingParamsFromRequest(Request request) {
+    private ResultRankingParameters debugRankingParamsFromRequest(Request request) {
         var sensibleDefaults = ResultRankingParameters.sensibleDefaults();
 
         return ResultRankingParameters.builder()
diff --git a/code/services-core/query-service/resources/templates/qdebug.hdb b/code/services-core/query-service/resources/templates/qdebug.hdb
index 4d2e7e41..ddcbfcdc 100644
--- a/code/services-core/query-service/resources/templates/qdebug.hdb
+++ b/code/services-core/query-service/resources/templates/qdebug.hdb
@@ -102,27 +102,26 @@
     <p>{{description}}</p>
 
     <div><small class="text-muted">dataHash: {{dataHash}} wordsTotal: {{wordsTotal}} bestPositions: {{bestPositions}} rankingScore: {{rankingScore}} urlQuality: {{urlQuality}}</small></div>
-    {{#with rankingDetails.inputs}}
-        <div><small class="text-muted">Rank: {{rank}}</small></div>
-        <div><small class="text-muted">ASL: {{asl}}</small></div>
-        <div><small class="text-muted">Quality: {{quality}}</small></div>
-        <div><small class="text-muted">Size: {{size}}</small></div>
-        <div><small class="text-muted">Topology: {{topology}}</small></div>
-        <div><small class="text-muted">Year: {{year}}</small></div>
-        <div><small class="text-muted">Flags: {{#each flags}} {{.}} {{/each}}</small></div>
+    {{#with rankingDetails.docFactorGroups}}
+        {{#each .}}
+            <div><small>{{name}}</small></div>
+            {{#each factors}}
+                <div><small class="text-muted">{{factor}}: {{value}}</small></div>
+            {{/each}}
+        {{/each}}
     {{/with}}
-    {{#with rankingDetails.outputs}}
-        <div><small class="text-muted">Average Sentence Length Penalty: {{averageSentenceLengthPenalty}}</small></div>
-        <div><small class="text-muted">Quality Penalty: {{qualityPenalty}}</small></div>
-        <div><small class="text-muted">Ranking Bonus: {{rankingBonus}}</small></div>
-        <div><small class="text-muted">Topology Bonus: {{topologyBonus}}</small></div>
-        <div><small class="text-muted">Document Length Penalty: {{documentLengthPenalty}}</small></div>
-        <div><small class="text-muted">Temporal Bias: {{temporalBias}}</small></div>
-        <div><small class="text-muted">Flags Penalty: {{flagsPenalty}}</small></div>
-        <div><small class="text-muted">Overall Part: {{overallPart}}</small></div>
-        <div><small class="text-muted">TCF Avg Distance: {{tcfAvgDist}}</small></div>
-        <div><small class="text-muted">TCF First Position: {{tcfFirstPosition}}</small></div>
-        <div><small class="text-muted">BM25: {{bM25}}</small></div>
+
+    {{#with rankingDetails.termFactorGroups}}
+        {{#each .}}
+        <div>{{termId}}:{{term}}</div>
+        {{#each factorList}}
+            <div>{{name}}</div>
+            {{#each factors}}
+                <div><small class="text-muted">{{factor}}: {{value}}</small></div>
+            {{/each}}
+
+        {{/each}}
+        {{/each}}
     {{/with}}
 
 </div>

From 41da4f422db1ce21da59028a53e93fa3aec5f56e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 9 Aug 2024 13:20:00 +0200
Subject: [PATCH 127/216] (search-query) Always generate the "all"-segmentation

---
 .../query_parser/QueryExpansion.java          | 40 ++++++++++---------
 1 file changed, 21 insertions(+), 19 deletions(-)

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
index 5287c7d3..6ba56680 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
@@ -5,7 +5,6 @@ import com.google.inject.Inject;
 import nu.marginalia.functions.searchquery.query_parser.model.QWord;
 import nu.marginalia.functions.searchquery.query_parser.model.QWordGraph;
 import nu.marginalia.functions.searchquery.query_parser.model.QWordPathsRenderer;
-import nu.marginalia.language.WordPatterns;
 import nu.marginalia.segmentation.NgramLexicon;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.apache.commons.lang3.StringUtils;
@@ -131,6 +130,10 @@ public class QueryExpansion {
             nodes.add(qw);
         }
 
+        if (nodes.size() <= 1) {
+            return List.of();
+        }
+
         String[] words = nodes.stream().map(QWord::stemmed).toArray(String[]::new);
 
         // Grab all segments
@@ -141,29 +144,28 @@ public class QueryExpansion {
         }
         allSegments.sort(Comparator.comparing(NgramLexicon.SentenceSegment::start));
 
-        if (allSegments.isEmpty()) {
-            return List.of();
-        }
-
-        Set<NgramLexicon.SentenceSegment> bestSegmentation =
-                findBestSegmentation(allSegments);
-
         List<List<String>> coherences = new ArrayList<>();
 
-        for (var segment : bestSegmentation) {
+        if (!allSegments.isEmpty()) {
 
-            int start = segment.start();
-            int end = segment.start() + segment.length();
+            Set<NgramLexicon.SentenceSegment> bestSegmentation =
+                    findBestSegmentation(allSegments);
 
-            List<String> components = new ArrayList<>(end - start);
-            for (int i = start; i < end; i++) {
-                components.add(nodes.get(i).word());
+            for (var segment : bestSegmentation) {
+
+                int start = segment.start();
+                int end = segment.start() + segment.length();
+
+                List<String> components = new ArrayList<>(end - start);
+                for (int i = start; i < end; i++) {
+                    components.add(nodes.get(i).word());
+                }
+                coherences.add(components);
+
+                // Create an n-gram search term for the segment
+                String word = String.join("_", components);
+                graph.addVariantForSpan(nodes.get(start), nodes.get(end - 1), word);
             }
-            coherences.add(components);
-
-            // Create an n-gram search term for the segment
-            String word = String.join("_", components);
-            graph.addVariantForSpan(nodes.get(start), nodes.get(end - 1), word);
         }
 
         // also create a segmentation that is just the entire query

From df89661ed262386428cd000e0a336fd0d7a50d3a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 9 Aug 2024 16:32:32 +0200
Subject: [PATCH 128/216] (index) In SearchResultItem, populate combinedId with
 combinedId and not its ranking-removed documentId cousin

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 9b5d0e33..e1dd41cf 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -102,7 +102,7 @@ public class IndexResultScoreCalculator {
                 searchTerms.coherences,
                 rankingContext);
 
-        SearchResultItem searchResult = new SearchResultItem(docId,
+        SearchResultItem searchResult = new SearchResultItem(combinedId,
                 docMetadata,
                 htmlFeatures);
 

From 016a4c62e1112c0ef8b981fa151094fc8d59c1de Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 9 Aug 2024 16:38:21 +0200
Subject: [PATCH 129/216] (index) Bugs and error fixes, chasing and fixing
 mystery results that did not contain all relevant keywords

---
 .../model/compiled/CompiledQuery.java         |  8 ++-
 .../searchquery/model/compiled/CqData.java    |  8 +--
 .../model/results/SearchResultItem.java       |  4 +-
 .../compiled/CompiledQueryParserTest.java     | 18 ++++-
 .../results/IndexResultScoreCalculator.java   | 65 +++++++------------
 .../index/results/model/ids/TermIdList.java   | 18 +++--
 .../paperdoll/SearchServicePaperDoll.java     |  2 +-
 7 files changed, 67 insertions(+), 56 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQuery.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQuery.java
index 356a1d86..775d63fb 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQuery.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CompiledQuery.java
@@ -3,7 +3,9 @@ package nu.marginalia.api.searchquery.model.compiled;
 import org.jetbrains.annotations.NotNull;
 
 import java.util.Iterator;
-import java.util.function.*;
+import java.util.function.Function;
+import java.util.function.ToIntFunction;
+import java.util.function.ToLongFunction;
 import java.util.stream.IntStream;
 import java.util.stream.Stream;
 
@@ -46,8 +48,8 @@ public class CompiledQuery<T> implements Iterable<T> {
         return new CompiledQueryLong(root, data.mapToLong(mapper));
     }
 
-    public CompiledQueryLong mapToInt(ToIntFunction<T> mapper) {
-        return new CompiledQueryLong(root, data.mapToInt(mapper));
+    public CompiledQueryInt mapToInt(ToIntFunction<T> mapper) {
+        return new CompiledQueryInt(root, data.mapToInt(mapper));
     }
 
     public CqExpression root() {
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqData.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqData.java
index 145f3f0f..63f7301b 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqData.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/compiled/CqData.java
@@ -33,13 +33,13 @@ public class CqData<T> {
         return new CqDataLong(newData);
     }
 
-    public CqDataLong mapToInt(ToIntFunction<T> mapper) {
-        long[] newData = new long[data.length];
+    public CqDataInt mapToInt(ToIntFunction<T> mapper) {
+        int[] newData = new int[data.length];
         for (int i = 0; i < data.length; i++) {
-            newData[i] = mapper.applyAsInt((T) data[i]);
+            newData[i] = mapper.applyAsInt(data[i]);
         }
 
-        return new CqDataLong(newData);
+        return new CqDataInt(newData);
     }
 
     public T get(int i) {
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
index c9599b2e..6a70625c 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
@@ -32,11 +32,13 @@ public class SearchResultItem implements Comparable<SearchResultItem> {
 
     public SearchResultItem(long combinedId,
                             long encodedDocMetadata,
-                            int htmlFeatures) {
+                            int htmlFeatures,
+                            double score) {
         this.combinedId = combinedId;
         this.encodedDocMetadata = encodedDocMetadata;
         this.keywordScores = new ArrayList<>();
         this.htmlFeatures = htmlFeatures;
+        this.scoreValue = score;
     }
 
 
diff --git a/code/functions/search-query/api/test/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParserTest.java b/code/functions/search-query/api/test/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParserTest.java
index 47983820..e7b1ce5d 100644
--- a/code/functions/search-query/api/test/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParserTest.java
+++ b/code/functions/search-query/api/test/nu/marginalia/api/searchquery/model/compiled/CompiledQueryParserTest.java
@@ -1,10 +1,11 @@
 package nu.marginalia.api.searchquery.model.compiled;
 
+import nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates;
 import org.junit.jupiter.api.Test;
 
 import java.util.List;
 
-import static org.junit.jupiter.api.Assertions.*;
+import static org.junit.jupiter.api.Assertions.assertEquals;
 
 class CompiledQueryParserTest {
 
@@ -22,6 +23,21 @@ class CompiledQueryParserTest {
         assertEquals(w(q, "foo"), q.root);
     }
 
+    @Test
+    public void testCohen() {
+        CompiledQuery<String> q = CompiledQueryParser.parse("( tube brief of elaboration | brief_elaboration_of_a_tube )");
+        int val = CompiledQueryAggregates.intMaxMinAggregate(q, s ->
+            switch (s) {
+                case "brief" -> 3;
+                case "tube" -> 2;
+                case "of" -> 1;
+                default -> 0;
+            });
+        assertEquals(0, val);
+
+        System.out.println(q.stream().toList());
+    }
+
     @Test
     public void testAndTwoWords() {
         CompiledQuery<String> q = CompiledQueryParser.parse("foo bar");
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index e1dd41cf..0705433c 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -2,7 +2,6 @@ package nu.marginalia.index.results;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
-import nu.marginalia.api.searchquery.model.compiled.CompiledQueryInt;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -54,8 +53,6 @@ public class IndexResultScoreCalculator {
         this.compiledQuery = params.compiledQuery;
     }
 
-    private final long flagsFilterMask = WordFlags.Title.asBit() | WordFlags.Subjects.asBit() | WordFlags.UrlDomain.asBit() | WordFlags.UrlPath.asBit() | WordFlags.ExternalLink.asBit();
-
     @Nullable
     public SearchResultItem calculateScore(Arena arena,
                                            @Nullable DebugRankingFactors rankingFactors,
@@ -67,19 +64,19 @@ public class IndexResultScoreCalculator {
 
         CompiledQuery<CodedSequence> positionsQuery = compiledQuery.root.newQuery(positions);
 
-        int[] counts = new int[compiledQuery.size()];
-
-        for (int i = 0; i < counts.length; i++) {
-            if (positions[i] != null) {
-                counts[i] = positions[i].valueCount();
-            }
-        }
-        CompiledQueryInt positionsCountQuery = compiledQuery.root.newQuery(counts);
-        CompiledQueryLong wordFlagsQuery = compiledQuery.root.newQuery(wordFlags);
-
         // If the document is not relevant to the query, abort early to reduce allocations and
         // avoid unnecessary calculations
-        if (testRelevance(wordFlagsQuery, positionsCountQuery)) {
+
+        CompiledQueryLong wordFlagsQuery = compiledQuery.root.newQuery(wordFlags);
+        if (!meetsQueryStrategyRequirements(wordFlagsQuery, queryParams.queryStrategy())) {
+            return null;
+        }
+
+        boolean allSynthetic = booleanAggregate(wordFlagsQuery, flags -> WordFlags.Synthetic.isPresent((byte) flags));
+        int minFlagsCount = intMaxMinAggregate(wordFlagsQuery, flags -> Long.bitCount(flags & 0xff));
+        int minPositionsCount = intMaxMinAggregate(positionsQuery, pos -> pos == null ? 0 : pos.valueCount());
+
+        if (minFlagsCount == 0 && !allSynthetic && minPositionsCount == 0) {
             return null;
         }
 
@@ -102,28 +99,7 @@ public class IndexResultScoreCalculator {
                 searchTerms.coherences,
                 rankingContext);
 
-        SearchResultItem searchResult = new SearchResultItem(combinedId,
-                docMetadata,
-                htmlFeatures);
-
-        searchResult.setScore(score);
-
-        return searchResult;
-    }
-
-    private boolean testRelevance(CompiledQueryLong wordFlagsQuery, CompiledQueryInt countsQuery) {
-        boolean allSynthetic = booleanAggregate(wordFlagsQuery, flags -> WordFlags.Synthetic.isPresent((byte) flags));
-        int flagsCount = intMaxMinAggregate(wordFlagsQuery, flags ->  Long.bitCount(flags & flagsFilterMask));
-        int positionsCount = intMaxMinAggregate(countsQuery, p -> p);
-
-        if (!meetsQueryStrategyRequirements(wordFlagsQuery, queryParams.queryStrategy())) {
-            return true;
-        }
-        if (flagsCount == 0 && !allSynthetic && positionsCount == 0) {
-            return true;
-        }
-
-        return false;
+        return new SearchResultItem(combinedId, docMetadata, htmlFeatures, score);
     }
 
     private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
@@ -320,6 +296,11 @@ public class IndexResultScoreCalculator {
                         weightedCounts[i] += 0.2f;
                     else if (spans.nav.containsPosition(pos))
                         weightedCounts[i] += 0.1f;
+                    else
+                        weightedCounts[i] += 1.0f;
+
+                    if (spans.externalLinkText.containsPosition(pos))
+                        weightedCounts[i] += 1.0f;
                 }
 
                 if (titleMatch) {
@@ -375,14 +356,19 @@ public class IndexResultScoreCalculator {
             rankingFactors.addDocumentFactor("bm25.main", Double.toString(bM25));
             rankingFactors.addDocumentFactor("bm25.flags", Double.toString(bFlags));
 
+            rankingFactors.addDocumentFactor("unordered.title", Integer.toString(unorderedMatchInTitleCount));
+            rankingFactors.addDocumentFactor("unordered.heading", Integer.toString(unorderedMatchInHeadingCount));
+
             for (int i = 0; i < searchTerms.termIdsAll.size(); i++) {
                 long termId = searchTerms.termIdsAll.at(i);
 
                 rankingFactors.addTermFactor(termId, "factor.weightedCount", Double.toString(weightedCounts[i]));
-                byte flags = (byte) wordFlagsQuery.at(i);
+                var flags = wordFlagsQuery.at(i);
+
+                rankingFactors.addTermFactor(termId, "flags.rawEncoded", Long.toString(flags));
 
                 for (var flag : WordFlags.values()) {
-                    if (flag.isPresent(flags)) {
+                    if (flag.isPresent((byte) flags)) {
                         rankingFactors.addTermFactor(termId, "flags." + flag.name(), "true");
                     }
                 }
@@ -409,9 +395,6 @@ public class IndexResultScoreCalculator {
                     rankingFactors.addTermFactor(termId, "verbatim.title", "true");
                 }
 
-                rankingFactors.addTermFactor(termId, "unordered.title", Integer.toString(unorderedMatchInTitleCount));
-                rankingFactors.addTermFactor(termId, "unordered.heading", Integer.toString(unorderedMatchInHeadingCount));
-
                 if (positions[i] != null) {
                     rankingFactors.addTermFactor(termId, "positions.all", positions[i].iterator());
                     rankingFactors.addTermFactor(termId, "positions.title", SequenceOperations.findIntersections(spans.title.iterator(), positions[i].iterator()).iterator());
diff --git a/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java b/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
index 2afba3a6..9737761c 100644
--- a/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
+++ b/code/index/java/nu/marginalia/index/results/model/ids/TermIdList.java
@@ -3,7 +3,6 @@ package nu.marginalia.index.results.model.ids;
 import it.unimi.dsi.fastutil.longs.LongArrayList;
 
 import java.util.Arrays;
-import java.util.Objects;
 import java.util.stream.LongStream;
 
 public final class TermIdList {
@@ -11,7 +10,6 @@ public final class TermIdList {
 
     public TermIdList(long[] array) {
         this.array = array;
-        Arrays.sort(this.array);
     }
 
     public TermIdList(LongArrayList list) {
@@ -35,12 +33,22 @@ public final class TermIdList {
     }
 
     public boolean contains(long id) {
-        // Implicitly sorted
-        return Arrays.binarySearch(array, id) >= 0;
+        // array is typically small and unsorted, so linear search is fine
+        for (int i = 0; i < array.length; i++) {
+            if (array[i] == id) {
+                return true;
+            }
+        }
+        return false;
     }
 
     public int indexOf(long id) {
-        return Arrays.binarySearch(array, id);
+        for (int i = 0; i < array.length; i++) {
+            if (array[i] == id) {
+                return i;
+            }
+        }
+        return -1;
     }
 
     @Override
diff --git a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
index 76fb62fc..7ef84262 100644
--- a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
+++ b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
@@ -91,7 +91,7 @@ public class SearchServicePaperDoll extends AbstractModule {
             long positions)
     {
         results.add(new DecoratedSearchResultItem(
-                new SearchResultItem(url.hashCode(), 2, 3),
+                new SearchResultItem(url.hashCode(), 2, 3, score),
                 new EdgeUrl(url),
                 title,
                 description,

From 4264fb9f49a74535b06d16d5d2f4ec1125e33808 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 09:49:49 +0200
Subject: [PATCH 130/216] (query-service) Clean up qdebug UI a bit

---
 .../query-service/resources/templates/qdebug.hdb            | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/code/services-core/query-service/resources/templates/qdebug.hdb b/code/services-core/query-service/resources/templates/qdebug.hdb
index ddcbfcdc..9185b27e 100644
--- a/code/services-core/query-service/resources/templates/qdebug.hdb
+++ b/code/services-core/query-service/resources/templates/qdebug.hdb
@@ -106,7 +106,7 @@
         {{#each .}}
             <div><small>{{name}}</small></div>
             {{#each factors}}
-                <div><small class="text-muted">{{factor}}: {{value}}</small></div>
+                <div style="margin-left: 1ch"><small class="text-muted">{{factor}}: {{value}}</small></div>
             {{/each}}
         {{/each}}
     {{/with}}
@@ -115,9 +115,9 @@
         {{#each .}}
         <div>{{termId}}:{{term}}</div>
         {{#each factorList}}
-            <div>{{name}}</div>
+            <div style="margin-left: 1ch">{{name}}</div>
             {{#each factors}}
-                <div><small class="text-muted">{{factor}}: {{value}}</small></div>
+                <div style="margin-left: 2ch"><small class="text-muted">{{factor}}: {{value}}</small></div>
             {{/each}}
 
         {{/each}}

From 41b52f5bcd3ef8d001bc2f27bdbfc68789ec75b8 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 09:50:10 +0200
Subject: [PATCH 131/216] (index) Simplify verbatim match calculation

---
 code/index/build.gradle                       |   1 +
 .../index/forward/spans/DocumentSpans.java    |  16 ++
 .../results/IndexResultScoreCalculator.java   | 167 ++++++++++--------
 .../results/model/TermCoherenceGroupList.java |   5 +
 .../language/sentence/tag/HtmlTag.java        |  36 +++-
 5 files changed, 139 insertions(+), 86 deletions(-)

diff --git a/code/index/build.gradle b/code/index/build.gradle
index bf50a507..bd596ccc 100644
--- a/code/index/build.gradle
+++ b/code/index/build.gradle
@@ -24,6 +24,7 @@ dependencies {
     implementation project(':code:libraries:btree')
     implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
+    implementation project(':code:libraries:language-processing')
 
     implementation project(':code:common:db')
     implementation project(':code:common:config')
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
index 8f8d5cf5..a09b6503 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -15,6 +15,22 @@ public class DocumentSpans {
 
     public DocumentSpan externalLinkText = EMPTY_SPAN;
 
+    public DocumentSpan getSpan(HtmlTag tag) {
+        if (tag == HtmlTag.HEADING)
+            return heading;
+        else if (tag == HtmlTag.TITLE)
+            return title;
+        else if (tag == HtmlTag.NAV)
+            return nav;
+        else if (tag == HtmlTag.CODE)
+            return code;
+        else if (tag == HtmlTag.ANCHOR)
+            return anchor;
+        else if (tag == HtmlTag.EXTERNAL_LINKTEXT)
+            return externalLinkText;
+        return EMPTY_SPAN;
+    }
+
     void accept(byte code, CodedSequence positions) {
         if (code == HtmlTag.HEADING.code)
             this.heading = new DocumentSpan(positions);
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 0705433c..58e27860 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -15,6 +15,7 @@ import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.results.model.QuerySearchTerms;
 import nu.marginalia.index.results.model.TermCoherenceGroupList;
+import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.crawl.PubDate;
 import nu.marginalia.model.id.UrlIdCodec;
@@ -27,6 +28,7 @@ import nu.marginalia.sequence.SequenceOperations;
 import javax.annotation.Nullable;
 import java.lang.foreign.Arena;
 import java.util.ArrayList;
+import java.util.BitSet;
 import java.util.List;
 
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.booleanAggregate;
@@ -137,6 +139,8 @@ public class IndexResultScoreCalculator {
         return true;
     }
 
+
+
     public double calculateSearchResultValue(DebugRankingFactors rankingFactors,
                                              QuerySearchTerms searchTerms,
                                              CompiledQueryLong wordFlagsQuery,
@@ -181,67 +185,13 @@ public class IndexResultScoreCalculator {
 
         final int titleLength = Math.max(1, spans.title.length());
 
-        float verbatimMatchScore = 0.f;
+        VerbatimMatches verbatimMatches = new VerbatimMatches();
 
-        boolean verbatimMatchInTitle;
-        boolean verbatimMatchInHeading;
-        boolean verbatimMatchInAnchor;
-        boolean verbatimMatchInNav;
-        boolean verbatimMatchInCode;
-        boolean verbatimMatchInBody;
-        boolean verbatimMatchInExtLink;
 
-        // Calculate a bonus for keyword coherences when large ones exist
-        int largestOptional = coherences.largestOptional();
-        if (largestOptional >= 2) {
-            verbatimMatchInTitle = (largestOptional == coherences.testOptional(positions, spans.title));
-            verbatimMatchInHeading = (largestOptional == coherences.testOptional(positions, spans.heading));
-            verbatimMatchInAnchor = (largestOptional == coherences.testOptional(positions, spans.anchor));
-            verbatimMatchInNav = (largestOptional == coherences.testOptional(positions, spans.nav));
-            verbatimMatchInCode = (largestOptional == coherences.testOptional(positions, spans.code));
-            verbatimMatchInExtLink = (largestOptional == coherences.testOptional(positions, spans.code));
-            verbatimMatchInBody = (largestOptional == coherences.testOptional(positions));
-        }
-        else {
-            verbatimMatchInTitle = false;
-            verbatimMatchInHeading = false;
-            verbatimMatchInAnchor = false;
-            verbatimMatchInNav = false;
-            verbatimMatchInCode = false;
-            verbatimMatchInBody = false;
-            verbatimMatchInExtLink = false;
-        }
 
-        if (verbatimMatchInTitle) {
-            // verbatim title match
-            verbatimMatchScore = 4.0f * largestOptional;
-            // additional bonus if the match is most of the title's length
-            verbatimMatchScore += 2.f * largestOptional / titleLength;
-        }
-        else if (verbatimMatchInHeading) {
-            verbatimMatchScore = 1.5f * largestOptional;
-        }
-        else if (verbatimMatchInAnchor || verbatimMatchInCode) {
-            verbatimMatchScore = 0.2f * largestOptional;
-        }
-        else if (verbatimMatchInNav) {
-            verbatimMatchScore = 0.1f * largestOptional;
-        }
-        else if (verbatimMatchInBody) {
-            verbatimMatchScore = 0.75f * largestOptional;
-        }
-
-        if (coherences.numOptional() > 0) {
-            verbatimMatchScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
-        }
-
-        if (verbatimMatchInExtLink) { // Nudge the result up if there is a verbatim match in the external link text
-            verbatimMatchScore += 1.0f * largestOptional;
-        }
+        float verbatimMatchScore = findVerbatimMatches(verbatimMatches, coherences, positions, spans);
 
         float[] weightedCounts = new float[compiledQuery.size()];
-        int firstPosition = Integer.MAX_VALUE;
-
         float keywordMinDistFac = 0;
         if (positions.length > 2) {
             List<IntIterator> iterators = new ArrayList<>(positions.length);
@@ -268,6 +218,7 @@ public class IndexResultScoreCalculator {
         int unorderedMatchInTitleCount = 0;
         int unorderedMatchInHeadingCount = 0;
 
+        int firstPosition = 0;
         for (int i = 0; i < weightedCounts.length; i++) {
             if (positions[i] != null && ctx.regularMask.get(i)) {
                 searchableKeywordsCount ++;
@@ -312,12 +263,12 @@ public class IndexResultScoreCalculator {
             }
         }
 
-        if (!verbatimMatchInTitle && searchableKeywordsCount > 2 && unorderedMatchInTitleCount == searchableKeywordsCount) {
+        if (!verbatimMatches.get(HtmlTag.TITLE) && searchableKeywordsCount > 2 && unorderedMatchInTitleCount == searchableKeywordsCount) {
             verbatimMatchScore += 2.5f * unorderedMatchInTitleCount;
             verbatimMatchScore += 2.f * unorderedMatchInTitleCount / titleLength;
         }
 
-        if (!verbatimMatchInHeading && unorderedMatchInHeadingCount == searchableKeywordsCount) {
+        if (!verbatimMatches.get(HtmlTag.HEADING) && unorderedMatchInHeadingCount == searchableKeywordsCount) {
             verbatimMatchScore += 2.0f * unorderedMatchInHeadingCount;
         }
 
@@ -373,26 +324,10 @@ public class IndexResultScoreCalculator {
                     }
                 }
 
-                if (verbatimMatchInAnchor) {
-                    rankingFactors.addTermFactor(termId, "verbatim.anchor", "true");
-                }
-                if (verbatimMatchInBody) {
-                    rankingFactors.addTermFactor(termId, "verbatim.body", "true");
-                }
-                if (verbatimMatchInCode) {
-                    rankingFactors.addTermFactor(termId, "verbatim.code", "true");
-                }
-                if (verbatimMatchInExtLink) {
-                    rankingFactors.addTermFactor(termId, "verbatim.extLink", "true");
-                }
-                if (verbatimMatchInHeading) {
-                    rankingFactors.addTermFactor(termId, "verbatim.heading", "true");
-                }
-                if (verbatimMatchInNav) {
-                    rankingFactors.addTermFactor(termId, "verbatim.nav", "true");
-                }
-                if (verbatimMatchInTitle) {
-                    rankingFactors.addTermFactor(termId, "verbatim.title", "true");
+                for (HtmlTag tag : HtmlTag.includedTags) {
+                    if (verbatimMatches.get(tag)) {
+                        rankingFactors.addTermFactor(termId, "verbatim." + tag.name().toLowerCase(), "true");
+                    }
                 }
 
                 if (positions[i] != null) {
@@ -430,6 +365,82 @@ public class IndexResultScoreCalculator {
         }
     }
 
+    private float findVerbatimMatches(VerbatimMatches verbatimMatches,
+                                      TermCoherenceGroupList coherences,
+                                      CodedSequence[] positions,
+                                      DocumentSpans spans) {
+
+        // Calculate a bonus for keyword coherences when large ones exist
+        int largestOptional = coherences.largestOptional();
+        if (largestOptional < 2) {
+            return 0;
+        }
+
+        float verbatimMatchScore = 0.f;
+
+        for (var optionalGroup : coherences.getOptionalGroups()) {
+            int groupSize = optionalGroup.size;
+            float sizeScalingFactor = groupSize / (float) largestOptional;
+
+            for (var tag : HtmlTag.includedTags) {
+                if (optionalGroup.test(spans.getSpan(tag), positions)) {
+                    verbatimMatchScore += verbatimMatches.getWeight(tag) * sizeScalingFactor * groupSize;
+
+                    if (optionalGroup.size == largestOptional) {
+                        verbatimMatches.set(tag);
+                    }
+                }
+            }
+        }
+
+        if (coherences.numOptional() > 0) {
+            verbatimMatchScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+        }
+
+        return verbatimMatchScore;
+
+    }
+
+    private static class VerbatimMatches {
+        private final BitSet matches;
+        private final float[] weights;
+
+        public VerbatimMatches() {
+            matches = new BitSet(HtmlTag.includedTags.length);
+            weights = new float[] { HtmlTag.includedTags.length };
+
+            for (int i = 0; i < weights.length; i++) {
+                weights[i] = switch(HtmlTag.includedTags[i]) {
+                    case TITLE -> 4.0f;
+                    case HEADING -> 1.5f;
+                    case ANCHOR -> 0.2f;
+                    case NAV -> 0.1f;
+                    case CODE -> 0.25f;
+                    case EXTERNAL_LINKTEXT -> 1.0f;
+                    default -> 0.0f;
+                };
+            }
+        }
+
+        public boolean get(HtmlTag tag) {
+            assert !tag.exclude;
+            return matches.get(tag.ordinal());
+        }
+
+        public void set(HtmlTag tag) {
+            assert !tag.exclude;
+            matches.set(tag.ordinal());
+        }
+
+        public float getWeight(HtmlTag tag) {
+            assert !tag.exclude;
+            return weights[tag.ordinal()];
+        }
+
+
+    }
+
+
     private double calculateQualityPenalty(int size, int quality, ResultRankingParameters rankingParams) {
         if (size < 400) {
             if (quality < 5)
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
index c1d64c3d..71b4aeb1 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
@@ -10,6 +10,7 @@ import nu.marginalia.sequence.SequenceOperations;
 
 import java.util.ArrayList;
 import java.util.BitSet;
+import java.util.Collections;
 import java.util.List;
 
 /**
@@ -29,6 +30,10 @@ public class TermCoherenceGroupList {
         }
     }
 
+    public List<TermCoherenceGroup> getOptionalGroups() {
+        return Collections.unmodifiableList(optionalGroups);
+    }
+
     public boolean testMandatory(CodedSequence[] positions) {
 
         for (var coherenceSet : mandatoryGroups) {
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
index b7fc1c9b..42521de2 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/sentence/tag/HtmlTag.java
@@ -1,24 +1,27 @@
 package nu.marginalia.language.sentence.tag;
 
-public enum HtmlTag {
-    FORM((byte) 0, true, false),
-    SCRIPT((byte) 0, true, false),
-    STYLE((byte) 0, true, false),
+import java.util.Arrays;
 
+public enum HtmlTag {
     ANCHOR((byte) 'a', false, false),
     TITLE((byte) 't', false, false),
     HEADING((byte) 'h', false, false),
     CODE((byte) 'c', false, true),
     NAV((byte) 'n', false, false),
 
-    // pseudo-tags for internal use
+    // pseudo-tags for internal use,
+    BODY((byte) 'b', false, false),
     EXTERNAL_LINKTEXT((byte) 'x', false, false),
 
+    // excluded tags must be put last!
+    FORM((byte) 0, true, false),
+    SCRIPT((byte) 0, true, false),
+    STYLE((byte) 0, true, false),
     ;
 
-    public byte code;
-    public boolean exclude;
-    public boolean nonLanguage;
+    public final byte code;
+    public final boolean exclude;
+    public final boolean nonLanguage;
 
     HtmlTag(byte code, boolean exclude, boolean nonLanguage) {
         this.code = code;
@@ -26,4 +29,21 @@ public enum HtmlTag {
         this.nonLanguage = nonLanguage;
     }
 
+    // This is a bit of a hack to get the included tags in the order they are defined in the enum
+    public static final HtmlTag[] includedTags;
+
+    static {
+        HtmlTag[] values = values();
+        includedTags = new HtmlTag[(int) Arrays.stream(values).filter(tag -> !tag.exclude).count()];
+
+        for (int i = 0; i < values.length; i++) {
+            if (i != values[i].ordinal()) {
+                throw new IllegalStateException("Excluded tags must be put last");
+            }
+
+            if (!values()[i].exclude) {
+                includedTags[i] = values()[i];
+            }
+        }
+    }
 }

From 98c40958ab2f8a3d2885d3ffa3c32b4cea49a3cd Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 09:54:56 +0200
Subject: [PATCH 132/216] (index) Simplify verbatim match calculation

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 58e27860..d3110f79 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -407,7 +407,7 @@ public class IndexResultScoreCalculator {
 
         public VerbatimMatches() {
             matches = new BitSet(HtmlTag.includedTags.length);
-            weights = new float[] { HtmlTag.includedTags.length };
+            weights = new float[HtmlTag.includedTags.length];
 
             for (int i = 0; i < weights.length; i++) {
                 weights[i] = switch(HtmlTag.includedTags[i]) {

From b730b17f5241b9a32a5ecbd45582eb98750b1114 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 10:21:59 +0200
Subject: [PATCH 133/216] (index) Correct handling of firstPosition to avoid
 d/z

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index d3110f79..e2c5b5ca 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -218,7 +218,7 @@ public class IndexResultScoreCalculator {
         int unorderedMatchInTitleCount = 0;
         int unorderedMatchInHeadingCount = 0;
 
-        int firstPosition = 0;
+        int firstPosition = 1;
         for (int i = 0; i < weightedCounts.length; i++) {
             if (positions[i] != null && ctx.regularMask.get(i)) {
                 searchableKeywordsCount ++;

From e4f04af044c991b58ba2cbd1413c162fbe5b1672 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 10:22:19 +0200
Subject: [PATCH 134/216] (index) Give BODY matches a verbatim match value

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java  | 1 +
 1 file changed, 1 insertion(+)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index e2c5b5ca..56568c5f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -417,6 +417,7 @@ public class IndexResultScoreCalculator {
                     case NAV -> 0.1f;
                     case CODE -> 0.25f;
                     case EXTERNAL_LINKTEXT -> 1.0f;
+                    case BODY -> 1.0f;
                     default -> 0.0f;
                 };
             }

From 4ece5f847b06a4ff9855c2575e3498b4fa8a7b5a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 10:45:30 +0200
Subject: [PATCH 135/216] (index) Add more qdebug factors

---
 .../marginalia/index/results/IndexResultScoreCalculator.java | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 56568c5f..4fef504f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -88,6 +88,11 @@ public class IndexResultScoreCalculator {
         int docSize = index.getDocumentSize(docId);
         DocumentSpans spans = index.getDocumentSpans(arena, docId);
 
+        if (rankingFactors != null) {
+            rankingFactors.addDocumentFactor("doc.docId", Long.toString(combinedId));
+            rankingFactors.addDocumentFactor("doc.combinedId", Long.toString(docId));
+        }
+
         double score = calculateSearchResultValue(
                 rankingFactors,
                 searchTerms,

From e6c8a6febe02468e36a33688c480de7a9178d219 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 10 Aug 2024 10:51:59 +0200
Subject: [PATCH 136/216] (index) Add index-side deduplication in
 selectBestResults

---
 .../index/results/IndexResultRankingService.java           | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 810a1880..16d8a937 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -6,6 +6,7 @@ import gnu.trove.list.TLongList;
 import gnu.trove.list.array.TLongArrayList;
 import gnu.trove.map.hash.TObjectLongHashMap;
 import it.unimi.dsi.fastutil.longs.LongArrayList;
+import it.unimi.dsi.fastutil.longs.LongOpenHashSet;
 import nu.marginalia.api.searchquery.*;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
@@ -174,6 +175,7 @@ public class IndexResultRankingService {
         }
 
         List<RpcDecoratedResultItem> resultItems = new ArrayList<>(resultsList.size());
+        LongOpenHashSet seenDocumentHashes = new LongOpenHashSet(resultsList.size());
 
         // Decorate the results with the document details
         for (var result : resultsList) {
@@ -185,6 +187,11 @@ public class IndexResultRankingService {
                 continue;
             }
 
+            // Filter out duplicates by content
+            if (!seenDocumentHashes.add(docData.dataHash())) {
+                continue;
+            }
+
             var rawItem = RpcRawResultItem.newBuilder();
 
             rawItem.setCombinedId(result.combinedId);

From fd2bad39f36b1414929cb5ad1cd508b45d04d597 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 13 Aug 2024 09:49:26 +0200
Subject: [PATCH 137/216] (keyword-extraction) Add body field for terms that
 are not otherwise part of a field

---
 .../nu/marginalia/keyword/DocumentKeywordExtractor.java   | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
index 9559d246..c60cf34c 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/DocumentKeywordExtractor.java
@@ -111,7 +111,7 @@ public class DocumentKeywordExtractor {
         int pos = 0;
 
         List<SpanRecorder> spanRecorders = new ArrayList<>();
-        for (var htmlTag : HtmlTag.values()) {
+        for (var htmlTag : HtmlTag.includedTags) {
             if (!htmlTag.exclude) {
                 spanRecorders.add(new SpanRecorder(htmlTag));
             }
@@ -241,7 +241,11 @@ public class DocumentKeywordExtractor {
         public void update(DocumentSentence sentence, int pos) {
             assert pos > 0;
 
-            if (sentence.htmlTags.contains(htmlTag)) {
+            if (
+                    sentence.htmlTags.contains(htmlTag)
+                || (sentence.htmlTags.isEmpty() && htmlTag == HtmlTag.BODY)  // special case for body tag, we match against no tag on the sentence
+            )
+            {
                 if (start <= 0) start = pos;
             }
             else {

From 623ee5570f55f48184cd1d15e5b162896ecb954a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 13 Aug 2024 09:50:05 +0200
Subject: [PATCH 138/216] (slop) Break slop out into its own repository

---
 code/index/build.gradle                       |   2 +-
 code/index/index-forward/build.gradle         |   2 +-
 .../construction/ForwardIndexConverter.java   |   4 +-
 code/index/index-journal/build.gradle         |   2 +-
 .../index/journal/IndexJournal.java           |   9 +-
 .../index/journal/IndexJournalPage.java       |  34 +-
 .../index/journal/IndexJournalSlopWriter.java |  22 +-
 code/index/index-reverse/build.gradle         |   2 +-
 .../full/FullPreindexDocuments.java           |   2 +-
 .../full/FullPreindexWordSegments.java        |   2 +-
 .../prio/PrioPreindexDocuments.java           |   2 +-
 .../prio/PrioPreindexWordSegments.java        |   2 +-
 code/libraries/coded-sequence/build.gradle    |   2 +-
 .../slop/GammaCodedSequenceArrayColumn.java   |   7 +-
 .../slop/GammaCodedSequenceColumn.java        |   7 +-
 code/libraries/slop/build.gradle              |  83 -----
 .../marginalia/slop/column/ColumnReader.java  |  17 -
 .../marginalia/slop/column/ColumnWriter.java  |  14 -
 .../slop/column/ObjectColumnReader.java       |  37 --
 .../slop/column/ObjectColumnWriter.java       |  16 -
 .../slop/column/array/ByteArrayColumn.java    | 125 -------
 .../column/array/ByteArrayColumnReader.java   |  20 --
 .../column/array/ByteArrayColumnWriter.java   |  11 -
 .../slop/column/array/IntArrayColumn.java     | 120 -------
 .../column/array/IntArrayColumnReader.java    |  20 --
 .../column/array/IntArrayColumnWriter.java    |  11 -
 .../slop/column/array/LongArrayColumn.java    | 122 -------
 .../column/array/LongArrayColumnReader.java   |  21 --
 .../column/array/LongArrayColumnWriter.java   |  11 -
 .../slop/column/array/ObjectArrayColumn.java  | 118 -------
 .../column/array/ObjectArrayColumnReader.java |  21 --
 .../column/array/ObjectArrayColumnWriter.java |  12 -
 .../column/dynamic/CustomBinaryColumn.java    | 148 --------
 .../dynamic/CustomBinaryColumnReader.java     |  17 -
 .../dynamic/CustomBinaryColumnWriter.java     |  16 -
 .../slop/column/dynamic/VarintColumn.java     | 318 ------------------
 .../column/dynamic/VarintColumnReader.java    |  20 --
 .../column/dynamic/VarintColumnWriter.java    |   6 -
 .../slop/column/primitive/ByteColumn.java     |  88 -----
 .../column/primitive/ByteColumnReader.java    |  10 -
 .../column/primitive/ByteColumnWriter.java    |  11 -
 .../slop/column/primitive/CharColumn.java     |  89 -----
 .../column/primitive/CharColumnReader.java    |  10 -
 .../column/primitive/CharColumnWriter.java    |  11 -
 .../slop/column/primitive/DoubleColumn.java   |  88 -----
 .../column/primitive/DoubleColumnReader.java  |  10 -
 .../column/primitive/DoubleColumnWriter.java  |  11 -
 .../slop/column/primitive/FloatColumn.java    |  89 -----
 .../column/primitive/FloatColumnReader.java   |  10 -
 .../column/primitive/FloatColumnWriter.java   |  11 -
 .../slop/column/primitive/IntColumn.java      |  95 ------
 .../column/primitive/IntColumnReader.java     |  10 -
 .../column/primitive/IntColumnWriter.java     |  13 -
 .../slop/column/primitive/LongColumn.java     |  89 -----
 .../column/primitive/LongColumnReader.java    |  10 -
 .../column/primitive/LongColumnWriter.java    |  10 -
 .../slop/column/primitive/ShortColumn.java    |  89 -----
 .../column/primitive/ShortColumnReader.java   |  10 -
 .../column/primitive/ShortColumnWriter.java   |  11 -
 .../slop/column/string/EnumColumn.java        | 273 ---------------
 .../slop/column/string/EnumColumnReader.java  |  26 --
 .../slop/column/string/StringColumn.java      | 315 -----------------
 .../column/string/StringColumnReader.java     |  22 --
 .../column/string/StringColumnWriter.java     |  12 -
 .../nu/marginalia/slop/desc/ColumnDesc.java   | 109 ------
 .../marginalia/slop/desc/ColumnFunction.java  |  49 ---
 .../nu/marginalia/slop/desc/ColumnType.java   | 124 -------
 .../nu/marginalia/slop/desc/SlopTable.java    |  86 -----
 .../nu/marginalia/slop/desc/StorageType.java  |  28 --
 .../storage/CompressingStorageReader.java     | 234 -------------
 .../storage/CompressingStorageWriter.java     | 210 ------------
 .../slop/storage/MmapStorageReader.java       | 149 --------
 .../slop/storage/SimpleStorageReader.java     | 215 ------------
 .../slop/storage/SimpleStorageWriter.java     | 199 -----------
 .../nu/marginalia/slop/storage/Storage.java   |  61 ----
 .../slop/storage/StorageReader.java           |  50 ---
 .../slop/storage/StorageWriter.java           |  50 ---
 code/libraries/slop/readme.md                 | 164 ---------
 .../slop/column/ArrayColumnTest.java          |  78 -----
 .../slop/column/CodedSequenceColumnTest.java  |  57 ----
 .../slop/column/EnumColumnTest.java           |  93 -----
 .../marginalia/slop/column/IntColumnTest.java | 156 ---------
 .../slop/column/StringColumnTest.java         | 117 -------
 .../slop/column/VarintColumnTest.java         | 150 ---------
 .../marginalia/slop/desc/ColumnDescTest.java  |  32 --
 .../marginalia/slop/desc/SlopTableTest.java   | 215 ------------
 ...CompressingStorageWriterAndReaderTest.java | 308 -----------------
 .../SimpleStorageWriterAndMmapReaderTest.java | 307 -----------------
 .../SimpleStorageWriterAndReaderTest.java     | 307 -----------------
 .../processes/converting-process/build.gradle |   2 +-
 .../converting-process/model/build.gradle     |   2 +-
 .../model/processed/SlopDocumentRecord.java   | 121 +++----
 .../model/processed/SlopDomainLinkRecord.java |  18 +-
 .../model/processed/SlopDomainRecord.java     |  64 ++--
 code/processes/loading-process/build.gradle   |   2 +-
 settings.gradle                               |  17 +-
 96 files changed, 180 insertions(+), 6422 deletions(-)
 delete mode 100644 code/libraries/slop/build.gradle
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java
 delete mode 100644 code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java
 delete mode 100644 code/libraries/slop/readme.md
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java
 delete mode 100644 code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java

diff --git a/code/index/build.gradle b/code/index/build.gradle
index bd596ccc..007c7483 100644
--- a/code/index/build.gradle
+++ b/code/index/build.gradle
@@ -22,7 +22,6 @@ dependencies {
 
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
-    implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:language-processing')
 
@@ -41,6 +40,7 @@ dependencies {
     implementation project(':code:index:index-journal')
 
 
+    implementation libs.slop
     implementation libs.bundles.slf4j
 
     implementation libs.prometheus
diff --git a/code/index/index-forward/build.gradle b/code/index/index-forward/build.gradle
index cb3a3c19..946ef74b 100644
--- a/code/index/index-forward/build.gradle
+++ b/code/index/index-forward/build.gradle
@@ -15,7 +15,6 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
-    implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:language-processing')
     implementation project(':code:index:query')
@@ -30,6 +29,7 @@ dependencies {
     implementation libs.roaringbitmap
     implementation libs.fastutil
     implementation libs.trove
+    implementation libs.slop
 
     testImplementation project(':code:libraries:test-helpers')
     testImplementation libs.bundles.slf4j.test
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
index a216b584..acece3c7 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
@@ -86,7 +86,7 @@ public class ForwardIndexConverter {
 
             ByteBuffer workArea = ByteBuffer.allocate(65536);
             for (var instance : journal.pages()) {
-                try (var slopTable = new SlopTable())
+                try (var slopTable = new SlopTable(instance.page()))
                 {
                     var docIdReader = instance.openCombinedId(slopTable);
                     var metaReader = instance.openDocumentMeta(slopTable);
@@ -152,7 +152,7 @@ public class ForwardIndexConverter {
         Roaring64Bitmap rbm = new Roaring64Bitmap();
 
         for (var instance : journalReader.pages()) {
-            try (var slopTable = new SlopTable()) {
+            try (var slopTable = new SlopTable(instance.page())) {
                 LongColumnReader idReader = instance.openCombinedId(slopTable);
 
                 while (idReader.hasRemaining()) {
diff --git a/code/index/index-journal/build.gradle b/code/index/index-journal/build.gradle
index b63f2b23..012f027f 100644
--- a/code/index/index-journal/build.gradle
+++ b/code/index/index-journal/build.gradle
@@ -15,7 +15,6 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:array')
-    implementation project(':code:libraries:slop')
     implementation project(':code:common:model')
     implementation project(':code:processes:converting-process:model')
     implementation project(':third-party:parquet-floor')
@@ -23,6 +22,7 @@ dependencies {
 
     implementation libs.bundles.slf4j
 
+    implementation libs.slop
     implementation libs.prometheus
     implementation libs.notnull
     implementation libs.guava
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
index aca9b060..3561d79c 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
@@ -1,5 +1,7 @@
 package nu.marginalia.index.journal;
 
+import nu.marginalia.slop.desc.SlopTable;
+
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.ArrayList;
@@ -25,12 +27,7 @@ public record IndexJournal(Path journalDir) {
 
     /** Returns the number of versions of the journal file in the base directory. */
     public static int numPages(Path baseDirectory) {
-        for (int version = 0; ; version++) {
-            if (!IndexJournalPage.combinedId.forPage(version).exists(baseDirectory)) {
-                return version;
-            }
-        }
-
+        return SlopTable.getNumPages(baseDirectory, IndexJournalPage.combinedId);
     }
 
     public IndexJournal {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index 36ff57eb..ff6cfa1a 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -3,6 +3,7 @@ package nu.marginalia.index.journal;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayReader;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
+import nu.marginalia.slop.ColumnTypes;
 import nu.marginalia.slop.column.array.ByteArrayColumnReader;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
 import nu.marginalia.slop.column.array.LongArrayColumnReader;
@@ -12,7 +13,6 @@ import nu.marginalia.slop.column.primitive.IntColumnWriter;
 import nu.marginalia.slop.column.primitive.LongColumnReader;
 import nu.marginalia.slop.column.primitive.LongColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
@@ -20,16 +20,16 @@ import java.io.IOException;
 import java.nio.file.Path;
 
 public record IndexJournalPage(Path baseDir, int page) {
-    public static final ColumnDesc<IntColumnReader, IntColumnWriter> features = new ColumnDesc<>("features", ColumnType.INT_LE, StorageType.PLAIN);
-    public static final ColumnDesc<IntColumnReader, IntColumnWriter> size = new ColumnDesc<>("size", ColumnType.INT_LE, StorageType.PLAIN);
-    public static final ColumnDesc<LongColumnReader, LongColumnWriter> combinedId = new ColumnDesc<>("combinedId", ColumnType.LONG_LE, StorageType.PLAIN);
-    public static final ColumnDesc<LongColumnReader, LongColumnWriter> documentMeta = new ColumnDesc<>("documentMeta", ColumnType.LONG_LE, StorageType.PLAIN);
+    public static final ColumnDesc<IntColumnReader, IntColumnWriter> features = new ColumnDesc<>("features", ColumnTypes.INT_LE, StorageType.PLAIN);
+    public static final ColumnDesc<IntColumnReader, IntColumnWriter> size = new ColumnDesc<>("size", ColumnTypes.INT_LE, StorageType.PLAIN);
+    public static final ColumnDesc<LongColumnReader, LongColumnWriter> combinedId = new ColumnDesc<>("combinedId", ColumnTypes.LONG_LE, StorageType.PLAIN);
+    public static final ColumnDesc<LongColumnReader, LongColumnWriter> documentMeta = new ColumnDesc<>("documentMeta", ColumnTypes.LONG_LE, StorageType.PLAIN);
 
-    public static final ColumnDesc<LongArrayColumnReader, LongArrayColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnType.LONG_ARRAY_LE, StorageType.ZSTD);
-    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    public static final ColumnDesc<LongArrayColumnReader, LongArrayColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnTypes.LONG_ARRAY_LE, StorageType.ZSTD);
+    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
     public static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> positions = new ColumnDesc<>("termPositions", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
-    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodes = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodes = new ColumnDesc<>("spanCodes", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
     public static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> spans = new ColumnDesc<>("spans", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     public IndexJournalPage {
@@ -39,39 +39,39 @@ public record IndexJournalPage(Path baseDir, int page) {
     }
 
     public LongColumnReader openCombinedId(SlopTable table) throws IOException {
-        return combinedId.forPage(page).open(table, baseDir);
+        return combinedId.open(table, baseDir);
     }
 
     public LongColumnReader openDocumentMeta(SlopTable table) throws IOException {
-        return documentMeta.forPage(page).open(table, baseDir);
+        return documentMeta.open(table, baseDir);
     }
 
     public IntColumnReader openFeatures(SlopTable table) throws IOException {
-        return features.forPage(page).open(table, baseDir);
+        return features.open(table, baseDir);
     }
 
     public IntColumnReader openSize(SlopTable table) throws IOException {
-        return size.forPage(page).open(table, baseDir);
+        return size.open(table, baseDir);
     }
 
 
     public LongArrayColumnReader openTermIds(SlopTable table) throws IOException {
-        return termIds.forPage(page).open(table, baseDir);
+        return termIds.open(table, baseDir);
     }
 
     public ByteArrayColumnReader openTermMetadata(SlopTable table) throws IOException {
-        return termMeta.forPage(page).open(table, baseDir);
+        return termMeta.open(table, baseDir);
     }
 
     public GammaCodedSequenceArrayReader openTermPositions(SlopTable table) throws IOException {
-        return positions.forPage(page).open(table, baseDir);
+        return positions.open(table, baseDir);
     }
 
     public GammaCodedSequenceArrayReader openSpans(SlopTable table) throws IOException {
-        return spans.forPage(page).open(table, baseDir);
+        return spans.open(table, baseDir);
     }
 
     public ByteArrayColumnReader openSpanCodes(SlopTable table) throws IOException {
-        return spanCodes.forPage(page).open(table, baseDir);
+        return spanCodes.open(table, baseDir);
     }
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index 2b7acc01..1cf2853a 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -32,23 +32,25 @@ public class IndexJournalSlopWriter extends SlopTable {
     private static final MurmurHash3_128 hash = new MurmurHash3_128();
 
     public IndexJournalSlopWriter(Path dir, int page) throws IOException {
+
+        super(page);
+
         if (!Files.exists(dir)) {
             Files.createDirectory(dir);
         }
 
+        featuresWriter = IndexJournalPage.features.create(this, dir);
+        sizeWriter = IndexJournalPage.size.create(this, dir);
 
-        featuresWriter = IndexJournalPage.features.forPage(page).create(this, dir);
-        sizeWriter = IndexJournalPage.size.forPage(page).create(this, dir);
+        combinedIdWriter = IndexJournalPage.combinedId.create(this, dir);
+        documentMetaWriter = IndexJournalPage.documentMeta.create(this, dir);
 
-        combinedIdWriter = IndexJournalPage.combinedId.forPage(page).create(this, dir);
-        documentMetaWriter = IndexJournalPage.documentMeta.forPage(page).create(this, dir);
+        termIdsWriter = IndexJournalPage.termIds.create(this, dir);
+        termMetadataWriter = IndexJournalPage.termMeta.create(this, dir);
+        termPositionsWriter = IndexJournalPage.positions.create(this, dir);
 
-        termIdsWriter = IndexJournalPage.termIds.forPage(page).create(this, dir);
-        termMetadataWriter = IndexJournalPage.termMeta.forPage(page).create(this, dir);
-        termPositionsWriter = IndexJournalPage.positions.forPage(page).create(this, dir);
-
-        spanCodesWriter = IndexJournalPage.spanCodes.forPage(page).create(this, dir);
-        spansWriter = IndexJournalPage.spans.forPage(page).create(this, dir);
+        spanCodesWriter = IndexJournalPage.spanCodes.create(this, dir);
+        spansWriter = IndexJournalPage.spans.create(this, dir);
     }
 
     @SneakyThrows
diff --git a/code/index/index-reverse/build.gradle b/code/index/index-reverse/build.gradle
index eb83d6ce..bd0831ba 100644
--- a/code/index/index-reverse/build.gradle
+++ b/code/index/index-reverse/build.gradle
@@ -16,7 +16,6 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation project(':code:libraries:array')
     implementation project(':code:libraries:btree')
-    implementation project(':code:libraries:slop')
     implementation project(':code:libraries:coded-sequence')
     implementation project(':code:libraries:random-write-funnel')
     implementation project(':code:index:query')
@@ -31,6 +30,7 @@ dependencies {
 
     implementation libs.bundles.slf4j
 
+    implementation libs.slop
     implementation libs.fastutil
 
     testImplementation libs.bundles.slf4j.test
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 09ea2e04..94b77804 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -77,7 +77,7 @@ public class FullPreindexDocuments {
         final ByteBuffer tempBuffer = ByteBuffer.allocate(1024*1024*100);
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var slopTable = new SlopTable())
+             var slopTable = new SlopTable(journalInstance.page()))
         {
             var docIds = journalInstance.openCombinedId(slopTable);
             var termIds = journalInstance.openTermIds(slopTable);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index 9cccb1b6..bd52ba3e 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -60,7 +60,7 @@ public class FullPreindexWordSegments {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
 
-        try (var slopTable = new SlopTable()) {
+        try (var slopTable = new SlopTable(journalInstance.page())) {
             var termIds = journalInstance.openTermIds(slopTable);
             while (termIds.hasRemaining()) {
                 long[] tids = termIds.get();
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index a3ab8642..ec913101 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -65,7 +65,7 @@ public class PrioPreindexDocuments {
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var slopTable = new SlopTable())
+             var slopTable = new SlopTable(journalInstance.page()))
         {
             var docIds = journalInstance.openCombinedId(slopTable);
             var termIds = journalInstance.openTermIds(slopTable);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
index aabde27d..b69433cd 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -60,7 +60,7 @@ public class PrioPreindexWordSegments {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
 
-        try (var slopTable = new SlopTable()) {
+        try (var slopTable = new SlopTable(journalInstance.page())) {
             var termIds = journalInstance.openTermIds(slopTable);
             var termMetas = journalInstance.openTermMetadata(slopTable);
 
diff --git a/code/libraries/coded-sequence/build.gradle b/code/libraries/coded-sequence/build.gradle
index d87ef5a8..9de183f0 100644
--- a/code/libraries/coded-sequence/build.gradle
+++ b/code/libraries/coded-sequence/build.gradle
@@ -14,7 +14,7 @@ apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
     implementation libs.bundles.slf4j
 
-    implementation project(':code:libraries:slop')
+    implementation libs.slop
     implementation libs.fastutil
 
     testImplementation libs.bundles.slf4j.test
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
index e3402729..0f0498c0 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
@@ -1,6 +1,7 @@
 package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.ColumnTypes;
 import nu.marginalia.slop.column.dynamic.VarintColumn;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
@@ -19,13 +20,13 @@ import java.util.List;
 /** Slop column extension for storing GammaCodedSequence objects. */
 public class GammaCodedSequenceArrayColumn {
 
-    public static ColumnType<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> TYPE = ColumnType.register("s8[]+gcs[]", ByteOrder.nativeOrder(), GammaCodedSequenceArrayColumn::open, GammaCodedSequenceArrayColumn::create);
+    public static ColumnType<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> TYPE = ColumnTypes.register("s8[]+gcs[]", ByteOrder.nativeOrder(), GammaCodedSequenceArrayColumn::open, GammaCodedSequenceArrayColumn::create);
 
     public static GammaCodedSequenceArrayReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(columnDesc,
                 GammaCodedSequenceColumn.open(path, columnDesc),
                 VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH,
-                        ColumnType.VARINT_LE,
+                        ColumnTypes.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
@@ -35,7 +36,7 @@ public class GammaCodedSequenceArrayColumn {
         return new Writer(columnDesc,
                 GammaCodedSequenceColumn.create(path, columnDesc),
                 VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH,
-                        ColumnType.VARINT_LE,
+                        ColumnTypes.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
index 2bc17774..3dd3319b 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
@@ -1,6 +1,7 @@
 package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.ColumnTypes;
 import nu.marginalia.slop.column.dynamic.VarintColumn;
 import nu.marginalia.slop.column.dynamic.VarintColumnReader;
 import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
@@ -20,13 +21,13 @@ import java.nio.file.Path;
 /** Slop column extension for storing GammaCodedSequence objects. */
 public class GammaCodedSequenceColumn {
 
-    public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> TYPE = ColumnType.register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
+    public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> TYPE = ColumnTypes.register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
 
     public static GammaCodedSequenceReader open(Path path, ColumnDesc columnDesc) throws IOException {
         return new Reader(columnDesc,
                 Storage.reader(path, columnDesc, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
                 VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
-                        ColumnType.VARINT_LE,
+                        ColumnTypes.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
@@ -36,7 +37,7 @@ public class GammaCodedSequenceColumn {
         return new Writer(columnDesc,
                 Storage.writer(path, columnDesc),
                 VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
-                        ColumnType.VARINT_LE,
+                        ColumnTypes.VARINT_LE,
                         StorageType.PLAIN)
                 )
         );
diff --git a/code/libraries/slop/build.gradle b/code/libraries/slop/build.gradle
deleted file mode 100644
index e2612734..00000000
--- a/code/libraries/slop/build.gradle
+++ /dev/null
@@ -1,83 +0,0 @@
-plugins {
-    id 'java'
-    id 'application'
-    id 'org.graalvm.buildtools.native' version '0.10.2'
-}
-
-java {
-    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
-    }
-}
-
-
-sourceSets {
-    main {
-        java {
-            srcDirs = [
-                    'java',
-            ]
-        }
-        resources {
-            srcDirs = [ 'resources' ]
-        }
-    }
-    test {
-        java {
-            srcDirs = [ 'test' ]
-        }
-        resources {
-            srcDirs = [ 'test-resources' ]
-        }
-    }
-    demo {
-        java {
-            srcDirs = [ 'demo' ]
-        }
-        resources {
-            srcDirs = [ 'demo-resources' ]
-        }
-
-    }
-}
-
-application {
-    mainClass = 'demo.OneBillionRowsDemo'
-}
-
-graalvmNative {
-    binaries.all {
-        resources.autodetect()
-        buildArgs=['-H:+ForeignAPISupport', '-H:+UnlockExperimentalVMOptions']
-
-    }
-
-    toolchainDetection = false
-}
-
-dependencies {
-    implementation libs.bundles.slf4j
-
-    implementation libs.notnull
-    implementation libs.commons.lang3
-    implementation libs.lz4
-    implementation libs.commons.compress
-    implementation libs.zstd
-
-    testImplementation libs.bundles.slf4j.test
-    testImplementation libs.bundles.junit
-    testImplementation libs.mockito
-
-    demoImplementation sourceSets.main.output
-    demoImplementation libs.bundles.slf4j
-    demoImplementation libs.notnull
-    demoImplementation libs.commons.lang3
-    demoImplementation libs.lz4
-    demoImplementation libs.commons.compress
-    demoImplementation libs.zstd
-    demoImplementation libs.duckdb
-}
-
-test {
-    useJUnitPlatform()
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
deleted file mode 100644
index f870c56c..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnReader.java
+++ /dev/null
@@ -1,17 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-
-import java.io.IOException;
-
-public interface ColumnReader {
-
-    ColumnDesc<?, ?> columnDesc();
-
-    long position() throws IOException;
-    void skip(long positions) throws IOException;
-
-    boolean hasRemaining() throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
deleted file mode 100644
index d2c73f95..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ColumnWriter.java
+++ /dev/null
@@ -1,14 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-
-import java.io.IOException;
-
-public interface ColumnWriter {
-    ColumnDesc<?, ?> columnDesc();
-    
-    /** Return the current record index in the column */
-    long position();
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java
deleted file mode 100644
index 78e0d520..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnReader.java
+++ /dev/null
@@ -1,37 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-
-import java.io.IOException;
-import java.util.function.Predicate;
-
-public interface ObjectColumnReader<T> extends ColumnReader {
-
-    ColumnDesc<?, ?> columnDesc();
-
-    T get() throws IOException;
-
-    default boolean search(T value) throws IOException {
-        while (hasRemaining()) {
-            if (get().equals(value)) {
-                return true;
-            }
-        }
-        return false;
-    }
-    default boolean search(Predicate<T> test) throws IOException {
-        while (hasRemaining()) {
-            if (test.test(get())) {
-                return true;
-            }
-        }
-        return false;
-    }
-
-    long position() throws IOException;
-    void skip(long positions) throws IOException;
-
-    boolean hasRemaining() throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java
deleted file mode 100644
index 5e4c4fd6..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/ObjectColumnWriter.java
+++ /dev/null
@@ -1,16 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-
-import java.io.IOException;
-
-public interface ObjectColumnWriter<T> extends ColumnWriter {
-    ColumnDesc<?, ?> columnDesc();
-
-    void put(T value) throws IOException;
-
-    /** Return the current record index in the column */
-    long position();
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
deleted file mode 100644
index 9237da19..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumn.java
+++ /dev/null
@@ -1,125 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class ByteArrayColumn {
-
-    public static ByteArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(
-                columnDesc,
-                Storage.reader(path, columnDesc, true),
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
-        );
-    }
-
-    public static ByteArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(
-                columnDesc,
-                Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
-        );
-    }
-
-    public static ObjectArrayColumnReader<byte[]> openNested(Path path, ColumnDesc desc) throws IOException {
-        return ObjectArrayColumn.open(path, desc, open(path, desc));
-    }
-
-    public static ObjectArrayColumnWriter<byte[]> createNested(Path path, ColumnDesc desc) throws IOException {
-        return ObjectArrayColumn.create(path, desc, create(path, desc));
-    }
-
-    private static class Writer implements ByteArrayColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private final VarintColumnWriter lengthsWriter;
-
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.lengthsWriter = lengthsWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(byte[] value) throws IOException {
-            position ++;
-            storage.putBytes(value);
-            lengthsWriter.put(value.length);
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-            lengthsWriter.close();
-        }
-    }
-
-    private static class Reader implements ByteArrayColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-        private final VarintColumnReader lengthsReader;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage, VarintColumnReader lengthsReader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.lengthsReader = lengthsReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public byte[] get() throws IOException {
-            int length = lengthsReader.get();
-            byte[] ret = new byte[length];
-            storage.getBytes(ret);
-            return ret;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return lengthsReader.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            for (int i = 0; i < positions; i++) {
-                int size = lengthsReader.get();
-                storage.skip(size, 1);
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return lengthsReader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-            lengthsReader.close();
-        }
-    }
-
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
deleted file mode 100644
index d36b4a28..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnReader.java
+++ /dev/null
@@ -1,20 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnReader;
-
-import java.io.IOException;
-
-public interface ByteArrayColumnReader extends ObjectColumnReader<byte[]>, AutoCloseable {
-    byte[] get() throws IOException;
-    void close() throws IOException;
-
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
deleted file mode 100644
index ba54ce22..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ByteArrayColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnWriter;
-
-import java.io.IOException;
-
-public interface ByteArrayColumnWriter extends ObjectColumnWriter<byte[]>, AutoCloseable {
-    void put(byte[] value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
deleted file mode 100644
index 67dcb519..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumn.java
+++ /dev/null
@@ -1,120 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class IntArrayColumn {
-
-    public static IntArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc,
-                Storage.reader(path, columnDesc, true),
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
-        );
-    }
-
-    public static IntArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc,
-                Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
-        );
-    }
-
-    public static ObjectArrayColumnReader<int[]> openNested(Path path, ColumnDesc desc) throws IOException {
-        return ObjectArrayColumn.open(path, desc, open(path, desc));
-    }
-
-    public static ObjectArrayColumnWriter<int[]> createNested(Path path, ColumnDesc desc) throws IOException {
-        return ObjectArrayColumn.create(path, desc, create(path, desc));
-    }
-
-    private static class Writer implements IntArrayColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private final VarintColumnWriter lengthsWriter;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.lengthsWriter = lengthsWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(int[] value) throws IOException {
-            storage.putInts(value);
-            lengthsWriter.put(value.length);
-        }
-
-        public long position() {
-            return lengthsWriter.position();
-        }
-
-        public void close() throws IOException {
-            storage.close();
-            lengthsWriter.close();
-        }
-    }
-
-    private static class Reader implements IntArrayColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-        private final VarintColumnReader lengthsReader;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage, VarintColumnReader lengthsReader) {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.lengthsReader = lengthsReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public int[] get() throws IOException {
-            int length = (int) lengthsReader.get();
-            int[] ret = new int[length];
-            storage.getInts(ret);
-            return ret;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return lengthsReader.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            for (int i = 0; i < positions; i++) {
-                int size = (int) lengthsReader.get();
-                storage.skip(size, Integer.BYTES);
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return lengthsReader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-            lengthsReader.close();
-        }
-    }
-
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
deleted file mode 100644
index 079ff4b3..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnReader.java
+++ /dev/null
@@ -1,20 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnReader;
-
-import java.io.IOException;
-
-public interface IntArrayColumnReader extends ObjectColumnReader<int[]>, AutoCloseable {
-    int[] get() throws IOException;
-    void close() throws IOException;
-
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
deleted file mode 100644
index e0a5c291..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/IntArrayColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnWriter;
-
-import java.io.IOException;
-
-public interface IntArrayColumnWriter extends ObjectColumnWriter<int[]>, AutoCloseable {
-    void put(int[] value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
deleted file mode 100644
index a933a548..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumn.java
+++ /dev/null
@@ -1,122 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class LongArrayColumn {
-
-    public static LongArrayColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new LongArrayColumn.Reader(
-                columnDesc,
-                Storage.reader(path, columnDesc, true),
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
-        );
-    }
-
-    public static LongArrayColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new LongArrayColumn.Writer(
-                columnDesc,
-                Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN, ColumnType.VARINT_LE, StorageType.PLAIN))
-        );
-    }
-
-    public static ObjectArrayColumnReader<long[]> openNested(Path path, ColumnDesc desc) throws IOException {
-        return ObjectArrayColumn.open(path, desc, open(path, desc));
-    }
-
-    public static ObjectArrayColumnWriter<long[]> createNested(Path path, ColumnDesc desc) throws IOException {
-        return ObjectArrayColumn.create(path, desc, create(path, desc));
-    }
-
-    private static class Writer implements LongArrayColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private final VarintColumnWriter lengthsWriter;
-
-        public Writer(ColumnDesc<?,?> columnDesc, StorageWriter storage, VarintColumnWriter lengthsWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.lengthsWriter = lengthsWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(long[] value) throws IOException {
-            storage.putLongs(value);
-            lengthsWriter.put(value.length);
-        }
-
-        public long position() {
-            return lengthsWriter.position();
-        }
-
-        public void close() throws IOException {
-            storage.close();
-            lengthsWriter.close();
-        }
-    }
-
-    private static class Reader implements LongArrayColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-        private final VarintColumnReader lengthsReader;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage, VarintColumnReader lengthsReader) {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.lengthsReader = lengthsReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public long[] get() throws IOException {
-            int length = (int) lengthsReader.get();
-            long[] ret = new long[length];
-            storage.getLongs(ret);
-            return ret;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return lengthsReader.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            for (int i = 0; i < positions; i++) {
-                int size = (int) lengthsReader.get();
-                storage.skip(size, Long.BYTES);
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return lengthsReader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-            lengthsReader.close();
-        }
-    }
-
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
deleted file mode 100644
index a3172c29..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnReader.java
+++ /dev/null
@@ -1,21 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-
-import nu.marginalia.slop.column.ObjectColumnReader;
-
-import java.io.IOException;
-
-public interface LongArrayColumnReader extends ObjectColumnReader<long[]>, AutoCloseable {
-    long[] get() throws IOException;
-    void close() throws IOException;
-
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
deleted file mode 100644
index 02480288..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/LongArrayColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnWriter;
-
-import java.io.IOException;
-
-public interface LongArrayColumnWriter  extends ObjectColumnWriter<long[]>, AutoCloseable {
-    void put(long[] value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java
deleted file mode 100644
index a987977d..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumn.java
+++ /dev/null
@@ -1,118 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnReader;
-import nu.marginalia.slop.column.ObjectColumnWriter;
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-
-public class ObjectArrayColumn {
-    public static <T> ObjectArrayColumnReader<T> open(Path baseDir,
-                                               ColumnDesc<ObjectArrayColumnReader<T>, ObjectArrayColumnWriter<T>> selfType,
-                                               ObjectColumnReader<T> baseReader) throws IOException {
-        return new Reader<>(selfType, baseReader,
-                VarintColumn.open(baseDir, selfType.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH, ColumnType.VARINT_LE, StorageType.PLAIN)));
-    }
-
-    public static <T> ObjectArrayColumnWriter<T> create(Path baseDir,
-                                                 ColumnDesc<ObjectArrayColumnReader<T>, ObjectArrayColumnWriter<T>> selfType,
-                                                 ObjectColumnWriter<T> baseWriter) throws IOException {
-        return new Writer<T>(selfType,
-                baseWriter,
-                VarintColumn.create(baseDir, selfType.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH, ColumnType.VARINT_LE, StorageType.PLAIN)));
-    }
-
-
-    private static class Writer<T> implements ObjectArrayColumnWriter<T> {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final ObjectColumnWriter<T> dataWriter;
-        private final VarintColumnWriter groupsWriter;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, ObjectColumnWriter<T> dataWriter, VarintColumnWriter groupsWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.dataWriter = dataWriter;
-            this.groupsWriter = groupsWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(List<T> value) throws IOException {
-            groupsWriter.put(value.size());
-            for (T t : value) {
-                dataWriter.put(t);
-            }
-        }
-
-        public long position() {
-            return groupsWriter.position();
-        }
-
-        public void close() throws IOException {
-            dataWriter.close();
-            groupsWriter.close();
-        }
-    }
-
-    private static class Reader<T> implements ObjectArrayColumnReader<T> {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final ObjectColumnReader<T> dataReader;
-        private final VarintColumnReader groupsReader;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, ObjectColumnReader<T> dataReader, VarintColumnReader groupsReader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.dataReader = dataReader;
-            this.groupsReader = groupsReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public List<T> get() throws IOException {
-            int length = groupsReader.get();
-            List<T> ret = new ArrayList<>(length);
-            for (int i = 0; i < length; i++) {
-                ret.add(dataReader.get());
-            }
-            return ret;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return groupsReader.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            int toSkip = 0;
-            for (int i = 0; i < positions; i++) {
-                toSkip += groupsReader.get();
-            }
-            dataReader.skip(toSkip);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return groupsReader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            dataReader.close();
-            groupsReader.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java
deleted file mode 100644
index 297bc2dd..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnReader.java
+++ /dev/null
@@ -1,21 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnReader;
-
-import java.io.IOException;
-import java.util.List;
-
-public interface ObjectArrayColumnReader<T> extends ObjectColumnReader<List<T>>, AutoCloseable {
-    List<T> get() throws IOException;
-    void close() throws IOException;
-
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java
deleted file mode 100644
index 7ff8e375..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/array/ObjectArrayColumnWriter.java
+++ /dev/null
@@ -1,12 +0,0 @@
-package nu.marginalia.slop.column.array;
-
-import nu.marginalia.slop.column.ObjectColumnWriter;
-
-import java.io.IOException;
-import java.util.List;
-
-public interface ObjectArrayColumnWriter<T> extends ObjectColumnWriter<List<T>>, AutoCloseable {
-    void put(List<T> values) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
deleted file mode 100644
index 9d3dd189..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumn.java
+++ /dev/null
@@ -1,148 +0,0 @@
-package nu.marginalia.slop.column.dynamic;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class CustomBinaryColumn {
-
-    public static CustomBinaryColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(
-                columnDesc,
-                Storage.reader(path, columnDesc, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
-                        ColumnType.VARINT_LE,
-                        StorageType.PLAIN)
-                )
-        );
-    }
-
-    public static CustomBinaryColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(
-                columnDesc,
-                Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
-                        ColumnType.VARINT_LE,
-                        StorageType.PLAIN)
-                )
-        );
-    }
-
-    private static class Writer implements CustomBinaryColumnWriter {
-        private final VarintColumnWriter indexWriter;
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-
-        public Writer(ColumnDesc<?, ?> columnDesc,
-                      StorageWriter storage,
-                      VarintColumnWriter indexWriter)
-        {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-            this.indexWriter = indexWriter;
-        }
-
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public RecordWriter next() throws IOException {
-            return new RecordWriter() {
-                long pos = storage.position();
-
-                @Override
-                public StorageWriter writer() {
-                    return storage;
-                }
-
-                @Override
-                public void close() throws IOException {
-                    indexWriter.put((int) (storage.position() - pos));
-                }
-            };
-        }
-
-        public long position() {
-            return indexWriter.position();
-        }
-
-        public void close() throws IOException {
-            indexWriter.close();
-            storage.close();
-        }
-    }
-
-    private static class Reader implements CustomBinaryColumnReader {
-        private final VarintColumnReader indexReader;
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader reader, VarintColumnReader indexReader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = reader;
-            this.indexReader = indexReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            for (int i = 0; i < positions; i++) {
-                int size = (int) indexReader.get();
-                storage.skip(size, 1);
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return indexReader.hasRemaining();
-        }
-
-        public long position() throws IOException {
-            return indexReader.position();
-        }
-
-        @Override
-        public RecordReader next() throws IOException {
-            int size = (int) indexReader.get();
-
-            return new RecordReader() {
-                long origPos = storage.position();
-
-                @Override
-                public int size() {
-                    return size;
-                }
-
-                @Override
-                public StorageReader reader() {
-                    return storage;
-                }
-
-                @Override
-                public void close() throws IOException {
-                    assert storage.position() - origPos == size : "column reader caller did not read the entire record";
-                }
-            };
-        }
-
-        public void close() throws IOException {
-            indexReader.close();
-            storage.close();
-        }
-
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java
deleted file mode 100644
index 59caab19..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnReader.java
+++ /dev/null
@@ -1,17 +0,0 @@
-package nu.marginalia.slop.column.dynamic;
-
-import nu.marginalia.slop.column.ColumnReader;
-import nu.marginalia.slop.storage.StorageReader;
-
-import java.io.IOException;
-
-public interface CustomBinaryColumnReader extends ColumnReader, AutoCloseable {
-    RecordReader next() throws IOException;
-    void close() throws IOException;
-
-    interface RecordReader extends AutoCloseable {
-        int size();
-        StorageReader reader();
-        void close() throws IOException;
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java
deleted file mode 100644
index 98328ae5..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/CustomBinaryColumnWriter.java
+++ /dev/null
@@ -1,16 +0,0 @@
-package nu.marginalia.slop.column.dynamic;
-
-import nu.marginalia.slop.column.ColumnWriter;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-
-public interface CustomBinaryColumnWriter extends ColumnWriter {
-    RecordWriter next() throws IOException;
-    void close() throws IOException;
-
-    interface RecordWriter extends AutoCloseable {
-        StorageWriter writer();
-        void close() throws IOException;
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
deleted file mode 100644
index 08d42fcd..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumn.java
+++ /dev/null
@@ -1,318 +0,0 @@
-package nu.marginalia.slop.column.dynamic;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.ByteOrder;
-import java.nio.file.Path;
-
-public class VarintColumn {
-
-    public static VarintColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        if (columnDesc.byteOrder() == ByteOrder.BIG_ENDIAN) {
-            return new ReaderBE(columnDesc, Storage.reader(path, columnDesc, true));
-        }
-        else {
-            return new ReaderLE(columnDesc, Storage.reader(path, columnDesc, true));
-        }
-
-    }
-
-    public static VarintColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        if (columnDesc.byteOrder() == ByteOrder.BIG_ENDIAN) {
-            return new WriterBE(columnDesc, Storage.writer(path, columnDesc));
-        } else {
-            return new WriterLE(columnDesc, Storage.writer(path, columnDesc));
-        }
-    }
-
-
-    private static class WriterBE implements VarintColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter writer;
-        private long position = 0;
-
-        public WriterBE(ColumnDesc<?,?> columnDesc, StorageWriter writer) throws IOException {
-            this.columnDesc = columnDesc;
-            this.writer = writer;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(long value) throws IOException {
-            position++;
-
-            while ((value & ~0x7F) != 0) {
-                writer.putByte((byte) (0x80 | (value & 0x7F)));
-                value >>>= 7;
-            }
-            writer.putByte((byte) (value & 0x7F));
-        }
-
-        public void put(long[] values) throws IOException {
-            for (long val : values) {
-                put(val);
-            }
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            writer.close();
-        }
-    }
-
-    private static class WriterLE implements VarintColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter writer;
-        private long position = 0;
-
-        public WriterLE(ColumnDesc<?,?> columnDesc, StorageWriter writer) throws IOException {
-            this.columnDesc = columnDesc;
-            this.writer = writer;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(long value) throws IOException {
-            position++;
-
-            if (value < 0)
-                throw new IllegalArgumentException("Value must be positive");
-
-            if (value < (1<<7)) {
-                writer.putByte((byte) value);
-            }
-            else if (value < (1<<14)) {
-                writer.putByte((byte) (value >>> (7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else if (value < (1<<21)) {
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else if (value < (1<<28)) {
-                writer.putByte((byte) ((value >>> 21) | 0x80));
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else if (value < (1L<<35)) {
-                writer.putByte((byte) ((value >>> 28) | 0x80));
-                writer.putByte((byte) ((value >>> 21) | 0x80));
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else if (value < (1L<<42)) {
-                writer.putByte((byte) ((value >>> 35) | 0x80));
-                writer.putByte((byte) ((value >>> 28) | 0x80));
-                writer.putByte((byte) ((value >>> 21) | 0x80));
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else if (value < (1L<<49)) {
-                writer.putByte((byte) ((value >>> 42) | 0x80));
-                writer.putByte((byte) ((value >>> 35) | 0x80));
-                writer.putByte((byte) ((value >>> 28) | 0x80));
-                writer.putByte((byte) ((value >>> 21) | 0x80));
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else if (value < (1L<<56)) {
-                writer.putByte((byte) ((value >>> 49) | 0x80));
-                writer.putByte((byte) ((value >>> 42) | 0x80));
-                writer.putByte((byte) ((value >>> 35) | 0x80));
-                writer.putByte((byte) ((value >>> 28) | 0x80));
-                writer.putByte((byte) ((value >>> 21) | 0x80));
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-            else {
-                writer.putByte((byte) ((value >>> 56) | 0x80));
-                writer.putByte((byte) ((value >>> 49) | 0x80));
-                writer.putByte((byte) ((value >>> 42) | 0x80));
-                writer.putByte((byte) ((value >>> 35) | 0x80));
-                writer.putByte((byte) ((value >>> 28) | 0x80));
-                writer.putByte((byte) ((value >>> 21) | 0x80));
-                writer.putByte((byte) ((value >>> 14) | 0x80));
-                writer.putByte((byte) ((value >>> 7) | 0x80));
-                writer.putByte((byte) (value & 0x7F));
-            }
-        }
-
-        public void put(long[] values) throws IOException {
-            for (long val : values) {
-                put(val);
-            }
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            writer.close();
-        }
-    }
-
-    private static class ReaderBE implements VarintColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader reader;
-
-        private long position = 0;
-
-        public ReaderBE(ColumnDesc<?,?> columnDesc, StorageReader reader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.reader = reader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public int get() throws IOException {
-            int value = 0;
-            int shift = 0;
-            byte b;
-
-            do {
-                b = reader.getByte();
-                value |= (b & 0x7F) << shift;
-                shift += 7;
-            } while ((b & 0x80) != 0);
-
-            position++;
-
-            return value;
-        }
-
-        public long getLong() throws IOException {
-            long value = 0;
-            int shift = 0;
-            byte b;
-
-            do {
-                b = reader.getByte();
-                value |= (long) (b & 0x7F) << shift;
-                shift += 7;
-            } while ((b & 0x80) != 0);
-
-            position++;
-
-            return value;
-        }
-
-        @Override
-        public long position() {
-            return position;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            for (long i = 0; i < positions; i++) {
-                get();
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return reader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            reader.close();
-        }
-    }
-
-    private static class ReaderLE implements VarintColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader reader;
-
-        private long position = 0;
-
-        public ReaderLE(ColumnDesc<?,?> columnDesc, StorageReader reader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.reader = reader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public int get() throws IOException {
-            position++;
-
-            byte b = reader.getByte();
-            if ((b & 0x80) == 0) {
-                return b;
-            }
-
-            int value = b & 0x7F;
-            do {
-                b = reader.getByte();
-                value = (value << 7) | (b & 0x7F);
-            } while ((b & 0x80) != 0);
-
-
-            return value;
-        }
-
-        public long getLong() throws IOException {
-            position++;
-
-            byte b = reader.getByte();
-            if ((b & 0x80) == 0) {
-                return b;
-            }
-
-            long value = b & 0x7F;
-            do {
-                b = reader.getByte();
-                value = value << 7 | (b & 0x7F);
-            } while ((b & 0x80) != 0);
-
-            return value;
-        }
-
-        @Override
-        public long position() {
-            return position;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            for (long i = 0; i < positions; i++) {
-                get();
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return reader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            reader.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
deleted file mode 100644
index 106bae86..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnReader.java
+++ /dev/null
@@ -1,20 +0,0 @@
-package nu.marginalia.slop.column.dynamic;
-
-import nu.marginalia.slop.column.primitive.IntColumnReader;
-
-import java.io.IOException;
-
-public interface VarintColumnReader extends IntColumnReader {
-
-    int get() throws IOException;
-    long getLong() throws IOException;
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java
deleted file mode 100644
index f42256ea..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/dynamic/VarintColumnWriter.java
+++ /dev/null
@@ -1,6 +0,0 @@
-package nu.marginalia.slop.column.dynamic;
-
-import nu.marginalia.slop.column.primitive.LongColumnWriter;
-
-public interface VarintColumnWriter extends LongColumnWriter {
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
deleted file mode 100644
index 00134bf2..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumn.java
+++ /dev/null
@@ -1,88 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class ByteColumn {
-
-    public static ByteColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static ByteColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-    private static class Writer implements ByteColumnWriter {
-        private final ColumnDesc columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(byte value) throws IOException {
-            storage.putByte(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements ByteColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?,?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        public byte get() throws IOException {
-            return storage.getByte();
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Byte.BYTES);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java
deleted file mode 100644
index 872c17e5..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface ByteColumnReader extends ColumnReader, AutoCloseable {
-    byte get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java
deleted file mode 100644
index a2dc2fe7..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ByteColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface ByteColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(byte value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
deleted file mode 100644
index 74918d01..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumn.java
+++ /dev/null
@@ -1,89 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class CharColumn {
-
-    public static CharColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static CharColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-    private static class Writer implements CharColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(char value) throws IOException {
-            storage.putChar(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements CharColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        public char get() throws IOException {
-            return storage.getChar();
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position() / Character.BYTES;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Character.BYTES);
-        }
-
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java
deleted file mode 100644
index 7ca92020..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface CharColumnReader extends ColumnReader, AutoCloseable {
-    char get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java
deleted file mode 100644
index fb35fdd5..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/CharColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface CharColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(char value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
deleted file mode 100644
index bcfcaebe..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumn.java
+++ /dev/null
@@ -1,88 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class DoubleColumn {
-
-    public static DoubleColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static DoubleColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-    private static class Writer implements DoubleColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(double value) throws IOException {
-            storage.putDouble(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements DoubleColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public double get() throws IOException {
-            return storage.getDouble();
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position() / Double.BYTES;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Double.BYTES);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java
deleted file mode 100644
index aaf5b908..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface DoubleColumnReader extends ColumnReader, AutoCloseable {
-    double get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java
deleted file mode 100644
index 528949b6..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/DoubleColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface DoubleColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(double value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
deleted file mode 100644
index 369ae98d..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumn.java
+++ /dev/null
@@ -1,89 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class FloatColumn {
-
-    public static FloatColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static FloatColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-
-    private static class Writer implements FloatColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(float value) throws IOException {
-            storage.putFloat(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements FloatColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public float get() throws IOException {
-            return storage.getFloat();
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position() / Float.BYTES;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Float.BYTES);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java
deleted file mode 100644
index b4705da8..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface FloatColumnReader extends ColumnReader, AutoCloseable {
-    float get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java
deleted file mode 100644
index 3debe6b4..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/FloatColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface FloatColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(float value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
deleted file mode 100644
index 9b1d0103..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumn.java
+++ /dev/null
@@ -1,95 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class IntColumn {
-
-    public static IntColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static IntColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-    private static class Writer implements IntColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(int[] values) throws IOException {
-            for (int value : values) {
-                storage.putInt(value);
-            }
-            position+=values.length;
-        }
-
-        public void put(int value) throws IOException {
-            storage.putInt(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements IntColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public int get() throws IOException {
-            return storage.getInt();
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position() / Integer.BYTES;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Integer.BYTES);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java
deleted file mode 100644
index b8936e4b..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface IntColumnReader extends ColumnReader, AutoCloseable {
-    int get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java
deleted file mode 100644
index 93dd42dc..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/IntColumnWriter.java
+++ /dev/null
@@ -1,13 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface IntColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(int value) throws IOException;
-    void put(int[] values) throws IOException;
-
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
deleted file mode 100644
index e0659f6f..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumn.java
+++ /dev/null
@@ -1,89 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class LongColumn {
-
-    public static LongColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static LongColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-    private static class Writer implements LongColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(long value) throws IOException {
-            storage.putLong(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements LongColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public long get() throws IOException {
-            return storage.getLong();
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position() / Long.BYTES;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Long.BYTES);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java
deleted file mode 100644
index 3f186dd3..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface LongColumnReader extends ColumnReader, AutoCloseable {
-    long get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java
deleted file mode 100644
index 72615f81..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/LongColumnWriter.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface LongColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(long value) throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java
deleted file mode 100644
index 820dd502..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumn.java
+++ /dev/null
@@ -1,89 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class ShortColumn {
-
-    public static ShortColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc, Storage.reader(path, columnDesc, true));
-    }
-
-    public static ShortColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc, Storage.writer(path, columnDesc));
-    }
-
-    private static class Writer implements ShortColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storage;
-        private long position = 0;
-
-        public Writer(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(short value) throws IOException {
-            storage.putShort(value);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-
-    private static class Reader implements ShortColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storage;
-
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader storage) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storage = storage;
-        }
-
-        public short get() throws IOException {
-            return storage.getShort();
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public long position() throws IOException {
-            return storage.position() / Short.BYTES;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            storage.skip(positions, Short.BYTES);
-        }
-
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storage.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storage.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java
deleted file mode 100644
index 0ee240dd..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnReader.java
+++ /dev/null
@@ -1,10 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-
-public interface ShortColumnReader extends ColumnReader, AutoCloseable {
-    short get() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java
deleted file mode 100644
index 8fa6b182..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/primitive/ShortColumnWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.slop.column.primitive;
-
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface ShortColumnWriter extends ColumnWriter, AutoCloseable {
-    void put(short value) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
deleted file mode 100644
index 0470f5fa..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumn.java
+++ /dev/null
@@ -1,273 +0,0 @@
-package nu.marginalia.slop.column.string;
-
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.primitive.ByteColumn;
-import nu.marginalia.slop.column.primitive.ByteColumnReader;
-import nu.marginalia.slop.column.primitive.ByteColumnWriter;
-import nu.marginalia.slop.column.primitive.LongColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-
-import java.io.IOException;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.Collections;
-import java.util.HashMap;
-import java.util.List;
-
-public class EnumColumn {
-
-    public static EnumColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(
-                columnDesc,
-                StringColumn.open(path,
-                        columnDesc.createSupplementaryColumn(
-                                ColumnFunction.DICT,
-                                ColumnType.TXTSTRING,
-                                StorageType.PLAIN)
-                ),
-                VarintColumn.open(path,
-                        columnDesc.createSupplementaryColumn(
-                                ColumnFunction.DATA,
-                                ColumnType.ENUM_LE,
-                                columnDesc.storageType()
-                        )
-                )
-        );
-    }
-    public static EnumColumnReader open8(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader8(
-                columnDesc,
-                StringColumn.open(path,
-                        columnDesc.createSupplementaryColumn(
-                                ColumnFunction.DICT,
-                                ColumnType.TXTSTRING,
-                                StorageType.PLAIN)
-                ),
-                ByteColumn.open(path,
-                        columnDesc.createSupplementaryColumn(
-                                ColumnFunction.DATA,
-                                ColumnType.BYTE,
-                                columnDesc.storageType()
-                        )
-                )
-        );
-    }
-
-    public static StringColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc,
-                StringColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.ENUM_LE, columnDesc.storageType()))
-        );
-    }
-
-    public static StringColumnWriter create8(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer8(columnDesc,
-                StringColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DICT, ColumnType.TXTSTRING, StorageType.PLAIN)),
-                ByteColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA, ColumnType.BYTE, columnDesc.storageType()))
-        );
-    }
-
-    private static class Writer implements StringColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StringColumnWriter dicionaryColumn;
-        private final LongColumnWriter dataColumn;
-        private final HashMap<String, Integer> dictionary = new HashMap<>();
-
-        public Writer(ColumnDesc<?, ?> columnDesc,
-                      StringColumnWriter dicionaryColumn,
-                      LongColumnWriter dataColumn) throws IOException
-        {
-            this.columnDesc = columnDesc;
-            this.dicionaryColumn = dicionaryColumn;
-            this.dataColumn = dataColumn;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(String value) throws IOException {
-            Integer index = dictionary.get(value);
-            if (index == null) {
-                index = dictionary.size();
-                dictionary.put(value, index);
-                dicionaryColumn.put(value);
-            }
-            dataColumn.put(index);
-        }
-
-        public long position() {
-            return dataColumn.position();
-        }
-
-        public void close() throws IOException {
-            dataColumn.close();
-            dicionaryColumn.close();
-        }
-    }
-
-    private static class Writer8 implements StringColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StringColumnWriter dicionaryColumn;
-        private final ByteColumnWriter dataColumn;
-        private final HashMap<String, Integer> dictionary = new HashMap<>();
-
-        public Writer8(ColumnDesc<?, ?> columnDesc,
-                      StringColumnWriter dicionaryColumn,
-                      ByteColumnWriter dataColumn) throws IOException
-        {
-            this.columnDesc = columnDesc;
-            this.dicionaryColumn = dicionaryColumn;
-            this.dataColumn = dataColumn;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(String value) throws IOException {
-            Integer index = dictionary.get(value);
-            if (index == null) {
-                index = dictionary.size();
-                dictionary.put(value, index);
-                dicionaryColumn.put(value);
-            }
-            dataColumn.put((byte) index.intValue());
-        }
-
-        public long position() {
-            return dataColumn.position();
-        }
-
-        public void close() throws IOException {
-            dataColumn.close();
-            dicionaryColumn.close();
-        }
-    }
-
-    private static class Reader implements EnumColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final VarintColumnReader dataColumn;
-        private final List<String> dictionary = new ArrayList<>();
-
-        public Reader(ColumnDesc<?, ?> columnDesc,
-                      StringColumnReader dicionaryColumn,
-                      VarintColumnReader dataColumn) throws IOException
-        {
-            this.columnDesc = columnDesc;
-            this.dataColumn = dataColumn;
-
-            while (dicionaryColumn.hasRemaining()) {
-                dictionary.add(dicionaryColumn.get());
-            }
-
-            dicionaryColumn.close();
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public List<String> getDictionary() throws IOException {
-            return Collections.unmodifiableList(dictionary);
-        }
-
-        @Override
-        public int getOrdinal() throws IOException {
-            return (int) dataColumn.get();
-        }
-
-        public String get() throws IOException {
-            int index = (int) dataColumn.get();
-            return dictionary.get(index);
-        }
-
-        @Override
-        public long position() throws IOException {
-            return dataColumn.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            dataColumn.skip(positions);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return dataColumn.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            dataColumn.close();
-        }
-    }
-
-    private static class Reader8 implements EnumColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final ByteColumnReader dataColumn;
-        private final List<String> dictionary = new ArrayList<>();
-
-        public Reader8(ColumnDesc<?, ?> columnDesc,
-                      StringColumnReader dicionaryColumn,
-                      ByteColumnReader dataColumn) throws IOException
-        {
-            this.columnDesc = columnDesc;
-            this.dataColumn = dataColumn;
-
-            while (dicionaryColumn.hasRemaining()) {
-                dictionary.add(dicionaryColumn.get());
-            }
-
-            dicionaryColumn.close();
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        @Override
-        public List<String> getDictionary() throws IOException {
-            return Collections.unmodifiableList(dictionary);
-        }
-
-        @Override
-        public int getOrdinal() throws IOException {
-            return  dataColumn.get();
-        }
-
-        public String get() throws IOException {
-            int index = dataColumn.get();
-            return dictionary.get(index);
-        }
-
-        @Override
-        public long position() throws IOException {
-            return dataColumn.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            dataColumn.skip(positions);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return dataColumn.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            dataColumn.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java
deleted file mode 100644
index 2e802829..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/EnumColumnReader.java
+++ /dev/null
@@ -1,26 +0,0 @@
-package nu.marginalia.slop.column.string;
-
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-import java.util.List;
-
-public interface EnumColumnReader extends StringColumnReader, ColumnReader, AutoCloseable {
-
-    List<String> getDictionary() throws IOException;
-    int getOrdinal() throws IOException;
-
-    String get() throws IOException;
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-
-    @Override
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
deleted file mode 100644
index 5f0cfe19..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumn.java
+++ /dev/null
@@ -1,315 +0,0 @@
-package nu.marginalia.slop.column.string;
-
-import nu.marginalia.slop.column.array.*;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
-
-import java.io.IOException;
-import java.nio.file.Path;
-
-public class StringColumn {
-
-    public static StringColumnReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        if (columnDesc.type().equals(ColumnType.STRING)) {
-            return new ArrayReader(columnDesc, ByteArrayColumn.open(path, columnDesc));
-        } else if (columnDesc.type().equals(ColumnType.CSTRING)) {
-            return new CStringReader(columnDesc, Storage.reader(path, columnDesc, true));
-        } else if (columnDesc.type().equals(ColumnType.TXTSTRING)) {
-            return new TxtStringReader(columnDesc, Storage.reader(path, columnDesc, true));
-        }
-        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
-    }
-
-
-    public static StringColumnWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        if (columnDesc.type().equals(ColumnType.STRING)) {
-            return new ArrayWriter(columnDesc, ByteArrayColumn.create(path, columnDesc));
-        } else if (columnDesc.type().equals(ColumnType.CSTRING)) {
-            return new CStringWriter(columnDesc, Storage.writer(path, columnDesc));
-        } else if (columnDesc.type().equals(ColumnType.TXTSTRING)) {
-            return new TxtStringWriter(columnDesc, Storage.writer(path, columnDesc));
-        }
-        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
-    }
-
-    public static ObjectArrayColumnReader<String> openArray(Path path, ColumnDesc columnDesc) throws IOException {
-        if (columnDesc.type().equals(ColumnType.STRING_ARRAY)) {
-            return ObjectArrayColumn.open(path, columnDesc, new ArrayReader(columnDesc, ByteArrayColumn.open(path, columnDesc)));
-        } else if (columnDesc.type().equals(ColumnType.CSTRING_ARRAY)) {
-            return ObjectArrayColumn.open(path, columnDesc, new CStringReader(columnDesc, Storage.reader(path, columnDesc, true)));
-        } else if (columnDesc.type().equals(ColumnType.TXTSTRING_ARRAY)) {
-            return ObjectArrayColumn.open(path, columnDesc, new TxtStringReader(columnDesc, Storage.reader(path, columnDesc, true)));
-        }
-        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
-    }
-
-    public static ObjectArrayColumnWriter<String> createArray(Path path, ColumnDesc columnDesc) throws IOException {
-        if (columnDesc.type().equals(ColumnType.STRING_ARRAY)) {
-            return ObjectArrayColumn.create(path, columnDesc, new ArrayWriter(columnDesc, ByteArrayColumn.create(path, columnDesc)));
-        } else if (columnDesc.type().equals(ColumnType.CSTRING_ARRAY)) {
-            return ObjectArrayColumn.create(path, columnDesc, new CStringWriter(columnDesc, Storage.writer(path, columnDesc)));
-        } else if (columnDesc.type().equals(ColumnType.TXTSTRING_ARRAY)) {
-            return ObjectArrayColumn.create(path, columnDesc, new TxtStringWriter(columnDesc, Storage.writer(path, columnDesc)));
-        }
-        throw new IllegalArgumentException("Unsupported column type: " + columnDesc.type());
-    }
-
-    private static class ArrayWriter implements StringColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final ByteArrayColumnWriter backingColumn;
-
-        public ArrayWriter(ColumnDesc<?, ?> columnDesc, ByteArrayColumnWriter backingColumn) throws IOException {
-            this.columnDesc = columnDesc;
-            this.backingColumn = backingColumn;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(String value) throws IOException {
-            if (null == value) {
-                value = "";
-            }
-
-            backingColumn.put(value.getBytes());
-        }
-
-        public long position() {
-            return backingColumn.position();
-        }
-
-        public void close() throws IOException {
-            backingColumn.close();
-        }
-    }
-
-    private static class ArrayReader implements StringColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final ByteArrayColumnReader backingColumn;
-
-        public ArrayReader(ColumnDesc<?, ?> columnDesc, ByteArrayColumnReader backingColumn) throws IOException {
-            this.columnDesc = columnDesc;
-            this.backingColumn = backingColumn;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public String get() throws IOException {
-            return new String(backingColumn.get());
-        }
-
-        @Override
-        public long position() throws IOException {
-            return backingColumn.position();
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            backingColumn.skip(positions);
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return backingColumn.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            backingColumn.close();
-        }
-    }
-
-
-    private static class CStringWriter implements StringColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storageWriter;
-
-        private long position = 0;
-
-        public CStringWriter(ColumnDesc<?,?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storageWriter = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(String value) throws IOException {
-            if (null == value) {
-                value = "";
-            }
-            assert value.indexOf('\0') == -1 : "Null byte not allowed in cstring";
-            storageWriter.putBytes(value.getBytes());
-            storageWriter.putByte((byte) 0);
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storageWriter.close();
-        }
-    }
-
-    private static class CStringReader implements StringColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storageReader;
-        private long position = 0;
-
-        public CStringReader(ColumnDesc<?, ?> columnDesc, StorageReader storageReader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storageReader = storageReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public String get() throws IOException {
-            StringBuilder sb = new StringBuilder();
-            byte b;
-            while (storageReader.hasRemaining() && (b = storageReader.getByte()) != 0) {
-                sb.append((char) b);
-            }
-            position++;
-            return sb.toString();
-        }
-
-        @Override
-        public long position() throws IOException {
-            return position;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            int i = 0;
-
-            while (i < positions && storageReader.hasRemaining()) {
-                if (storageReader.getByte() == 0) {
-                    i++;
-                }
-            }
-            position += positions;
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storageReader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storageReader.close();
-        }
-    }
-
-
-    private static class TxtStringWriter implements StringColumnWriter {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageWriter storageWriter;
-        private long position = 0;
-
-        public TxtStringWriter(ColumnDesc<?, ?> columnDesc, StorageWriter storageWriter) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storageWriter = storageWriter;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public void put(String value) throws IOException {
-            if (null == value) {
-                value = "";
-            }
-
-            assert value.indexOf('\n') == -1 : "Newline not allowed in txtstring";
-
-            storageWriter.putBytes(value.getBytes());
-            storageWriter.putByte((byte) '\n');
-            position++;
-        }
-
-        public long position() {
-            return position;
-        }
-
-        public void close() throws IOException {
-            storageWriter.close();
-        }
-    }
-
-    private static class TxtStringReader implements StringColumnReader {
-        private final ColumnDesc<?, ?> columnDesc;
-        private final StorageReader storageReader;
-        private long position = 0;
-
-        public TxtStringReader(ColumnDesc<?, ?> columnDesc, StorageReader storageReader) throws IOException {
-            this.columnDesc = columnDesc;
-            this.storageReader = storageReader;
-        }
-
-        @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
-        }
-
-        public String get() throws IOException {
-            StringBuilder sb = new StringBuilder();
-            byte b;
-            while (storageReader.hasRemaining()) {
-                b = storageReader.getByte();
-                if (b == '\n') {
-                    break;
-                }
-                else {
-                    sb.append((char) b);
-                }
-            }
-            position++;
-            return sb.toString();
-        }
-
-        @Override
-        public long position() throws IOException {
-            return position;
-        }
-
-        @Override
-        public void skip(long positions) throws IOException {
-            int i = 0;
-
-            position+=positions;
-
-            while (i < positions && storageReader.hasRemaining()) {
-                if (storageReader.getByte() == '\n') {
-                    i++;
-                }
-            }
-        }
-
-        @Override
-        public boolean hasRemaining() throws IOException {
-            return storageReader.hasRemaining();
-        }
-
-        @Override
-        public void close() throws IOException {
-            storageReader.close();
-        }
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
deleted file mode 100644
index 810bb7b0..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnReader.java
+++ /dev/null
@@ -1,22 +0,0 @@
-package nu.marginalia.slop.column.string;
-
-import nu.marginalia.slop.column.ObjectColumnReader;
-
-import java.io.IOException;
-
-public interface StringColumnReader extends ObjectColumnReader<String>, AutoCloseable {
-
-    String get() throws IOException;
-
-    @Override
-    long position() throws IOException;
-
-    @Override
-    void skip(long positions) throws IOException;
-
-    @Override
-    boolean hasRemaining() throws IOException;
-
-    @Override
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java b/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
deleted file mode 100644
index c439192d..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/column/string/StringColumnWriter.java
+++ /dev/null
@@ -1,12 +0,0 @@
-package nu.marginalia.slop.column.string;
-
-import nu.marginalia.slop.column.ObjectColumnWriter;
-
-import java.io.IOException;
-
-public interface StringColumnWriter extends ObjectColumnWriter<String>, AutoCloseable {
-    void put(String value) throws IOException;
-
-    @Override
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
deleted file mode 100644
index 0f4569aa..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnDesc.java
+++ /dev/null
@@ -1,109 +0,0 @@
-package nu.marginalia.slop.desc;
-
-import nu.marginalia.slop.column.ColumnReader;
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-import java.nio.ByteOrder;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-/** Describes a slop column.  A column is a named, typed, and paginated sequence of values.
- *
- * @param name the name of the column, must not contain dots
- * @param page the page number of the column, 0 for the first page
- * @param function the function of the column, {@link ColumnFunction}
- * @param type the type of the column, {@link ColumnType}
- * @param storageType the storage type of the column, {@link StorageType}
- * @param <R> the reader type
- * @param <W> the writer type
- */
-public record ColumnDesc<R extends ColumnReader,
-        W extends ColumnWriter>(
-                String name,
-                int page,
-                ColumnFunction function,
-                ColumnType<R, W> type,
-                StorageType storageType) {
-
-    public ColumnDesc {
-        if (name.contains(".")) {
-            throw new IllegalArgumentException("Invalid column name: " + name);
-        }
-    }
-
-    public ColumnDesc(String name, ColumnType<R, W> type, StorageType storageType) {
-        this(name, 0, ColumnFunction.DATA, type, storageType);
-    }
-
-    /** Open a column reader for this column.
-     *
-     * @param table the table to register the reader with
-     * @param path the path to the file to read from
-     * */
-    public R open(SlopTable table, Path path) throws IOException {
-        var reader = type.open(path, this);
-        table.register(reader);
-        return reader;
-    }
-
-    /** Create a new column writer for this column.
-     *
-     * @param table the table to register the writer with
-     * @param path the path to the file to write to
-     * */
-    public W create(SlopTable table, Path path) throws IOException {
-        var writer = type.create(path, this);
-        table.register(writer);
-        return writer;
-    }
-
-    public W createUnregistered(Path path) throws IOException {
-        return type.create(path, this);
-    }
-
-    public R openUnregistered(Path path) throws IOException {
-        return type.open(path, this);
-    }
-
-    public <R2 extends ColumnReader, W2 extends ColumnWriter >
-    ColumnDesc<R2, W2> createSupplementaryColumn(
-            ColumnFunction function,
-            ColumnType<R2, W2> type,
-            StorageType storageType)
-    {
-        return new ColumnDesc<>(name, page, function, type, storageType);
-    }
-
-    public ByteOrder byteOrder() {
-        return type.byteOrder();
-    }
-
-    public ColumnDesc<R, W> forPage(int page) {
-        return new ColumnDesc<>(name, page, function, type, storageType);
-    }
-
-    public boolean exists(Path base) {
-        return Files.exists(base.resolve(toString()));
-    }
-
-    public static ColumnDesc parse(String name) {
-        String[] parts = name.split("\\.");
-        if (parts.length != 5) {
-            throw new IllegalArgumentException("Invalid column name: " + name);
-        }
-
-        return new ColumnDesc(parts[0],
-                Integer.parseInt(parts[1]),
-                ColumnFunction.fromString(parts[2]),
-                ColumnType.byMnemonic(parts[3]),
-                StorageType.fromString(parts[4])
-        );
-    }
-
-    @Override
-    public String toString() {
-        return name + "." + page + "." +  function.nmnemonic + "." + type.mnemonic() + "." + storageType.nmnemonic;
-    }
-
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
deleted file mode 100644
index 7ff857a1..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnFunction.java
+++ /dev/null
@@ -1,49 +0,0 @@
-package nu.marginalia.slop.desc;
-
-/** The type of function that a column performs.
- * This is used to determine how to interpret the
- * data in the column.
- */
-public enum ColumnFunction {
-    /** The principal data column. */
-    DATA("dat"),
-    /** The length column for the DATA column, in the case of variable-length records. */
-    DATA_LEN("dat-len"),
-    /** The length column for the group of items in the DATA column, in the case of variable-length array-style records. */
-    GROUP_LENGTH("grp-len"),
-    /** The dictionary column, in the case of a dictionary-encoded column. */
-    DICT("dic"),
-    /** The length column for the DICT column, in the case of variable-length dictionaries. */
-    DICT_LEN("dic-len"),
-    ;
-
-    public String nmnemonic;
-
-    ColumnFunction(String nmnemonic) {
-        this.nmnemonic = nmnemonic;
-    }
-
-    /** Return the appropriate column function for
-     * a length column corresponding to the current
-     * column function.
-     */
-    public ColumnFunction lengthsTable() {
-        switch (this) {
-            case DATA:
-                return DATA_LEN;
-            case DICT:
-                return DICT_LEN;
-            default:
-                throw new IllegalArgumentException("Cannot get length table type for " + this);
-        }
-    }
-
-    public static ColumnFunction fromString(String nmnemonic) {
-        for (ColumnFunction type : values()) {
-            if (type.nmnemonic.equals(nmnemonic)) {
-                return type;
-            }
-        }
-        throw new IllegalArgumentException("Unknown column function: " + nmnemonic);
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
deleted file mode 100644
index aadb14ee..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/ColumnType.java
+++ /dev/null
@@ -1,124 +0,0 @@
-package nu.marginalia.slop.desc;
-
-import nu.marginalia.slop.column.ColumnReader;
-import nu.marginalia.slop.column.ColumnWriter;
-import nu.marginalia.slop.column.array.*;
-import nu.marginalia.slop.column.dynamic.*;
-import nu.marginalia.slop.column.primitive.*;
-import nu.marginalia.slop.column.string.*;
-
-import java.io.IOException;
-import java.nio.ByteOrder;
-import java.nio.file.Path;
-import java.util.HashMap;
-import java.util.Map;
-import java.util.Objects;
-
-public abstract class ColumnType<
-        R extends ColumnReader,
-        W extends ColumnWriter>
-{
-    private static Map<String, ColumnType<? extends ColumnReader,? extends ColumnWriter>> byMnemonic = new HashMap<>();
-
-    public abstract String mnemonic();
-    public abstract ByteOrder byteOrder();
-
-    abstract R open(Path path, ColumnDesc<R, W> desc) throws IOException;
-    abstract W create(Path path, ColumnDesc<R, W> desc) throws IOException;
-
-    public static ColumnType<? extends ColumnReader,? extends ColumnWriter> byMnemonic(String mnemonic) {
-        return byMnemonic.get(mnemonic);
-    }
-
-    public static ColumnType<ByteColumnReader, ByteColumnWriter> BYTE = register("s8", ByteOrder.nativeOrder(), ByteColumn::open, ByteColumn::create);
-    public static ColumnType<CharColumnReader, CharColumnWriter> CHAR_LE = register("u16le", ByteOrder.LITTLE_ENDIAN, CharColumn::open, CharColumn::create);
-    public static ColumnType<CharColumnReader, CharColumnWriter> CHAR_BE = register("u16be", ByteOrder.BIG_ENDIAN, CharColumn::open, CharColumn::create);
-    public static ColumnType<ShortColumnReader, ShortColumnWriter> SHORT_LE = register("s16le", ByteOrder.LITTLE_ENDIAN, ShortColumn::open, ShortColumn::create);
-    public static ColumnType<ShortColumnReader, ShortColumnWriter> SHORT_BE = register("s16be", ByteOrder.BIG_ENDIAN, ShortColumn::open, ShortColumn::create);
-    public static ColumnType<IntColumnReader, IntColumnWriter> INT_LE = register("s32le", ByteOrder.LITTLE_ENDIAN, IntColumn::open, IntColumn::create);
-    public static ColumnType<IntColumnReader, IntColumnWriter> INT_BE = register("s32be", ByteOrder.BIG_ENDIAN, IntColumn::open, IntColumn::create);
-    public static ColumnType<LongColumnReader, LongColumnWriter> LONG_LE = register("s64le", ByteOrder.LITTLE_ENDIAN, LongColumn::open, LongColumn::create);
-    public static ColumnType<LongColumnReader, LongColumnWriter> LONG_BE = register("s64be", ByteOrder.BIG_ENDIAN, LongColumn::open, LongColumn::create);
-    public static ColumnType<FloatColumnReader, FloatColumnWriter> FLOAT_LE = register("fp32le", ByteOrder.LITTLE_ENDIAN, FloatColumn::open, FloatColumn::create);
-    public static ColumnType<FloatColumnReader, FloatColumnWriter> FLOAT_BE = register("fp32be", ByteOrder.BIG_ENDIAN, FloatColumn::open, FloatColumn::create);
-    public static ColumnType<DoubleColumnReader, DoubleColumnWriter> DOUBLE_LE = register("fp64le", ByteOrder.LITTLE_ENDIAN, DoubleColumn::open, DoubleColumn::create);
-    public static ColumnType<DoubleColumnReader, DoubleColumnWriter> DOUBLE_BE = register("fp64be", ByteOrder.BIG_ENDIAN, DoubleColumn::open, DoubleColumn::create);
-    public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_LE = register("varintle", ByteOrder.LITTLE_ENDIAN, VarintColumn::open, VarintColumn::create);
-    public static ColumnType<VarintColumnReader, VarintColumnWriter> VARINT_BE = register("varintbe", ByteOrder.BIG_ENDIAN, VarintColumn::open, VarintColumn::create);
-    public static ColumnType<CustomBinaryColumnReader, CustomBinaryColumnWriter> BYTE_ARRAY_CUSTOM = register("s8[]+custom", ByteOrder.nativeOrder(), CustomBinaryColumn::open, CustomBinaryColumn::create);
-
-    public static ColumnType<StringColumnReader, StringColumnWriter> STRING = register("s8[]+str", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
-    public static ColumnType<StringColumnReader, StringColumnWriter> CSTRING = register("s8+cstr", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
-    public static ColumnType<StringColumnReader, StringColumnWriter> TXTSTRING = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::open, StringColumn::create);
-
-
-    public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_8 = register("u8+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open8, EnumColumn::create8);
-    public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_LE = register("varintle+enum", ByteOrder.LITTLE_ENDIAN, EnumColumn::open, EnumColumn::create);
-    public static ColumnType<EnumColumnReader, StringColumnWriter> ENUM_BE = register("varintbe+enum", ByteOrder.BIG_ENDIAN, EnumColumn::open, EnumColumn::create);
-
-    public static ColumnType<ByteArrayColumnReader, ByteArrayColumnWriter> BYTE_ARRAY = register("s8[]", ByteOrder.nativeOrder(), ByteArrayColumn::open, ByteArrayColumn::create);
-    public static ColumnType<ObjectArrayColumnReader<byte[]>, ObjectArrayColumnWriter<byte[]>> BYTE_ARRAY_ARRAY = register("s8[][]", ByteOrder.nativeOrder(), ByteArrayColumn::openNested, ByteArrayColumn::createNested);
-    public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_LE = register("s64le[]", ByteOrder.LITTLE_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
-    public static ColumnType<LongArrayColumnReader, LongArrayColumnWriter> LONG_ARRAY_BE = register("s64be[]", ByteOrder.BIG_ENDIAN, LongArrayColumn::open, LongArrayColumn::create);
-
-    public static ColumnType<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> STRING_ARRAY = register("s8[]+str[]", ByteOrder.nativeOrder(), StringColumn::openArray, StringColumn::createArray);
-    public static ColumnType<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> CSTRING_ARRAY = register("s8+cstr[]", ByteOrder.nativeOrder(), StringColumn::openArray, StringColumn::createArray);
-    public static ColumnType<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> TXTSTRING_ARRAY = register("s8+txt", ByteOrder.nativeOrder(), StringColumn::openArray, StringColumn::createArray);
-
-    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_LE = register("s32le[]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
-    public static ColumnType<IntArrayColumnReader, IntArrayColumnWriter> INT_ARRAY_BE = register("s32be[]", ByteOrder.BIG_ENDIAN, IntArrayColumn::open, IntArrayColumn::create);
-    public static ColumnType<ObjectArrayColumnReader<int[]>, ObjectArrayColumnWriter<int[]>> INT_ARRAY_ARRAY_LE = register("s32le[][]", ByteOrder.LITTLE_ENDIAN, IntArrayColumn::openNested, IntArrayColumn::createNested);
-    public static ColumnType<ObjectArrayColumnReader<int[]>, ObjectArrayColumnWriter<int[]>> INT_ARRAY_ARRAY_BE = register("s32be[][]", ByteOrder.BIG_ENDIAN, IntArrayColumn::openNested, IntArrayColumn::createNested);
-    public static ColumnType<ObjectArrayColumnReader<long[]>, ObjectArrayColumnWriter<long[]>> LONG_ARRAY_ARRAY_LE = register("s64le[][]", ByteOrder.LITTLE_ENDIAN, LongArrayColumn::openNested, LongArrayColumn::createNested);
-    public static ColumnType<ObjectArrayColumnReader<long[]>, ObjectArrayColumnWriter<long[]>> LONG_ARRAY_ARRAY_BE = register("s64be[][]", ByteOrder.BIG_ENDIAN, LongArrayColumn::openNested, LongArrayColumn::createNested);
-
-    public interface ColumnOpener<T extends ColumnReader> {
-        T open(Path path, ColumnDesc desc) throws IOException;
-    }
-    public interface ColumnCreator<T extends ColumnWriter> {
-        T create(Path path, ColumnDesc desc) throws IOException;
-    }
-
-    public static <R extends ColumnReader,
-        W extends ColumnWriter,
-        T extends ColumnType<R,W>> ColumnType<R, W> register(
-                String mnemonic,
-                ByteOrder byteOrder,
-                ColumnOpener<R> readerCons,
-                ColumnCreator<W> writerCons) {
-
-        var ins = new ColumnType<R, W>() {
-            @Override
-            public String mnemonic() {
-                return mnemonic;
-            }
-
-            public ByteOrder byteOrder() {
-                return byteOrder;
-            }
-
-            @Override
-            public R open(Path path, ColumnDesc<R, W> desc) throws IOException {
-                return readerCons.open(path, desc);
-            }
-
-            @Override
-            public W create(Path path, ColumnDesc<R, W> desc) throws IOException {
-                return writerCons.create(path, desc);
-            }
-        };
-
-        byMnemonic.put(mnemonic, ins);
-        return ins;
-    }
-
-    public int hashCode() {
-        return mnemonic().hashCode();
-    }
-    public boolean equals(Object o) {
-        return o instanceof ColumnType ct &&  Objects.equals(ct.mnemonic(), mnemonic());
-    }
-    public String toString() {
-        return mnemonic();
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java b/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
deleted file mode 100644
index 977b4c86..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/SlopTable.java
+++ /dev/null
@@ -1,86 +0,0 @@
-package nu.marginalia.slop.desc;
-
-import nu.marginalia.slop.column.ColumnReader;
-import nu.marginalia.slop.column.ColumnWriter;
-import nu.marginalia.slop.column.ObjectColumnReader;
-
-import java.io.IOException;
-import java.util.*;
-
-/** SlopTable is a utility class for managing a group of columns that are
- * read and written together.  It is used to ensure that the reader and writer
- * positions are maintained correctly between the columns, and to ensure that
- * the columns are closed correctly.
- * <p></p>
- * To deal with the fact that some columns may not be expected to have the same
- * number of rows, SlopTable supports the concept of column groups.  Each column
- * group is a separate SlopTable instance, and the columns in the group are
- * managed together.
- * <p></p>
- * It is often a good idea to let the reader or writer class for a particular
- * table inherit from SlopTable, so that the table is automatically closed when
- * the reader or writer is closed.
- */
-
-public class SlopTable implements AutoCloseable {
-    private final Set<ColumnReader> readerList = new HashSet<>();
-    private final Set<ColumnWriter> writerList = new HashSet<>();
-
-    /** Register a column reader with this table.  This is called from ColumnDesc. */
-    void register(ColumnReader reader) {
-        if (!readerList.add(reader))
-            System.err.println("Double registration of " + reader);
-    }
-
-    /** Register a column reader with this table.  This is called from ColumnDesc. */
-    void register(ColumnWriter writer) {
-        if (!writerList.add(writer))
-            System.err.println("Double registration of " + writer);
-    }
-
-    protected <T> boolean find(ObjectColumnReader<T> column, T value) throws IOException {
-        boolean ret = column.search(value);
-
-        long desiredPos = column.position() - 1;
-
-        for (var otherReader : readerList) {
-            if (otherReader.position() < desiredPos) {
-                otherReader.skip(desiredPos - otherReader.position());
-            }
-        }
-
-        return ret;
-    }
-
-    public void close() throws IOException {
-
-        Map<Long, List<ColumnDesc>> positions = new HashMap<>();
-
-        for (ColumnReader reader : readerList) {
-            positions.computeIfAbsent(reader.position(), k -> new ArrayList<>()).add(reader.columnDesc());
-            reader.close();
-        }
-        for (ColumnWriter writer : writerList) {
-            positions.computeIfAbsent(writer.position(), k -> new ArrayList<>()).add(writer.columnDesc());
-            writer.close();
-        }
-
-
-        // Check for the scenario where we have multiple positions
-        // and one of the positions is zero, indicating that we haven't
-        // read or written to one of the columns.  This is likely a bug,
-        // but not necessarily a severe one, so we just log a warning.
-
-        var zeroPositions = Objects.requireNonNullElseGet(positions.remove(0L), List::of);
-        if (!zeroPositions.isEmpty() && !positions.isEmpty()) {
-            System.err.println("Zero position found in {}, this is likely development debris" + zeroPositions);
-        }
-
-        // If there are more than one position and several are non-zero, then we haven't maintained the
-        // position correctly between the columns.  This is a disaster, so we throw an exception.
-        if (positions.size() > 1) {
-            throw new IllegalStateException("Expected only one reader position, found " + positions);
-        }
-    }
-
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java b/code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java
deleted file mode 100644
index 9b759aef..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/desc/StorageType.java
+++ /dev/null
@@ -1,28 +0,0 @@
-package nu.marginalia.slop.desc;
-
-/** The type of storage used for a column. */
-public enum StorageType {
-
-    /** The column is stored as an uncompressed binary file. */
-    PLAIN("bin"),
-    /** The column is stored as a compressed binary file using the GZIP algorithm. */
-    GZIP("gz"),
-    /** The column is stored as a compressed binary file using the ZSTD algorithm. */
-    ZSTD("zstd"),
-    ;
-
-    public String nmnemonic;
-
-    StorageType(String nmnemonic) {
-        this.nmnemonic = nmnemonic;
-    }
-
-    public static StorageType fromString(String nmnemonic) {
-        for (StorageType type : values()) {
-            if (type.nmnemonic.equals(nmnemonic)) {
-                return type;
-            }
-        }
-        throw new IllegalArgumentException("Unknown storage type: " + nmnemonic);
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
deleted file mode 100644
index e71d6259..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageReader.java
+++ /dev/null
@@ -1,234 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import nu.marginalia.slop.desc.StorageType;
-import org.apache.commons.compress.compressors.zstandard.ZstdCompressorInputStream;
-
-import java.io.IOException;
-import java.io.InputStream;
-import java.io.UnsupportedEncodingException;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardOpenOption;
-import java.util.zip.GZIPInputStream;
-
-public class CompressingStorageReader implements StorageReader {
-    private final byte[] arrayBuffer;
-
-    private long position = 0;
-
-    private final InputStream is;
-    private final ByteBuffer buffer;
-
-    public CompressingStorageReader(Path path, StorageType storageType, ByteOrder order, int bufferSize) throws IOException {
-        is = switch (storageType) {
-            case GZIP -> new GZIPInputStream(Files.newInputStream(path, StandardOpenOption.READ));
-            case ZSTD -> new ZstdCompressorInputStream(Files.newInputStream(path, StandardOpenOption.READ));
-            default -> throw new UnsupportedEncodingException("Unsupported storage type: " + storageType);
-        };
-
-        this.arrayBuffer = new byte[bufferSize];
-        this.buffer = ByteBuffer.wrap(arrayBuffer).order(order);
-
-        buffer.position(0);
-        buffer.limit(0);
-
-        // read the first chunk, this is needed for InputStream otherwise we don't handle empty files
-        // correctly
-        refill();
-    }
-
-    @Override
-    public byte getByte() throws IOException {
-        if (buffer.remaining() < Byte.BYTES) {
-            refill();
-        }
-
-        return buffer.get();
-    }
-
-    @Override
-    public short getShort() throws IOException {
-        if (buffer.remaining() < Short.BYTES) {
-            refill();
-        }
-
-        return buffer.getShort();
-    }
-
-    @Override
-    public char getChar() throws IOException {
-        if (buffer.remaining() < Character.BYTES) {
-            refill();
-        }
-
-        return buffer.getChar();
-    }
-
-    @Override
-    public int getInt() throws IOException {
-        if (buffer.remaining() < Integer.BYTES) {
-            refill();
-        }
-
-        return buffer.getInt();
-    }
-
-    @Override
-    public long getLong() throws IOException {
-        if (buffer.remaining() < Long.BYTES) {
-            refill();
-        }
-
-        return buffer.getLong();
-    }
-
-    @Override
-    public float getFloat() throws IOException {
-        if (buffer.remaining() < Float.BYTES) {
-            refill();
-        }
-
-        return buffer.getFloat();
-    }
-
-    @Override
-    public double getDouble() throws IOException {
-        if (buffer.remaining() < Double.BYTES) {
-            refill();
-        }
-
-        return buffer.getDouble();
-    }
-
-    @Override
-    public void getBytes(byte[] bytes) throws IOException {
-        getBytes(bytes, 0, bytes.length);
-    }
-
-    @Override
-    public void getBytes(byte[] bytes, int offset, int length) throws IOException {
-        if (buffer.remaining() >= length) {
-            buffer.get(bytes, offset, length);
-        } else {
-            int totalToRead = length;
-
-            while (totalToRead > 0) {
-                if (!buffer.hasRemaining()) {
-                    refill();
-                }
-
-                int toRead = Math.min(buffer.remaining(), totalToRead);
-                buffer.get(bytes, offset + length - totalToRead, toRead);
-                totalToRead -= toRead;
-            }
-        }
-    }
-
-    @Override
-    public void getBytes(ByteBuffer data) throws IOException {
-        if (data.remaining() < buffer.remaining()) {
-            int lim = buffer.limit();
-            buffer.limit(buffer.position() + data.remaining());
-            data.put(buffer);
-            buffer.limit(lim);
-        } else {
-            while (data.hasRemaining()) {
-                if (!buffer.hasRemaining()) {
-                    refill();
-                }
-
-                int lim = buffer.limit();
-                buffer.limit(Math.min(buffer.position() + data.remaining(), lim));
-                data.put(buffer);
-                buffer.limit(lim);
-            }
-        }
-    }
-
-    public void getInts(int[] ints) throws IOException {
-        if (buffer.remaining() >= ints.length * Integer.BYTES) {
-            // fast path: if we can read all the ints from the buffer and don't need to check for buffer boundaries
-            for (int i = 0; i < ints.length; i++) {
-                ints[i] = buffer.getInt();
-            }
-        }
-        else {
-            for (int i = 0; i < ints.length; i++) {
-                ints[i] = getInt();
-            }
-        }
-    }
-
-    public void getLongs(long[] longs) throws IOException {
-        if (buffer.remaining() >= longs.length * Long.BYTES) {
-            // fast path: if we can read all the longs from the buffer and don't need to check for buffer boundaries
-            for (int i = 0; i < longs.length; i++) {
-                longs[i] = buffer.getLong();
-            }
-        }
-        else {
-            for (int i = 0; i < longs.length; i++) {
-                longs[i] = getLong();
-            }
-        }
-    }
-
-    @Override
-    public void skip(long bytes, int stepSize) throws IOException {
-        long toSkip = bytes * stepSize;
-
-        if (buffer.remaining() < toSkip) {
-            toSkip -= buffer.remaining();
-
-            while (toSkip > 0) {
-                long rb = is.skip(toSkip);
-                toSkip -= rb;
-                position += rb;
-            }
-
-            buffer.position(0);
-            buffer.limit(0);
-        } else {
-            buffer.position(buffer.position() + (int) toSkip);
-        }
-    }
-
-    @Override
-    public void seek(long position, int stepSize) throws IOException {
-        throw new UnsupportedEncodingException("Seek not supported in GzipStorageReader");
-    }
-
-    private void refill() throws IOException {
-        buffer.compact();
-
-        while (buffer.hasRemaining()) {
-            int rb = is.read(arrayBuffer, buffer.position(), buffer.remaining());
-            if (rb < 0) {
-                break;
-            }
-            else {
-                position += rb;
-                buffer.position(buffer.position() + rb);
-            }
-        }
-
-        buffer.flip();
-    }
-
-    @Override
-    public long position() throws IOException {
-        return position - buffer.remaining();
-    }
-
-    @Override
-    public boolean hasRemaining() throws IOException {
-        return buffer.hasRemaining() || is.available() > 0;
-    }
-
-    @Override
-    public void close() throws IOException {
-        is.close();
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java b/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java
deleted file mode 100644
index 729498b5..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/CompressingStorageWriter.java
+++ /dev/null
@@ -1,210 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import nu.marginalia.slop.desc.StorageType;
-import org.apache.commons.compress.compressors.zstandard.ZstdCompressorOutputStream;
-
-import java.io.IOException;
-import java.io.OutputStream;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardCopyOption;
-import java.nio.file.StandardOpenOption;
-import java.util.zip.GZIPOutputStream;
-
-public class CompressingStorageWriter implements StorageWriter, AutoCloseable {
-    private final ByteBuffer buffer;
-    private final OutputStream os;
-    private byte[] arrayBuffer;
-
-    private long position = 0;
-
-    private final Path tempPath;
-    private final Path destPath;
-
-    public CompressingStorageWriter(Path path, StorageType storageType, ByteOrder order, int bufferSize) throws IOException {
-        tempPath = path.resolveSibling(path.getFileName() + ".tmp");
-        destPath = path;
-
-        os = switch (storageType) {
-            case GZIP -> new GZIPOutputStream(Files.newOutputStream(tempPath, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING, StandardOpenOption.WRITE));
-            case ZSTD -> new ZstdCompressorOutputStream(Files.newOutputStream(tempPath, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING, StandardOpenOption.WRITE));
-            default -> throw new IllegalArgumentException("Unsupported storage type: " + storageType);
-        };
-
-        arrayBuffer = new byte[bufferSize];
-        this.buffer = ByteBuffer.wrap(arrayBuffer).order(order);
-    }
-
-    @Override
-    public void putByte(byte b) throws IOException {
-        if (buffer.remaining() < Byte.BYTES) {
-            flush();
-        }
-
-        buffer.put(b);
-    }
-
-    @Override
-    public void putShort(short s) throws IOException {
-        if (buffer.remaining() < Short.BYTES) {
-            flush();
-        }
-
-        buffer.putShort(s);
-    }
-
-    @Override
-    public void putChar(char s) throws IOException {
-        if (buffer.remaining() < Character.BYTES) {
-            flush();
-        }
-
-        buffer.putChar(s);
-    }
-
-    @Override
-    public void putInt(int i) throws IOException {
-        if (buffer.remaining() < Integer.BYTES) {
-            flush();
-        }
-
-        buffer.putInt(i);
-    }
-
-    @Override
-    public void putLong(long l) throws IOException {
-        if (buffer.remaining() < Long.BYTES) {
-            flush();
-        }
-
-        buffer.putLong(l);
-    }
-
-    @Override
-    public void putInts(int[] values) throws IOException {
-        if (buffer.remaining() >= Integer.BYTES * values.length) {
-            for (int value : values) {
-                buffer.putInt(value);
-            }
-        }
-        else {
-            for (int value : values) {
-                putInt(value);
-            }
-        }
-    }
-
-    @Override
-    public void putLongs(long[] values) throws IOException {
-        if (buffer.remaining() >= Long.BYTES * values.length) {
-            for (long value : values) {
-                buffer.putLong(value);
-            }
-        }
-        else {
-            for (long value : values) {
-                putLong(value);
-            }
-        }
-    }
-
-    @Override
-    public void putBytes(byte[] bytes) throws IOException {
-        putBytes(bytes, 0, bytes.length);
-    }
-
-    @Override
-    public void putBytes(byte[] bytes, int offset, int length) throws IOException {
-        int totalToWrite = length;
-
-        if (totalToWrite < buffer.remaining()) {
-            buffer.put(bytes, offset, totalToWrite);
-        }
-        else { // case where the data is larger than the write buffer, so we need to write in chunks
-            while (totalToWrite > 0) {
-                if (!buffer.hasRemaining()) {
-                    flush();
-                }
-
-                // Write as much as possible to the buffer
-                int toWriteNow = Math.min(totalToWrite, buffer.remaining());
-                buffer.put(bytes, offset, toWriteNow);
-
-                // Update the remaining bytes and offset
-                totalToWrite -= toWriteNow;
-                offset += toWriteNow;
-            }
-        }
-    }
-
-    @Override
-    public void putBytes(ByteBuffer data) throws IOException {
-        if (data.remaining() < buffer.remaining()) {
-            buffer.put(data);
-        }
-        else { // case where the data is larger than the write buffer, so we need to write in chunks
-            while (data.hasRemaining()) {
-                if (!buffer.hasRemaining()) {
-                    flush();
-                }
-
-                // temporarily reduce the data buffer's limit to what's possible to write to the writer's buffer
-                int lim = data.limit();
-                data.limit(Math.min(data.position() + buffer.remaining(), lim));
-
-                // write the data to the buffer
-                buffer.put(data);
-
-                // restore the limit, so we can write the rest of the data
-                data.limit(lim);
-            }
-        }
-    }
-
-    @Override
-    public void putFloat(float f) throws IOException {
-        if (buffer.remaining() < Float.BYTES) {
-            flush();
-        }
-
-        buffer.putFloat(f);
-    }
-
-    @Override
-    public void putDouble(double d) throws IOException {
-        if (buffer.remaining() < Double.BYTES) {
-            flush();
-        }
-
-        buffer.putDouble(d);
-    }
-
-    private void flush() throws IOException {
-        buffer.flip();
-
-        int rem = buffer.remaining();
-        if (rem > 0) {
-            os.write(buffer.array(), buffer.position(), buffer.remaining());
-            buffer.limit(0);
-            position += rem;
-        }
-
-        buffer.clear();
-    }
-
-    public long position() throws IOException {
-        return position + buffer.position();
-    }
-
-    @Override
-    public void close() throws IOException {
-        flush();
-
-        os.flush();
-        os.close();
-
-        Files.move(tempPath, destPath, StandardCopyOption.REPLACE_EXISTING);
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
deleted file mode 100644
index 8f27eba4..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/MmapStorageReader.java
+++ /dev/null
@@ -1,149 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import java.io.IOException;
-import java.lang.foreign.Arena;
-import java.lang.foreign.MemorySegment;
-import java.lang.foreign.ValueLayout;
-import java.nio.ByteBuffer;
-import java.nio.channels.FileChannel;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardOpenOption;
-
-@SuppressWarnings("preview") // for MemorySegment in jdk-21
-public class MmapStorageReader implements StorageReader {
-    private final MemorySegment segment;
-    private final Arena arena;
-
-    private long position = 0;
-
-    public MmapStorageReader(Path path) throws IOException {
-        arena = Arena.ofConfined();
-
-        try (var channel = (FileChannel) Files.newByteChannel(path, StandardOpenOption.READ)) {
-            this.segment = channel.map(FileChannel.MapMode.READ_ONLY, 0, channel.size(), arena);
-        }
-
-        position = 0;
-    }
-
-    @Override
-    public byte getByte() throws IOException {
-        return segment.get(ValueLayout.JAVA_BYTE, position++);
-    }
-
-    @Override
-    public short getShort() throws IOException {
-        short ret = segment.get(ValueLayout.JAVA_SHORT, position);
-        position += Short.BYTES;
-        return ret;
-
-    }
-
-    @Override
-    public char getChar() throws IOException {
-        char ret = segment.get(ValueLayout.JAVA_CHAR, position);
-        position += Character.BYTES;
-        return ret;
-    }
-
-    @Override
-    public int getInt() throws IOException {
-        int ret = segment.get(ValueLayout.JAVA_INT, position);
-        position += Integer.BYTES;
-        return ret;
-    }
-
-    @Override
-    public long getLong() throws IOException {
-        long ret = segment.get(ValueLayout.JAVA_LONG, position);
-        position += Long.BYTES;
-        return ret;
-    }
-
-    @Override
-    public float getFloat() throws IOException {
-        float ret = segment.get(ValueLayout.JAVA_FLOAT, position);
-        position += Float.BYTES;
-        return ret;
-    }
-
-    @Override
-    public double getDouble() throws IOException {
-        double ret = segment.get(ValueLayout.JAVA_DOUBLE, position);
-        position += Double.BYTES;
-        return ret;
-    }
-
-    @Override
-    public void getBytes(byte[] bytes) throws IOException {
-        if (position + bytes.length > segment.byteSize()) {
-            throw new ArrayIndexOutOfBoundsException();
-        }
-        for (int i = 0; i < bytes.length; i++) {
-            bytes[i] = segment.get(ValueLayout.JAVA_BYTE, position+i);
-        }
-        position += bytes.length;
-    }
-
-    @Override
-    public void getBytes(byte[] bytes, int offset, int length) throws IOException {
-        if (position + length > segment.byteSize()) {
-            throw new ArrayIndexOutOfBoundsException();
-        }
-        for (int i = 0; i < length; i++) {
-            bytes[offset + i] = segment.get(ValueLayout.JAVA_BYTE, position+i);
-        }
-        position += length;
-    }
-
-    @Override
-    public void getBytes(ByteBuffer buffer) throws IOException {
-        int toRead = buffer.remaining();
-        if (position + toRead > segment.byteSize()) {
-            throw new ArrayIndexOutOfBoundsException();
-        }
-
-        buffer.put(segment.asSlice(position, toRead).asByteBuffer());
-        position += toRead;
-    }
-
-    public void getInts(int[] ret) {
-        for (int i = 0; i < ret.length; i++) {
-            ret[i] = segment.get(ValueLayout.JAVA_INT, position);
-            position += Integer.BYTES;
-        }
-    }
-
-    public void getLongs(long[] ret) {
-        for (int i = 0; i < ret.length; i++) {
-            ret[i] = segment.get(ValueLayout.JAVA_LONG, position);
-            position += Long.BYTES;
-        }
-    }
-
-    @Override
-    public void skip(long bytes, int stepSize) throws IOException {
-        position += bytes * stepSize;
-    }
-
-    @Override
-    public void seek(long position, int stepSize) throws IOException {
-        this.position = position * stepSize;
-    }
-
-    @Override
-    public long position() throws IOException {
-        return position;
-    }
-
-    @Override
-    public boolean hasRemaining() throws IOException {
-        return position < segment.byteSize();
-    }
-
-    @Override
-    public void close() throws IOException {
-        arena.close();
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java
deleted file mode 100644
index 4f12eea4..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageReader.java
+++ /dev/null
@@ -1,215 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.channels.FileChannel;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardOpenOption;
-
-public class SimpleStorageReader implements StorageReader {
-    private final ByteBuffer buffer;
-    private final FileChannel channel;
-
-    public SimpleStorageReader(Path path, ByteOrder order, int bufferSize) throws IOException {
-        channel = (FileChannel) Files.newByteChannel(path, StandardOpenOption.READ);
-
-        this.buffer = ByteBuffer.allocateDirect(bufferSize).order(order);
-
-        buffer.position(0);
-        buffer.limit(0);
-    }
-
-    @Override
-    public byte getByte() throws IOException {
-        if (buffer.remaining() < Byte.BYTES) {
-            refill();
-        }
-
-        return buffer.get();
-    }
-
-    @Override
-    public short getShort() throws IOException {
-        if (buffer.remaining() < Short.BYTES) {
-            refill();
-        }
-
-        return buffer.getShort();
-    }
-
-    @Override
-    public char getChar() throws IOException {
-        if (buffer.remaining() < Character.BYTES) {
-            refill();
-        }
-
-        return buffer.getChar();
-    }
-
-    @Override
-    public int getInt() throws IOException {
-        if (buffer.remaining() < Integer.BYTES) {
-            refill();
-        }
-
-        return buffer.getInt();
-    }
-
-    @Override
-    public long getLong() throws IOException {
-        if (buffer.remaining() < Long.BYTES) {
-            refill();
-        }
-
-        return buffer.getLong();
-    }
-
-    @Override
-    public float getFloat() throws IOException {
-        if (buffer.remaining() < Float.BYTES) {
-            refill();
-        }
-
-        return buffer.getFloat();
-    }
-
-    @Override
-    public double getDouble() throws IOException {
-        if (buffer.remaining() < Double.BYTES) {
-            refill();
-        }
-
-        return buffer.getDouble();
-    }
-
-    @Override
-    public void getBytes(byte[] bytes) throws IOException {
-        getBytes(bytes, 0, bytes.length);
-    }
-
-    @Override
-    public void getBytes(byte[] bytes, int offset, int length) throws IOException {
-        if (buffer.remaining() >= length) {
-            buffer.get(bytes, offset, length);
-        } else {
-            int totalToRead = length;
-
-            while (totalToRead > 0) {
-                if (!buffer.hasRemaining()) {
-                    refill();
-                }
-
-                int toRead = Math.min(buffer.remaining(), totalToRead);
-                buffer.get(bytes, offset + length - totalToRead, toRead);
-                totalToRead -= toRead;
-            }
-        }
-    }
-
-    @Override
-    public void getBytes(ByteBuffer data) throws IOException {
-        if (data.remaining() < buffer.remaining()) {
-            int lim = buffer.limit();
-            buffer.limit(buffer.position() + data.remaining());
-            data.put(buffer);
-            buffer.limit(lim);
-        } else {
-            while (data.hasRemaining()) {
-                if (!buffer.hasRemaining()) {
-                    refill();
-                }
-
-                int lim = buffer.limit();
-                buffer.limit(Math.min(buffer.position() + data.remaining(), lim));
-                data.put(buffer);
-                buffer.limit(lim);
-            }
-        }
-    }
-
-    public void getInts(int[] ints) throws IOException {
-        if (buffer.remaining() >= ints.length * Integer.BYTES) {
-            // fast path: if we can read all the ints from the buffer and don't need to check for buffer boundaries
-            for (int i = 0; i < ints.length; i++) {
-                ints[i] = buffer.getInt();
-            }
-        }
-        else {
-            for (int i = 0; i < ints.length; i++) {
-                ints[i] = getInt();
-            }
-        }
-    }
-
-    public void getLongs(long[] longs) throws IOException {
-        if (buffer.remaining() >= longs.length * Long.BYTES) {
-            // fast path: if we can read all the longs from the buffer and don't need to check for buffer boundaries
-            for (int i = 0; i < longs.length; i++) {
-                longs[i] = buffer.getLong();
-            }
-        }
-        else {
-            for (int i = 0; i < longs.length; i++) {
-                longs[i] = getLong();
-            }
-        }
-    }
-
-    @Override
-    public void skip(long bytes, int stepSize) throws IOException {
-        long toSkip = bytes * stepSize;
-
-        if (buffer.remaining() < toSkip) {
-            channel.position(channel.position() - buffer.remaining() + toSkip);
-            buffer.position(0);
-            buffer.limit(0);
-        } else {
-            buffer.position(buffer.position() + (int) toSkip);
-        }
-    }
-
-    @Override
-    public void seek(long position, int stepSize) throws IOException {
-        position *= stepSize;
-
-        if (position > channel.position() - buffer.limit() && position < channel.position()) {
-            // If the position is within the buffer, we can just move the buffer position to the correct spot
-            buffer.position((int) (position - channel.position() + buffer.limit()));
-        }
-        else {
-            // Otherwise, we need to move the channel position and invalidate the buffer
-            channel.position(position);
-            buffer.position(0);
-            buffer.limit(0);
-        }
-    }
-
-    private void refill() throws IOException {
-        buffer.compact();
-
-        while (buffer.hasRemaining()) {
-            if (channel.read(buffer) == -1) {
-                break;
-            }
-        }
-
-        buffer.flip();
-    }
-
-    @Override
-    public long position() throws IOException {
-        return channel.position() - buffer.remaining();
-    }
-
-    @Override
-    public boolean hasRemaining() throws IOException {
-        return buffer.hasRemaining() || channel.position() < channel.size();
-    }
-
-    @Override
-    public void close() throws IOException {
-        channel.close();
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java b/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java
deleted file mode 100644
index ead9457f..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/SimpleStorageWriter.java
+++ /dev/null
@@ -1,199 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.channels.FileChannel;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.nio.file.StandardCopyOption;
-import java.nio.file.StandardOpenOption;
-
-public class SimpleStorageWriter implements StorageWriter, AutoCloseable {
-    private final ByteBuffer buffer;
-    private final FileChannel channel;
-
-    private final Path tempPath;
-    private final Path destPath;
-
-    public SimpleStorageWriter(Path path, ByteOrder order, int bufferSize) throws IOException {
-        tempPath = path.resolveSibling(path.getFileName() + ".tmp");
-        destPath = path;
-
-        channel = (FileChannel) Files.newByteChannel(tempPath,
-                StandardOpenOption.CREATE,
-                StandardOpenOption.TRUNCATE_EXISTING,
-                StandardOpenOption.WRITE
-        );
-
-        this.buffer = ByteBuffer.allocate(bufferSize).order(order);
-    }
-
-    @Override
-    public void putByte(byte b) throws IOException {
-        if (buffer.remaining() < Byte.BYTES) {
-            flush();
-        }
-
-        buffer.put(b);
-    }
-
-    @Override
-    public void putShort(short s) throws IOException {
-        if (buffer.remaining() < Short.BYTES) {
-            flush();
-        }
-
-        buffer.putShort(s);
-    }
-
-    @Override
-    public void putChar(char s) throws IOException {
-        if (buffer.remaining() < Character.BYTES) {
-            flush();
-        }
-
-        buffer.putChar(s);
-    }
-
-    @Override
-    public void putInt(int i) throws IOException {
-        if (buffer.remaining() < Integer.BYTES) {
-            flush();
-        }
-
-        buffer.putInt(i);
-    }
-
-    @Override
-    public void putLong(long l) throws IOException {
-        if (buffer.remaining() < Long.BYTES) {
-            flush();
-        }
-
-        buffer.putLong(l);
-    }
-
-    @Override
-    public void putInts(int[] values) throws IOException {
-        if (buffer.remaining() >= Integer.BYTES * values.length) {
-            for (int value : values) {
-                buffer.putInt(value);
-            }
-        }
-        else {
-            for (int value : values) {
-                putInt(value);
-            }
-        }
-    }
-
-    @Override
-    public void putLongs(long[] values) throws IOException {
-        if (buffer.remaining() >= Long.BYTES * values.length) {
-            for (long value : values) {
-                buffer.putLong(value);
-            }
-        }
-        else {
-            for (long value : values) {
-                putLong(value);
-            }
-        }
-    }
-
-    @Override
-    public void putBytes(byte[] bytes) throws IOException {
-        putBytes(bytes, 0, bytes.length);
-    }
-
-    @Override
-    public void putBytes(byte[] bytes, int offset, int length) throws IOException {
-        int totalToWrite = length;
-
-        if (totalToWrite < buffer.remaining()) {
-            buffer.put(bytes, offset, totalToWrite);
-        }
-        else { // case where the data is larger than the write buffer, so we need to write in chunks
-            while (totalToWrite > 0) {
-                if (!buffer.hasRemaining()) {
-                    flush();
-                }
-
-                // Write as much as possible to the buffer
-                int toWriteNow = Math.min(totalToWrite, buffer.remaining());
-                buffer.put(bytes, offset, toWriteNow);
-
-                // Update the remaining bytes and offset
-                totalToWrite -= toWriteNow;
-                offset += toWriteNow;
-            }
-        }
-    }
-
-    @Override
-    public void putBytes(ByteBuffer data) throws IOException {
-        if (data.remaining() < buffer.remaining()) {
-            buffer.put(data);
-        }
-        else { // case where the data is larger than the write buffer, so we need to write in chunks
-            while (data.hasRemaining()) {
-                if (!buffer.hasRemaining()) {
-                    flush();
-                }
-
-                // temporarily reduce the data buffer's limit to what's possible to write to the writer's buffer
-                int lim = data.limit();
-                data.limit(Math.min(data.position() + buffer.remaining(), lim));
-
-                // write the data to the buffer
-                buffer.put(data);
-
-                // restore the limit, so we can write the rest of the data
-                data.limit(lim);
-            }
-        }
-    }
-
-    @Override
-    public void putFloat(float f) throws IOException {
-        if (buffer.remaining() < Float.BYTES) {
-            flush();
-        }
-
-        buffer.putFloat(f);
-    }
-
-    @Override
-    public void putDouble(double d) throws IOException {
-        if (buffer.remaining() < Double.BYTES) {
-            flush();
-        }
-
-        buffer.putDouble(d);
-    }
-
-    private void flush() throws IOException {
-        buffer.flip();
-
-        while (buffer.hasRemaining()) {
-            channel.write(buffer);
-        }
-
-        buffer.clear();
-    }
-
-    public long position() throws IOException {
-        return channel.position() + buffer.position();
-    }
-
-    @Override
-    public void close() throws IOException {
-        flush();
-
-        channel.force(false);
-        channel.close();
-
-        Files.move(tempPath, destPath, StandardCopyOption.REPLACE_EXISTING);
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java b/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
deleted file mode 100644
index 82446356..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/Storage.java
+++ /dev/null
@@ -1,61 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.StorageType;
-
-import java.io.IOException;
-import java.nio.ByteOrder;
-import java.nio.file.Path;
-
-public interface Storage {
-
-    /** Create a reader for the given column.
-     *
-     * @param path the directory containing the column data
-     * @param columnDesc the column descriptor
-     * @param aligned whether the data is aligned to the storage type, which can be used to optimize reading
-     * */
-    static StorageReader reader(Path path, ColumnDesc columnDesc, boolean aligned) throws IOException {
-        ByteOrder byteOrder = columnDesc.byteOrder();
-        StorageType storageType = columnDesc.storageType();
-
-        Path filePath = path.resolve(columnDesc.toString());
-
-        if (aligned && byteOrder.equals(ByteOrder.LITTLE_ENDIAN) && storageType.equals(StorageType.PLAIN)) {
-            // mmap is only supported for little-endian plain storage, but it's generally worth it in this case
-            return new MmapStorageReader(filePath);
-        } else {
-            final int bufferSize = switch(columnDesc.function()) {
-                case DATA -> 4096;
-                default -> 1024;
-            };
-
-            return switch (storageType) {
-                case PLAIN -> new SimpleStorageReader(filePath, byteOrder, bufferSize);
-                case GZIP, ZSTD -> new CompressingStorageReader(filePath, storageType, byteOrder, bufferSize);
-            };
-        }
-    }
-
-    /** Create a writer for the given column.
-     *
-     * @param path the directory containing the column data
-     * @param columnDesc the column descriptor
-     * */
-    static StorageWriter writer(Path path, ColumnDesc columnDesc) throws IOException {
-        ByteOrder byteOrder = columnDesc.byteOrder();
-        StorageType storageType = columnDesc.storageType();
-
-        Path filePath = path.resolve(columnDesc.toString());
-
-        final int bufferSize = switch(columnDesc.function()) {
-            case DATA -> 4096;
-            default -> 1024;
-        };
-
-        return switch (storageType) {
-            case PLAIN -> new SimpleStorageWriter(filePath, byteOrder, bufferSize);
-            case GZIP, ZSTD -> new CompressingStorageWriter(filePath, storageType, byteOrder, bufferSize);
-        };
-    }
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java b/code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java
deleted file mode 100644
index d6d10fdc..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/StorageReader.java
+++ /dev/null
@@ -1,50 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-
-public interface StorageReader extends AutoCloseable {
-    byte getByte() throws IOException;
-    short getShort() throws IOException;
-    char getChar() throws IOException;
-    int getInt() throws IOException;
-    long getLong() throws IOException;
-    float getFloat() throws IOException;
-    double getDouble() throws IOException;
-
-    void getBytes(byte[] bytes) throws IOException;
-    void getBytes(byte[] bytes, int offset, int length) throws IOException;
-    void getBytes(ByteBuffer buffer) throws IOException;
-
-    void getInts(int[] ints) throws IOException;
-    void getLongs(long[] longs) throws IOException;
-
-    default void getChars(char[] chars) throws IOException {
-        for (int i = 0; i < chars.length; i++) {
-            chars[i] = getChar();
-        }
-    }
-    default void getShorts(short[] shorts) throws IOException {
-        for (int i = 0; i < shorts.length; i++) {
-            shorts[i] = getShort();
-        }
-    }
-    default void getFloats(float[] floats) throws IOException {
-        for (int i = 0; i < floats.length; i++) {
-            floats[i] = getFloat();
-        }
-    }
-    default void getDoubles(double[] doubles) throws IOException {
-        for (int i = 0; i < doubles.length; i++) {
-            doubles[i] = getDouble();
-        }
-    }
-
-    void skip(long bytes, int stepSize) throws IOException;
-    void seek(long position, int stepSize) throws IOException;
-    long position() throws IOException;
-    boolean hasRemaining() throws IOException;
-
-    @Override
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java b/code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java
deleted file mode 100644
index c8fe186d..00000000
--- a/code/libraries/slop/java/nu/marginalia/slop/storage/StorageWriter.java
+++ /dev/null
@@ -1,50 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-
-/** Interface for writing data to a storage. */
-public interface StorageWriter extends AutoCloseable {
-    void putByte(byte b) throws IOException;
-    void putShort(short s) throws IOException;
-    void putChar(char c) throws IOException;
-    void putInt(int i) throws IOException;
-    void putLong(long l) throws IOException;
-
-    void putFloat(float f) throws IOException;
-    void putDouble(double d) throws IOException;
-
-    void putBytes(byte[] bytes) throws IOException;
-    void putBytes(byte[] bytes, int offset, int length) throws IOException;
-    void putBytes(ByteBuffer buffer) throws IOException;
-
-    // Bulk operations, these can be more efficient than the single value operations
-    // if they are implemented in a way that minimizes the of bounds checks and other overhead
-
-    void putInts(int[] bytes) throws IOException;
-    void putLongs(long[] bytes) throws IOException;
-
-    default void putChars(char[] chars) throws IOException {
-        for (char c : chars) {
-            putChar(c);
-        }
-    }
-    default void putShorts(short[] shorts) throws IOException {
-        for (short s : shorts) {
-            putShort(s);
-        }
-    }
-    default void putFloats(float[] floats) throws IOException {
-        for (float f : floats) {
-            putFloat(f);
-        }
-    }
-    default void putDoubles(double[] doubles) throws IOException {
-        for (double d : doubles) {
-            putDouble(d);
-        }
-    }
-
-    long position() throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/slop/readme.md b/code/libraries/slop/readme.md
deleted file mode 100644
index 49ece70c..00000000
--- a/code/libraries/slop/readme.md
+++ /dev/null
@@ -1,164 +0,0 @@
-# Slop
-
-Slop is a library for columnar data persistence.  It is designed to be used for storing large amounts of data in a way 
-that is both fast and memory-efficient.  The data is write-once, and the slop library offers many facilities for 
-deciding how it should be stored and accessed.
-
-Slop is designed as a low abstraction what-you-see-is-what-you-do library, the reason for
-this is to be able to eliminate copies and other overheads that are common in higher 
-level libraries.  The intent is to get the performance of a hand-rolled solution, but 
-without the complexity and brittleness that comes with hand-rolling an ad-hoc row-based storage
-format.
-
-A lot of what would commonly be kept in a schema description is instead just 
-implemented as code. To aid with portability, slop stores schema information 
-in the file names of the data files, besides the actual name of the column itself.   
-
-A table of demographic information may end up stored in files like this:
-
-```text
-cities.0.dat.s8[].gz
-cities.0.dat-len.varint-le.bin
-population.0.dat.s32le.bin
-average-age.0.dat.f64le.gz
-```
-
-The slop library offers some facilities to aid with data integrity, such as the SlopTable
-class, which is a wrapper that ensures consistent positions for a group of columns, and aids 
-in closing the columns when they are no longer needed.  Beyond that, you're on your own.
-
-## Why though?
-
-Slop is fast.  
-
-Depending on compression and encoding choices, it's possible
-to get read speeds that are 5-20x faster than reading from a sqlite database.
-When compression is disabled, Slop will memory map the data, and depending on the 
-contents of the column, it's possible to perform zero copy reads.
-
-Slop is compact.
-
-Depending on compression and encoding choices, the format will be smaller
-than a parquet file containing the equivalent information.
-
-Slop is simple.
-
-There isn't much magic going on under the hood in Slop.  It's designed with the philosophy that a competent programmer
-should be able to reverse engineer the format of the data by just looking 
-at a directory listing of the data files.  Despite being a very obscure library, 
-this gives the data a sort of portability.
-
-
-### Relaxed 1BRC (no CSV ingestion time)
-
-A benchmark against DuckDB, which is another excellent columnar storage library, albeit
-one that is more featureful and safe than Slop is.
-
-The benchmark is a relaxed 1BRC, aggregate a billion rows of temperature data by city, 
-and then calculate max/min/avg.  This omits the CSV ingestion time from the original
-challenge, which means the numbers are not directly comparable with other 1BRC benchmarks.
-
-| Impl                                    | Runtime | Size On Disk |
-|-----------------------------------------|---------|--------------|
-| Parallel Slop, s16                      | 0.64s   | 2.8 GB       |
-| Parallel Slop, varint                   | 0.90s   | 2.8 GB       |
-| DuckDB<sup>1</sup>                      | 2.6s    | 3.0 GB       |
-| Slop, s16                               | 4.2s    | 2.8 GB       |
-| Slop, s32                               | 4.5s    | 3.8 GB       |
-| Parquet<sup>2</sup> (Snappy) in DuckDB  | 4.5s    | 5.5 GB       |
-| Parquet<sup>2</sup> (Zstd) in DuckDB    | 5.5s    | 3.0 GB       |
-| JDBC<sup>3</sup>                        | 6500s   | 3.0 GB       |
-
-<sup>[1]</sup> Benchmark loads the data into DuckDB's native table format, 
-performs an aggregation within the database, and then fetches the results via JDBC.
-
-<sup>[2]</sup> Benchmark loads the data from Parquet in DuckDB, performs an 
-aggregation within the database, and then fetches the results via JDBC.
-
-<sup>[3]</sup> Benchmark loads the data into DuckDB's native table format, 
-then streaming it as-is over JDBC to Java for processing, with fetch size = 1000.
-This is a very common usage pattern in Enterprise Java applications, although
-usually you'd have an ORM in between the JDBC and the application code adding even
-more overhead.  The numbers are extrapolated from a 100M benchmark, as I value my time.
-
-## Example
-
-With slop it's desirable to keep the schema information in the code.  This is an example of how you might use slop to
-store a table of data with three columns: source, dest, and counts.  The source and dest columns are strings, and the
-counts column is an integer that's stored wit a varint-coding (i.e. like how utf-8 works).  
-
-The data is stored in a directory, and the data is written and read using the `MyData.Writer` and `MyData.Reader` classes.  
-The `MyData` class is itself is a record, and the schema is stored as static fields in the `MyData` class. 
-
-
-```java
-record Population(String city, int population, double avgAge) {
-
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> citiesColumn =
-            new ColumnDesc<>("cities", ColumnType.STRING, StorageType.GZIP);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> populationColumn =
-            new ColumnDesc<>("population", ColumnType.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<DoubleColumnReader, DoubleColumnWriter> averageAgeColumnn =
-            new ColumnDesc<>("average-age", ColumnType.DOUBLE_LE, StorageType.PLAIN);
-
-    public static class Writer extends SlopTable {
-        private final StringColumnWriter citiesWriter;
-        private final IntColumnWriter populationWriter;
-        private final DoubleColumnWriter avgAgeWriter;
-
-        public Writer(Path baseDir) throws IOException {
-            citiesWriter = citiesColumn.create(this, baseDir);
-            populationWriter = populationColumn.create(this, baseDir);
-            avgAgeWriter = averageAgeColumnn.create(this, baseDir);
-        }
-
-        public void write(Population data) throws IOException {
-            citiesWriter.put(data.city);
-            populationWriter.put(data.population);
-            avgAgeWriter.put(data.avgAge);
-        }
-    }
-
-    public static class Reader extends SlopTable {
-        private final StringColumnReader citiesReader;
-        private final IntColumnReader populationReader;
-        private final DoubleColumnReader avgAgeReader;
-
-        public Reader(Path baseDir) throws IOException {
-            citiesReader = citiesColumn.open(this, baseDir);
-            populationReader = populationColumn.open(this, baseDir);
-            avgAgeReader = averageAgeColumnn.open(this, baseDir);
-        }
-
-        public boolean hasRemaining() throws IOException {
-            return citiesReader.hasRemaining();
-        }
-
-        public Population read() throws IOException {
-            return new Population(
-                    citiesReader.get(),
-                    populationReader.get(),
-                    avgAgeReader.get()
-            );
-        }
-    }
-}
-```
-
-## Nested Records
-
-Nested records are not supported in slop, although array values are supported.  If you need to store nested records,
-you've got the options of flattening them, representing them as arrays, or serializing them into a byte array and 
-storing that.
-
-## Column Types
-
-TBW
-
-## Storage Types
-
-TBW
-
-## Extension
-
-TBW
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java
deleted file mode 100644
index 2b44460a..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/column/ArrayColumnTest.java
+++ /dev/null
@@ -1,78 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.column.array.IntArrayColumn;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.assertArrayEquals;
-
-class ArrayColumnTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    @Test
-    void test() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_ARRAY_LE,
-                StorageType.PLAIN
-        );
-
-
-        try (var column = IntArrayColumn.create(tempDir, name)) {
-            column.put(new int[] { 11, 22, 33});
-            column.put(new int[] { 2 });
-            column.put(new int[] { 444 });
-        }
-        try (var column = IntArrayColumn.open(tempDir, name)) {
-            assertArrayEquals(new int[] { 11, 22, 33}, column.get());
-            assertArrayEquals(new int[] { 2 }, column.get());
-            assertArrayEquals(new int[] { 444 }, column.get());
-        }
-    }
-
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java
deleted file mode 100644
index f4d98359..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/column/CodedSequenceColumnTest.java
+++ /dev/null
@@ -1,57 +0,0 @@
-package nu.marginalia.slop.column;
-
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-class CodedSequenceColumnTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    Path tempFile() {
-        try {
-            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java
deleted file mode 100644
index ae21a691..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/column/EnumColumnTest.java
+++ /dev/null
@@ -1,93 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.column.string.EnumColumn;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class EnumColumnTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    Path tempFile() {
-        try {
-            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    @Test
-    void test() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.ENUM_BE,
-                StorageType.PLAIN);
-
-        try (var column = EnumColumn.create(tempDir, name)) {
-            column.put("Foo");
-            column.put("Bar");
-            column.put("Baz");
-            column.put("Foo");
-            column.put("Foo");
-            column.put("Bar");
-            column.put("Baz");
-        }
-
-        try (var column = EnumColumn.open(tempDir, name)) {
-            assertEquals("Foo", column.get());
-            assertEquals("Bar", column.get());
-            assertEquals("Baz", column.get());
-            assertEquals("Foo", column.get());
-            assertEquals("Foo", column.get());
-            assertEquals("Bar", column.get());
-            assertEquals("Baz", column.get());
-        }
-    }
-
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
deleted file mode 100644
index 4f87ec85..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/column/IntColumnTest.java
+++ /dev/null
@@ -1,156 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.column.primitive.IntColumn;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class IntColumnTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    @Test
-    void test() throws IOException {
-
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-        try (var column = IntColumn.create(tempDir, name)) {
-            column.put(42);
-            column.put(43);
-        }
-        try (var column = IntColumn.open(tempDir, name)) {
-            assertEquals(42, column.get());
-            assertEquals(43, column.get());
-        }
-    }
-
-
-    @Test
-    void testLarge() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-        try (var column = IntColumn.create(tempDir, name)) {
-            for (int i = 0; i < 64; i++) {
-                column.put(i);
-            }
-        }
-        try (var column = IntColumn.open(tempDir, name)) {
-            int i = 0;
-            while (column.hasRemaining()) {
-                assertEquals(i++, column.get());
-            }
-            assertEquals(64, i);
-        }
-    }
-
-    @Test
-    void testLargeBulk() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-
-        int[] values = new int[24];
-        for (int i = 0; i < values.length; i++) {
-            values[i] = i;
-        }
-        try (var column = IntColumn.create(tempDir, name)) {
-            column.put(values);
-            column.put(values);
-        }
-        try (var column = IntColumn.open(tempDir, name)) {
-            for (int i = 0; i < 2; i++) {
-                for (int j = 0; j < values.length; j++) {
-                    assertEquals(j, column.get());
-                }
-            }
-            assertFalse(column.hasRemaining());
-        }
-    }
-
-    @Test
-    void testSkip() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-
-        int[] values = new int[24];
-        for (int i = 0; i < values.length; i++) {
-            values[i] = i;
-        }
-        try (var column = IntColumn.create(tempDir, name)) {
-            column.put(values);
-            column.put(values);
-        }
-        try (var column = IntColumn.open(tempDir, name)) {
-            column.get();
-            column.get();
-            column.skip(34);
-            assertEquals(12, column.get());
-
-            assertTrue(column.hasRemaining());
-        }
-    }
-
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
deleted file mode 100644
index 800c93eb..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/column/StringColumnTest.java
+++ /dev/null
@@ -1,117 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.desc.*;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-import static org.junit.jupiter.api.Assertions.assertFalse;
-
-class StringColumnTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    @Test
-    void testArrayStr() throws IOException {
-        var name = new ColumnDesc<>("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.STRING,
-                StorageType.GZIP);
-
-        try (var table = new SlopTable()) {
-            var column = name.create(table, tempDir);
-
-            column.put("Lorem");
-            column.put("Ipsum");
-        }
-        try (var table = new SlopTable()) {
-            var column = name.open(table, tempDir);
-
-            assertEquals("Lorem", column.get());
-            assertEquals("Ipsum", column.get());
-            assertFalse(column.hasRemaining());
-        }
-    }
-
-    @Test
-    void testCStr() throws IOException {
-        var name = new ColumnDesc<>("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.CSTRING,
-                StorageType.GZIP);
-
-        try (var table = new SlopTable()) {
-            var column = name.create(table, tempDir);
-            column.put("Lorem");
-            column.put("Ipsum");
-        }
-        try (var table = new SlopTable()) {
-            var column = name.open(table, tempDir);
-            assertEquals("Lorem", column.get());
-            assertEquals("Ipsum", column.get());
-            assertFalse(column.hasRemaining());
-        }
-    }
-
-    @Test
-    void testTxtStr() throws IOException {
-        var name = new ColumnDesc<>("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.TXTSTRING,
-                StorageType.GZIP);
-
-        try (var table = new SlopTable()) {
-            var column = name.create(table, tempDir);
-            column.put("Lorem");
-            column.put("Ipsum");
-        }
-        try (var table = new SlopTable()) {
-            var column = name.open(table, tempDir);
-            assertEquals("Lorem", column.get());
-            assertEquals("Ipsum", column.get());
-            assertFalse(column.hasRemaining());
-        }
-    }
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java b/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
deleted file mode 100644
index 78e29a01..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/column/VarintColumnTest.java
+++ /dev/null
@@ -1,150 +0,0 @@
-package nu.marginalia.slop.column;
-
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-import java.util.ArrayList;
-import java.util.List;
-import java.util.Random;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class VarintColumnTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    @Test
-    void test() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.VARINT_LE,
-                StorageType.PLAIN);
-
-        try (var column = VarintColumn.create(tempDir, name)) {
-            column.put(42);
-            column.put(43);
-            column.put(65534);
-            column.put(1);
-            column.put(0);
-            column.put(6000000000L);
-            column.put(1);
-        }
-        try (var column = VarintColumn.open(tempDir, name)) {
-            assertEquals(42, column.get());
-            assertEquals(43, column.get());
-            assertEquals(65534, column.get());
-            assertEquals(1, column.get());
-            assertEquals(0, column.get());
-            assertEquals(6000000000L, column.getLong());
-            assertEquals(1, column.get());
-        }
-    }
-
-    @Test
-    void test22() throws IOException {
-        var name = new ColumnDesc("test",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.VARINT_LE,
-                StorageType.PLAIN);
-
-        try (var column = VarintColumn.create(tempDir, name)) {
-            column.put(2);
-            column.put(2);
-        }
-        try (var column = VarintColumn.open(tempDir, name)) {
-            assertEquals(2, column.get());
-            assertEquals(2, column.get());
-        }
-    }
-
-    @Test
-    void testFuzz() throws IOException {
-        var name1 = new ColumnDesc("test1",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.VARINT_LE,
-                StorageType.PLAIN);
-
-        var name2 = new ColumnDesc("test2",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.VARINT_BE,
-                StorageType.PLAIN);
-
-        List<Long> values = new ArrayList<>();
-        var rand = new Random();
-
-        for (int i = 0; i < 50_000; i++) {
-            values.add(rand.nextLong(0, Short.MAX_VALUE));
-            values.add(rand.nextLong(0, Byte.MAX_VALUE));
-            values.add(rand.nextLong(0, Integer.MAX_VALUE));
-            values.add(rand.nextLong(0, Long.MAX_VALUE));
-        }
-
-        try (var column1 = VarintColumn.create(tempDir, name1);
-             var column2 = VarintColumn.create(tempDir, name2)
-        ) {
-            for (var value : values) {
-                column1.put(value);
-                column2.put(value);
-            }
-        }
-        try (var column1 = VarintColumn.open(tempDir, name1);
-                var column2 = VarintColumn.open(tempDir, name2)
-            ) {
-                int idx = 0;
-                for (var value : values) {
-                    idx++;
-                    assertEquals(value, column1.getLong(), " idx: " + idx);
-                    assertEquals(value, column2.getLong());
-                }
-            }
-
-    }
-
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java b/code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java
deleted file mode 100644
index ac0ded30..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/desc/ColumnDescTest.java
+++ /dev/null
@@ -1,32 +0,0 @@
-package nu.marginalia.slop.desc;
-
-import org.junit.jupiter.api.Test;
-
-import java.nio.ByteOrder;
-
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-class ColumnDescTest {
-    @Test
-    void testParse() {
-        ColumnDesc name = ColumnDesc.parse("foo.0.dat.s32le.bin");
-        assertEquals("foo.0.dat.s32le.bin", name.toString());
-        assertEquals("foo", name.name());
-        assertEquals(0, name.page());
-        assertEquals(ByteOrder.LITTLE_ENDIAN, name.byteOrder());
-        assertEquals(ColumnFunction.DATA, name.function());
-        assertEquals(ColumnType.INT_LE, name.type());
-        assertEquals(StorageType.PLAIN, name.storageType());
-
-        name = ColumnDesc.parse("bar.1.dat-len.fp32be.gz");
-        assertEquals("bar.1.dat-len.fp32be.gz", name.toString());
-        assertEquals("bar", name.name());
-        assertEquals(1, name.page());
-        assertEquals(ByteOrder.BIG_ENDIAN, name.byteOrder());
-        assertEquals(ColumnFunction.DATA_LEN, name.function());
-        assertEquals(ColumnType.FLOAT_BE, name.type());
-        assertEquals(StorageType.GZIP, name.storageType());
-
-
-    }
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java b/code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java
deleted file mode 100644
index b55220f9..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/desc/SlopTableTest.java
+++ /dev/null
@@ -1,215 +0,0 @@
-package nu.marginalia.slop.desc;
-
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.assertArrayEquals;
-import static org.junit.jupiter.api.Assertions.assertEquals;
-
-public class SlopTableTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    @Test
-    public void testEmpty() throws IOException {
-        SlopTable slopTable = new SlopTable();
-        slopTable.close();
-    }
-
-    @Test
-    public void testPositionsGood() throws IOException {
-        var name1 = new ColumnDesc<>("test1",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-        var name2 = new ColumnDesc<>("test2",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-        try (SlopTable writerTable = new SlopTable()) {
-            var column1 = name1.create(writerTable, tempDir);
-            var column2 = name2.create(writerTable, tempDir);
-
-            column1.put(42);
-            column2.put(43);
-        }
-
-
-        try (SlopTable readerTable = new SlopTable()) {
-            var column1 = name1.open(readerTable, tempDir);
-            var column2 = name2.open(readerTable, tempDir);
-
-            assertEquals(42, column1.get());
-            assertEquals(43, column2.get());
-        }
-    }
-
-
-    @Test
-    public void testPositionsMisaligned() throws IOException {
-        var name1 = new ColumnDesc<>("test1",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-        var name2 = new ColumnDesc<>("test2",
-                0,
-                ColumnFunction.DATA,
-                ColumnType.INT_LE,
-                StorageType.PLAIN
-        );
-
-        boolean sawException = false;
-        try (SlopTable writerTable = new SlopTable()) {
-            var column1 = name1.create(writerTable, tempDir);
-            var column2 = name2.create(writerTable, tempDir);
-
-            column1.put(42);
-            column2.put(43);
-            column2.put(44);
-        }
-        catch (Exception ex) {
-            ex.printStackTrace();
-            sawException = true;
-        }
-        assertEquals(true, sawException);
-
-    }
-
-
-    // Sanity check for the implementation of position() in the column classes
-    @Test
-    public void testPositionsMegatest() throws IOException {
-        var byteCol = new ColumnDesc<>("byte", ColumnType.BYTE, StorageType.PLAIN);
-        var charCol = new ColumnDesc<>("char", ColumnType.CHAR_LE, StorageType.PLAIN);
-        var intCol = new ColumnDesc<>("int", ColumnType.INT_LE, StorageType.PLAIN);
-        var longCol = new ColumnDesc<>("long", ColumnType.LONG_LE, StorageType.PLAIN);
-        var floatCol = new ColumnDesc<>("float", ColumnType.FLOAT_LE, StorageType.PLAIN);
-        var doubleCol = new ColumnDesc<>("double", ColumnType.DOUBLE_LE, StorageType.PLAIN);
-        var byteArrayCol = new ColumnDesc<>("byteArray", ColumnType.BYTE_ARRAY, StorageType.PLAIN);
-        var intArrayCol = new ColumnDesc<>("intArray", ColumnType.INT_ARRAY_LE, StorageType.PLAIN);
-        var longArrayCol = new ColumnDesc<>("longArray", ColumnType.LONG_ARRAY_LE, StorageType.PLAIN);
-        var cstringCol = new ColumnDesc<>("cstring", ColumnType.CSTRING, StorageType.PLAIN);
-        var txtStringCol = new ColumnDesc<>("txtString", ColumnType.TXTSTRING, StorageType.PLAIN);
-        var arrayStringCol = new ColumnDesc<>("arrayString", ColumnType.STRING, StorageType.PLAIN);
-        var varintCol = new ColumnDesc<>("varint", ColumnType.VARINT_LE, StorageType.PLAIN);
-        var enumCol = new ColumnDesc<>("enum", ColumnType.ENUM_LE, StorageType.PLAIN);
-
-        try (SlopTable writerTable = new SlopTable()) {
-            var byteColumn = byteCol.create(writerTable, tempDir);
-            var charColumn = charCol.create(writerTable, tempDir);
-            var intColumn = intCol.create(writerTable, tempDir);
-            var longColumn = longCol.create(writerTable, tempDir);
-            var floatColumn = floatCol.create(writerTable, tempDir);
-            var doubleColumn = doubleCol.create(writerTable, tempDir);
-            var byteArrayColumn = byteArrayCol.create(writerTable, tempDir);
-
-            var intArrayColumn = intArrayCol.create(writerTable, tempDir);
-            var longArrayColumn = longArrayCol.create(writerTable, tempDir);
-            var cstringColumn = cstringCol.create(writerTable, tempDir);
-            var txtStringColumn = txtStringCol.create(writerTable, tempDir);
-            var arrayStringColumn = arrayStringCol.create(writerTable, tempDir);
-            var enumColumn = enumCol.create(writerTable, tempDir);
-            var varintColumn = varintCol.create(writerTable, tempDir);
-
-            byteColumn.put((byte) 42);
-            charColumn.put('a');
-            intColumn.put(42);
-            longColumn.put(42L);
-            floatColumn.put(42.0f);
-            doubleColumn.put(42.0);
-
-            byteArrayColumn.put(new byte[] { 42, 43, 44 });
-            intArrayColumn.put(new int[] { 42, 43, 44 });
-            longArrayColumn.put(new long[] { 42, 43, 44 });
-
-            cstringColumn.put("Hello");
-            txtStringColumn.put("Hello");
-            arrayStringColumn.put("Hello");
-            enumColumn.put("Hello");
-
-            varintColumn.put(10000000);
-        }
-
-        try (SlopTable readerTable = new SlopTable()) {
-            var byteColumn = byteCol.open(readerTable, tempDir);
-            var charColumn = charCol.open(readerTable, tempDir);
-            var intColumn = intCol.open(readerTable, tempDir);
-            var longColumn = longCol.open(readerTable, tempDir);
-            var floatColumn = floatCol.open(readerTable, tempDir);
-            var doubleColumn = doubleCol.open(readerTable, tempDir);
-            var byteArrayColumn = byteArrayCol.open(readerTable, tempDir);
-            var intArrayColumn = intArrayCol.open(readerTable, tempDir);
-            var longArrayColumn = longArrayCol.open(readerTable, tempDir);
-            var cstringColumn = cstringCol.open(readerTable, tempDir);
-            var txtStringColumn = txtStringCol.open(readerTable, tempDir);
-            var arrayStringColumn = arrayStringCol.open(readerTable, tempDir);
-            var enumColumn = enumCol.open(readerTable, tempDir);
-            var varintColumn = varintCol.open(readerTable, tempDir);
-
-            assertEquals(42, byteColumn.get());
-            assertEquals('a', charColumn.get());
-            assertEquals(42, intColumn.get());
-            assertEquals(42L, longColumn.get());
-            assertEquals(42.0f, floatColumn.get());
-            assertEquals(42.0, doubleColumn.get());
-
-            assertArrayEquals(new byte[] {42, 43, 44}, byteArrayColumn.get());
-            assertArrayEquals(new int[] {42, 43, 44}, intArrayColumn.get());
-            assertArrayEquals(new long[] {42, 43, 44}, longArrayColumn.get());
-
-            assertEquals("Hello", cstringColumn.get());
-            assertEquals("Hello", txtStringColumn.get());
-            assertEquals("Hello", arrayStringColumn.get());
-            assertEquals("Hello", enumColumn.get());
-
-            assertEquals(10000000, varintColumn.get());
-        }
-
-    }
-}
diff --git a/code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java b/code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java
deleted file mode 100644
index 36ff48e5..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/storage/CompressingStorageWriterAndReaderTest.java
+++ /dev/null
@@ -1,308 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import nu.marginalia.slop.desc.StorageType;
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class CompressingStorageWriterAndReaderTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    Path tempFile() {
-        try {
-            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    StorageWriter writer(Path path) {
-        try {
-            return new CompressingStorageWriter(path, StorageType.GZIP, ByteOrder.LITTLE_ENDIAN, 63);
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    StorageReader reader(Path path) {
-        try {
-            return new CompressingStorageReader(path, StorageType.GZIP, ByteOrder.LITTLE_ENDIAN, 63);
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-
-    @Test
-    void putByte() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, writer.position());
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertTrue(reader.hasRemaining());
-                assertEquals(i, reader.position());
-
-                assertEquals((byte) i, reader.getByte());
-            }
-            assertFalse(reader.hasRemaining());
-        }
-    }
-
-    @Test
-    void putByteSkipReader() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, writer.position());
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            assertEquals(0, reader.position());
-            assertEquals((byte) 0, reader.getByte());
-            assertEquals(1, reader.position());
-            assertEquals((byte) 1, reader.getByte());
-            reader.skip(64, 1);
-            assertEquals(66, reader.position());
-            assertEquals((byte) 66, reader.getByte());
-            assertEquals(67, reader.position());
-            reader.skip(2, 3);
-            assertEquals(73, reader.position());
-            assertEquals((byte) 73, reader.getByte());
-        }
-    }
-    @Test
-    void putShort() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals((byte) i, reader.getByte());
-            }
-        }
-    }
-
-    @Test
-    void putChar() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putChar((char) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals((char) i, reader.getChar());
-            }
-        }
-    }
-
-    @Test
-    void putInt() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putInt(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getInt());
-            }
-        }
-    }
-
-    @Test
-    void putLong() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putLong(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getLong());
-            }
-        }
-    }
-
-    @Test
-    void putFloat() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putFloat(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getFloat());
-            }
-        }
-    }
-
-    @Test
-    void putDouble() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putDouble(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getDouble());
-            }
-        }
-    }
-
-    @Test
-    void putBytes() throws IOException  {
-        Path p = tempFile();
-
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[2];
-                data[0] = (byte) i;
-                data[1] = (byte) (i + 1);
-                writer.putBytes(data);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[2];
-                reader.getBytes(data);
-                assertEquals((byte) i, data[0]);
-                assertEquals((byte) (i + 1), data[1]);
-            }
-        }
-    }
-
-    @Test
-    void testPutBytes() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[4];
-                data[1] = (byte) i;
-                data[2] = (byte) (i + 1);
-                writer.putBytes(data, 1, 2);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[4];
-                reader.getBytes(data, 1, 2);
-                assertEquals((byte) i, data[1]);
-                assertEquals((byte) (i + 1), data[2]);
-            }
-        }
-    }
-
-    @Test
-    void testPutBytesViaBuffer() throws IOException {
-        Path p = tempFile();
-
-        ByteBuffer buffer = ByteBuffer.allocate(4);
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                buffer.clear();
-                buffer.put(new byte[] { (byte) i, (byte) (i+1), (byte) (i + 2), (byte) (i+3) });
-                buffer.flip();
-                writer.putBytes(buffer);
-
-                assertFalse(buffer.hasRemaining());
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                buffer.clear();
-                reader.getBytes(buffer);
-                buffer.flip();
-
-                assertEquals(4, buffer.remaining());
-
-                assertEquals((byte) i, buffer.get());
-                assertEquals((byte) (i + 1), buffer.get());
-                assertEquals((byte) (i + 2), buffer.get());
-                assertEquals((byte) (i + 3), buffer.get());
-
-                assertFalse(buffer.hasRemaining());
-            }
-        }
-    }
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java b/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java
deleted file mode 100644
index c564ff15..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndMmapReaderTest.java
+++ /dev/null
@@ -1,307 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class SimpleStorageWriterAndMmapReaderTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    Path tempFile() {
-        try {
-            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    StorageWriter writer(Path path) {
-        try {
-            return new SimpleStorageWriter(path, ByteOrder.LITTLE_ENDIAN, 63);
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    StorageReader reader(Path path) {
-        try {
-            return new MmapStorageReader(path);
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    @Test
-    void putByte() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, writer.position());
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertTrue(reader.hasRemaining());
-                assertEquals(i, reader.position());
-
-                assertEquals((byte) i, reader.getByte());
-            }
-            assertFalse(reader.hasRemaining());
-        }
-    }
-
-    @Test
-    void putByteSkipReader() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, writer.position());
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            assertEquals(0, reader.position());
-            assertEquals((byte) 0, reader.getByte());
-            assertEquals(1, reader.position());
-            assertEquals((byte) 1, reader.getByte());
-            reader.skip(64, 1);
-            assertEquals(66, reader.position());
-            assertEquals((byte) 66, reader.getByte());
-            assertEquals(67, reader.position());
-            reader.skip(2, 3);
-            assertEquals(73, reader.position());
-            assertEquals((byte) 73, reader.getByte());
-        }
-    }
-
-    @Test
-    void putShort() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals((byte) i, reader.getByte());
-            }
-        }
-    }
-
-    @Test
-    void putChar() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putChar((char) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals((char) i, reader.getChar());
-            }
-        }
-    }
-
-    @Test
-    void putInt() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putInt(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getInt());
-            }
-        }
-    }
-
-    @Test
-    void putLong() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putLong(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getLong());
-            }
-        }
-    }
-
-    @Test
-    void putFloat() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putFloat(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getFloat());
-            }
-        }
-    }
-
-    @Test
-    void putDouble() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putDouble(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getDouble());
-            }
-        }
-    }
-
-    @Test
-    void putBytes() throws IOException  {
-        Path p = tempFile();
-
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[2];
-                data[0] = (byte) i;
-                data[1] = (byte) (i + 1);
-                writer.putBytes(data);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[2];
-                reader.getBytes(data);
-                assertEquals((byte) i, data[0]);
-                assertEquals((byte) (i + 1), data[1]);
-            }
-        }
-    }
-
-    @Test
-    void testPutBytes() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[4];
-                data[1] = (byte) i;
-                data[2] = (byte) (i + 1);
-                writer.putBytes(data, 1, 2);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[4];
-                reader.getBytes(data, 1, 2);
-                assertEquals((byte) i, data[1]);
-                assertEquals((byte) (i + 1), data[2]);
-            }
-        }
-    }
-
-    @Test
-    void testPutBytesViaBuffer() throws IOException {
-        Path p = tempFile();
-
-        ByteBuffer buffer = ByteBuffer.allocate(4);
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                buffer.clear();
-                buffer.put(new byte[] { (byte) i, (byte) (i+1), (byte) (i + 2), (byte) (i+3) });
-                buffer.flip();
-                writer.putBytes(buffer);
-
-                assertFalse(buffer.hasRemaining());
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                buffer.clear();
-                reader.getBytes(buffer);
-                buffer.flip();
-
-                assertEquals(4, buffer.remaining());
-
-                assertEquals((byte) i, buffer.get());
-                assertEquals((byte) (i + 1), buffer.get());
-                assertEquals((byte) (i + 2), buffer.get());
-                assertEquals((byte) (i + 3), buffer.get());
-
-                assertFalse(buffer.hasRemaining());
-            }
-        }
-    }
-}
\ No newline at end of file
diff --git a/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java b/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java
deleted file mode 100644
index b8acd2f6..00000000
--- a/code/libraries/slop/test/nu/marginalia/slop/storage/SimpleStorageWriterAndReaderTest.java
+++ /dev/null
@@ -1,307 +0,0 @@
-package nu.marginalia.slop.storage;
-
-import org.junit.jupiter.api.AfterEach;
-import org.junit.jupiter.api.BeforeEach;
-import org.junit.jupiter.api.Test;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.nio.ByteOrder;
-import java.nio.file.Files;
-import java.nio.file.Path;
-
-import static org.junit.jupiter.api.Assertions.*;
-
-class SimpleStorageWriterAndReaderTest {
-    Path tempDir;
-
-    @BeforeEach
-    void setup() throws IOException {
-        tempDir = Files.createTempDirectory(getClass().getSimpleName());
-    }
-
-    @AfterEach
-    void cleanup() {
-        try {
-            Files.walk(tempDir)
-                    .sorted(this::deleteOrder)
-                    .forEach(p -> {
-                        try {
-                            if (Files.isRegularFile(p)) {
-                                System.out.println("Deleting " + p + " " + Files.size(p));
-                            }
-                            Files.delete(p);
-                        } catch (IOException e) {
-                            throw new RuntimeException(e);
-                        }
-                    });
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    int deleteOrder(Path a, Path b) {
-        if (Files.isDirectory(a) && !Files.isDirectory(b)) {
-            return 1;
-        } else if (!Files.isDirectory(a) && Files.isDirectory(b)) {
-            return -1;
-        } else {
-            return a.getNameCount() - b.getNameCount();
-        }
-    }
-
-    Path tempFile() {
-        try {
-            return Files.createTempFile(tempDir, getClass().getSimpleName(), ".dat");
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    StorageWriter writer(Path path) {
-        try {
-            return new SimpleStorageWriter(path, ByteOrder.LITTLE_ENDIAN, 63);
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    StorageReader reader(Path path) {
-        try {
-            return new SimpleStorageReader(path, ByteOrder.LITTLE_ENDIAN, 63);
-        } catch (IOException e) {
-            throw new RuntimeException(e);
-        }
-    }
-
-    @Test
-    void putByte() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, writer.position());
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertTrue(reader.hasRemaining());
-                assertEquals(i, reader.position());
-
-                assertEquals((byte) i, reader.getByte());
-            }
-            assertFalse(reader.hasRemaining());
-        }
-    }
-
-    @Test
-    void putByteSkipReader() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, writer.position());
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            assertEquals(0, reader.position());
-            assertEquals((byte) 0, reader.getByte());
-            assertEquals(1, reader.position());
-            assertEquals((byte) 1, reader.getByte());
-            reader.skip(64, 1);
-            assertEquals(66, reader.position());
-            assertEquals((byte) 66, reader.getByte());
-            assertEquals(67, reader.position());
-            reader.skip(2, 3);
-            assertEquals(73, reader.position());
-            assertEquals((byte) 73, reader.getByte());
-        }
-    }
-
-    @Test
-    void putShort() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putByte((byte) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals((byte) i, reader.getByte());
-            }
-        }
-    }
-
-    @Test
-    void putChar() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putChar((char) i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals((char) i, reader.getChar());
-            }
-        }
-    }
-
-    @Test
-    void putInt() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putInt(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getInt());
-            }
-        }
-    }
-
-    @Test
-    void putLong() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putLong(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getLong());
-            }
-        }
-    }
-
-    @Test
-    void putFloat() throws IOException {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putFloat(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getFloat());
-            }
-        }
-    }
-
-    @Test
-    void putDouble() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                writer.putDouble(i);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                assertEquals(i, reader.getDouble());
-            }
-        }
-    }
-
-    @Test
-    void putBytes() throws IOException  {
-        Path p = tempFile();
-
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[2];
-                data[0] = (byte) i;
-                data[1] = (byte) (i + 1);
-                writer.putBytes(data);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[2];
-                reader.getBytes(data);
-                assertEquals((byte) i, data[0]);
-                assertEquals((byte) (i + 1), data[1]);
-            }
-        }
-    }
-
-    @Test
-    void testPutBytes() throws IOException  {
-        Path p = tempFile();
-
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[4];
-                data[1] = (byte) i;
-                data[2] = (byte) (i + 1);
-                writer.putBytes(data, 1, 2);
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                byte[] data = new byte[4];
-                reader.getBytes(data, 1, 2);
-                assertEquals((byte) i, data[1]);
-                assertEquals((byte) (i + 1), data[2]);
-            }
-        }
-    }
-
-    @Test
-    void testPutBytesViaBuffer() throws IOException {
-        Path p = tempFile();
-
-        ByteBuffer buffer = ByteBuffer.allocate(4);
-        try (var writer = writer(p)) {
-            for (int i = 0; i < 127; i++) {
-                buffer.clear();
-                buffer.put(new byte[] { (byte) i, (byte) (i+1), (byte) (i + 2), (byte) (i+3) });
-                buffer.flip();
-                writer.putBytes(buffer);
-
-                assertFalse(buffer.hasRemaining());
-            }
-        }
-
-        try (var reader = reader(p)) {
-            for (int i = 0; i < 127; i++) {
-                buffer.clear();
-                reader.getBytes(buffer);
-                buffer.flip();
-
-                assertEquals(4, buffer.remaining());
-
-                assertEquals((byte) i, buffer.get());
-                assertEquals((byte) (i + 1), buffer.get());
-                assertEquals((byte) (i + 2), buffer.get());
-                assertEquals((byte) (i + 3), buffer.get());
-
-                assertFalse(buffer.hasRemaining());
-            }
-        }
-    }
-}
\ No newline at end of file
diff --git a/code/processes/converting-process/build.gradle b/code/processes/converting-process/build.gradle
index ef728448..48c7a878 100644
--- a/code/processes/converting-process/build.gradle
+++ b/code/processes/converting-process/build.gradle
@@ -36,7 +36,6 @@ dependencies {
     implementation project(':code:common:config')
     implementation project(':code:libraries:message-queue')
     implementation project(':code:libraries:blocking-thread-pool')
-    implementation project(':code:libraries:slop')
 
     implementation project(':code:libraries:guarded-regex')
     implementation project(':code:libraries:easy-lsh')
@@ -57,6 +56,7 @@ dependencies {
     testImplementation project(':code:libraries:term-frequency-dict')
     testImplementation project(':code:processes:crawling-process:model')
 
+    implementation libs.slop
     implementation libs.bundles.slf4j
 
     implementation libs.notnull
diff --git a/code/processes/converting-process/model/build.gradle b/code/processes/converting-process/model/build.gradle
index 744b60ef..14beb987 100644
--- a/code/processes/converting-process/model/build.gradle
+++ b/code/processes/converting-process/model/build.gradle
@@ -17,10 +17,10 @@ jar.archiveBaseName = 'converting-process-model'
 dependencies {
     implementation libs.bundles.slf4j
 
-    implementation project(':code:libraries:slop')
     implementation project(':third-party:parquet-floor')
     implementation project(':code:libraries:coded-sequence')
 
+    implementation libs.slop
     implementation libs.notnull
     implementation libs.roaringbitmap
     implementation libs.trove
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 6e3f139e..9d4f318f 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -5,6 +5,7 @@ import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayReader;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
+import nu.marginalia.slop.ColumnTypes;
 import nu.marginalia.slop.column.array.ByteArrayColumnReader;
 import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
 import nu.marginalia.slop.column.array.ObjectArrayColumnReader;
@@ -16,7 +17,6 @@ import nu.marginalia.slop.column.string.EnumColumnReader;
 import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 import org.jetbrains.annotations.Nullable;
@@ -111,30 +111,30 @@ public record SlopDocumentRecord(
     }
 
     // Basic information
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnType.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> urlsColumn = new ColumnDesc<>("url", ColumnType.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> ordinalsColumn = new ColumnDesc<>("ordinal", ColumnType.VARINT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> stateReasonsColumn = new ColumnDesc<>("stateReason", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> urlsColumn = new ColumnDesc<>("url", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> ordinalsColumn = new ColumnDesc<>("ordinal", ColumnTypes.VARINT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnTypes.ENUM_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> stateReasonsColumn = new ColumnDesc<>("stateReason", ColumnTypes.TXTSTRING, StorageType.GZIP);
 
     // Document metadata
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> titlesColumn = new ColumnDesc<>("title", ColumnType.STRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> descriptionsColumn = new ColumnDesc<>("description", ColumnType.STRING, StorageType.GZIP);
-    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> htmlStandardsColumn = new ColumnDesc<>("htmlStandard", ColumnType.ENUM_LE, StorageType.GZIP);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> htmlFeaturesColumn = new ColumnDesc<>("htmlFeatures", ColumnType.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> lengthsColumn = new ColumnDesc<>("length", ColumnType.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> pubYearColumn = new ColumnDesc<>("pubYear", ColumnType.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<LongColumnReader, LongColumnWriter> hashesColumn = new ColumnDesc<>("hash", ColumnType.LONG_LE, StorageType.PLAIN);
-    private static final ColumnDesc<FloatColumnReader, FloatColumnWriter> qualitiesColumn = new ColumnDesc<>("quality", ColumnType.FLOAT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<LongColumnReader, LongColumnWriter> domainMetadata = new ColumnDesc<>("domainMetadata", ColumnType.LONG_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> titlesColumn = new ColumnDesc<>("title", ColumnTypes.STRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> descriptionsColumn = new ColumnDesc<>("description", ColumnTypes.STRING, StorageType.GZIP);
+    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> htmlStandardsColumn = new ColumnDesc<>("htmlStandard", ColumnTypes.ENUM_LE, StorageType.GZIP);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> htmlFeaturesColumn = new ColumnDesc<>("htmlFeatures", ColumnTypes.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> lengthsColumn = new ColumnDesc<>("length", ColumnTypes.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> pubYearColumn = new ColumnDesc<>("pubYear", ColumnTypes.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<LongColumnReader, LongColumnWriter> hashesColumn = new ColumnDesc<>("hash", ColumnTypes.LONG_LE, StorageType.PLAIN);
+    private static final ColumnDesc<FloatColumnReader, FloatColumnWriter> qualitiesColumn = new ColumnDesc<>("quality", ColumnTypes.FLOAT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<LongColumnReader, LongColumnWriter> domainMetadata = new ColumnDesc<>("domainMetadata", ColumnTypes.LONG_LE, StorageType.PLAIN);
 
     // Keyword-level columns, these are enumerated by the counts column
-    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> keywordsColumn = new ColumnDesc<>("keywords", ColumnType.STRING_ARRAY, StorageType.ZSTD);
-    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> keywordsColumn = new ColumnDesc<>("keywords", ColumnTypes.STRING_ARRAY, StorageType.ZSTD);
+    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
     private static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> termPositionsColumn = new ColumnDesc<>("termPositions", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     // Spans columns
-    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnType.BYTE_ARRAY, StorageType.ZSTD);
+    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
     private static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> spansColumn = new ColumnDesc<>("spans", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
 
     public static class KeywordsProjectionReader extends SlopTable {
@@ -156,18 +156,19 @@ public record SlopDocumentRecord(
         }
 
         public KeywordsProjectionReader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
-            ordinalsReader = ordinalsColumn.forPage(page).open(this, baseDir);
-            htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(this, baseDir);
-            domainMetadataReader = domainMetadata.forPage(page).open(this, baseDir);
-            lengthsReader = lengthsColumn.forPage(page).open(this, baseDir);
+            super(page);
+            domainsReader = domainsColumn.open(this, baseDir);
+            ordinalsReader = ordinalsColumn.open(this, baseDir);
+            htmlFeaturesReader = htmlFeaturesColumn.open(this, baseDir);
+            domainMetadataReader = domainMetadata.open(this, baseDir);
+            lengthsReader = lengthsColumn.open(this, baseDir);
 
-            keywordsReader = keywordsColumn.forPage(page).open(this, baseDir);
-            termMetaReader = termMetaColumn.forPage(page).open(this, baseDir);
-            termPositionsReader = termPositionsColumn.forPage(page).open(this, baseDir);
+            keywordsReader = keywordsColumn.open(this, baseDir);
+            termMetaReader = termMetaColumn.open(this, baseDir);
+            termPositionsReader = termPositionsColumn.open(this, baseDir);
 
-            spanCodesReader = spanCodesColumn.forPage(page).open(this, baseDir);
-            spansReader = spansColumn.forPage(page).open(this, baseDir);
+            spanCodesReader = spanCodesColumn.open(this, baseDir);
+            spansReader = spansColumn.open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -223,17 +224,19 @@ public record SlopDocumentRecord(
         }
 
         public MetadataReader(Path baseDir, int page) throws IOException {
-            this.domainsReader = domainsColumn.forPage(page).open(this, baseDir);
-            this.urlsReader = urlsColumn.forPage(page).open(this, baseDir);
-            this.ordinalsReader = ordinalsColumn.forPage(page).open(this, baseDir);
-            this.titlesReader = titlesColumn.forPage(page).open(this, baseDir);
-            this.descriptionsReader = descriptionsColumn.forPage(page).open(this, baseDir);
-            this.htmlFeaturesReader = htmlFeaturesColumn.forPage(page).open(this, baseDir);
-            this.htmlStandardsReader = htmlStandardsColumn.forPage(page).open(this, baseDir);
-            this.lengthsReader = lengthsColumn.forPage(page).open(this, baseDir);
-            this.hashesReader = hashesColumn.forPage(page).open(this, baseDir);
-            this.qualitiesReader = qualitiesColumn.forPage(page).open(this, baseDir);
-            this.pubYearReader = pubYearColumn.forPage(page).open(this, baseDir);
+            super(page);
+
+            this.domainsReader = domainsColumn.open(this, baseDir);
+            this.urlsReader = urlsColumn.open(this, baseDir);
+            this.ordinalsReader = ordinalsColumn.open(this, baseDir);
+            this.titlesReader = titlesColumn.open(this, baseDir);
+            this.descriptionsReader = descriptionsColumn.open(this, baseDir);
+            this.htmlFeaturesReader = htmlFeaturesColumn.open(this, baseDir);
+            this.htmlStandardsReader = htmlStandardsColumn.open(this, baseDir);
+            this.lengthsReader = lengthsColumn.open(this, baseDir);
+            this.hashesReader = hashesColumn.open(this, baseDir);
+            this.qualitiesReader = qualitiesColumn.open(this, baseDir);
+            this.pubYearReader = pubYearColumn.open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -281,27 +284,29 @@ public record SlopDocumentRecord(
         private final GammaCodedSequenceArrayWriter spansWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            domainsWriter = domainsColumn.forPage(page).create(this, baseDir);
-            urlsWriter = urlsColumn.forPage(page).create(this, baseDir);
-            ordinalsWriter = ordinalsColumn.forPage(page).create(this, baseDir);
-            statesWriter = statesColumn.forPage(page).create(this, baseDir);
-            stateReasonsWriter = stateReasonsColumn.forPage(page).create(this, baseDir);
-            titlesWriter = titlesColumn.forPage(page).create(this, baseDir);
-            descriptionsWriter = descriptionsColumn.forPage(page).create(this, baseDir);
-            htmlFeaturesWriter = htmlFeaturesColumn.forPage(page).create(this, baseDir);
-            htmlStandardsWriter = htmlStandardsColumn.forPage(page).create(this, baseDir);
-            lengthsWriter = lengthsColumn.forPage(page).create(this, baseDir);
-            hashesWriter = hashesColumn.forPage(page).create(this, baseDir);
-            qualitiesWriter = qualitiesColumn.forPage(page).create(this, baseDir);
-            domainMetadataWriter = domainMetadata.forPage(page).create(this, baseDir);
-            pubYearWriter = pubYearColumn.forPage(page).create(this, baseDir);
+            super(page);
 
-            keywordsWriter = keywordsColumn.forPage(page).create(this, baseDir);
-            termMetaWriter = termMetaColumn.forPage(page).create(this, baseDir);
-            termPositionsWriter = termPositionsColumn.forPage(page).create(this, baseDir);
+            domainsWriter = domainsColumn.create(this, baseDir);
+            urlsWriter = urlsColumn.create(this, baseDir);
+            ordinalsWriter = ordinalsColumn.create(this, baseDir);
+            statesWriter = statesColumn.create(this, baseDir);
+            stateReasonsWriter = stateReasonsColumn.create(this, baseDir);
+            titlesWriter = titlesColumn.create(this, baseDir);
+            descriptionsWriter = descriptionsColumn.create(this, baseDir);
+            htmlFeaturesWriter = htmlFeaturesColumn.create(this, baseDir);
+            htmlStandardsWriter = htmlStandardsColumn.create(this, baseDir);
+            lengthsWriter = lengthsColumn.create(this, baseDir);
+            hashesWriter = hashesColumn.create(this, baseDir);
+            qualitiesWriter = qualitiesColumn.create(this, baseDir);
+            domainMetadataWriter = domainMetadata.create(this, baseDir);
+            pubYearWriter = pubYearColumn.create(this, baseDir);
 
-            spansCodesWriter = spanCodesColumn.forPage(page).create(this, baseDir);
-            spansWriter = spansColumn.forPage(page).create(this, baseDir);
+            keywordsWriter = keywordsColumn.create(this, baseDir);
+            termMetaWriter = termMetaColumn.create(this, baseDir);
+            termPositionsWriter = termPositionsColumn.create(this, baseDir);
+
+            spansCodesWriter = spanCodesColumn.create(this, baseDir);
+            spansWriter = spansColumn.create(this, baseDir);
         }
 
         public void write(SlopDocumentRecord record) throws IOException {
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index b40253fd..ce4120d1 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -1,9 +1,9 @@
 package nu.marginalia.model.processed;
 
+import nu.marginalia.slop.ColumnTypes;
 import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
@@ -15,8 +15,8 @@ public record SlopDomainLinkRecord(
         String source,
         String dest)
 {
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> sourcesColumn = new ColumnDesc<>("source", ColumnType.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> destsColumn = new ColumnDesc<>("dest", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> sourcesColumn = new ColumnDesc<>("source", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> destsColumn = new ColumnDesc<>("dest", ColumnTypes.TXTSTRING, StorageType.GZIP);
 
     public static Reader reader(Path baseDir, int page) throws IOException {
         return new Reader(baseDir, page);
@@ -31,8 +31,10 @@ public record SlopDomainLinkRecord(
         }
 
         public Reader(Path baseDir, int page) throws IOException {
-            sourcesReader = sourcesColumn.forPage(page).open(this, baseDir);
-            destsReader = destsColumn.forPage(page).open(this, baseDir);
+            super(page);
+
+            sourcesReader = sourcesColumn.open(this, baseDir);
+            destsReader = destsColumn.open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -59,8 +61,10 @@ public record SlopDomainLinkRecord(
         private final StringColumnWriter destsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            sourcesWriter = sourcesColumn.forPage(page).create(this, baseDir);
-            destsWriter = destsColumn.forPage(page).create(this, baseDir);
+            super(page);
+
+            sourcesWriter = sourcesColumn.create(this, baseDir);
+            destsWriter = destsColumn.create(this, baseDir);
         }
 
         public void write(SlopDomainLinkRecord record) throws IOException {
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index be741497..5214a021 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -1,5 +1,6 @@
 package nu.marginalia.model.processed;
 
+import nu.marginalia.slop.ColumnTypes;
 import nu.marginalia.slop.column.array.ObjectArrayColumnReader;
 import nu.marginalia.slop.column.array.ObjectArrayColumnWriter;
 import nu.marginalia.slop.column.primitive.IntColumnReader;
@@ -8,7 +9,6 @@ import nu.marginalia.slop.column.string.EnumColumnReader;
 import nu.marginalia.slop.column.string.StringColumnReader;
 import nu.marginalia.slop.column.string.StringColumnWriter;
 import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.SlopTable;
 import nu.marginalia.slop.desc.StorageType;
 
@@ -33,16 +33,16 @@ public record SlopDomainRecord(
             String ip)
     {}
 
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnType.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnType.ENUM_LE, StorageType.PLAIN);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> redirectDomainsColumn = new ColumnDesc<>("redirectDomain", ColumnType.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> ipColumn = new ColumnDesc<>("ip", ColumnType.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnTypes.ENUM_LE, StorageType.PLAIN);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> redirectDomainsColumn = new ColumnDesc<>("redirectDomain", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final ColumnDesc<StringColumnReader, StringColumnWriter> ipColumn = new ColumnDesc<>("ip", ColumnTypes.TXTSTRING, StorageType.GZIP);
 
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> knownUrlsColumn = new ColumnDesc<>("knownUrls", ColumnType.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> goodUrlsColumn = new ColumnDesc<>("goodUrls", ColumnType.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> visitedUrlsColumn = new ColumnDesc<>("visitedUrls", ColumnType.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> knownUrlsColumn = new ColumnDesc<>("knownUrls", ColumnTypes.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> goodUrlsColumn = new ColumnDesc<>("goodUrls", ColumnTypes.INT_LE, StorageType.PLAIN);
+    private static final ColumnDesc<IntColumnReader, IntColumnWriter> visitedUrlsColumn = new ColumnDesc<>("visitedUrls", ColumnTypes.INT_LE, StorageType.PLAIN);
 
-    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnType.TXTSTRING_ARRAY, StorageType.GZIP);
+    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnTypes.TXTSTRING_ARRAY, StorageType.GZIP);
 
 
     public static class DomainNameReader extends SlopTable {
@@ -53,7 +53,9 @@ public record SlopDomainRecord(
         }
 
         public DomainNameReader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
+            super(page);
+
+            domainsReader = domainsColumn.open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -74,8 +76,10 @@ public record SlopDomainRecord(
         }
 
         public DomainWithIpReader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
-            ipReader = ipColumn.forPage(page).open(this, baseDir);
+            super(page);
+
+            domainsReader = domainsColumn.open(this, baseDir);
+            ipReader = ipColumn.open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -108,16 +112,18 @@ public record SlopDomainRecord(
         }
 
         public Reader(Path baseDir, int page) throws IOException {
-            domainsReader = domainsColumn.forPage(page).open(this, baseDir);
-            statesReader = statesColumn.forPage(page).open(this, baseDir);
-            redirectReader = redirectDomainsColumn.forPage(page).open(this, baseDir);
-            ipReader = ipColumn.forPage(page).open(this, baseDir);
+            super(page);
 
-            knownUrlsReader = knownUrlsColumn.forPage(page).open(this, baseDir);
-            goodUrlsReader = goodUrlsColumn.forPage(page).open(this, baseDir);
-            visitedUrlsReader = visitedUrlsColumn.forPage(page).open(this, baseDir);
+            domainsReader = domainsColumn.open(this, baseDir);
+            statesReader = statesColumn.open(this, baseDir);
+            redirectReader = redirectDomainsColumn.open(this, baseDir);
+            ipReader = ipColumn.open(this, baseDir);
 
-            rssFeedsReader = rssFeedsColumn.forPage(page).open(this, baseDir);
+            knownUrlsReader = knownUrlsColumn.open(this, baseDir);
+            goodUrlsReader = goodUrlsColumn.open(this, baseDir);
+            visitedUrlsReader = visitedUrlsColumn.open(this, baseDir);
+
+            rssFeedsReader = rssFeedsColumn.open(this, baseDir);
         }
 
         public boolean hasMore() throws IOException {
@@ -157,16 +163,18 @@ public record SlopDomainRecord(
         private final ObjectArrayColumnWriter<String> rssFeedsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            domainsWriter = domainsColumn.forPage(page).create(this, baseDir);
-            statesWriter = statesColumn.forPage(page).create(this, baseDir);
-            redirectWriter = redirectDomainsColumn.forPage(page).create(this, baseDir);
-            ipWriter = ipColumn.forPage(page).create(this, baseDir);
+            super(page);
 
-            knownUrlsWriter = knownUrlsColumn.forPage(page).create(this, baseDir);
-            goodUrlsWriter = goodUrlsColumn.forPage(page).create(this, baseDir);
-            visitedUrlsWriter = visitedUrlsColumn.forPage(page).create(this, baseDir);
+            domainsWriter = domainsColumn.create(this, baseDir);
+            statesWriter = statesColumn.create(this, baseDir);
+            redirectWriter = redirectDomainsColumn.create(this, baseDir);
+            ipWriter = ipColumn.create(this, baseDir);
 
-            rssFeedsWriter = rssFeedsColumn.forPage(page).create(this, baseDir);
+            knownUrlsWriter = knownUrlsColumn.create(this, baseDir);
+            goodUrlsWriter = goodUrlsColumn.create(this, baseDir);
+            visitedUrlsWriter = visitedUrlsColumn.create(this, baseDir);
+
+            rssFeedsWriter = rssFeedsColumn.create(this, baseDir);
         }
 
         public void write(SlopDomainRecord record) throws IOException {
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 341db8ab..84c13ceb 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -32,7 +32,6 @@ dependencies {
     implementation project(':code:libraries:message-queue')
     implementation project(':code:libraries:language-processing')
     implementation project(':code:libraries:coded-sequence')
-    implementation project(':code:libraries:slop')
     implementation project(':third-party:commons-codec')
     implementation project(':third-party:parquet-floor')
     testImplementation project(':code:services-application:search-service')
@@ -45,6 +44,7 @@ dependencies {
 
     implementation libs.bundles.slf4j
 
+    implementation libs.slop
     implementation libs.guava
     implementation dependencies.create(libs.guice.get()) {
         exclude group: 'com.google.guava'
diff --git a/settings.gradle b/settings.gradle
index 03d4273d..fbe42360 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -40,7 +40,6 @@ include 'code:libraries:array:cpp'
 include 'code:libraries:coded-sequence'
 include 'code:libraries:geo-ip'
 include 'code:libraries:btree'
-include 'code:libraries:slop'
 include 'code:libraries:easy-lsh'
 include 'code:libraries:guarded-regex'
 include 'code:libraries:random-write-funnel'
@@ -107,6 +106,8 @@ dependencyResolutionManagement {
         maven { url "https://repo1.maven.org/maven2/" }
         maven { url "https://www2.ph.ed.ac.uk/maven2/" }
         maven { url "https://jitpack.io/" }
+        maven { url "https://artifacts.marginalia.nu/snapshots" }
+
         exclusiveContent {
             forRepository {
                 maven {
@@ -118,6 +119,18 @@ dependencyResolutionManagement {
                 includeModule("com.github.Marcono1234", "gson-record-type-adapter-factory")
             }
         }
+
+        exclusiveContent {
+            forRepository {
+                maven {
+                    url = uri("https://artifacts.marginalia.nu/snapshots")
+                }
+            }
+            filter {
+                // Only use the Marginalia snapshot repository for the `slop` library
+                includeModule("nu.marginalia", "slop")
+            }
+        }
     }
 
     versionCatalogs {
@@ -213,6 +226,8 @@ dependencyResolutionManagement {
             library('jetty-util','org.eclipse.jetty','jetty-util').version('9.4.54.v20240208')
             library('jetty-servlet','org.eclipse.jetty','jetty-servlet').version('9.4.54.v20240208')
 
+            library('slop', 'nu.marginalia', 'slop').version('0.0.1-SNAPSHOT')
+
             bundle('jetty', ['jetty-server', 'jetty-util', 'jetty-servlet'])
 
             bundle('slf4j', ['slf4j.api', 'log4j.api', 'log4j.core', 'log4j.slf4j'])

From 2ad93ad41a67e1eebe90f0633e96be34793023b7 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 14 Aug 2024 11:43:45 +0200
Subject: [PATCH 139/216] (*) Clean up

---
 .../java/nu/marginalia/util/QueryParams.java  |  1 -
 .../java/nu/marginalia/util/StringPool.java   | 70 -------------------
 2 files changed, 71 deletions(-)
 delete mode 100644 code/common/model/java/nu/marginalia/util/StringPool.java

diff --git a/code/common/model/java/nu/marginalia/util/QueryParams.java b/code/common/model/java/nu/marginalia/util/QueryParams.java
index ce970d2f..1869c102 100644
--- a/code/common/model/java/nu/marginalia/util/QueryParams.java
+++ b/code/common/model/java/nu/marginalia/util/QueryParams.java
@@ -10,7 +10,6 @@ import java.util.StringJoiner;
 
 public class QueryParams {
 
-
     @Nullable
     public static String queryParamsSanitizer(String path, @Nullable String queryParams) {
         if (queryParams == null) {
diff --git a/code/common/model/java/nu/marginalia/util/StringPool.java b/code/common/model/java/nu/marginalia/util/StringPool.java
deleted file mode 100644
index 6d7ea8b5..00000000
--- a/code/common/model/java/nu/marginalia/util/StringPool.java
+++ /dev/null
@@ -1,70 +0,0 @@
-package nu.marginalia.util;
-
-import it.unimi.dsi.fastutil.objects.Object2LongOpenHashMap;
-
-import java.util.Arrays;
-import java.util.HashMap;
-import java.util.Objects;
-
-public class StringPool {
-
-    private final HashMap<String, String> words;
-    private final Object2LongOpenHashMap<String> ages;
-    private final int maxCap;
-
-    long idx;
-
-    private StringPool(int capacity, int maxCap) {
-        this.ages  = new Object2LongOpenHashMap<>(capacity);
-        this.words = new HashMap<>(capacity);
-        this.maxCap = maxCap;
-    }
-
-    public static StringPool create(int capacity) {
-        return new StringPool(capacity, capacity * 10);
-    }
-
-    public String internalize(String str) {
-        prune();
-
-        final String ret = words.putIfAbsent(str, str);
-        ages.put(ret, idx++);
-
-        return Objects.requireNonNullElse(ret, str);
-    }
-
-    public String[] internalize(String[] str) {
-
-        for (int i = 0; i < str.length; i++) {
-            str[i] = internalize(str[i]);
-        }
-
-        return str;
-    }
-
-    public void prune() {
-
-        if (words.size() < maxCap)
-            return;
-
-        long[] ageValues = ages.values().toLongArray();
-        Arrays.sort(ageValues);
-
-        long cutoff = ageValues[ageValues.length - maxCap / 10];
-
-        words.clear();
-        ages.forEach((word, cnt) -> {
-            if (cnt >= cutoff) {
-                words.put(word, word);
-            }
-        });
-        ages.clear();
-        words.forEach((w,w2) -> {
-            ages.put(w, idx);
-        });
-    }
-
-    public void flush() {
-        words.clear();
-    }
-}

From 75b0888032f973d90934159c3fec6d8cde929c89 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 14 Aug 2024 11:44:35 +0200
Subject: [PATCH 140/216] (slop) Migrate to latest Slop version

---
 .../construction/ForwardIndexConverter.java   |   6 +-
 .../index/journal/IndexJournal.java           |   2 +-
 .../index/journal/IndexJournalPage.java       |  54 +++----
 .../index/journal/IndexJournalSlopWriter.java |  30 ++--
 .../full/FullPreindexDocuments.java           |   2 +-
 .../full/FullPreindexWordSegments.java        |   2 +-
 .../prio/PrioPreindexDocuments.java           |   2 +-
 .../prio/PrioPreindexWordSegments.java        |   2 +-
 .../slop/GammaCodedSequenceArrayColumn.java   |  81 +++++-----
 .../slop/GammaCodedSequenceArrayReader.java   |  32 ----
 .../slop/GammaCodedSequenceArrayWriter.java   |  12 --
 .../slop/GammaCodedSequenceColumn.java        |  77 +++++-----
 .../slop/GammaCodedSequenceReader.java        |  33 ----
 .../slop/GammaCodedSequenceWriter.java        |  11 --
 .../model/processed/SlopDocumentRecord.java   | 145 +++++++++---------
 .../model/processed/SlopDomainLinkRecord.java |  19 +--
 .../model/processed/SlopDomainRecord.java     |  69 ++++-----
 settings.gradle                               |   2 +-
 18 files changed, 240 insertions(+), 341 deletions(-)
 delete mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java
 delete mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java
 delete mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
 delete mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
index acece3c7..40edf4aa 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
@@ -10,8 +10,8 @@ import nu.marginalia.index.journal.IndexJournal;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.idx.DocumentMetadata;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.slop.column.primitive.LongColumnReader;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
+import nu.marginalia.slop.column.primitive.LongColumn;
 import org.roaringbitmap.longlong.LongConsumer;
 import org.roaringbitmap.longlong.Roaring64Bitmap;
 import org.slf4j.Logger;
@@ -153,7 +153,7 @@ public class ForwardIndexConverter {
 
         for (var instance : journalReader.pages()) {
             try (var slopTable = new SlopTable(instance.page())) {
-                LongColumnReader idReader = instance.openCombinedId(slopTable);
+                LongColumn.Reader idReader = instance.openCombinedId(slopTable);
 
                 while (idReader.hasRemaining()) {
                     rbm.add(idReader.get());
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
index 3561d79c..2f3294e2 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournal.java
@@ -1,6 +1,6 @@
 package nu.marginalia.index.journal;
 
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
 
 import java.nio.file.Files;
 import java.nio.file.Path;
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index ff6cfa1a..173c6f8d 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -1,36 +1,28 @@
 package nu.marginalia.index.journal;
 
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayReader;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
-import nu.marginalia.slop.ColumnTypes;
-import nu.marginalia.slop.column.array.ByteArrayColumnReader;
-import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.array.LongArrayColumnReader;
-import nu.marginalia.slop.column.array.LongArrayColumnWriter;
-import nu.marginalia.slop.column.primitive.IntColumnReader;
-import nu.marginalia.slop.column.primitive.IntColumnWriter;
-import nu.marginalia.slop.column.primitive.LongColumnReader;
-import nu.marginalia.slop.column.primitive.LongColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
+import nu.marginalia.slop.column.array.ByteArrayColumn;
+import nu.marginalia.slop.column.array.LongArrayColumn;
+import nu.marginalia.slop.column.primitive.IntColumn;
+import nu.marginalia.slop.column.primitive.LongColumn;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
 import java.nio.file.Path;
 
 public record IndexJournalPage(Path baseDir, int page) {
-    public static final ColumnDesc<IntColumnReader, IntColumnWriter> features = new ColumnDesc<>("features", ColumnTypes.INT_LE, StorageType.PLAIN);
-    public static final ColumnDesc<IntColumnReader, IntColumnWriter> size = new ColumnDesc<>("size", ColumnTypes.INT_LE, StorageType.PLAIN);
-    public static final ColumnDesc<LongColumnReader, LongColumnWriter> combinedId = new ColumnDesc<>("combinedId", ColumnTypes.LONG_LE, StorageType.PLAIN);
-    public static final ColumnDesc<LongColumnReader, LongColumnWriter> documentMeta = new ColumnDesc<>("documentMeta", ColumnTypes.LONG_LE, StorageType.PLAIN);
+    public static IntColumn features = new IntColumn("features", StorageType.PLAIN);
+    public static IntColumn size = new IntColumn("size", StorageType.PLAIN);
+    public static LongColumn combinedId = new LongColumn("combinedId", StorageType.PLAIN);
+    public static LongColumn documentMeta = new LongColumn("documentMeta", StorageType.PLAIN);
 
-    public static final ColumnDesc<LongArrayColumnReader, LongArrayColumnWriter> termIds = new ColumnDesc<>("termIds", ColumnTypes.LONG_ARRAY_LE, StorageType.ZSTD);
-    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMeta = new ColumnDesc<>("termMetadata", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
-    public static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> positions = new ColumnDesc<>("termPositions", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
+    public static LongArrayColumn termIds = new LongArrayColumn("termIds", StorageType.ZSTD);
+    public static ByteArrayColumn termMeta = new ByteArrayColumn("termMetadata", StorageType.ZSTD);
+    public static GammaCodedSequenceArrayColumn positions = new GammaCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
 
-    public static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodes = new ColumnDesc<>("spanCodes", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
-    public static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> spans = new ColumnDesc<>("spans", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
+    public static ByteArrayColumn spanCodes = new ByteArrayColumn("spanCodes", StorageType.ZSTD);
+    public static GammaCodedSequenceArrayColumn spans = new GammaCodedSequenceArrayColumn("spans", StorageType.ZSTD);
 
     public IndexJournalPage {
         if (!baseDir.toFile().isDirectory()) {
@@ -38,40 +30,40 @@ public record IndexJournalPage(Path baseDir, int page) {
         }
     }
 
-    public LongColumnReader openCombinedId(SlopTable table) throws IOException {
+    public LongColumn.Reader openCombinedId(SlopTable table) throws IOException {
         return combinedId.open(table, baseDir);
     }
 
-    public LongColumnReader openDocumentMeta(SlopTable table) throws IOException {
+    public LongColumn.Reader openDocumentMeta(SlopTable table) throws IOException {
         return documentMeta.open(table, baseDir);
     }
 
-    public IntColumnReader openFeatures(SlopTable table) throws IOException {
+    public IntColumn.Reader openFeatures(SlopTable table) throws IOException {
         return features.open(table, baseDir);
     }
 
-    public IntColumnReader openSize(SlopTable table) throws IOException {
+    public IntColumn.Reader openSize(SlopTable table) throws IOException {
         return size.open(table, baseDir);
     }
 
 
-    public LongArrayColumnReader openTermIds(SlopTable table) throws IOException {
+    public LongArrayColumn.Reader openTermIds(SlopTable table) throws IOException {
         return termIds.open(table, baseDir);
     }
 
-    public ByteArrayColumnReader openTermMetadata(SlopTable table) throws IOException {
+    public ByteArrayColumn.Reader openTermMetadata(SlopTable table) throws IOException {
         return termMeta.open(table, baseDir);
     }
 
-    public GammaCodedSequenceArrayReader openTermPositions(SlopTable table) throws IOException {
+    public GammaCodedSequenceArrayColumn.Reader openTermPositions(SlopTable table) throws IOException {
         return positions.open(table, baseDir);
     }
 
-    public GammaCodedSequenceArrayReader openSpans(SlopTable table) throws IOException {
+    public GammaCodedSequenceArrayColumn.Reader openSpans(SlopTable table) throws IOException {
         return spans.open(table, baseDir);
     }
 
-    public ByteArrayColumnReader openSpanCodes(SlopTable table) throws IOException {
+    public ByteArrayColumn.Reader openSpanCodes(SlopTable table) throws IOException {
         return spanCodes.open(table, baseDir);
     }
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index 1cf2853a..a62001e0 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -3,12 +3,12 @@ package nu.marginalia.index.journal;
 import lombok.SneakyThrows;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.model.processed.SlopDocumentRecord;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
-import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.array.LongArrayColumnWriter;
-import nu.marginalia.slop.column.primitive.IntColumnWriter;
-import nu.marginalia.slop.column.primitive.LongColumnWriter;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
+import nu.marginalia.slop.SlopTable;
+import nu.marginalia.slop.column.array.ByteArrayColumn;
+import nu.marginalia.slop.column.array.LongArrayColumn;
+import nu.marginalia.slop.column.primitive.IntColumn;
+import nu.marginalia.slop.column.primitive.LongColumn;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -17,17 +17,17 @@ import java.util.List;
 
 public class IndexJournalSlopWriter extends SlopTable {
 
-    private final IntColumnWriter featuresWriter;
-    private final IntColumnWriter sizeWriter;
-    private final LongColumnWriter combinedIdWriter;
-    private final LongColumnWriter documentMetaWriter;
+    private final IntColumn.Writer featuresWriter;
+    private final IntColumn.Writer sizeWriter;
+    private final LongColumn.Writer combinedIdWriter;
+    private final LongColumn.Writer documentMetaWriter;
 
-    private final LongArrayColumnWriter termIdsWriter;
-    private final ByteArrayColumnWriter termMetadataWriter;
-    private final GammaCodedSequenceArrayWriter termPositionsWriter;
+    private final LongArrayColumn.Writer termIdsWriter;
+    private final ByteArrayColumn.Writer termMetadataWriter;
+    private final GammaCodedSequenceArrayColumn.Writer termPositionsWriter;
 
-    private final GammaCodedSequenceArrayWriter spansWriter;
-    private final ByteArrayColumnWriter spanCodesWriter;
+    private final GammaCodedSequenceArrayColumn.Writer spansWriter;
+    private final ByteArrayColumn.Writer spanCodesWriter;
 
     private static final MurmurHash3_128 hash = new MurmurHash3_128();
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 94b77804..09ffd54a 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -7,7 +7,7 @@ import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.construction.PositionsFileConstructor;
 import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.rwf.RandomFileAssembler;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index bd52ba3e..bddbba7c 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -6,7 +6,7 @@ import it.unimi.dsi.fastutil.longs.LongIterator;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.journal.IndexJournalPage;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
 
 import java.io.IOException;
 import java.nio.file.Files;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index ec913101..93134e87 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -6,7 +6,7 @@ import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.construction.DocIdRewriter;
 import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.rwf.RandomFileAssembler;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
index b69433cd..8814a434 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -6,7 +6,7 @@ import it.unimi.dsi.fastutil.longs.LongIterator;
 import nu.marginalia.array.LongArray;
 import nu.marginalia.array.LongArrayFactory;
 import nu.marginalia.index.journal.IndexJournalPage;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
 
 import java.io.IOException;
 import java.nio.file.Files;
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
index 0f0498c0..925f6c31 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
@@ -1,13 +1,12 @@
 package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.slop.ColumnTypes;
+import nu.marginalia.slop.column.AbstractColumn;
+import nu.marginalia.slop.column.AbstractObjectColumn;
+import nu.marginalia.slop.column.ObjectColumnReader;
+import nu.marginalia.slop.column.ObjectColumnWriter;
 import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -18,45 +17,54 @@ import java.util.ArrayList;
 import java.util.List;
 
 /** Slop column extension for storing GammaCodedSequence objects. */
-public class GammaCodedSequenceArrayColumn {
+public class GammaCodedSequenceArrayColumn extends AbstractObjectColumn<List<GammaCodedSequence>, GammaCodedSequenceArrayColumn.Reader, GammaCodedSequenceArrayColumn.Writer> {
 
-    public static ColumnType<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> TYPE = ColumnTypes.register("s8[]+gcs[]", ByteOrder.nativeOrder(), GammaCodedSequenceArrayColumn::open, GammaCodedSequenceArrayColumn::create);
+    private final VarintColumn groupsColumn;
+    private final GammaCodedSequenceColumn dataColumn;
 
-    public static GammaCodedSequenceArrayReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc,
-                GammaCodedSequenceColumn.open(path, columnDesc),
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH,
-                        ColumnTypes.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+    public GammaCodedSequenceArrayColumn(String name) {
+        this(name, StorageType.PLAIN);
+    }
+
+    public GammaCodedSequenceArrayColumn(String name, StorageType storageType) {
+        super(name,
+                "gcs[]",
+                ByteOrder.nativeOrder(),
+                ColumnFunction.DATA,
+                storageType);
+
+        groupsColumn = new VarintColumn(name, ColumnFunction.GROUP_LENGTH, storageType);
+        dataColumn = new GammaCodedSequenceColumn(name);
+    }
+
+    public Writer createUnregistered(Path path, int page) throws IOException {
+        return new Writer(
+                dataColumn.createUnregistered(path, page),
+                groupsColumn.createUnregistered(path, page)
         );
     }
 
-    public static GammaCodedSequenceArrayWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc,
-                GammaCodedSequenceColumn.create(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.GROUP_LENGTH,
-                        ColumnTypes.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+    public Reader openUnregistered(Path path, int page) throws IOException {
+        return new Reader(
+                dataColumn.openUnregistered(path, page),
+                groupsColumn.openUnregistered(path, page)
         );
     }
 
-    private static class Writer implements GammaCodedSequenceArrayWriter {
-        private final VarintColumnWriter groupsWriter;
-        private final GammaCodedSequenceWriter dataWriter;
-        private final ColumnDesc<?, ?> columnDesc;
 
-        public Writer(ColumnDesc<?, ?> columnDesc, GammaCodedSequenceWriter dataWriter, VarintColumnWriter groupsWriter)
+    public class Writer implements ObjectColumnWriter<List<GammaCodedSequence>> {
+        private final VarintColumn.Writer groupsWriter;
+        private final GammaCodedSequenceColumn.Writer dataWriter;
+
+        Writer(GammaCodedSequenceColumn.Writer dataWriter, VarintColumn.Writer groupsWriter)
         {
             this.groupsWriter = groupsWriter;
             this.dataWriter = dataWriter;
-            this.columnDesc = columnDesc;
         }
 
         @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
+        public AbstractColumn<?, ?> columnDesc() {
+            return GammaCodedSequenceArrayColumn.this;
         }
 
         @Override
@@ -77,20 +85,18 @@ public class GammaCodedSequenceArrayColumn {
         }
     }
 
-    private static class Reader implements GammaCodedSequenceArrayReader {
-        private final GammaCodedSequenceReader dataReader;
-        private final VarintColumnReader groupsReader;
-        private final ColumnDesc<?, ?> columnDesc;
+    public class Reader implements ObjectColumnReader<List<GammaCodedSequence>> {
+        private final GammaCodedSequenceColumn.Reader dataReader;
+        private final VarintColumn.Reader groupsReader;
 
-        public Reader(ColumnDesc<?, ?> columnDesc, GammaCodedSequenceReader dataReader, VarintColumnReader groupsReader) throws IOException {
+        public Reader(GammaCodedSequenceColumn.Reader dataReader, VarintColumn.Reader groupsReader) {
             this.dataReader = dataReader;
             this.groupsReader = groupsReader;
-            this.columnDesc = columnDesc;
         }
 
         @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
+        public AbstractColumn<?, ?> columnDesc() {
+            return GammaCodedSequenceArrayColumn.this;
         }
 
         @Override
@@ -123,7 +129,6 @@ public class GammaCodedSequenceArrayColumn {
             return ret;
         }
 
-        @Override
         public List<ByteBuffer> getData(ByteBuffer workArea) throws IOException {
             int count = groupsReader.get();
             var ret = new ArrayList<ByteBuffer>(count);
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java
deleted file mode 100644
index 57329cb3..00000000
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayReader.java
+++ /dev/null
@@ -1,32 +0,0 @@
-package nu.marginalia.sequence.slop;
-
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-import java.util.List;
-
-public interface GammaCodedSequenceArrayReader extends AutoCloseable, ColumnReader {
-    /** Read the next gamma-coded sequence from the column.  Unlike most other
-     * readers, this method requires an intermediate buffer to use for reading
-     * the sequence.  As this buffer typically needs to be fairly large to accommodate
-     * the largest possible sequence, it is not practical to allocate a new buffer
-     * for each call to this method.  Instead, the caller should allocate a buffer
-     * once and reuse it for each call to this method.
-     *
-     * @return The next gamma-coded sequence.
-     */
-    List<GammaCodedSequence> get() throws IOException;
-
-    /** Read just the data portion of the next gamma-coded sequence from the column.
-     * This method is useful when the caller is only interested in the data portion
-     * of the sequence and does not want to decode the values.
-     *
-     * @param workArea A buffer to use for reading the data.
-     * @return slices of the work buffer containing the data.
-     */
-    List<ByteBuffer> getData(ByteBuffer workArea) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java
deleted file mode 100644
index 9d5ad1bd..00000000
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayWriter.java
+++ /dev/null
@@ -1,12 +0,0 @@
-package nu.marginalia.sequence.slop;
-
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-import java.util.List;
-
-public interface GammaCodedSequenceArrayWriter extends AutoCloseable, ColumnWriter {
-    void put(List<GammaCodedSequence> sequence) throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
index 3dd3319b..548ef9aa 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
@@ -1,13 +1,12 @@
 package nu.marginalia.sequence.slop;
 
 import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.slop.ColumnTypes;
+import nu.marginalia.slop.column.AbstractColumn;
+import nu.marginalia.slop.column.AbstractObjectColumn;
+import nu.marginalia.slop.column.ObjectColumnReader;
+import nu.marginalia.slop.column.ObjectColumnWriter;
 import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
 import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
 import nu.marginalia.slop.desc.StorageType;
 import nu.marginalia.slop.storage.Storage;
 import nu.marginalia.slop.storage.StorageReader;
@@ -19,48 +18,53 @@ import java.nio.ByteOrder;
 import java.nio.file.Path;
 
 /** Slop column extension for storing GammaCodedSequence objects. */
-public class GammaCodedSequenceColumn {
+public class GammaCodedSequenceColumn extends AbstractObjectColumn<GammaCodedSequence, GammaCodedSequenceColumn.Reader, GammaCodedSequenceColumn.Writer> {
 
-    public static ColumnType<GammaCodedSequenceReader, GammaCodedSequenceWriter> TYPE = ColumnTypes.register("s8[]+gcs", ByteOrder.nativeOrder(), GammaCodedSequenceColumn::open, GammaCodedSequenceColumn::create);
+    private final VarintColumn indexColumn;
 
-    public static GammaCodedSequenceReader open(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Reader(columnDesc,
-                Storage.reader(path, columnDesc, false), // note we must never pass aligned=true here, as the data is not guaranteed alignment
-                VarintColumn.open(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
-                        ColumnTypes.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+    public GammaCodedSequenceColumn(String name) {
+        this(name, StorageType.PLAIN);
+    }
+
+    public GammaCodedSequenceColumn(String name, StorageType storageType) {
+        super(name,
+                "gamma",
+                ByteOrder.nativeOrder(),
+                ColumnFunction.DATA,
+                storageType);
+
+        indexColumn = new VarintColumn(name, ColumnFunction.DATA_LEN, StorageType.PLAIN);
+    }
+
+    public Writer createUnregistered(Path path, int page) throws IOException {
+        return new Writer(
+                Storage.writer(path, this, page),
+                indexColumn.createUnregistered(path, page)
         );
     }
 
-    public static GammaCodedSequenceWriter create(Path path, ColumnDesc columnDesc) throws IOException {
-        return new Writer(columnDesc,
-                Storage.writer(path, columnDesc),
-                VarintColumn.create(path, columnDesc.createSupplementaryColumn(ColumnFunction.DATA_LEN,
-                        ColumnTypes.VARINT_LE,
-                        StorageType.PLAIN)
-                )
+    public Reader openUnregistered(Path path, int page) throws IOException {
+        return new Reader(
+                Storage.reader(path, this, page, false),
+                indexColumn.openUnregistered(path, page)
         );
     }
 
-    private static class Writer implements GammaCodedSequenceWriter {
-        private final VarintColumnWriter indexWriter;
-        private final ColumnDesc<?, ?> columnDesc;
+    public class Writer implements ObjectColumnWriter<GammaCodedSequence> {
+        private final VarintColumn.Writer indexWriter;
         private final StorageWriter storage;
 
-        public Writer(ColumnDesc<?, ?> columnDesc,
-                      StorageWriter storage,
-                      VarintColumnWriter indexWriter)
+        public Writer(StorageWriter storage,
+                      VarintColumn.Writer indexWriter)
         {
-            this.columnDesc = columnDesc;
             this.storage = storage;
 
             this.indexWriter = indexWriter;
         }
 
         @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
+        public AbstractColumn<?, ?> columnDesc() {
+            return GammaCodedSequenceColumn.this;
         }
 
         @Override
@@ -82,20 +86,18 @@ public class GammaCodedSequenceColumn {
         }
     }
 
-    private static class Reader implements GammaCodedSequenceReader {
-        private final VarintColumnReader indexReader;
-        private final ColumnDesc<?, ?> columnDesc;
+    public class Reader implements ObjectColumnReader<GammaCodedSequence> {
+        private final VarintColumn.Reader indexReader;
         private final StorageReader storage;
 
-        public Reader(ColumnDesc<?, ?> columnDesc, StorageReader reader, VarintColumnReader indexReader) throws IOException {
-            this.columnDesc = columnDesc;
+        Reader(StorageReader reader, VarintColumn.Reader indexReader) throws IOException {
             this.storage = reader;
             this.indexReader = indexReader;
         }
 
         @Override
-        public ColumnDesc<?, ?> columnDesc() {
-            return columnDesc;
+        public AbstractColumn<?, ?> columnDesc() {
+            return GammaCodedSequenceColumn.this;
         }
 
         @Override
@@ -126,7 +128,6 @@ public class GammaCodedSequenceColumn {
             return new GammaCodedSequence(dest);
         }
 
-        @Override
         public void getData(ByteBuffer workArea) throws IOException {
             int size = indexReader.get();
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
deleted file mode 100644
index cb82dd9b..00000000
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceReader.java
+++ /dev/null
@@ -1,33 +0,0 @@
-package nu.marginalia.sequence.slop;
-
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.slop.column.ColumnReader;
-
-import java.io.IOException;
-import java.nio.ByteBuffer;
-
-public interface GammaCodedSequenceReader extends AutoCloseable, ColumnReader {
-    /** Read the next gamma-coded sequence from the column.  Unlike most other
-     * readers, this method requires an intermediate buffer to use for reading
-     * the sequence.  As this buffer typically needs to be fairly large to accommodate
-     * the largest possible sequence, it is not practical to allocate a new buffer
-     * for each call to this method.  Instead, the caller should allocate a buffer
-     * once and reuse it for each call to this method.
-     *
-     * @return The next gamma-coded sequence.
-     */
-    GammaCodedSequence get() throws IOException;
-
-    /** Read just the data portion of the next gamma-coded sequence from the column.
-     * This method is useful when the caller is only interested in the data portion
-     * of the sequence and does not want to decode the values.
-     *
-     * The position of the buffer is advanced to the end of the data that has just been read,
-     * and the limit remains the same.
-     *
-     * @param workArea A buffer to use for reading the data.
-     */
-    void getData(ByteBuffer workArea) throws IOException;
-
-    void close() throws IOException;
-}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java
deleted file mode 100644
index aaaefa56..00000000
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceWriter.java
+++ /dev/null
@@ -1,11 +0,0 @@
-package nu.marginalia.sequence.slop;
-
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.slop.column.ColumnWriter;
-
-import java.io.IOException;
-
-public interface GammaCodedSequenceWriter extends AutoCloseable, ColumnWriter {
-    void put(GammaCodedSequence sequence) throws IOException;
-    void close() throws IOException;
-}
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 9d4f318f..6e03976c 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -3,21 +3,16 @@ package nu.marginalia.model.processed;
 import lombok.Builder;
 import nu.marginalia.sequence.GammaCodedSequence;
 import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayReader;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayWriter;
-import nu.marginalia.slop.ColumnTypes;
-import nu.marginalia.slop.column.array.ByteArrayColumnReader;
-import nu.marginalia.slop.column.array.ByteArrayColumnWriter;
-import nu.marginalia.slop.column.array.ObjectArrayColumnReader;
-import nu.marginalia.slop.column.array.ObjectArrayColumnWriter;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.column.primitive.*;
-import nu.marginalia.slop.column.string.EnumColumnReader;
-import nu.marginalia.slop.column.string.StringColumnReader;
-import nu.marginalia.slop.column.string.StringColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
+import nu.marginalia.slop.column.array.ByteArrayColumn;
+import nu.marginalia.slop.column.array.ObjectArrayColumn;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.column.primitive.FloatColumn;
+import nu.marginalia.slop.column.primitive.IntColumn;
+import nu.marginalia.slop.column.primitive.LongColumn;
+import nu.marginalia.slop.column.string.EnumColumn;
+import nu.marginalia.slop.column.string.StringColumn;
+import nu.marginalia.slop.column.string.TxtStringColumn;
 import nu.marginalia.slop.desc.StorageType;
 import org.jetbrains.annotations.Nullable;
 
@@ -111,45 +106,47 @@ public record SlopDocumentRecord(
     }
 
     // Basic information
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnTypes.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> urlsColumn = new ColumnDesc<>("url", ColumnTypes.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<VarintColumnReader, VarintColumnWriter> ordinalsColumn = new ColumnDesc<>("ordinal", ColumnTypes.VARINT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnTypes.ENUM_LE, StorageType.PLAIN);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> stateReasonsColumn = new ColumnDesc<>("stateReason", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final TxtStringColumn domainsColumn = new TxtStringColumn("domain", StorageType.GZIP);
+    private static final TxtStringColumn urlsColumn = new TxtStringColumn("url", StorageType.GZIP);
+    private static final VarintColumn ordinalsColumn = new VarintColumn("ordinal", StorageType.PLAIN);
+    private static final EnumColumn statesColumn = new EnumColumn("state", StorageType.PLAIN);
+    private static final StringColumn stateReasonsColumn = new StringColumn("stateReason", StorageType.GZIP);
 
     // Document metadata
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> titlesColumn = new ColumnDesc<>("title", ColumnTypes.STRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> descriptionsColumn = new ColumnDesc<>("description", ColumnTypes.STRING, StorageType.GZIP);
-    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> htmlStandardsColumn = new ColumnDesc<>("htmlStandard", ColumnTypes.ENUM_LE, StorageType.GZIP);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> htmlFeaturesColumn = new ColumnDesc<>("htmlFeatures", ColumnTypes.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> lengthsColumn = new ColumnDesc<>("length", ColumnTypes.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> pubYearColumn = new ColumnDesc<>("pubYear", ColumnTypes.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<LongColumnReader, LongColumnWriter> hashesColumn = new ColumnDesc<>("hash", ColumnTypes.LONG_LE, StorageType.PLAIN);
-    private static final ColumnDesc<FloatColumnReader, FloatColumnWriter> qualitiesColumn = new ColumnDesc<>("quality", ColumnTypes.FLOAT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<LongColumnReader, LongColumnWriter> domainMetadata = new ColumnDesc<>("domainMetadata", ColumnTypes.LONG_LE, StorageType.PLAIN);
+    private static final StringColumn titlesColumn = new StringColumn("title", StorageType.GZIP);
+    private static final StringColumn descriptionsColumn = new StringColumn("description", StorageType.GZIP);
+    private static final EnumColumn htmlStandardsColumn = new EnumColumn("htmlStandard", StorageType.PLAIN);
+    private static final IntColumn htmlFeaturesColumn = new IntColumn("htmlFeatures", StorageType.PLAIN);
+    private static final IntColumn lengthsColumn = new IntColumn("length", StorageType.PLAIN);
+    private static final IntColumn pubYearColumn = new IntColumn("pubYear", StorageType.PLAIN);
+    private static final LongColumn hashesColumn = new LongColumn("hash", StorageType.PLAIN);
+    private static final FloatColumn qualitiesColumn = new FloatColumn("quality", StorageType.PLAIN);
+    private static final LongColumn domainMetadata = new LongColumn("domainMetadata", StorageType.PLAIN);
 
     // Keyword-level columns, these are enumerated by the counts column
-    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> keywordsColumn = new ColumnDesc<>("keywords", ColumnTypes.STRING_ARRAY, StorageType.ZSTD);
-    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> termMetaColumn = new ColumnDesc<>("termMetadata", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
-    private static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> termPositionsColumn = new ColumnDesc<>("termPositions", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
+
+    private static final ObjectArrayColumn<String> keywordsColumn = new StringColumn("keywords", StorageType.ZSTD).asArray();
+    private static final ByteArrayColumn termMetaColumn = new ByteArrayColumn("termMetadata", StorageType.ZSTD);
+    private static final GammaCodedSequenceArrayColumn termPositionsColumn = new GammaCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
 
     // Spans columns
-    private static final ColumnDesc<ByteArrayColumnReader, ByteArrayColumnWriter> spanCodesColumn = new ColumnDesc<>("spanCodes", ColumnTypes.BYTE_ARRAY, StorageType.ZSTD);
-    private static final ColumnDesc<GammaCodedSequenceArrayReader, GammaCodedSequenceArrayWriter> spansColumn = new ColumnDesc<>("spans", GammaCodedSequenceArrayColumn.TYPE, StorageType.ZSTD);
+
+    private static final ByteArrayColumn spanCodesColumn = new ByteArrayColumn("spanCodes", StorageType.ZSTD);
+    private static final GammaCodedSequenceArrayColumn spansColumn = new GammaCodedSequenceArrayColumn("spans", StorageType.ZSTD);
 
     public static class KeywordsProjectionReader extends SlopTable {
-        private final StringColumnReader domainsReader;
-        private final VarintColumnReader ordinalsReader;
-        private final IntColumnReader htmlFeaturesReader;
-        private final LongColumnReader domainMetadataReader;
-        private final IntColumnReader lengthsReader;
+        private final TxtStringColumn.Reader domainsReader;
+        private final VarintColumn.Reader ordinalsReader;
+        private final IntColumn.Reader htmlFeaturesReader;
+        private final LongColumn.Reader domainMetadataReader;
+        private final IntColumn.Reader lengthsReader;
 
-        private final ObjectArrayColumnReader<String> keywordsReader;
-        private final ByteArrayColumnReader termMetaReader;
-        private final GammaCodedSequenceArrayReader termPositionsReader;
+        private final ObjectArrayColumn<String>.Reader keywordsReader;
+        private final ByteArrayColumn.Reader termMetaReader;
+        private final GammaCodedSequenceArrayColumn.Reader termPositionsReader;
 
-        private final ByteArrayColumnReader spanCodesReader;
-        private final GammaCodedSequenceArrayReader spansReader;
+        private final ByteArrayColumn.Reader spanCodesReader;
+        private final GammaCodedSequenceArrayColumn.Reader spansReader;
 
         public KeywordsProjectionReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException {
             this(pageRef.baseDir(), pageRef.page());
@@ -206,18 +203,18 @@ public record SlopDocumentRecord(
     }
 
     public static class MetadataReader extends SlopTable {
-        private final StringColumnReader domainsReader;
-        private final StringColumnReader urlsReader;
-        private final VarintColumnReader ordinalsReader;
-        private final StringColumnReader titlesReader;
-        private final StringColumnReader descriptionsReader;
+        private final TxtStringColumn.Reader domainsReader;
+        private final TxtStringColumn.Reader urlsReader;
+        private final VarintColumn.Reader ordinalsReader;
+        private final StringColumn.Reader titlesReader;
+        private final StringColumn.Reader descriptionsReader;
 
-        private final IntColumnReader htmlFeaturesReader;
-        private final StringColumnReader htmlStandardsReader;
-        private final IntColumnReader lengthsReader;
-        private final LongColumnReader hashesReader;
-        private final FloatColumnReader qualitiesReader;
-        private final IntColumnReader pubYearReader;
+        private final IntColumn.Reader htmlFeaturesReader;
+        private final EnumColumn.Reader htmlStandardsReader;
+        private final IntColumn.Reader lengthsReader;
+        private final LongColumn.Reader hashesReader;
+        private final FloatColumn.Reader qualitiesReader;
+        private final IntColumn.Reader pubYearReader;
 
         public MetadataReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException{
             this(pageRef.baseDir(), pageRef.page());
@@ -263,25 +260,25 @@ public record SlopDocumentRecord(
     }
 
     public static class Writer extends SlopTable {
-        private final StringColumnWriter domainsWriter;
-        private final StringColumnWriter urlsWriter;
-        private final VarintColumnWriter ordinalsWriter;
-        private final StringColumnWriter statesWriter;
-        private final StringColumnWriter stateReasonsWriter;
-        private final StringColumnWriter titlesWriter;
-        private final StringColumnWriter descriptionsWriter;
-        private final IntColumnWriter htmlFeaturesWriter;
-        private final StringColumnWriter htmlStandardsWriter;
-        private final IntColumnWriter lengthsWriter;
-        private final LongColumnWriter hashesWriter;
-        private final FloatColumnWriter qualitiesWriter;
-        private final LongColumnWriter domainMetadataWriter;
-        private final IntColumnWriter pubYearWriter;
-        private final ObjectArrayColumnWriter<String> keywordsWriter;
-        private final ByteArrayColumnWriter termMetaWriter;
-        private final GammaCodedSequenceArrayWriter termPositionsWriter;
-        private final ByteArrayColumnWriter spansCodesWriter;
-        private final GammaCodedSequenceArrayWriter spansWriter;
+        private final TxtStringColumn.Writer domainsWriter;
+        private final TxtStringColumn.Writer urlsWriter;
+        private final VarintColumn.Writer ordinalsWriter;
+        private final EnumColumn.Writer statesWriter;
+        private final StringColumn.Writer stateReasonsWriter;
+        private final StringColumn.Writer titlesWriter;
+        private final StringColumn.Writer descriptionsWriter;
+        private final IntColumn.Writer htmlFeaturesWriter;
+        private final EnumColumn.Writer htmlStandardsWriter;
+        private final IntColumn.Writer lengthsWriter;
+        private final LongColumn.Writer hashesWriter;
+        private final FloatColumn.Writer qualitiesWriter;
+        private final LongColumn.Writer domainMetadataWriter;
+        private final IntColumn.Writer pubYearWriter;
+        private final ObjectArrayColumn<String>.Writer keywordsWriter;
+        private final ByteArrayColumn.Writer termMetaWriter;
+        private final GammaCodedSequenceArrayColumn.Writer termPositionsWriter;
+        private final ByteArrayColumn.Writer spansCodesWriter;
+        private final GammaCodedSequenceArrayColumn.Writer spansWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
             super(page);
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index ce4120d1..db318ae6 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -1,10 +1,7 @@
 package nu.marginalia.model.processed;
 
-import nu.marginalia.slop.ColumnTypes;
-import nu.marginalia.slop.column.string.StringColumnReader;
-import nu.marginalia.slop.column.string.StringColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
+import nu.marginalia.slop.column.string.TxtStringColumn;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -15,16 +12,16 @@ public record SlopDomainLinkRecord(
         String source,
         String dest)
 {
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> sourcesColumn = new ColumnDesc<>("source", ColumnTypes.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> destsColumn = new ColumnDesc<>("dest", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final TxtStringColumn sourcesColumn = new TxtStringColumn("source", StorageType.GZIP);
+    private static final TxtStringColumn destsColumn = new TxtStringColumn("dest", StorageType.GZIP);
 
     public static Reader reader(Path baseDir, int page) throws IOException {
         return new Reader(baseDir, page);
     }
 
     public static class Reader extends SlopTable {
-        private final StringColumnReader sourcesReader;
-        private final StringColumnReader destsReader;
+        private final TxtStringColumn.Reader sourcesReader;
+        private final TxtStringColumn.Reader destsReader;
 
         public Reader(SlopPageRef<SlopDomainLinkRecord> page) throws IOException {
             this(page.baseDir(), page.page());
@@ -57,8 +54,8 @@ public record SlopDomainLinkRecord(
     }
 
     public static class Writer extends SlopTable {
-        private final StringColumnWriter sourcesWriter;
-        private final StringColumnWriter destsWriter;
+        private final TxtStringColumn.Writer sourcesWriter;
+        private final TxtStringColumn.Writer destsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
             super(page);
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index 5214a021..f0345df1 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -1,15 +1,10 @@
 package nu.marginalia.model.processed;
 
-import nu.marginalia.slop.ColumnTypes;
-import nu.marginalia.slop.column.array.ObjectArrayColumnReader;
-import nu.marginalia.slop.column.array.ObjectArrayColumnWriter;
-import nu.marginalia.slop.column.primitive.IntColumnReader;
-import nu.marginalia.slop.column.primitive.IntColumnWriter;
-import nu.marginalia.slop.column.string.EnumColumnReader;
-import nu.marginalia.slop.column.string.StringColumnReader;
-import nu.marginalia.slop.column.string.StringColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.SlopTable;
+import nu.marginalia.slop.SlopTable;
+import nu.marginalia.slop.column.array.ObjectArrayColumn;
+import nu.marginalia.slop.column.primitive.IntColumn;
+import nu.marginalia.slop.column.string.EnumColumn;
+import nu.marginalia.slop.column.string.TxtStringColumn;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
@@ -33,20 +28,20 @@ public record SlopDomainRecord(
             String ip)
     {}
 
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> domainsColumn = new ColumnDesc<>("domain", ColumnTypes.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<EnumColumnReader, StringColumnWriter> statesColumn = new ColumnDesc<>("state", ColumnTypes.ENUM_LE, StorageType.PLAIN);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> redirectDomainsColumn = new ColumnDesc<>("redirectDomain", ColumnTypes.TXTSTRING, StorageType.GZIP);
-    private static final ColumnDesc<StringColumnReader, StringColumnWriter> ipColumn = new ColumnDesc<>("ip", ColumnTypes.TXTSTRING, StorageType.GZIP);
+    private static final TxtStringColumn domainsColumn = new TxtStringColumn("domain", StorageType.GZIP);
+    private static final EnumColumn statesColumn = new EnumColumn("state", StorageType.PLAIN);
+    private static final TxtStringColumn redirectDomainsColumn = new TxtStringColumn("redirectDomain", StorageType.GZIP);
+    private static final TxtStringColumn ipColumn = new TxtStringColumn("ip", StorageType.GZIP);
 
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> knownUrlsColumn = new ColumnDesc<>("knownUrls", ColumnTypes.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> goodUrlsColumn = new ColumnDesc<>("goodUrls", ColumnTypes.INT_LE, StorageType.PLAIN);
-    private static final ColumnDesc<IntColumnReader, IntColumnWriter> visitedUrlsColumn = new ColumnDesc<>("visitedUrls", ColumnTypes.INT_LE, StorageType.PLAIN);
+    private static final IntColumn knownUrlsColumn = new IntColumn("knownUrls", StorageType.PLAIN);
+    private static final IntColumn goodUrlsColumn = new IntColumn("goodUrls", StorageType.PLAIN);
+    private static final IntColumn visitedUrlsColumn = new IntColumn("visitedUrls", StorageType.PLAIN);
 
-    private static final ColumnDesc<ObjectArrayColumnReader<String>, ObjectArrayColumnWriter<String>> rssFeedsColumn = new ColumnDesc<>("rssFeeds", ColumnTypes.TXTSTRING_ARRAY, StorageType.GZIP);
+    private static final ObjectArrayColumn<String> rssFeedsColumn = new TxtStringColumn("rssFeeds", StorageType.GZIP).asArray();
 
 
     public static class DomainNameReader extends SlopTable {
-        private final StringColumnReader domainsReader;
+        private final TxtStringColumn.Reader domainsReader;
 
         public DomainNameReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
             this(page.baseDir(), page.page());
@@ -68,8 +63,8 @@ public record SlopDomainRecord(
     }
 
     public static class DomainWithIpReader extends SlopTable {
-        private final StringColumnReader domainsReader;
-        private final StringColumnReader ipReader;
+        private final TxtStringColumn.Reader domainsReader;
+        private final TxtStringColumn.Reader ipReader;
 
         public DomainWithIpReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
             this(page.baseDir(), page.page());
@@ -96,16 +91,16 @@ public record SlopDomainRecord(
     }
 
     public static class Reader extends SlopTable {
-        private final StringColumnReader domainsReader;
-        private final StringColumnReader statesReader;
-        private final StringColumnReader redirectReader;
-        private final StringColumnReader ipReader;
+        private final TxtStringColumn.Reader domainsReader;
+        private final EnumColumn.Reader statesReader;
+        private final TxtStringColumn.Reader redirectReader;
+        private final TxtStringColumn.Reader ipReader;
 
-        private final IntColumnReader knownUrlsReader;
-        private final IntColumnReader goodUrlsReader;
-        private final IntColumnReader visitedUrlsReader;
+        private final IntColumn.Reader knownUrlsReader;
+        private final IntColumn.Reader goodUrlsReader;
+        private final IntColumn.Reader visitedUrlsReader;
 
-        private final ObjectArrayColumnReader<String> rssFeedsReader;
+        private final ObjectArrayColumn<String>.Reader rssFeedsReader;
 
         public Reader(SlopPageRef<SlopDomainRecord> page) throws IOException {
             this(page.baseDir(), page.page());
@@ -151,16 +146,16 @@ public record SlopDomainRecord(
     }
 
     public static class Writer extends SlopTable {
-        private final StringColumnWriter domainsWriter;
-        private final StringColumnWriter statesWriter;
-        private final StringColumnWriter redirectWriter;
-        private final StringColumnWriter ipWriter;
+        private final TxtStringColumn.Writer domainsWriter;
+        private final EnumColumn.Writer statesWriter;
+        private final TxtStringColumn.Writer redirectWriter;
+        private final TxtStringColumn.Writer ipWriter;
 
-        private final IntColumnWriter knownUrlsWriter;
-        private final IntColumnWriter goodUrlsWriter;
-        private final IntColumnWriter visitedUrlsWriter;
+        private final IntColumn.Writer knownUrlsWriter;
+        private final IntColumn.Writer goodUrlsWriter;
+        private final IntColumn.Writer visitedUrlsWriter;
 
-        private final ObjectArrayColumnWriter<String> rssFeedsWriter;
+        private final ObjectArrayColumn<String>.Writer rssFeedsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
             super(page);
diff --git a/settings.gradle b/settings.gradle
index fbe42360..762e0df7 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -226,7 +226,7 @@ dependencyResolutionManagement {
             library('jetty-util','org.eclipse.jetty','jetty-util').version('9.4.54.v20240208')
             library('jetty-servlet','org.eclipse.jetty','jetty-servlet').version('9.4.54.v20240208')
 
-            library('slop', 'nu.marginalia', 'slop').version('0.0.1-SNAPSHOT')
+            library('slop', 'nu.marginalia', 'slop').version('0.0.3-SNAPSHOT')
 
             bundle('jetty', ['jetty-server', 'jetty-util', 'jetty-servlet'])
 

From dbc6a9527692a35ee77b41fd153b8ba0f44c6578 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 08:33:43 +0200
Subject: [PATCH 141/216] (index) Consume the new 'body' span in index to make
 it used in ranking

---
 .../nu/marginalia/index/forward/spans/DocumentSpans.java    | 6 ++++++
 .../index/results/IndexResultScoreCalculator.java           | 2 --
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
index a09b6503..d3646faf 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -8,6 +8,7 @@ public class DocumentSpans {
 
     public DocumentSpan title = EMPTY_SPAN;
     public DocumentSpan heading = EMPTY_SPAN;
+    public DocumentSpan body = EMPTY_SPAN;
 
     public DocumentSpan nav = EMPTY_SPAN;
     public DocumentSpan code = EMPTY_SPAN;
@@ -28,6 +29,9 @@ public class DocumentSpans {
             return anchor;
         else if (tag == HtmlTag.EXTERNAL_LINKTEXT)
             return externalLinkText;
+        else if (tag == HtmlTag.BODY)
+            return body;
+
         return EMPTY_SPAN;
     }
 
@@ -44,6 +48,8 @@ public class DocumentSpans {
             this.anchor = new DocumentSpan(positions);
         else if (code == HtmlTag.EXTERNAL_LINKTEXT.code)
             this.externalLinkText = new DocumentSpan(positions);
+        else if (code == HtmlTag.BODY.code)
+            this.body = new DocumentSpan(positions);
     }
 
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 4fef504f..dbab4744 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -192,8 +192,6 @@ public class IndexResultScoreCalculator {
 
         VerbatimMatches verbatimMatches = new VerbatimMatches();
 
-
-
         float verbatimMatchScore = findVerbatimMatches(verbatimMatches, coherences, positions, spans);
 
         float[] weightedCounts = new float[compiledQuery.size()];

From 049d94ce31f1cd022cffb5b901bb32ac88c69bef Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 08:39:37 +0200
Subject: [PATCH 142/216] (index) Add body position match to qdebug fields

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java  | 1 +
 1 file changed, 1 insertion(+)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index dbab4744..4380b872 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -340,6 +340,7 @@ public class IndexResultScoreCalculator {
                     rankingFactors.addTermFactor(termId, "positions.anchor", SequenceOperations.findIntersections(spans.anchor.iterator(), positions[i].iterator()).iterator());
                     rankingFactors.addTermFactor(termId, "positions.code", SequenceOperations.findIntersections(spans.code.iterator(), positions[i].iterator()).iterator());
                     rankingFactors.addTermFactor(termId, "positions.nav", SequenceOperations.findIntersections(spans.nav.iterator(), positions[i].iterator()).iterator());
+                    rankingFactors.addTermFactor(termId, "positions.body", SequenceOperations.findIntersections(spans.body.iterator(), positions[i].iterator()).iterator());
                     rankingFactors.addTermFactor(termId, "positions.externalLinkText", SequenceOperations.findIntersections(spans.externalLinkText.iterator(), positions[i].iterator()).iterator());
                 }
 

From 92522e8d970f7fe0b9e9e56dbe3145447ad2b309 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 08:41:38 +0200
Subject: [PATCH 143/216] (index) Attenuate bm25 score based on query length

---
 .../marginalia/index/results/IndexResultScoreCalculator.java   | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 4380b872..ab815c70 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -293,6 +293,9 @@ public class IndexResultScoreCalculator {
         double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
         double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
 
+        bM25 *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
+        bFlags *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
+
         if (rankingFactors != null) {
             rankingFactors.addDocumentFactor("overall.averageSentenceLengthPenalty", Double.toString(averageSentenceLengthPenalty));
             rankingFactors.addDocumentFactor("overall.documentLengthPenalty", Double.toString(documentLengthPenalty));

From a18edad04cf54225192e727327eaadb16109a638 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 09:36:50 +0200
Subject: [PATCH 144/216] (index) Remove stopword list from converter

We want to index all words in the document, stopword handling is moved to the index where we change the semantics to elide inclusion checks in query construction for a very short list of words tentatively hard-coded in SearchTerms.
---
 .../index/index/CombinedIndexReader.java      | 19 ++++++--
 .../marginalia/index/model/SearchTerms.java   |  9 ++++
 .../marginalia/language/WordDictionary.java   | 46 -------------------
 .../nu/marginalia/language/WordPatterns.java  | 22 +--------
 .../resources/dictionary/en-stopwords         |  2 -
 5 files changed, 26 insertions(+), 72 deletions(-)
 delete mode 100644 code/libraries/language-processing/java/nu/marginalia/language/WordDictionary.java
 delete mode 100644 code/libraries/language-processing/resources/dictionary/en-stopwords

diff --git a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
index de52d1c5..216192cf 100644
--- a/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
+++ b/code/index/java/nu/marginalia/index/index/CombinedIndexReader.java
@@ -111,11 +111,22 @@ public class CombinedIndexReader {
                 return 0;
             });
 
-            var head = findFullWord(elements.getLong(0));
-            for (int i = 1; i < elements.size(); i++) {
-                head.addInclusionFilter(hasWordFull(elements.getLong(i)));
+            if (!SearchTerms.stopWords.contains(elements.getLong(0))) {
+                var head = findFullWord(elements.getLong(0));
+
+                for (int i = 1; i < elements.size(); i++) {
+                    long termId = elements.getLong(i);
+
+                    // if a stop word is present in the query, skip the step of requiring it to be in the document,
+                    // we'll assume it's there and save IO
+                    if (SearchTerms.stopWords.contains(termId)) {
+                        continue;
+                    }
+
+                    head.addInclusionFilter(hasWordFull(termId));
+                }
+                queryHeads.add(head);
             }
-            queryHeads.add(head);
 
             // If there are few paths, we can afford to check the priority index as well
             if (paths.size() < 4) {
diff --git a/code/index/java/nu/marginalia/index/model/SearchTerms.java b/code/index/java/nu/marginalia/index/model/SearchTerms.java
index 832d22b7..019832b2 100644
--- a/code/index/java/nu/marginalia/index/model/SearchTerms.java
+++ b/code/index/java/nu/marginalia/index/model/SearchTerms.java
@@ -1,6 +1,7 @@
 package nu.marginalia.index.model;
 
 import it.unimi.dsi.fastutil.longs.LongArrayList;
+import it.unimi.dsi.fastutil.longs.LongArraySet;
 import it.unimi.dsi.fastutil.longs.LongComparator;
 import it.unimi.dsi.fastutil.longs.LongList;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
@@ -19,6 +20,14 @@ public final class SearchTerms {
     private final List<LongList> coherencesMandatory;
     private final List<LongList> coherencesOptional;
 
+    public static final LongArraySet stopWords = new LongArraySet(
+            new long[] {
+                    getWordId("a"),
+                    getWordId("an"),
+                    getWordId("the"),
+            }
+    );
+
     private final CompiledQueryLong compiledQueryIds;
 
     public SearchTerms(SearchQuery query,
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/WordDictionary.java b/code/libraries/language-processing/java/nu/marginalia/language/WordDictionary.java
deleted file mode 100644
index 622c3b8c..00000000
--- a/code/libraries/language-processing/java/nu/marginalia/language/WordDictionary.java
+++ /dev/null
@@ -1,46 +0,0 @@
-package nu.marginalia.language;
-
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-
-import java.io.BufferedReader;
-import java.io.IOException;
-import java.io.InputStreamReader;
-import java.util.HashSet;
-import java.util.Objects;
-import java.util.Set;
-
-public class WordDictionary {
-    private final Set<String> words;
-    private static final Logger logger = LoggerFactory.getLogger(WordDictionary.class);
-
-    private WordDictionary(Set<String> words) {
-        this.words = words;
-    }
-
-    public static WordDictionary fromClasspathResource(String resourceName) {
-        var set = new HashSet<String>(200, 0.5f);
-
-        try (var resource = Objects.requireNonNull(ClassLoader.getSystemResourceAsStream(resourceName),
-                "Could not load word frequency table");
-             var br = new BufferedReader(new InputStreamReader(resource))
-        ) {
-            while (true) {
-                String s = br.readLine();
-
-                if (s == null) break;
-                if (s.isBlank()) continue;
-
-                set.add(s.trim());
-            }
-        } catch (IOException e) {
-            logger.warn("Failed to load resource " + resourceName, e);
-        }
-
-        return new WordDictionary(set);
-    }
-
-    public boolean contains(String str) {
-        return words.contains(str);
-    }
-}
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java b/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java
index dbc8c9c8..9f137ddc 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java
@@ -1,7 +1,5 @@
 package nu.marginalia.language;
 
-import org.apache.commons.lang3.StringUtils;
-
 /** Logic for deciding which words are eligible to be keywords.
  * <p/>
  * This is in dire need of oversight. Here be towering dragons with names,
@@ -14,8 +12,6 @@ public class WordPatterns {
     public static final int MAX_WORD_LENGTH = 64;
 
     public static final String WORD_TOKEN_JOINER = "_";
-    private static final WordDictionary stopWords =
-            WordDictionary.fromClasspathResource("dictionary/en-stopwords");
 
     /** Run checks on the word and exclude terms with too many special characters
      */
@@ -57,27 +53,13 @@ public class WordPatterns {
         return true;
     }
 
+    // Stopword exclusion has been moved to the index.  We just filter out
+    // junk words here now.
     public static boolean isStopWord(String s) {
-        if (s.length() < MIN_WORD_LENGTH) {
-            return true;
-        }
-
         if (!isNotJunkWord(s)) {
             return true;
         }
 
-        String sLc;
-        if (StringUtils.isAllLowerCase(s)) {
-            sLc = s;
-        }
-        else {
-            sLc = s.toLowerCase();
-        }
-
-        if (stopWords.contains(sLc)) {
-            return true;
-        }
-
         return false;
     }
 
diff --git a/code/libraries/language-processing/resources/dictionary/en-stopwords b/code/libraries/language-processing/resources/dictionary/en-stopwords
deleted file mode 100644
index f19a4788..00000000
--- a/code/libraries/language-processing/resources/dictionary/en-stopwords
+++ /dev/null
@@ -1,2 +0,0 @@
-a
-the
\ No newline at end of file

From b2a3cac351164f86489486c8ba9ec815b544eccf Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 11:01:34 +0200
Subject: [PATCH 145/216] (*) Remove broken imports

---
 .../nu/marginalia/sequence/GammaCodedSequence.java | 14 --------------
 1 file changed, 14 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 6dc4872d..00fcf097 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -5,22 +5,8 @@ import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.io.BitReader;
 import nu.marginalia.sequence.io.BitWriter;
-import nu.marginalia.slop.column.ColumnReader;
-import nu.marginalia.slop.column.ColumnWriter;
-import nu.marginalia.slop.column.dynamic.VarintColumn;
-import nu.marginalia.slop.column.dynamic.VarintColumnReader;
-import nu.marginalia.slop.column.dynamic.VarintColumnWriter;
-import nu.marginalia.slop.desc.ColumnDesc;
-import nu.marginalia.slop.desc.ColumnFunction;
-import nu.marginalia.slop.desc.ColumnType;
-import nu.marginalia.slop.desc.StorageType;
-import nu.marginalia.slop.storage.Storage;
-import nu.marginalia.slop.storage.StorageReader;
-import nu.marginalia.slop.storage.StorageWriter;
 
-import java.io.IOException;
 import java.nio.ByteBuffer;
-import java.nio.file.Path;
 import java.util.Arrays;
 import java.util.StringJoiner;
 

From 03d5dec24c999dc6f796d9440e93d5eef8cacf30 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 11:02:19 +0200
Subject: [PATCH 146/216] (*) Refactor termCoherences and rename them to phrase
 constraints.

---
 .../api/searchquery/IndexProtobufCodec.java   | 43 +++++---
 .../query/SearchCoherenceConstraint.java      | 71 -------------
 .../model/query/SearchPhraseConstraint.java   | 85 ++++++++++++++++
 .../searchquery/model/query/SearchQuery.java  | 18 ++--
 .../api/src/main/protobuf/query-api.proto     |  9 +-
 .../index/client/IndexProtobufCodecTest.java  |  8 +-
 .../functions/searchquery/QueryFactory.java   | 11 ++-
 .../query_parser/QueryExpansion.java          | 50 +++++-----
 .../query/svc/QueryFactoryTest.java           |  8 +-
 .../marginalia/index/model/SearchTerms.java   | 30 ------
 .../results/IndexResultRankingService.java    | 25 +++--
 .../results/IndexResultScoreCalculator.java   | 18 ++--
 ...st.java => PhraseConstraintGroupList.java} | 99 +++++++++++--------
 .../index/results/model/QuerySearchTerms.java |  6 +-
 .../IndexQueryServiceIntegrationTest.java     |  6 +-
 .../resources/templates/qdebug.hdb            |  4 +-
 16 files changed, 259 insertions(+), 232 deletions(-)
 delete mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
 create mode 100644 code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchPhraseConstraint.java
 rename code/index/java/nu/marginalia/index/results/model/{TermCoherenceGroupList.java => PhraseConstraintGroupList.java} (63%)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index 898264e8..267ba12d 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -1,6 +1,6 @@
 package nu.marginalia.api.searchquery;
 
-import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
+import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.Bm25Parameters;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -46,18 +46,21 @@ public class IndexProtobufCodec {
     }
 
     public static SearchQuery convertRpcQuery(RpcQuery query) {
-        List<SearchCoherenceConstraint>  coherences = new ArrayList<>();
+        List<SearchPhraseConstraint> phraeConstraints = new ArrayList<>();
 
-        for (int j = 0; j < query.getCoherencesCount(); j++) {
-            var coh = query.getCoherences(j);
-            if (coh.getType() == RpcCoherences.TYPE.OPTIONAL) {
-                coherences.add(new SearchCoherenceConstraint(false, List.copyOf(coh.getCoherencesList())));
+        for (int j = 0; j < query.getPhrasesCount(); j++) {
+            var coh = query.getPhrases(j);
+            if (coh.getType() == RpcPhrases.TYPE.OPTIONAL) {
+                phraeConstraints.add(new SearchPhraseConstraint.Optional(List.copyOf(coh.getTermsList())));
             }
-            else if (coh.getType() == RpcCoherences.TYPE.MANDATORY) {
-                coherences.add(new SearchCoherenceConstraint(true, List.copyOf(coh.getCoherencesList())));
+            else if (coh.getType() == RpcPhrases.TYPE.MANDATORY) {
+                phraeConstraints.add(new SearchPhraseConstraint.Mandatory(List.copyOf(coh.getTermsList())));
+            }
+            else if (coh.getType() == RpcPhrases.TYPE.FULL) {
+                phraeConstraints.add(new SearchPhraseConstraint.Full(List.copyOf(coh.getTermsList())));
             }
             else {
-                throw new IllegalArgumentException("Unknown coherence type: " + coh.getType());
+                throw new IllegalArgumentException("Unknown phrase constraint type: " + coh.getType());
             }
         }
 
@@ -67,7 +70,7 @@ public class IndexProtobufCodec {
                 query.getExcludeList(),
                 query.getAdviceList(),
                 query.getPriorityList(),
-                coherences
+                phraeConstraints
         );
     }
 
@@ -80,11 +83,21 @@ public class IndexProtobufCodec {
                         .addAllExclude(searchQuery.getSearchTermsExclude())
                         .addAllPriority(searchQuery.getSearchTermsPriority());
 
-        for (var coherences : searchQuery.searchTermCoherences) {
-            subqueryBuilder.addCoherencesBuilder()
-                    .addAllCoherences(coherences.terms())
-                    .setType(coherences.mandatory() ? RpcCoherences.TYPE.MANDATORY : RpcCoherences.TYPE.OPTIONAL)
-                    .build();
+        for (var constraint : searchQuery.phraseConstraints) {
+            switch (constraint) {
+                case SearchPhraseConstraint.Optional(List<String> terms) ->
+                    subqueryBuilder.addPhrasesBuilder()
+                            .addAllTerms(terms)
+                            .setType(RpcPhrases.TYPE.OPTIONAL);
+                case SearchPhraseConstraint.Mandatory(List<String> terms) ->
+                    subqueryBuilder.addPhrasesBuilder()
+                            .addAllTerms(terms)
+                            .setType(RpcPhrases.TYPE.MANDATORY);
+                case SearchPhraseConstraint.Full(List<String> terms) ->
+                    subqueryBuilder.addPhrasesBuilder()
+                            .addAllTerms(terms)
+                            .setType(RpcPhrases.TYPE.FULL);
+            }
         }
 
         return subqueryBuilder.build();
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
deleted file mode 100644
index ce1e2e55..00000000
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchCoherenceConstraint.java
+++ /dev/null
@@ -1,71 +0,0 @@
-package nu.marginalia.api.searchquery.model.query;
-
-import nu.marginalia.language.WordPatterns;
-
-import java.util.ArrayList;
-import java.util.List;
-
-public record SearchCoherenceConstraint(boolean mandatory, List<String> terms) {
-
-    public int size() {
-        return terms.size();
-    }
-
-    /** Create a new SearchCoherenceConstraint with the given terms, and the given mandatory flag.
-     * Stop words are replaced with empty strings.
-     */
-    public static SearchCoherenceConstraint mandatory(String... terms) {
-        return new SearchCoherenceConstraint(true, trimStopWords(terms));
-    }
-    /** Create a new SearchCoherenceConstraint with the given terms, and the given mandatory flag.
-     * Stop words are replaced with empty strings.
-     */
-    public static SearchCoherenceConstraint mandatory(List<String> terms) {
-        return new SearchCoherenceConstraint(true, trimStopWords(terms));
-    }
-    /** Create a new SearchCoherenceConstraint with the given terms, without the mandatory flag.
-     * Stop words are replaced with empty strings.
-     */
-    public static SearchCoherenceConstraint optional(String... terms) {
-        return new SearchCoherenceConstraint(false, trimStopWords(terms));
-    }
-    /** Create a new SearchCoherenceConstraint with the given terms, without the mandatory flag.
-     * Stop words are replaced with empty strings.
-     */
-    public static SearchCoherenceConstraint optional(List<String> terms) {
-        return new SearchCoherenceConstraint(false, trimStopWords(terms));
-    }
-
-    private static List<String> trimStopWords(List<String> terms) {
-        List<String> ret = new ArrayList<>(terms.size());
-        for (var term : terms) {
-            if (WordPatterns.isStopWord(term)) {
-                ret.add("");
-            } else {
-                ret.add(term);
-            }
-        }
-        return List.copyOf(ret);
-    }
-
-    private static List<String> trimStopWords(String... terms) {
-        List<String> ret = new ArrayList<>(terms.length);
-        for (var term : terms) {
-            if (WordPatterns.isStopWord(term)) {
-                ret.add("");
-            } else {
-                ret.add(term);
-            }
-        }
-
-        while (!ret.isEmpty() && "".equals(ret.getFirst())) {
-            ret.removeFirst();
-        }
-        while (!ret.isEmpty() && "".equals(ret.getLast())) {
-            ret.removeLast();
-        }
-
-        return List.copyOf(ret);
-    }
-
-}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchPhraseConstraint.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchPhraseConstraint.java
new file mode 100644
index 00000000..3a33c7e6
--- /dev/null
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchPhraseConstraint.java
@@ -0,0 +1,85 @@
+package nu.marginalia.api.searchquery.model.query;
+
+import nu.marginalia.language.WordPatterns;
+
+import java.util.ArrayList;
+import java.util.List;
+
+public sealed interface SearchPhraseConstraint {
+
+    record Mandatory(List<String> terms) implements SearchPhraseConstraint {
+        public Mandatory(String... terms) {
+            this(List.of(terms));
+        }
+    }
+
+    record Optional(List<String> terms) implements SearchPhraseConstraint {
+        public Optional(String... terms) {
+            this(List.of(terms));
+        }
+    }
+
+    record Full(List<String> terms) implements SearchPhraseConstraint {
+        public Full(String... terms) {
+            this(List.of(terms));
+        }
+    }
+
+    List<String> terms();
+    default int size() {
+        return terms().size();
+    }
+
+    static SearchPhraseConstraint mandatory(String... terms) {
+        return new Mandatory(trimStopWords(terms));
+    }
+    static SearchPhraseConstraint mandatory(List<String> terms) {
+        return new Mandatory(trimStopWords(terms));
+    }
+    static SearchPhraseConstraint optional(String... terms) {
+        return new Optional(trimStopWords(terms));
+    }
+    static SearchPhraseConstraint optional(List<String> terms) {
+        return new Optional(trimStopWords(terms));
+    }
+    static SearchPhraseConstraint full(String... terms) {
+        return new Full(trimStopWords(terms));
+    }
+    static SearchPhraseConstraint full(List<String> terms) {
+        return new Full(trimStopWords(terms));
+    }
+
+
+    private static List<String> trimStopWords(List<String> terms) {
+        List<String> ret = new ArrayList<>(terms.size());
+        for (var term : terms) {
+            if (WordPatterns.isStopWord(term)) {
+                ret.add("");
+            } else {
+                ret.add(term);
+            }
+        }
+        return List.copyOf(ret);
+    }
+
+    private static List<String> trimStopWords(String... terms) {
+        List<String> ret = new ArrayList<>(terms.length);
+        for (var term : terms) {
+            if (WordPatterns.isStopWord(term)) {
+                ret.add("");
+            } else {
+                ret.add(term);
+            }
+        }
+
+        while (!ret.isEmpty() && "".equals(ret.getFirst())) {
+            ret.removeFirst();
+        }
+        while (!ret.isEmpty() && "".equals(ret.getLast())) {
+            ret.removeLast();
+        }
+
+        return List.copyOf(ret);
+    }
+
+}
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
index b06724a9..da7a58ed 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchQuery.java
@@ -31,7 +31,7 @@ public class SearchQuery {
     public final List<String> searchTermsPriority;
 
     /** Terms that we require to be in the same sentence */
-    public final List<SearchCoherenceConstraint> searchTermCoherences;
+    public final List<SearchPhraseConstraint> phraseConstraints;
 
     @Deprecated // why does this exist?
     private double value = 0;
@@ -46,7 +46,7 @@ public class SearchQuery {
         this.searchTermsExclude = new ArrayList<>();
         this.searchTermsAdvice = new ArrayList<>();
         this.searchTermsPriority = new ArrayList<>();
-        this.searchTermCoherences = new ArrayList<>();
+        this.phraseConstraints = new ArrayList<>();
     }
 
     public SearchQuery(String compiledQuery,
@@ -54,13 +54,13 @@ public class SearchQuery {
                        List<String> searchTermsExclude,
                        List<String> searchTermsAdvice,
                        List<String> searchTermsPriority,
-                       List<SearchCoherenceConstraint> searchTermCoherences) {
+                       List<SearchPhraseConstraint> phraseConstraints) {
         this.compiledQuery = compiledQuery;
         this.searchTermsInclude = searchTermsInclude;
         this.searchTermsExclude = searchTermsExclude;
         this.searchTermsAdvice = searchTermsAdvice;
         this.searchTermsPriority = searchTermsPriority;
-        this.searchTermCoherences = searchTermCoherences;
+        this.phraseConstraints = phraseConstraints;
     }
 
     @Deprecated // why does this exist?
@@ -80,7 +80,7 @@ public class SearchQuery {
         if (!searchTermsExclude.isEmpty()) sb.append("exclude=").append(searchTermsExclude.stream().collect(Collectors.joining(",", "[", "] ")));
         if (!searchTermsAdvice.isEmpty()) sb.append("advice=").append(searchTermsAdvice.stream().collect(Collectors.joining(",", "[", "] ")));
         if (!searchTermsPriority.isEmpty()) sb.append("priority=").append(searchTermsPriority.stream().collect(Collectors.joining(",", "[", "] ")));
-        if (!searchTermCoherences.isEmpty()) sb.append("coherences=").append(searchTermCoherences.stream().map(coh->coh.terms().stream().collect(Collectors.joining(",", "[", "] "))).collect(Collectors.joining(", ")));
+        if (!phraseConstraints.isEmpty()) sb.append("phraseConstraints=").append(phraseConstraints.stream().map(coh->coh.terms().stream().collect(Collectors.joining(",", "[", "] "))).collect(Collectors.joining(", ")));
 
         return sb.toString();
     }
@@ -91,7 +91,7 @@ public class SearchQuery {
         public final List<String> searchTermsExclude = new ArrayList<>();
         public final List<String> searchTermsAdvice = new ArrayList<>();
         public final List<String> searchTermsPriority = new ArrayList<>();
-        public final List<SearchCoherenceConstraint> searchTermCoherences = new ArrayList<>();
+        public final List<SearchPhraseConstraint> searchPhraseConstraints = new ArrayList<>();
 
         private SearchQueryBuilder() {
         }
@@ -121,13 +121,13 @@ public class SearchQuery {
             return this;
         }
 
-        public SearchQueryBuilder coherenceConstraint(SearchCoherenceConstraint constraint) {
-            searchTermCoherences.add(constraint);
+        public SearchQueryBuilder phraseConstraint(SearchPhraseConstraint constraint) {
+            searchPhraseConstraints.add(constraint);
             return this;
         }
 
         public SearchQuery build() {
-            return new SearchQuery(compiledQuery, searchTermsInclude, searchTermsExclude, searchTermsAdvice, searchTermsPriority, searchTermCoherences);
+            return new SearchQuery(compiledQuery, searchTermsInclude, searchTermsExclude, searchTermsAdvice, searchTermsPriority, searchPhraseConstraints);
         }
 
         /** If there are no ranking terms, promote the advice terms to ranking terms */
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index 640e5fdb..a8368c06 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -176,17 +176,18 @@ message RpcQuery {
   repeated string exclude = 2;  // These terms must be absent
   repeated string advice = 3;   // These terms must be present, but do not affect ranking
   repeated string priority = 4;  // These terms are not mandatory, but affect ranking positively if they are present
-  repeated RpcCoherences coherences = 5; // Groups of terms that must exist in proximity of each other
+  repeated RpcPhrases phrases = 5; // Groups of terms that must exist in proximity of each other
   string compiledQuery = 6;  // Compiled query in infix notation
 }
 
-/* Defines a group of search terms that must exist in close proximity within the document */
-message RpcCoherences {
-  repeated string coherences = 1;
+/* Defines a group of search terms that must exist in the the specified order within the document */
+message RpcPhrases {
+  repeated string terms = 1;
   TYPE type = 2;
 
   enum TYPE {
     OPTIONAL = 0;
     MANDATORY = 1;
+    FULL = 2;
   };
 }
diff --git a/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java b/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java
index 0c2b6041..b7b64590 100644
--- a/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java
+++ b/code/functions/search-query/api/test/nu/marginalia/index/client/IndexProtobufCodecTest.java
@@ -1,7 +1,7 @@
 package nu.marginalia.index.client;
 
 import nu.marginalia.api.searchquery.IndexProtobufCodec;
-import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
+import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.index.query.limit.QueryLimits;
@@ -11,7 +11,7 @@ import org.junit.jupiter.api.Test;
 import java.util.List;
 import java.util.function.Function;
 
-import static org.junit.jupiter.api.Assertions.*;
+import static org.junit.jupiter.api.Assertions.assertEquals;
 
 class IndexProtobufCodecTest {
     @Test
@@ -43,8 +43,8 @@ class IndexProtobufCodecTest {
                 List.of("e", "f"),
                 List.of("g", "h"),
                 List.of(
-                        new SearchCoherenceConstraint(true, List.of("i", "j")),
-                        new SearchCoherenceConstraint(false,  List.of("k")))
+                        SearchPhraseConstraint.mandatory(List.of("i", "j")),
+                        SearchPhraseConstraint.optional(List.of("k")))
                 ),
                 s -> IndexProtobufCodec.convertRpcQuery(IndexProtobufCodec.convertRpcQuery(s))
         );
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java
index 98e2de94..12e98fba 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/QueryFactory.java
@@ -73,7 +73,7 @@ public class QueryFactory {
 
                     if (parts.length > 1) {
                         // Require that the terms appear in sequence
-                        queryBuilder.coherenceConstraint(SearchCoherenceConstraint.mandatory(parts));
+                        queryBuilder.phraseConstraint(SearchPhraseConstraint.mandatory(parts));
 
                         // Construct a regular query from the parts in the quoted string
                         queryBuilder.include(parts);
@@ -126,12 +126,15 @@ public class QueryFactory {
 
         var expansion = queryExpansion.expandQuery(queryBuilder.searchTermsInclude);
 
-        // Query expansion may produce suggestions for coherence constraints,
+        // Query expansion may produce suggestions for phrase constraints,
         // add these to the query
-        for (var coh : expansion.extraCoherences()) {
-            queryBuilder.coherenceConstraint(SearchCoherenceConstraint.optional(coh));
+        for (var coh : expansion.optionalPharseConstraints()) {
+            queryBuilder.phraseConstraint(SearchPhraseConstraint.optional(coh));
         }
 
+        // add a pseudo-constraint for the full query
+        queryBuilder.phraseConstraint(SearchPhraseConstraint.full(expansion.fullPhraseConstraint()));
+
         queryBuilder.compiledQuery(expansion.compiledQuery());
 
         var specsBuilder = SearchSpecification.builder()
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
index 6ba56680..b8d1f062 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryExpansion.java
@@ -44,11 +44,17 @@ public class QueryExpansion {
             strategy.expand(graph);
         }
 
-        List<List<String>> coherences = createSegments(graph);
+        List<List<String>> optionalPhraseConstraints = createSegments(graph);
+
+        // also create a segmentation that is just the entire query
+        List<String> fullPhraseConstraint = new ArrayList<> ();
+        for (var qw : graph) {
+            fullPhraseConstraint.add(qw.word());
+        }
 
         var compiled = QWordPathsRenderer.render(graph);
 
-        return new Expansion(compiled, coherences);
+        return new Expansion(compiled, optionalPhraseConstraints, fullPhraseConstraint);
     }
 
     private static final Pattern dashPattern = Pattern.compile("-");
@@ -144,36 +150,28 @@ public class QueryExpansion {
         }
         allSegments.sort(Comparator.comparing(NgramLexicon.SentenceSegment::start));
 
-        List<List<String>> coherences = new ArrayList<>();
+        Set<List<String>> constraints = new HashSet<>();
 
-        if (!allSegments.isEmpty()) {
+        Set<NgramLexicon.SentenceSegment> bestSegmentation =
+                findBestSegmentation(allSegments);
 
-            Set<NgramLexicon.SentenceSegment> bestSegmentation =
-                    findBestSegmentation(allSegments);
+        for (var segment : bestSegmentation) {
 
-            for (var segment : bestSegmentation) {
+            int start = segment.start();
+            int end = segment.start() + segment.length();
 
-                int start = segment.start();
-                int end = segment.start() + segment.length();
-
-                List<String> components = new ArrayList<>(end - start);
-                for (int i = start; i < end; i++) {
-                    components.add(nodes.get(i).word());
-                }
-                coherences.add(components);
-
-                // Create an n-gram search term for the segment
-                String word = String.join("_", components);
-                graph.addVariantForSpan(nodes.get(start), nodes.get(end - 1), word);
+            List<String> components = new ArrayList<>(end - start);
+            for (int i = start; i < end; i++) {
+                components.add(nodes.get(i).word());
             }
+            constraints.add(components);
+
+            // Create an n-gram search term for the segment
+            String word = String.join("_", components);
+            graph.addVariantForSpan(nodes.get(start), nodes.get(end - 1), word);
         }
 
-        // also create a segmentation that is just the entire query
-        coherences.add(nodes.stream()
-                .map(QWord::word)
-                .collect(Collectors.toList()));
-
-        return coherences;
+        return new ArrayList<>(constraints);
     }
 
     private Set<NgramLexicon.SentenceSegment> findBestSegmentation(List<NgramLexicon.SentenceSegment> allSegments) {
@@ -216,5 +214,5 @@ public class QueryExpansion {
         void expand(QWordGraph graph);
     }
 
-    public record Expansion(String compiledQuery, List<List<String>> extraCoherences) {}
+    public record Expansion(String compiledQuery, List<List<String>> optionalPharseConstraints, List<String> fullPhraseConstraint) {}
 }
diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index c8bce00f..0f9ef452 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -1,17 +1,17 @@
 package nu.marginalia.query.svc;
 
 import nu.marginalia.WmsaHome;
-import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
+import nu.marginalia.api.searchquery.model.query.QueryParams;
+import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
-import nu.marginalia.functions.searchquery.query_parser.QueryExpansion;
 import nu.marginalia.functions.searchquery.QueryFactory;
+import nu.marginalia.functions.searchquery.query_parser.QueryExpansion;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.index.query.limit.SpecificationLimitType;
 import nu.marginalia.segmentation.NgramLexicon;
-import nu.marginalia.api.searchquery.model.query.QueryParams;
 import nu.marginalia.term_frequency_dict.TermFrequencyDict;
 import org.junit.jupiter.api.BeforeAll;
 import org.junit.jupiter.api.Test;
@@ -143,7 +143,7 @@ public class QueryFactoryTest {
             var specs = parseAndGetSpecs("\"tde shining\"");
             assertEquals("( shining tde | tde_shining )", specs.query.compiledQuery);
             assertEquals(List.of("tde_shining"), specs.query.searchTermsPriority);
-            assertEquals(List.of(new SearchCoherenceConstraint(true, List.of("tde", "shining"))), specs.query.searchTermCoherences);
+            assertEquals(List.of(new SearchPhraseConstraint.Mandatory(List.of("tde", "shining"))), specs.query.phraseConstraints);
         }
     }
 
diff --git a/code/index/java/nu/marginalia/index/model/SearchTerms.java b/code/index/java/nu/marginalia/index/model/SearchTerms.java
index 019832b2..2a475754 100644
--- a/code/index/java/nu/marginalia/index/model/SearchTerms.java
+++ b/code/index/java/nu/marginalia/index/model/SearchTerms.java
@@ -7,9 +7,6 @@ import it.unimi.dsi.fastutil.longs.LongList;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 
-import java.util.ArrayList;
-import java.util.List;
-
 import static nu.marginalia.index.model.SearchTermsUtil.getWordId;
 
 public final class SearchTerms {
@@ -17,9 +14,6 @@ public final class SearchTerms {
     private final LongList excludes;
     private final LongList priority;
 
-    private final List<LongList> coherencesMandatory;
-    private final List<LongList> coherencesOptional;
-
     public static final LongArraySet stopWords = new LongArraySet(
             new long[] {
                     getWordId("a"),
@@ -36,9 +30,6 @@ public final class SearchTerms {
         this.excludes = new LongArrayList();
         this.priority = new LongArrayList();
 
-        this.coherencesMandatory = new ArrayList<>();
-        this.coherencesOptional = new ArrayList<>();
-
         this.advice = new LongArrayList();
         this.compiledQueryIds = compiledQueryIds;
 
@@ -46,21 +37,6 @@ public final class SearchTerms {
             advice.add(getWordId(word));
         }
 
-        for (var coherence : query.searchTermCoherences) {
-            LongList parts = new LongArrayList(coherence.size());
-
-            for (var word : coherence.terms()) {
-                parts.add(getWordId(word));
-            }
-
-            if (coherence.mandatory()) {
-                coherencesMandatory.add(parts);
-            }
-            else {
-                coherencesOptional.add(parts);
-            }
-        }
-
         for (var word : query.searchTermsExclude) {
             excludes.add(getWordId(word));
         }
@@ -91,12 +67,6 @@ public final class SearchTerms {
         return priority;
     }
 
-    public List<LongList> coherencesMandatory() {
-        return coherencesMandatory;
-    }
-    public List<LongList> coherencesOptional() {
-        return coherencesOptional;
-    }
     public CompiledQueryLong compiledQuery() { return compiledQueryIds; }
 
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 16d8a937..8de176bf 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -10,6 +10,7 @@ import it.unimi.dsi.fastutil.longs.LongOpenHashSet;
 import nu.marginalia.api.searchquery.*;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CqDataLong;
+import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
 import nu.marginalia.api.searchquery.model.results.SearchResultItem;
@@ -18,8 +19,8 @@ import nu.marginalia.index.index.CombinedIndexReader;
 import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.model.SearchTermsUtil;
+import nu.marginalia.index.results.model.PhraseConstraintGroupList;
 import nu.marginalia.index.results.model.QuerySearchTerms;
-import nu.marginalia.index.results.model.TermCoherenceGroupList;
 import nu.marginalia.index.results.model.ids.CombinedDocIdList;
 import nu.marginalia.index.results.model.ids.TermIdList;
 import nu.marginalia.index.results.model.ids.TermMetadataList;
@@ -97,7 +98,7 @@ public class IndexResultRankingService {
                 }
 
                 // Ignore documents that don't match the mandatory constraints
-                if (!searchTerms.coherences.testMandatory(positions)) {
+                if (!searchTerms.phraseConstraints.testMandatory(positions)) {
                     continue;
                 }
 
@@ -295,14 +296,26 @@ public class IndexResultRankingService {
 
         var idsAll = new TermIdList(termIdsList);
 
-        var constraints = new ArrayList<TermCoherenceGroupList.TermCoherenceGroup>();
-        for (var coherence : searchQuery.searchTermCoherences) {
-            constraints.add(new TermCoherenceGroupList.TermCoherenceGroup(coherence, idsAll));
+        var constraintsMandatory = new ArrayList<PhraseConstraintGroupList.PhraseConstraintGroup>();
+        var constraintsFull = new ArrayList<PhraseConstraintGroupList.PhraseConstraintGroup>();
+        var constraintsOptional = new ArrayList<PhraseConstraintGroupList.PhraseConstraintGroup>();
+
+        for (var constraint : searchQuery.phraseConstraints) {
+            switch (constraint) {
+                case SearchPhraseConstraint.Mandatory(List<String> terms) ->
+                        constraintsMandatory.add(new PhraseConstraintGroupList.PhraseConstraintGroup(terms, idsAll));
+                case SearchPhraseConstraint.Optional(List<String> terms) ->
+                        constraintsOptional.add(new PhraseConstraintGroupList.PhraseConstraintGroup(terms, idsAll));
+                case SearchPhraseConstraint.Full(List<String> terms) ->
+                        constraintsFull.add(new PhraseConstraintGroupList.PhraseConstraintGroup(terms, idsAll));
+            }
         }
 
+        assert constraintsFull.size() == 1 : "Exactly one full constraint group is required";
+
         return new QuerySearchTerms(termToId,
                 idsAll,
-                new TermCoherenceGroupList(constraints)
+                new PhraseConstraintGroupList(constraintsFull.getFirst(), constraintsMandatory, constraintsOptional)
         );
     }
 }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index ab815c70..76ac060f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -13,8 +13,8 @@ import nu.marginalia.index.index.StatefulIndex;
 import nu.marginalia.index.model.QueryParams;
 import nu.marginalia.index.model.SearchParameters;
 import nu.marginalia.index.query.limit.QueryStrategy;
+import nu.marginalia.index.results.model.PhraseConstraintGroupList;
 import nu.marginalia.index.results.model.QuerySearchTerms;
-import nu.marginalia.index.results.model.TermCoherenceGroupList;
 import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.crawl.PubDate;
@@ -103,7 +103,7 @@ public class IndexResultScoreCalculator {
                 docSize,
                 spans,
                 positions,
-                searchTerms.coherences,
+                searchTerms.phraseConstraints,
                 rankingContext);
 
         return new SearchResultItem(combinedId, docMetadata, htmlFeatures, score);
@@ -155,7 +155,7 @@ public class IndexResultScoreCalculator {
                                              int length,
                                              DocumentSpans spans,
                                              CodedSequence[] positions,
-                                             TermCoherenceGroupList coherences,
+                                             PhraseConstraintGroupList constraintGroups,
                                              ResultRankingContext ctx)
     {
         if (length < 0) {
@@ -192,7 +192,7 @@ public class IndexResultScoreCalculator {
 
         VerbatimMatches verbatimMatches = new VerbatimMatches();
 
-        float verbatimMatchScore = findVerbatimMatches(verbatimMatches, coherences, positions, spans);
+        float verbatimMatchScore = findVerbatimMatches(verbatimMatches, constraintGroups, positions, spans);
 
         float[] weightedCounts = new float[compiledQuery.size()];
         float keywordMinDistFac = 0;
@@ -373,19 +373,19 @@ public class IndexResultScoreCalculator {
     }
 
     private float findVerbatimMatches(VerbatimMatches verbatimMatches,
-                                      TermCoherenceGroupList coherences,
+                                      PhraseConstraintGroupList constraints,
                                       CodedSequence[] positions,
                                       DocumentSpans spans) {
 
         // Calculate a bonus for keyword coherences when large ones exist
-        int largestOptional = coherences.largestOptional();
+        int largestOptional = constraints.largestOptional();
         if (largestOptional < 2) {
             return 0;
         }
 
         float verbatimMatchScore = 0.f;
 
-        for (var optionalGroup : coherences.getOptionalGroups()) {
+        for (var optionalGroup : constraints.getOptionalGroups()) {
             int groupSize = optionalGroup.size;
             float sizeScalingFactor = groupSize / (float) largestOptional;
 
@@ -400,8 +400,8 @@ public class IndexResultScoreCalculator {
             }
         }
 
-        if (coherences.numOptional() > 0) {
-            verbatimMatchScore += (float) Math.pow(coherences.countOptional(positions) / (double) coherences.numOptional(), 2);
+        if (constraints.numOptional() > 0) {
+            verbatimMatchScore += (float) Math.pow(constraints.countOptional(positions) / (double) constraints.numOptional(), 2);
         }
 
         return verbatimMatchScore;
diff --git a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
similarity index 63%
rename from code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
rename to code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 71b4aeb1..cdd7820f 100644
--- a/code/index/java/nu/marginalia/index/results/model/TermCoherenceGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -1,7 +1,6 @@
 package nu.marginalia.index.results.model;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
-import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
 import nu.marginalia.index.forward.spans.DocumentSpan;
 import nu.marginalia.index.model.SearchTermsUtil;
 import nu.marginalia.index.results.model.ids.TermIdList;
@@ -16,28 +15,32 @@ import java.util.List;
 /**
  * wordIds that we require to be in the same sentence
  */
-public class TermCoherenceGroupList {
-    List<TermCoherenceGroup> mandatoryGroups = new ArrayList<>();
-    List<TermCoherenceGroup> optionalGroups = new ArrayList<>();
+public class PhraseConstraintGroupList {
+    List<PhraseConstraintGroup> mandatoryGroups = new ArrayList<>();
+    List<PhraseConstraintGroup> optionalGroups = new ArrayList<>();
+    PhraseConstraintGroup fullGroup;
 
-    public TermCoherenceGroupList(List<TermCoherenceGroup> groups) {
-        for (var group : groups) {
-            if (group.mandatory) {
-                mandatoryGroups.add(group);
-            } else {
-                optionalGroups.add(group);
-            }
-        }
+    public PhraseConstraintGroupList(
+            PhraseConstraintGroup fullGroup,
+            List<PhraseConstraintGroup> mandatoryGroups,
+            List<PhraseConstraintGroup> optionalGroups) {
+        this.mandatoryGroups.addAll(mandatoryGroups);
+        this.optionalGroups.addAll(optionalGroups);
+        this.fullGroup = fullGroup;
     }
 
-    public List<TermCoherenceGroup> getOptionalGroups() {
+    public List<PhraseConstraintGroup> getOptionalGroups() {
         return Collections.unmodifiableList(optionalGroups);
     }
 
+    public PhraseConstraintGroup getFullGroup() {
+        return fullGroup;
+    }
+
     public boolean testMandatory(CodedSequence[] positions) {
 
-        for (var coherenceSet : mandatoryGroups) {
-            if (!coherenceSet.test(positions)) {
+        for (var constraint : mandatoryGroups) {
+            if (!constraint.test(positions)) {
                 return false;
             }
         }
@@ -48,9 +51,9 @@ public class TermCoherenceGroupList {
     public int testOptional(CodedSequence[] positions) {
 
         int best = 0;
-        for (var coherenceSet : optionalGroups) {
-            if (coherenceSet.test(positions)) {
-                best = Math.max(coherenceSet.size, best);
+        for (var constraint : optionalGroups) {
+            if (constraint.test(positions)) {
+                best = Math.max(constraint.size, best);
             }
         }
         return best;
@@ -59,8 +62,8 @@ public class TermCoherenceGroupList {
     public int countOptional(CodedSequence[] positions) {
 
         int ct = 0;
-        for (var coherenceSet : optionalGroups) {
-            if (coherenceSet.test(positions)) {
+        for (var constraint : optionalGroups) {
+            if (constraint.test(positions)) {
                 ct++;
             }
         }
@@ -70,17 +73,17 @@ public class TermCoherenceGroupList {
     public int testOptional(CodedSequence[] positions, DocumentSpan span) {
 
         int best = 0;
-        for (var coherenceSet : optionalGroups) {
-            if (coherenceSet.test(span, positions)) {
-                best = Math.max(coherenceSet.size, best);
+        for (var constraint : optionalGroups) {
+            if (constraint.test(span, positions)) {
+                best = Math.max(constraint.size, best);
             }
         }
         return best;
     }
 
     public boolean allOptionalInSpan(CodedSequence[] positions, DocumentSpan span) {
-        for (var coherenceSet : optionalGroups) {
-            if (!coherenceSet.test(span, positions)) {
+        for (var constraint : optionalGroups) {
+            if (!constraint.test(span, positions)) {
                 return false;
             }
         }
@@ -91,36 +94,48 @@ public class TermCoherenceGroupList {
         return optionalGroups.size();
     }
     public int largestOptional() {
-        int best = 0;
-        for (var coherenceSet : optionalGroups) {
-            best = Math.max(coherenceSet.size, best);
-        }
-        return best;
+        return fullGroup.size;
     }
 
 
-    public static final class TermCoherenceGroup {
+    public static final class PhraseConstraintGroup {
         private final int[] offsets;
         private final BitSet present;
+        private final BitSet termIdsMask;
 
         public final int size;
-        public final boolean mandatory;
-        public TermCoherenceGroup(SearchCoherenceConstraint cons, TermIdList termIdsAll) {
-            offsets = new int[cons.size()];
-            present = new BitSet(cons.size());
-            mandatory = cons.mandatory();
-            size = cons.size();
+        public PhraseConstraintGroup(List<String> terms, TermIdList termIdsAll) {
+            offsets = new int[terms.size()];
+            present = new BitSet(terms.size());
+            size = terms.size();
+
+            termIdsMask = new BitSet(termIdsAll.size());
 
             int i = 0;
-            for (String term : cons.terms()) {
-                if (!term.isEmpty()) {
-                    present.set(i);
-                    long termId = SearchTermsUtil.getWordId(term);
-                    offsets[i++] = termIdsAll.indexOf(termId);
+            for (String term : terms) {
+                if (term.isEmpty()) {
+                    continue;
+                }
+
+                present.set(i);
+                long termId = SearchTermsUtil.getWordId(term);
+
+                int idx = termIdsAll.indexOf(termId);
+                if (idx < 0) {
+                    offsets[i++] = -1;
+                }
+                else {
+                    offsets[i++] = idx;
+                    termIdsMask.set(idx);
                 }
             }
         }
 
+        /** Returns true if the term with index termIdx in the query is in the group */
+        public boolean containsTerm(int termIdx) {
+            return termIdsMask.get(termIdx);
+        }
+
         public boolean test(CodedSequence[] positions) {
             IntIterator[] sequences = new IntIterator[present.cardinality()];
 
diff --git a/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java b/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java
index d72e0ea9..d41ea5e3 100644
--- a/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java
+++ b/code/index/java/nu/marginalia/index/results/model/QuerySearchTerms.java
@@ -7,14 +7,14 @@ public class QuerySearchTerms {
     private final TObjectLongHashMap<String> termToId;
     public final TermIdList termIdsAll;
 
-    public final TermCoherenceGroupList coherences;
+    public final PhraseConstraintGroupList phraseConstraints;
 
     public QuerySearchTerms(TObjectLongHashMap<String> termToId,
                             TermIdList termIdsAll,
-                            TermCoherenceGroupList coherences) {
+                            PhraseConstraintGroupList phraseConstraints) {
         this.termToId = termToId;
         this.termIdsAll = termIdsAll;
-        this.coherences = coherences;
+        this.phraseConstraints = phraseConstraints;
     }
 
     public long getIdForTerm(String searchTerm) {
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 569b7937..0aa943bb 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -4,7 +4,7 @@ import com.google.inject.Guice;
 import com.google.inject.Inject;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.IndexLocations;
-import nu.marginalia.api.searchquery.model.query.SearchCoherenceConstraint;
+import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -175,7 +175,7 @@ public class IndexQueryServiceIntegrationTest {
                                 List.of(),
                                 List.of(),
                                 List.of(),
-                                List.of(SearchCoherenceConstraint.mandatory(List.of("missing", "hello")))
+                                List.of(SearchPhraseConstraint.mandatory(List.of("missing", "hello")))
                         )));
 
         executeSearch(queryMissingCoherence)
@@ -443,7 +443,7 @@ public class IndexQueryServiceIntegrationTest {
                 List.of(),
                 List.of(),
                 List.of(),
-                List.of(SearchCoherenceConstraint.mandatory(List.of(includes)))
+                List.of(SearchPhraseConstraint.mandatory(List.of(includes)))
         );
     }
     private MockDataDocument d(int domainId, int ordinal) {
diff --git a/code/services-core/query-service/resources/templates/qdebug.hdb b/code/services-core/query-service/resources/templates/qdebug.hdb
index 9185b27e..b6da4e5c 100644
--- a/code/services-core/query-service/resources/templates/qdebug.hdb
+++ b/code/services-core/query-service/resources/templates/qdebug.hdb
@@ -79,9 +79,9 @@
 <tr> <th title="terms that must be present">Search Terms Exclude</th><td>{{#each specs.query.searchTermsExclude}} {{.}} {{/each}}</td> </tr>
 <tr> <th title="mandatory terms, no effect on ranking">Search Terms Advice</th><td>{{#each specs.query.searchTermsAdvice}} {{.}} {{/each}}</td> </tr>
 <tr> <th title="not mandatory, effects ranking">Search Terms Priority</th><td>{{#each specs.query.searchTermsPriority}} {{.}} {{/each}}</td> </tr>
-{{#each specs.query.searchTermCoherences}}
+{{#each specs.query.phraseConstraints}}
 <tr>
-    <th title="terms must appear close by">Coherence Requirement</th>
+    <th title="terms must appear close by">Phrase Constraints</th>
     <td>
         {{#each .}}
         {{.}}

From 0a383a712dc83c0ea6bd5a3b5a7378b7392de10c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 11:44:17 +0200
Subject: [PATCH 147/216] (qdebug) Accurately display positions when
 intersecting with spans

---
 .../marginalia/model/idx/CodedWordSpan.java   | 26 ----------
 .../index/forward/spans/DocumentSpan.java     | 49 ++++++++++++++++---
 .../index/forward/spans/DocumentSpans.java    |  2 +-
 .../model/DocumentKeywordsBuilder.java        | 14 +++++-
 .../test/nu/marginalia/IntegrationTest.java   |  4 +-
 5 files changed, 60 insertions(+), 35 deletions(-)

diff --git a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
index 484636a9..7dd25cec 100644
--- a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
+++ b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
@@ -2,31 +2,5 @@ package nu.marginalia.model.idx;
 
 import nu.marginalia.sequence.GammaCodedSequence;
 
-import java.util.List;
-
 public record CodedWordSpan(byte code, GammaCodedSequence spans) {
-    public static SplitSpansList fromSplit(String codes, List<GammaCodedSequence> spans) {
-        return new SplitSpansList(codes, spans);
-    }
-    public static SplitSpansList split(List<CodedWordSpan> spanList) {
-        return new SplitSpansList(
-                spanList.stream()
-                    .map(CodedWordSpan::code)
-                    .collect(StringBuilder::new, StringBuilder::append, StringBuilder::append).toString(),
-                spanList.stream()
-                        .map(CodedWordSpan::spans)
-                        .toList()
-            );
-    }
-
-    public record SplitSpansList(String codes, List<GammaCodedSequence> spans) {
-        public List<CodedWordSpan> unite() {
-            if (null == codes) {
-                return List.of();
-            }
-            else {
-                return codes.chars().mapToObj(c -> new CodedWordSpan((byte) c, spans.get(codes.indexOf(c)))).toList();
-            }
-        }
-    }
 }
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index b2a4def4..6ca8584c 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -3,7 +3,6 @@ package nu.marginalia.index.forward.spans;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.SequenceOperations;
 
 public class DocumentSpan {
 
@@ -58,17 +57,55 @@ public class DocumentSpan {
         return false;
     }
 
-    public boolean overlapsRange(CodedSequence sequence) {
-        return SequenceOperations.intersectSequences(iterator(), sequence.iterator());
-    }
-
     /** Returns an iterator over the start and end positions of each span in the document of this type */
     public IntIterator iterator() {
         if (null == startsEnds) {
             return IntList.of().iterator();
         }
 
-        return startsEnds.iterator();
+        return new DocumentSpanPositionsIterator();
+    }
+
+    /** Iteator over the values between the start and end positions of each span in the document of this type */
+    class DocumentSpanPositionsIterator implements IntIterator {
+        private final IntIterator startStopIterator;
+
+        private int value = -1;
+        private int current = -1;
+        private int end = -1;
+
+        public DocumentSpanPositionsIterator() {
+            this.startStopIterator = startsEnds.iterator();
+        }
+
+        @Override
+        public int nextInt() {
+            if (hasNext()) {
+                int ret = value;
+                value = -1;
+                return ret;
+            }
+            throw new IllegalStateException();
+        }
+
+        @Override
+        public boolean hasNext() {
+            if (value >= 0) {
+                return true;
+            }
+            else if (current >= 0 && current < end) {
+                value = ++current;
+                return true;
+            }
+            else if (startStopIterator.hasNext()) {
+                current = startStopIterator.nextInt();
+                end = startStopIterator.nextInt();
+                value = current;
+                return true;
+            }
+
+            return false;
+        }
     }
 
     public int length() {
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
index d3646faf..56bb51e9 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -4,7 +4,7 @@ import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.sequence.CodedSequence;
 
 public class DocumentSpans {
-    private static DocumentSpan EMPTY_SPAN = new DocumentSpan();
+    private static final DocumentSpan EMPTY_SPAN = new DocumentSpan();
 
     public DocumentSpan title = EMPTY_SPAN;
     public DocumentSpan heading = EMPTY_SPAN;
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 699cf096..1f3629e9 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -142,7 +142,19 @@ public class DocumentKeywordsBuilder {
         StringBuilder sb = new StringBuilder("[ ");
 
         wordToMeta.forEach((word, meta) -> {
-            sb.append(word).append("->").append(WordFlags.decode(meta)).append(',').append(wordToPos.getOrDefault(word, new IntArrayList())).append(' ');
+            sb.append(word)
+                    .append("->")
+                    .append(WordFlags.decode(meta))
+                    .append(',')
+                    .append(wordToPos.getOrDefault(word, new IntArrayList()))
+                    .append(' ');
+        });
+
+        wordSpans.forEach((tag, spans) -> {
+            sb.append(tag)
+                    .append("->")
+                    .append(spans)
+                    .append(' ');
         });
         return sb.append(']').toString();
     }
diff --git a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
index 820525b9..7fbcdefc 100644
--- a/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
+++ b/code/tools/integration-test/test/nu/marginalia/IntegrationTest.java
@@ -209,7 +209,9 @@ public class IntegrationTest {
 
         var params = QueryProtobufCodec.convertRequest(request);
 
-        var query = queryFactory.createQuery(params, ResultRankingParameters.sensibleDefaults());
+        var p = ResultRankingParameters.sensibleDefaults();
+        p.exportDebugData = true;
+        var query = queryFactory.createQuery(params, p);
 
 
         var indexRequest = QueryProtobufCodec.convertQuery(request, query);

From 93652e093767306b1ccd6ce291cfa397db95dc83 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 15 Aug 2024 11:55:48 +0200
Subject: [PATCH 148/216] (qdebug) Accurately display positions when
 intersecting with spans

---
 .../java/nu/marginalia/index/forward/spans/DocumentSpan.java    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 6ca8584c..771ae422 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -57,7 +57,7 @@ public class DocumentSpan {
         return false;
     }
 
-    /** Returns an iterator over the start and end positions of each span in the document of this type */
+    /** Returns an iterator over each position between the start and end positions of each span in the document of this type */
     public IntIterator iterator() {
         if (null == startsEnds) {
             return IntList.of().iterator();

From bca40de10764ed01e8cbcbc1690353d139149762 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 18 Aug 2024 10:43:41 +0200
Subject: [PATCH 149/216] (*) Upgrade slop library

---
 .../sequence/slop/GammaCodedSequenceArrayColumn.java       | 7 ++++---
 .../marginalia/sequence/slop/GammaCodedSequenceColumn.java | 7 ++++---
 settings.gradle                                            | 2 +-
 3 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
index 925f6c31..ba31564e 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceArrayColumn.java
@@ -10,6 +10,7 @@ import nu.marginalia.slop.desc.ColumnFunction;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
+import java.net.URI;
 import java.nio.ByteBuffer;
 import java.nio.ByteOrder;
 import java.nio.file.Path;
@@ -44,10 +45,10 @@ public class GammaCodedSequenceArrayColumn extends AbstractObjectColumn<List<Gam
         );
     }
 
-    public Reader openUnregistered(Path path, int page) throws IOException {
+    public Reader openUnregistered(URI uri, int page) throws IOException {
         return new Reader(
-                dataColumn.openUnregistered(path, page),
-                groupsColumn.openUnregistered(path, page)
+                dataColumn.openUnregistered(uri, page),
+                groupsColumn.openUnregistered(uri, page)
         );
     }
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
index 548ef9aa..b94180ca 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/GammaCodedSequenceColumn.java
@@ -13,6 +13,7 @@ import nu.marginalia.slop.storage.StorageReader;
 import nu.marginalia.slop.storage.StorageWriter;
 
 import java.io.IOException;
+import java.net.URI;
 import java.nio.ByteBuffer;
 import java.nio.ByteOrder;
 import java.nio.file.Path;
@@ -43,10 +44,10 @@ public class GammaCodedSequenceColumn extends AbstractObjectColumn<GammaCodedSeq
         );
     }
 
-    public Reader openUnregistered(Path path, int page) throws IOException {
+    public Reader openUnregistered(URI uri, int page) throws IOException {
         return new Reader(
-                Storage.reader(path, this, page, false),
-                indexColumn.openUnregistered(path, page)
+                Storage.reader(uri, this, page, false),
+                indexColumn.openUnregistered(uri, page)
         );
     }
 
diff --git a/settings.gradle b/settings.gradle
index 762e0df7..015cd688 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -226,7 +226,7 @@ dependencyResolutionManagement {
             library('jetty-util','org.eclipse.jetty','jetty-util').version('9.4.54.v20240208')
             library('jetty-servlet','org.eclipse.jetty','jetty-servlet').version('9.4.54.v20240208')
 
-            library('slop', 'nu.marginalia', 'slop').version('0.0.3-SNAPSHOT')
+            library('slop', 'nu.marginalia', 'slop').version('0.0.4-SNAPSHOT')
 
             bundle('jetty', ['jetty-server', 'jetty-util', 'jetty-servlet'])
 

From b0a874a84247b57e94526bcf54aa101fd48dca03 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 18 Aug 2024 11:05:27 +0200
Subject: [PATCH 150/216] (*) Upgrade slop library -> 0.0.5

---
 .../construction/ForwardIndexConverter.java   |  4 +-
 .../index/journal/IndexJournalPage.java       | 18 ++--
 .../index/journal/IndexJournalSlopWriter.java | 20 ++---
 .../full/FullPreindexDocuments.java           | 12 +--
 .../full/FullPreindexWordSegments.java        |  6 +-
 .../prio/PrioPreindexDocuments.java           | 10 +--
 .../prio/PrioPreindexWordSegments.java        |  8 +-
 .../model/processed/SlopDocumentRecord.java   | 86 +++++++++----------
 .../model/processed/SlopDomainLinkRecord.java | 12 +--
 .../model/processed/SlopDomainRecord.java     | 46 +++++-----
 settings.gradle                               |  2 +-
 11 files changed, 112 insertions(+), 112 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
index 40edf4aa..f58ac876 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
@@ -86,7 +86,7 @@ public class ForwardIndexConverter {
 
             ByteBuffer workArea = ByteBuffer.allocate(65536);
             for (var instance : journal.pages()) {
-                try (var slopTable = new SlopTable(instance.page()))
+                try (var slopTable = new SlopTable(instance.baseDir(), instance.page()))
                 {
                     var docIdReader = instance.openCombinedId(slopTable);
                     var metaReader = instance.openDocumentMeta(slopTable);
@@ -152,7 +152,7 @@ public class ForwardIndexConverter {
         Roaring64Bitmap rbm = new Roaring64Bitmap();
 
         for (var instance : journalReader.pages()) {
-            try (var slopTable = new SlopTable(instance.page())) {
+            try (var slopTable = new SlopTable(instance.baseDir(), instance.page())) {
                 LongColumn.Reader idReader = instance.openCombinedId(slopTable);
 
                 while (idReader.hasRemaining()) {
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index 173c6f8d..cb1bbf4d 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -31,39 +31,39 @@ public record IndexJournalPage(Path baseDir, int page) {
     }
 
     public LongColumn.Reader openCombinedId(SlopTable table) throws IOException {
-        return combinedId.open(table, baseDir);
+        return combinedId.open(table);
     }
 
     public LongColumn.Reader openDocumentMeta(SlopTable table) throws IOException {
-        return documentMeta.open(table, baseDir);
+        return documentMeta.open(table);
     }
 
     public IntColumn.Reader openFeatures(SlopTable table) throws IOException {
-        return features.open(table, baseDir);
+        return features.open(table);
     }
 
     public IntColumn.Reader openSize(SlopTable table) throws IOException {
-        return size.open(table, baseDir);
+        return size.open(table);
     }
 
 
     public LongArrayColumn.Reader openTermIds(SlopTable table) throws IOException {
-        return termIds.open(table, baseDir);
+        return termIds.open(table);
     }
 
     public ByteArrayColumn.Reader openTermMetadata(SlopTable table) throws IOException {
-        return termMeta.open(table, baseDir);
+        return termMeta.open(table);
     }
 
     public GammaCodedSequenceArrayColumn.Reader openTermPositions(SlopTable table) throws IOException {
-        return positions.open(table, baseDir);
+        return positions.open(table);
     }
 
     public GammaCodedSequenceArrayColumn.Reader openSpans(SlopTable table) throws IOException {
-        return spans.open(table, baseDir);
+        return spans.open(table);
     }
 
     public ByteArrayColumn.Reader openSpanCodes(SlopTable table) throws IOException {
-        return spanCodes.open(table, baseDir);
+        return spanCodes.open(table);
     }
 }
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index a62001e0..c04fab0d 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -33,24 +33,24 @@ public class IndexJournalSlopWriter extends SlopTable {
 
     public IndexJournalSlopWriter(Path dir, int page) throws IOException {
 
-        super(page);
+        super(dir, page);
 
         if (!Files.exists(dir)) {
             Files.createDirectory(dir);
         }
 
-        featuresWriter = IndexJournalPage.features.create(this, dir);
-        sizeWriter = IndexJournalPage.size.create(this, dir);
+        featuresWriter = IndexJournalPage.features.create(this);
+        sizeWriter = IndexJournalPage.size.create(this);
 
-        combinedIdWriter = IndexJournalPage.combinedId.create(this, dir);
-        documentMetaWriter = IndexJournalPage.documentMeta.create(this, dir);
+        combinedIdWriter = IndexJournalPage.combinedId.create(this);
+        documentMetaWriter = IndexJournalPage.documentMeta.create(this);
 
-        termIdsWriter = IndexJournalPage.termIds.create(this, dir);
-        termMetadataWriter = IndexJournalPage.termMeta.create(this, dir);
-        termPositionsWriter = IndexJournalPage.positions.create(this, dir);
+        termIdsWriter = IndexJournalPage.termIds.create(this);
+        termMetadataWriter = IndexJournalPage.termMeta.create(this);
+        termPositionsWriter = IndexJournalPage.positions.create(this);
 
-        spanCodesWriter = IndexJournalPage.spanCodes.create(this, dir);
-        spansWriter = IndexJournalPage.spans.create(this, dir);
+        spanCodesWriter = IndexJournalPage.spanCodes.create(this);
+        spansWriter = IndexJournalPage.spans.create(this);
     }
 
     @SneakyThrows
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
index 09ffd54a..02055c7f 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexDocuments.java
@@ -68,7 +68,7 @@ public class FullPreindexDocuments {
 
     private static void createUnsortedDocsFile(Path docsFile,
                                                Path workDir,
-                                               IndexJournalPage journalInstance,
+                                               IndexJournalPage instance,
                                                FullPreindexWordSegments segments,
                                                DocIdRewriter docIdRewriter) throws IOException {
 
@@ -77,12 +77,12 @@ public class FullPreindexDocuments {
         final ByteBuffer tempBuffer = ByteBuffer.allocate(1024*1024*100);
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var slopTable = new SlopTable(journalInstance.page()))
+             var slopTable = new SlopTable(instance.baseDir(), instance.page()))
         {
-            var docIds = journalInstance.openCombinedId(slopTable);
-            var termIds = journalInstance.openTermIds(slopTable);
-            var termMeta = journalInstance.openTermMetadata(slopTable);
-            var positions = journalInstance.openTermPositions(slopTable);
+            var docIds = instance.openCombinedId(slopTable);
+            var termIds = instance.openTermIds(slopTable);
+            var termMeta = instance.openTermMetadata(slopTable);
+            var positions = instance.openTermPositions(slopTable);
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
index bddbba7c..0a4e39a7 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindexWordSegments.java
@@ -52,7 +52,7 @@ public class FullPreindexWordSegments {
         return ret;
     }
 
-    public static FullPreindexWordSegments construct(IndexJournalPage journalInstance,
+    public static FullPreindexWordSegments construct(IndexJournalPage instance,
                                                      Path wordIdsFile,
                                                      Path countsFile)
     throws IOException
@@ -60,8 +60,8 @@ public class FullPreindexWordSegments {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
 
-        try (var slopTable = new SlopTable(journalInstance.page())) {
-            var termIds = journalInstance.openTermIds(slopTable);
+        try (var slopTable = new SlopTable(instance.baseDir(), instance.page())) {
+            var termIds = instance.openTermIds(slopTable);
             while (termIds.hasRemaining()) {
                 long[] tids = termIds.get();
                 for (long termId : tids) {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
index 93134e87..d9290e14 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexDocuments.java
@@ -58,18 +58,18 @@ public class PrioPreindexDocuments {
 
     private static void createUnsortedDocsFile(Path docsFile,
                                                Path workDir,
-                                               IndexJournalPage journalInstance,
+                                               IndexJournalPage instance,
                                                PrioPreindexWordSegments segments,
                                                DocIdRewriter docIdRewriter) throws IOException {
 
         long fileSizeLongs = RECORD_SIZE_LONGS * segments.totalSize();
 
         try (var assembly = RandomFileAssembler.create(workDir, fileSizeLongs);
-             var slopTable = new SlopTable(journalInstance.page()))
+             var slopTable = new SlopTable(instance.baseDir(), instance.page()))
         {
-            var docIds = journalInstance.openCombinedId(slopTable);
-            var termIds = journalInstance.openTermIds(slopTable);
-            var termMeta = journalInstance.openTermMetadata(slopTable);
+            var docIds = instance.openCombinedId(slopTable);
+            var termIds = instance.openTermIds(slopTable);
+            var termMeta = instance.openTermMetadata(slopTable);
 
             var offsetMap = segments.asMap(RECORD_SIZE_LONGS);
             offsetMap.defaultReturnValue(0);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
index 8814a434..69c5ea61 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindexWordSegments.java
@@ -52,7 +52,7 @@ public class PrioPreindexWordSegments {
         return ret;
     }
 
-    public static PrioPreindexWordSegments construct(IndexJournalPage journalInstance,
+    public static PrioPreindexWordSegments construct(IndexJournalPage instance,
                                                      Path wordIdsFile,
                                                      Path countsFile)
     throws IOException
@@ -60,9 +60,9 @@ public class PrioPreindexWordSegments {
         Long2IntOpenHashMap countsMap = new Long2IntOpenHashMap(100_000, 0.75f);
         countsMap.defaultReturnValue(0);
 
-        try (var slopTable = new SlopTable(journalInstance.page())) {
-            var termIds = journalInstance.openTermIds(slopTable);
-            var termMetas = journalInstance.openTermMetadata(slopTable);
+        try (var slopTable = new SlopTable(instance.baseDir(), instance.page())) {
+            var termIds = instance.openTermIds(slopTable);
+            var termMetas = instance.openTermMetadata(slopTable);
 
             while (termIds.hasRemaining()) {
                 long[] data = termIds.get();
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 6e03976c..4c6b62dd 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -153,19 +153,19 @@ public record SlopDocumentRecord(
         }
 
         public KeywordsProjectionReader(Path baseDir, int page) throws IOException {
-            super(page);
-            domainsReader = domainsColumn.open(this, baseDir);
-            ordinalsReader = ordinalsColumn.open(this, baseDir);
-            htmlFeaturesReader = htmlFeaturesColumn.open(this, baseDir);
-            domainMetadataReader = domainMetadata.open(this, baseDir);
-            lengthsReader = lengthsColumn.open(this, baseDir);
+            super(baseDir, page);
+            domainsReader = domainsColumn.open(this);
+            ordinalsReader = ordinalsColumn.open(this);
+            htmlFeaturesReader = htmlFeaturesColumn.open(this);
+            domainMetadataReader = domainMetadata.open(this);
+            lengthsReader = lengthsColumn.open(this);
 
-            keywordsReader = keywordsColumn.open(this, baseDir);
-            termMetaReader = termMetaColumn.open(this, baseDir);
-            termPositionsReader = termPositionsColumn.open(this, baseDir);
+            keywordsReader = keywordsColumn.open(this);
+            termMetaReader = termMetaColumn.open(this);
+            termPositionsReader = termPositionsColumn.open(this);
 
-            spanCodesReader = spanCodesColumn.open(this, baseDir);
-            spansReader = spansColumn.open(this, baseDir);
+            spanCodesReader = spanCodesColumn.open(this);
+            spansReader = spansColumn.open(this);
         }
 
         public boolean hasMore() throws IOException {
@@ -221,19 +221,19 @@ public record SlopDocumentRecord(
         }
 
         public MetadataReader(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            this.domainsReader = domainsColumn.open(this, baseDir);
-            this.urlsReader = urlsColumn.open(this, baseDir);
-            this.ordinalsReader = ordinalsColumn.open(this, baseDir);
-            this.titlesReader = titlesColumn.open(this, baseDir);
-            this.descriptionsReader = descriptionsColumn.open(this, baseDir);
-            this.htmlFeaturesReader = htmlFeaturesColumn.open(this, baseDir);
-            this.htmlStandardsReader = htmlStandardsColumn.open(this, baseDir);
-            this.lengthsReader = lengthsColumn.open(this, baseDir);
-            this.hashesReader = hashesColumn.open(this, baseDir);
-            this.qualitiesReader = qualitiesColumn.open(this, baseDir);
-            this.pubYearReader = pubYearColumn.open(this, baseDir);
+            this.domainsReader = domainsColumn.open(this);
+            this.urlsReader = urlsColumn.open(this);
+            this.ordinalsReader = ordinalsColumn.open(this);
+            this.titlesReader = titlesColumn.open(this);
+            this.descriptionsReader = descriptionsColumn.open(this);
+            this.htmlFeaturesReader = htmlFeaturesColumn.open(this);
+            this.htmlStandardsReader = htmlStandardsColumn.open(this);
+            this.lengthsReader = lengthsColumn.open(this);
+            this.hashesReader = hashesColumn.open(this);
+            this.qualitiesReader = qualitiesColumn.open(this);
+            this.pubYearReader = pubYearColumn.open(this);
         }
 
         public boolean hasMore() throws IOException {
@@ -281,29 +281,29 @@ public record SlopDocumentRecord(
         private final GammaCodedSequenceArrayColumn.Writer spansWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            domainsWriter = domainsColumn.create(this, baseDir);
-            urlsWriter = urlsColumn.create(this, baseDir);
-            ordinalsWriter = ordinalsColumn.create(this, baseDir);
-            statesWriter = statesColumn.create(this, baseDir);
-            stateReasonsWriter = stateReasonsColumn.create(this, baseDir);
-            titlesWriter = titlesColumn.create(this, baseDir);
-            descriptionsWriter = descriptionsColumn.create(this, baseDir);
-            htmlFeaturesWriter = htmlFeaturesColumn.create(this, baseDir);
-            htmlStandardsWriter = htmlStandardsColumn.create(this, baseDir);
-            lengthsWriter = lengthsColumn.create(this, baseDir);
-            hashesWriter = hashesColumn.create(this, baseDir);
-            qualitiesWriter = qualitiesColumn.create(this, baseDir);
-            domainMetadataWriter = domainMetadata.create(this, baseDir);
-            pubYearWriter = pubYearColumn.create(this, baseDir);
+            domainsWriter = domainsColumn.create(this);
+            urlsWriter = urlsColumn.create(this);
+            ordinalsWriter = ordinalsColumn.create(this);
+            statesWriter = statesColumn.create(this);
+            stateReasonsWriter = stateReasonsColumn.create(this);
+            titlesWriter = titlesColumn.create(this);
+            descriptionsWriter = descriptionsColumn.create(this);
+            htmlFeaturesWriter = htmlFeaturesColumn.create(this);
+            htmlStandardsWriter = htmlStandardsColumn.create(this);
+            lengthsWriter = lengthsColumn.create(this);
+            hashesWriter = hashesColumn.create(this);
+            qualitiesWriter = qualitiesColumn.create(this);
+            domainMetadataWriter = domainMetadata.create(this);
+            pubYearWriter = pubYearColumn.create(this);
 
-            keywordsWriter = keywordsColumn.create(this, baseDir);
-            termMetaWriter = termMetaColumn.create(this, baseDir);
-            termPositionsWriter = termPositionsColumn.create(this, baseDir);
+            keywordsWriter = keywordsColumn.create(this);
+            termMetaWriter = termMetaColumn.create(this);
+            termPositionsWriter = termPositionsColumn.create(this);
 
-            spansCodesWriter = spanCodesColumn.create(this, baseDir);
-            spansWriter = spansColumn.create(this, baseDir);
+            spansCodesWriter = spanCodesColumn.create(this);
+            spansWriter = spansColumn.create(this);
         }
 
         public void write(SlopDocumentRecord record) throws IOException {
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index db318ae6..6d1bcd03 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -28,10 +28,10 @@ public record SlopDomainLinkRecord(
         }
 
         public Reader(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            sourcesReader = sourcesColumn.open(this, baseDir);
-            destsReader = destsColumn.open(this, baseDir);
+            sourcesReader = sourcesColumn.open(this);
+            destsReader = destsColumn.open(this);
         }
 
         public boolean hasMore() throws IOException {
@@ -58,10 +58,10 @@ public record SlopDomainLinkRecord(
         private final TxtStringColumn.Writer destsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            sourcesWriter = sourcesColumn.create(this, baseDir);
-            destsWriter = destsColumn.create(this, baseDir);
+            sourcesWriter = sourcesColumn.create(this);
+            destsWriter = destsColumn.create(this);
         }
 
         public void write(SlopDomainLinkRecord record) throws IOException {
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index f0345df1..6cb924f2 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -48,9 +48,9 @@ public record SlopDomainRecord(
         }
 
         public DomainNameReader(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            domainsReader = domainsColumn.open(this, baseDir);
+            domainsReader = domainsColumn.open(this);
         }
 
         public boolean hasMore() throws IOException {
@@ -71,10 +71,10 @@ public record SlopDomainRecord(
         }
 
         public DomainWithIpReader(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            domainsReader = domainsColumn.open(this, baseDir);
-            ipReader = ipColumn.open(this, baseDir);
+            domainsReader = domainsColumn.open(this);
+            ipReader = ipColumn.open(this);
         }
 
         public boolean hasMore() throws IOException {
@@ -107,18 +107,18 @@ public record SlopDomainRecord(
         }
 
         public Reader(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            domainsReader = domainsColumn.open(this, baseDir);
-            statesReader = statesColumn.open(this, baseDir);
-            redirectReader = redirectDomainsColumn.open(this, baseDir);
-            ipReader = ipColumn.open(this, baseDir);
+            domainsReader = domainsColumn.open(this);
+            statesReader = statesColumn.open(this);
+            redirectReader = redirectDomainsColumn.open(this);
+            ipReader = ipColumn.open(this);
 
-            knownUrlsReader = knownUrlsColumn.open(this, baseDir);
-            goodUrlsReader = goodUrlsColumn.open(this, baseDir);
-            visitedUrlsReader = visitedUrlsColumn.open(this, baseDir);
+            knownUrlsReader = knownUrlsColumn.open(this);
+            goodUrlsReader = goodUrlsColumn.open(this);
+            visitedUrlsReader = visitedUrlsColumn.open(this);
 
-            rssFeedsReader = rssFeedsColumn.open(this, baseDir);
+            rssFeedsReader = rssFeedsColumn.open(this);
         }
 
         public boolean hasMore() throws IOException {
@@ -158,18 +158,18 @@ public record SlopDomainRecord(
         private final ObjectArrayColumn<String>.Writer rssFeedsWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
-            super(page);
+            super(baseDir, page);
 
-            domainsWriter = domainsColumn.create(this, baseDir);
-            statesWriter = statesColumn.create(this, baseDir);
-            redirectWriter = redirectDomainsColumn.create(this, baseDir);
-            ipWriter = ipColumn.create(this, baseDir);
+            domainsWriter = domainsColumn.create(this);
+            statesWriter = statesColumn.create(this);
+            redirectWriter = redirectDomainsColumn.create(this);
+            ipWriter = ipColumn.create(this);
 
-            knownUrlsWriter = knownUrlsColumn.create(this, baseDir);
-            goodUrlsWriter = goodUrlsColumn.create(this, baseDir);
-            visitedUrlsWriter = visitedUrlsColumn.create(this, baseDir);
+            knownUrlsWriter = knownUrlsColumn.create(this);
+            goodUrlsWriter = goodUrlsColumn.create(this);
+            visitedUrlsWriter = visitedUrlsColumn.create(this);
 
-            rssFeedsWriter = rssFeedsColumn.create(this, baseDir);
+            rssFeedsWriter = rssFeedsColumn.create(this);
         }
 
         public void write(SlopDomainRecord record) throws IOException {
diff --git a/settings.gradle b/settings.gradle
index 015cd688..ccd51ccb 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -226,7 +226,7 @@ dependencyResolutionManagement {
             library('jetty-util','org.eclipse.jetty','jetty-util').version('9.4.54.v20240208')
             library('jetty-servlet','org.eclipse.jetty','jetty-servlet').version('9.4.54.v20240208')
 
-            library('slop', 'nu.marginalia', 'slop').version('0.0.4-SNAPSHOT')
+            library('slop', 'nu.marginalia', 'slop').version('0.0.5-SNAPSHOT')
 
             bundle('jetty', ['jetty-server', 'jetty-util', 'jetty-servlet'])
 

From e4c97a91d82191e72e175e3465a6bf6e53dba42c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 21 Aug 2024 10:12:00 +0200
Subject: [PATCH 151/216] (*) Comment clarity

---
 code/libraries/easy-lsh/java/nu/marginalia/lsh/EasyLSH.java | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/libraries/easy-lsh/java/nu/marginalia/lsh/EasyLSH.java b/code/libraries/easy-lsh/java/nu/marginalia/lsh/EasyLSH.java
index f380e9c5..e2a6238f 100644
--- a/code/libraries/easy-lsh/java/nu/marginalia/lsh/EasyLSH.java
+++ b/code/libraries/easy-lsh/java/nu/marginalia/lsh/EasyLSH.java
@@ -3,7 +3,7 @@ package nu.marginalia.lsh;
 /** This is a very simple locality sensitive hash for collections of Java objects.
  * <p>
  * The resulting LSH is a 64 bit value, whose hamming distance is a measure
- * of the similarity of the two collections, where smaller similarities imply
+ * of the similarity of the two collections, where a smaller value implies
  * similarity.
  * <p>
  * It hinges on a lot of relatively sketchy assumptions about Object$hashCode().

From 266d6e4beabdc66aab5209740ee5c4cf48551d55 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 21 Aug 2024 10:13:49 +0200
Subject: [PATCH 152/216] (slop) Replace SlopPageRef<T> with SlopTable.Ref<T>

---
 .../model/processed/SlopDocumentRecord.java   | 20 +++++-------
 .../model/processed/SlopDomainLinkRecord.java | 12 +++----
 .../model/processed/SlopDomainRecord.java     | 32 +++++++++----------
 .../model/processed/SlopPageRef.java          |  6 ----
 .../processed/SlopDocumentRecordTest.java     |  3 +-
 .../marginalia/loading/LoaderInputData.java   | 23 +++++++------
 .../documents/DocumentLoaderService.java      |  4 +--
 .../documents/KeywordLoaderService.java       |  6 ++--
 .../loading/domains/DomainLoaderService.java  | 14 ++++----
 .../links/DomainLinksLoaderService.java       |  4 +--
 settings.gradle                               |  2 +-
 11 files changed, 60 insertions(+), 66 deletions(-)
 delete mode 100644 code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java

diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 4c6b62dd..1515ed9a 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -148,12 +148,8 @@ public record SlopDocumentRecord(
         private final ByteArrayColumn.Reader spanCodesReader;
         private final GammaCodedSequenceArrayColumn.Reader spansReader;
 
-        public KeywordsProjectionReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException {
-            this(pageRef.baseDir(), pageRef.page());
-        }
-
-        public KeywordsProjectionReader(Path baseDir, int page) throws IOException {
-            super(baseDir, page);
+        public KeywordsProjectionReader(SlopTable.Ref<SlopDocumentRecord> pageRef) throws IOException {
+            super(pageRef);
             domainsReader = domainsColumn.open(this);
             ordinalsReader = ordinalsColumn.open(this);
             htmlFeaturesReader = htmlFeaturesColumn.open(this);
@@ -216,12 +212,8 @@ public record SlopDocumentRecord(
         private final FloatColumn.Reader qualitiesReader;
         private final IntColumn.Reader pubYearReader;
 
-        public MetadataReader(SlopPageRef<SlopDocumentRecord> pageRef) throws IOException{
-            this(pageRef.baseDir(), pageRef.page());
-        }
-
-        public MetadataReader(Path baseDir, int page) throws IOException {
-            super(baseDir, page);
+        public MetadataReader(SlopTable.Ref<SlopDocumentRecord> pageRef) throws IOException{
+            super(pageRef);
 
             this.domainsReader = domainsColumn.open(this);
             this.urlsReader = urlsColumn.open(this);
@@ -236,6 +228,10 @@ public record SlopDocumentRecord(
             this.pubYearReader = pubYearColumn.open(this);
         }
 
+        public MetadataReader(Path baseDir, int page) throws IOException {
+            this(new Ref<>(baseDir, page));
+        }
+
         public boolean hasMore() throws IOException {
             return domainsReader.hasRemaining();
         }
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index 6d1bcd03..a2184fc1 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -23,17 +23,17 @@ public record SlopDomainLinkRecord(
         private final TxtStringColumn.Reader sourcesReader;
         private final TxtStringColumn.Reader destsReader;
 
-        public Reader(SlopPageRef<SlopDomainLinkRecord> page) throws IOException {
-            this(page.baseDir(), page.page());
-        }
-
-        public Reader(Path baseDir, int page) throws IOException {
-            super(baseDir, page);
+        public Reader(SlopTable.Ref<SlopDomainLinkRecord> ref) throws IOException {
+            super(ref);
 
             sourcesReader = sourcesColumn.open(this);
             destsReader = destsColumn.open(this);
         }
 
+        public Reader(Path baseDir, int page) throws IOException {
+            this(new Ref<>(baseDir, page));
+        }
+
         public boolean hasMore() throws IOException {
             return sourcesReader.hasRemaining();
         }
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index 6cb924f2..6b3d1395 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -43,12 +43,12 @@ public record SlopDomainRecord(
     public static class DomainNameReader extends SlopTable {
         private final TxtStringColumn.Reader domainsReader;
 
-        public DomainNameReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
-            this(page.baseDir(), page.page());
+        public DomainNameReader(Path baseDir, int page) throws IOException {
+            this(new Ref<>(baseDir, page));
         }
 
-        public DomainNameReader(Path baseDir, int page) throws IOException {
-            super(baseDir, page);
+        public DomainNameReader(SlopTable.Ref<SlopDomainRecord> ref) throws IOException {
+            super(ref);
 
             domainsReader = domainsColumn.open(this);
         }
@@ -66,17 +66,17 @@ public record SlopDomainRecord(
         private final TxtStringColumn.Reader domainsReader;
         private final TxtStringColumn.Reader ipReader;
 
-        public DomainWithIpReader(SlopPageRef<SlopDomainRecord> page) throws IOException {
-            this(page.baseDir(), page.page());
-        }
-
-        public DomainWithIpReader(Path baseDir, int page) throws IOException {
-            super(baseDir, page);
+        public DomainWithIpReader(SlopTable.Ref<SlopDomainRecord> ref) throws IOException {
+            super(ref);
 
             domainsReader = domainsColumn.open(this);
             ipReader = ipColumn.open(this);
         }
 
+        public DomainWithIpReader(Path baseDir, int page) throws IOException {
+            this(new Ref<>(baseDir, page));
+        }
+
         public boolean hasMore() throws IOException {
             return domainsReader.hasRemaining();
         }
@@ -102,12 +102,8 @@ public record SlopDomainRecord(
 
         private final ObjectArrayColumn<String>.Reader rssFeedsReader;
 
-        public Reader(SlopPageRef<SlopDomainRecord> page) throws IOException {
-            this(page.baseDir(), page.page());
-        }
-
-        public Reader(Path baseDir, int page) throws IOException {
-            super(baseDir, page);
+        public Reader(SlopTable.Ref<SlopDomainRecord> ref) throws IOException {
+            super(ref);
 
             domainsReader = domainsColumn.open(this);
             statesReader = statesColumn.open(this);
@@ -121,6 +117,10 @@ public record SlopDomainRecord(
             rssFeedsReader = rssFeedsColumn.open(this);
         }
 
+        public Reader(Path baseDir, int page) throws IOException {
+            this(new Ref<>(baseDir, page));
+        }
+
         public boolean hasMore() throws IOException {
             return domainsReader.hasRemaining();
         }
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java
deleted file mode 100644
index fb349621..00000000
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopPageRef.java
+++ /dev/null
@@ -1,6 +0,0 @@
-package nu.marginalia.model.processed;
-
-import java.nio.file.Path;
-
-public record SlopPageRef<T>(Path baseDir, int page) {
-}
diff --git a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
index 9a3aef56..3dd7ae80 100644
--- a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
+++ b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
@@ -1,6 +1,7 @@
 package nu.marginalia.model.processed;
 
 import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.slop.SlopTable;
 import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.Assertions;
@@ -54,7 +55,7 @@ public class SlopDocumentRecordTest {
             writer.write(record);
         }
 
-        try (var keywordReader = new SlopDocumentRecord.KeywordsProjectionReader(testDir, 0)) {
+        try (var keywordReader = new SlopDocumentRecord.KeywordsProjectionReader(new SlopTable.Ref<>(testDir, 0))) {
             assertTrue(keywordReader.hasMore());
             var readRecord = keywordReader.next();
             assertFalse(keywordReader.hasMore());
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java b/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java
index 7dda3e05..b874bf05 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/LoaderInputData.java
@@ -4,7 +4,7 @@ import nu.marginalia.io.processed.ProcessedDataFileNames;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.model.processed.SlopDomainLinkRecord;
 import nu.marginalia.model.processed.SlopDomainRecord;
-import nu.marginalia.model.processed.SlopPageRef;
+import nu.marginalia.slop.SlopTable;
 import nu.marginalia.worklog.BatchingWorkLogInspector;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -43,31 +43,34 @@ public class LoaderInputData {
         lastGoodBatch.put(singleSource, lastBatch);
     }
 
-    public Collection<SlopPageRef<SlopDomainRecord>> listDomainPages() {
-        List<SlopPageRef<SlopDomainRecord>> pathsAll = new ArrayList<>();
+    public Collection<SlopTable.Ref<SlopDomainRecord>> listDomainPages() {
+        List<SlopTable.Ref<SlopDomainRecord>> pathsAll = new ArrayList<>();
+
         for (var source : sourceDirectories) {
             for (int i = 0; i < lastGoodBatch.get(source); i++) {
-                pathsAll.add(new SlopPageRef<>(ProcessedDataFileNames.domainFileName(source), i));
+                pathsAll.add(new SlopTable.Ref<>(ProcessedDataFileNames.domainFileName(source), i));
             }
         }
         return pathsAll;
     }
 
-    public Collection<SlopPageRef<SlopDomainLinkRecord>> listDomainLinkPages() {
-        List<SlopPageRef<SlopDomainLinkRecord>> pathsAll = new ArrayList<>();
+    public Collection<SlopTable.Ref<SlopDomainLinkRecord>> listDomainLinkPages() {
+        List<SlopTable.Ref<SlopDomainLinkRecord>> pathsAll = new ArrayList<>();
+
         for (var source : sourceDirectories) {
             for (int i = 0; i < lastGoodBatch.get(source); i++) {
-                pathsAll.add(new SlopPageRef<>(ProcessedDataFileNames.domainLinkFileName(source), i));
+                pathsAll.add(new SlopTable.Ref<>(ProcessedDataFileNames.domainLinkFileName(source), i));
             }
         }
         return pathsAll;
     }
 
-    public Collection<SlopPageRef<SlopDocumentRecord>> listDocumentFiles() {
-        List<SlopPageRef<SlopDocumentRecord>> pathsAll = new ArrayList<>();
+    public Collection<SlopTable.Ref<SlopDocumentRecord>> listDocumentFiles() {
+        List<SlopTable.Ref<SlopDocumentRecord>> pathsAll = new ArrayList<>();
+
         for (var source : sourceDirectories) {
             for (int i = 0; i < lastGoodBatch.get(source); i++) {
-                pathsAll.add(new SlopPageRef<>(ProcessedDataFileNames.documentFileName(source), i));
+                pathsAll.add(new SlopTable.Ref<>(ProcessedDataFileNames.documentFileName(source), i));
             }
         }
         return pathsAll;
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
index 7c96699a..bba79952 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
@@ -10,8 +10,8 @@ import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.processed.SlopDocumentRecord;
-import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.slop.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -38,7 +38,7 @@ public class DocumentLoaderService {
                              LoaderInputData inputData)
             throws IOException, SQLException
     {
-        Collection<SlopPageRef<SlopDocumentRecord>> pageRefs = inputData.listDocumentFiles();
+        Collection<SlopTable.Ref<SlopDocumentRecord>> pageRefs = inputData.listDocumentFiles();
 
         try (var taskHeartbeat = processHeartbeat.createAdHocTaskHeartbeat("DOCUMENTS")) {
 
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
index 5188c06b..fadbd64c 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/KeywordLoaderService.java
@@ -7,8 +7,8 @@ import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.id.UrlIdCodec;
 import nu.marginalia.model.processed.SlopDocumentRecord;
-import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.slop.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -30,10 +30,10 @@ public class KeywordLoaderService {
                              LoaderInputData inputData) throws IOException {
         try (var task = heartbeat.createAdHocTaskHeartbeat("KEYWORDS")) {
 
-            Collection<SlopPageRef<SlopDocumentRecord>> documentFiles = inputData.listDocumentFiles();
+            Collection<SlopTable.Ref<SlopDocumentRecord>> documentFiles = inputData.listDocumentFiles();
             int processed = 0;
 
-            for (SlopPageRef<SlopDocumentRecord> pageRef : documentFiles) {
+            for (SlopTable.Ref<SlopDocumentRecord> pageRef : documentFiles) {
                 task.progress("LOAD", processed++, documentFiles.size());
 
                 try (var keywordsReader = new SlopDocumentRecord.KeywordsProjectionReader(pageRef)) {
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
index 94419cf5..66389062 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/domains/DomainLoaderService.java
@@ -8,9 +8,9 @@ import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.processed.SlopDomainLinkRecord;
 import nu.marginalia.model.processed.SlopDomainRecord;
-import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeatImpl;
+import nu.marginalia.slop.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -59,8 +59,8 @@ public class DomainLoaderService {
         {
             taskHeartbeat.progress(Steps.PREP_DATA);
 
-            Collection<SlopPageRef<SlopDomainRecord>> domainPageRefs = inputData.listDomainPages();
-            Collection<SlopPageRef<SlopDomainLinkRecord>> domainLinkPageRefs = inputData.listDomainLinkPages();
+            Collection<SlopTable.Ref<SlopDomainRecord>> domainPageRefs = inputData.listDomainPages();
+            Collection<SlopTable.Ref<SlopDomainLinkRecord>> domainLinkPageRefs = inputData.listDomainLinkPages();
 
             // Ensure that the domains we've just crawled are in the domain database to this node
             try (var inserter = new DomainInserter(conn, nodeId);
@@ -68,7 +68,7 @@ public class DomainLoaderService {
                 // Add domain names from this data set with the current node affinity
                 int pageIdx = 0;
 
-                for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+                for (SlopTable.Ref<SlopDomainRecord> page : inputData.listDomainPages()) {
                     processHeartbeat.progress("INSERT", pageIdx++, domainPageRefs.size());
 
                     try (var reader = new SlopDomainRecord.DomainNameReader(page)) {
@@ -89,7 +89,7 @@ public class DomainLoaderService {
                 // Add linked domains, but with -1 affinity meaning they can be grabbed by any index node
                 int pageIdx = 0;
 
-                for (SlopPageRef<SlopDomainLinkRecord> page : inputData.listDomainLinkPages()) {
+                for (SlopTable.Ref<SlopDomainLinkRecord> page : inputData.listDomainLinkPages()) {
                     processHeartbeat.progress("INSERT", pageIdx++, domainLinkPageRefs.size());
 
                     try (var reader = new SlopDomainLinkRecord.Reader(page)) {
@@ -111,7 +111,7 @@ public class DomainLoaderService {
                 // Update the node affinity and IP address for each domain
                 int pageIdx = 0;
 
-                for (SlopPageRef<SlopDomainRecord> page : inputData.listDomainPages()) {
+                for (SlopTable.Ref<SlopDomainRecord> page : inputData.listDomainPages()) {
                     processHeartbeat.progress("UPDATE", pageIdx++, domainPageRefs.size());
 
                     try (var updater = new DomainAffinityAndIpUpdater(conn, nodeId);
@@ -154,7 +154,7 @@ public class DomainLoaderService {
 
             int processed = 0;
 
-            Collection<SlopPageRef<SlopDomainRecord>> pages = inputData.listDomainPages();
+            Collection<SlopTable.Ref<SlopDomainRecord>> pages = inputData.listDomainPages();
             for (var page : pages) {
                 taskHeartbeat.progress("UPDATE-META", processed++, pages.size());
 
diff --git a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
index 640afd76..bc4479d6 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/links/DomainLinksLoaderService.java
@@ -7,8 +7,8 @@ import nu.marginalia.linkgraph.io.DomainLinksWriter;
 import nu.marginalia.loading.LoaderInputData;
 import nu.marginalia.loading.domains.DomainIdRegistry;
 import nu.marginalia.model.processed.SlopDomainLinkRecord;
-import nu.marginalia.model.processed.SlopPageRef;
 import nu.marginalia.process.control.ProcessHeartbeat;
+import nu.marginalia.slop.SlopTable;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -34,7 +34,7 @@ public class DomainLinksLoaderService {
         try (var task = heartbeat.createAdHocTaskHeartbeat("LINKS");
              var linkLoader = new LinkLoader(domainIdRegistry))
         {
-            Collection<SlopPageRef<SlopDomainLinkRecord>> pageRefs = inputData.listDomainLinkPages();
+            Collection<SlopTable.Ref<SlopDomainLinkRecord>> pageRefs = inputData.listDomainLinkPages();
 
             int processed = 0;
 
diff --git a/settings.gradle b/settings.gradle
index ccd51ccb..cadac6a5 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -226,7 +226,7 @@ dependencyResolutionManagement {
             library('jetty-util','org.eclipse.jetty','jetty-util').version('9.4.54.v20240208')
             library('jetty-servlet','org.eclipse.jetty','jetty-servlet').version('9.4.54.v20240208')
 
-            library('slop', 'nu.marginalia', 'slop').version('0.0.5-SNAPSHOT')
+            library('slop', 'nu.marginalia', 'slop').version('0.0.7-SNAPSHOT')
 
             bundle('jetty', ['jetty-server', 'jetty-util', 'jetty-servlet'])
 

From 9eb1f120fcc0aff194e2f89869511330b79deb4f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 22 Aug 2024 11:28:23 +0200
Subject: [PATCH 153/216] (index) Repair positions bitmask for search result
 presentation

---
 .../api/searchquery/QueryProtobufCodec.java   |  1 +
 .../model/results/SearchResultItem.java       |  6 +++-
 .../results/IndexResultRankingService.java    |  4 +--
 .../results/IndexResultScoreCalculator.java   | 30 ++++++++++++++++++-
 .../sequence/SequenceOperations.java          |  2 +-
 .../search/svc/SearchQueryIndexService.java   | 12 ++++----
 6 files changed, 44 insertions(+), 11 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
index e6e68431..e6e62dc3 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/QueryProtobufCodec.java
@@ -257,6 +257,7 @@ public class QueryProtobufCodec {
                 rawItem.getHtmlFeatures(),
                 keywordScores,
                 rawItem.getHasPriorityTerms(),
+                0, // Not set
                 null, // Not set
                 Double.NaN // Not set
         );
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
index 6a70625c..f7662fa6 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
@@ -28,14 +28,18 @@ public class SearchResultItem implements Comparable<SearchResultItem> {
 
     public boolean hasPrioTerm;
 
+    public long bestPositions;
+
     public DebugRankingFactors debugRankingFactors;
 
     public SearchResultItem(long combinedId,
                             long encodedDocMetadata,
                             int htmlFeatures,
-                            double score) {
+                            double score,
+                            long bestPositions) {
         this.combinedId = combinedId;
         this.encodedDocMetadata = encodedDocMetadata;
+        this.bestPositions = bestPositions;
         this.keywordScores = new ArrayList<>();
         this.htmlFeatures = htmlFeatures;
         this.scoreValue = score;
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 8de176bf..88ad26a1 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -179,7 +179,7 @@ public class IndexResultRankingService {
         LongOpenHashSet seenDocumentHashes = new LongOpenHashSet(resultsList.size());
 
         // Decorate the results with the document details
-        for (var result : resultsList) {
+        for (SearchResultItem result : resultsList) {
             final long id = result.getDocumentId();
             final DocdbUrlDetail docData = detailsById.get(id);
 
@@ -219,7 +219,7 @@ public class IndexResultRankingService {
                     .setUrl(docData.url().toString())
                     .setUrlQuality(docData.urlQuality())
                     .setWordsTotal(docData.wordsTotal())
-                    .setBestPositions(0 /* FIXME */)
+                    .setBestPositions(result.getBestPositions())
                     .setResultsFromDomain(domainCountFilter.getCount(result))
                     .setRawItem(rawItem);
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 76ac060f..1989c74f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -106,7 +106,35 @@ public class IndexResultScoreCalculator {
                 searchTerms.phraseConstraints,
                 rankingContext);
 
-        return new SearchResultItem(combinedId, docMetadata, htmlFeatures, score);
+        return new SearchResultItem(combinedId,
+                docMetadata,
+                htmlFeatures,
+                score,
+                calculatePositionsMask(positions)
+        );
+    }
+
+    /** Calculate a bitmask illustrating the intersected positions of the search terms in the document.
+     *  This is used in the GUI.
+     * */
+    private long calculatePositionsMask(CodedSequence[] positions) {
+        IntIterator[] iters = new IntIterator[rankingContext.regularMask.cardinality()];
+        for (int i = 0, j = 0; i < positions.length; i++) {
+            if (rankingContext.regularMask.get(i)) {
+                iters[j++] = positions[i].iterator();
+            }
+        }
+        IntIterator intersection = SequenceOperations.findIntersections(iters).intIterator();
+
+        long result = 0;
+        int bit = 0;
+
+        while (intersection.hasNext() && bit < 64) {
+            bit = (int) (Math.sqrt(intersection.nextInt()));
+            result |= 1L << bit;
+        }
+
+        return result;
     }
 
     private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 64ee2b5a..6a5e76b0 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -55,7 +55,7 @@ public class SequenceOperations {
 
     public static IntList findIntersections(IntIterator... sequences) {
 
-        if (sequences.length <= 1)
+        if (sequences.length < 1)
             return IntList.of();
 
         // Initialize values and find the maximum value
diff --git a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
index c7214060..d5813549 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
@@ -2,14 +2,12 @@ package nu.marginalia.search.svc;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import it.unimi.dsi.fastutil.ints.Int2LongArrayMap;
 import lombok.SneakyThrows;
-import nu.marginalia.bbpc.BrailleBlockPunchCards;
+import nu.marginalia.api.searchquery.model.query.QueryResponse;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
-import nu.marginalia.api.searchquery.model.results.SearchResultItem;
+import nu.marginalia.bbpc.BrailleBlockPunchCards;
 import nu.marginalia.model.crawl.DomainIndexingState;
-import nu.marginalia.api.searchquery.model.query.QueryResponse;
 import nu.marginalia.search.model.UrlDetails;
 import nu.marginalia.search.results.UrlDeduplicator;
 import org.slf4j.Logger;
@@ -17,7 +15,9 @@ import org.slf4j.LoggerFactory;
 import org.slf4j.Marker;
 import org.slf4j.MarkerFactory;
 
-import java.util.*;
+import java.util.ArrayList;
+import java.util.Comparator;
+import java.util.List;
 
 @Singleton
 public class SearchQueryIndexService {
@@ -99,7 +99,7 @@ public class SearchQueryIndexService {
     }
 
     private String getPositionsString(DecoratedSearchResultItem resultItem) {
-        return BrailleBlockPunchCards.printBits(resultItem.bestPositions, 56);
+        return BrailleBlockPunchCards.printBits(resultItem.bestPositions, 64);
 
     }
 }

From 557bdaa69454a42f202c943667d2b6d3ed237c36 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 22 Aug 2024 11:44:57 +0200
Subject: [PATCH 154/216] (search) Clean up SearchQueryIndexService and
 surrounding code

---
 .../marginalia/search/model/UrlDetails.java   |  9 +-
 .../search/results/UrlDeduplicator.java       |  6 +-
 .../search/svc/SearchQueryIndexService.java   | 93 +++++--------------
 3 files changed, 31 insertions(+), 77 deletions(-)

diff --git a/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java b/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java
index 41e152e6..2999b66d 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java
@@ -9,11 +9,10 @@ import nu.marginalia.model.crawl.HtmlFeature;
 
 import java.util.ArrayList;
 import java.util.List;
-import java.util.StringJoiner;
 
 /** A class to hold details about a single search result. */
 @AllArgsConstructor @NoArgsConstructor @With @Getter @ToString
-public class UrlDetails implements Comparable<UrlDetails> {
+public class UrlDetails {
     public long id;
     public int domainId;
 
@@ -63,12 +62,6 @@ public class UrlDetails implements Comparable<UrlDetails> {
         return Long.hashCode(id);
     }
 
-    @Override
-    public int compareTo(UrlDetails other) {
-        int result = Double.compare(getTermScore(), other.getTermScore());
-        if (result == 0) result = Long.compare(getId(), other.getId());
-        return result;
-    }
 
     public boolean equals(Object other) {
         if (other == null) {
diff --git a/code/services-application/search-service/java/nu/marginalia/search/results/UrlDeduplicator.java b/code/services-application/search-service/java/nu/marginalia/search/results/UrlDeduplicator.java
index ccddb8d9..046b779e 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/results/UrlDeduplicator.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/results/UrlDeduplicator.java
@@ -24,7 +24,7 @@ public class UrlDeduplicator {
         this.resultsPerKey = resultsPerKey;
     }
 
-    public synchronized boolean shouldRemove(DecoratedSearchResultItem details) {
+    public boolean shouldRemove(DecoratedSearchResultItem details) {
         if (!deduplicateOnSuperficialHash(details))
             return true;
         if (!deduplicateOnLSH(details))
@@ -35,6 +35,10 @@ public class UrlDeduplicator {
         return false;
     }
 
+    public boolean shouldRetain(DecoratedSearchResultItem details) {
+        return !shouldRemove(details);
+    }
+
     private boolean deduplicateOnSuperficialHash(DecoratedSearchResultItem details) {
         return seenSuperficialhashes.add(Objects.hash(details.url.path, details.title));
     }
diff --git a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
index d5813549..39619fdf 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
@@ -2,11 +2,10 @@ package nu.marginalia.search.svc;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
-import lombok.SneakyThrows;
 import nu.marginalia.api.searchquery.model.query.QueryResponse;
-import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 import nu.marginalia.bbpc.BrailleBlockPunchCards;
+import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.model.crawl.DomainIndexingState;
 import nu.marginalia.search.model.UrlDetails;
 import nu.marginalia.search.results.UrlDeduplicator;
@@ -15,8 +14,6 @@ import org.slf4j.LoggerFactory;
 import org.slf4j.Marker;
 import org.slf4j.MarkerFactory;
 
-import java.util.ArrayList;
-import java.util.Comparator;
 import java.util.List;
 
 @Singleton
@@ -31,75 +28,35 @@ public class SearchQueryIndexService {
     }
 
     public List<UrlDetails> getResultsFromQuery(QueryResponse queryResponse) {
-        // Remove duplicates and other chaff
-        final var results = limitAndDeduplicateResults(queryResponse.specs(), queryResponse.results());
+        final QueryLimits limits = queryResponse.specs().queryLimits;
+        final UrlDeduplicator deduplicator = new UrlDeduplicator(limits.resultsByDomain());
 
         // Update the query count (this is what you see on the front page)
         searchVisitorCount.registerQuery();
 
-        // Decorate and sort the results
-        List<UrlDetails> urlDetails = getAllUrlDetails(results);
-
-        urlDetails.sort(Comparator.naturalOrder());
-
-        return urlDetails;
+        return queryResponse.results().stream()
+                .filter(deduplicator::shouldRetain)
+                .limit(limits.resultsTotal())
+                .map(SearchQueryIndexService::createDetails)
+                .toList();
     }
 
-    private List<DecoratedSearchResultItem> limitAndDeduplicateResults(SearchSpecification specs, List<DecoratedSearchResultItem> decoratedResults) {
-        var limits = specs.queryLimits;
-
-        UrlDeduplicator deduplicator = new UrlDeduplicator(limits.resultsByDomain());
-        List<DecoratedSearchResultItem> retList = new ArrayList<>(limits.resultsTotal());
-
-        int dedupCount = 0;
-        for (var item : decoratedResults) {
-            if (retList.size() >= limits.resultsTotal())
-                break;
-
-            if (!deduplicator.shouldRemove(item)) {
-                retList.add(item);
-            }
-            else {
-                dedupCount ++;
-            }
-        }
-
-        if (dedupCount > 0) {
-            logger.info(queryMarker, "Deduplicator ate {} results", dedupCount);
-        }
-
-        return retList;
-    }
-
-
-    @SneakyThrows
-    public List<UrlDetails> getAllUrlDetails(List<DecoratedSearchResultItem> resultSet) {
-        List<UrlDetails> ret = new ArrayList<>(resultSet.size());
-
-        for (var detail : resultSet) {
-            ret.add(new UrlDetails(
-                    detail.documentId(),
-                    detail.domainId(),
-                    detail.url,
-                    detail.title,
-                    detail.description,
-                    detail.format,
-                    detail.features,
-                    DomainIndexingState.ACTIVE,
-                    detail.rankingScore, // termScore
-                    detail.resultsFromDomain,
-                    getPositionsString(detail),
-                    Long.bitCount(detail.bestPositions),
-                    detail.rawIndexResult,
-                    detail.rawIndexResult.keywordScores
-            ));
-        }
-
-        return ret;
-    }
-
-    private String getPositionsString(DecoratedSearchResultItem resultItem) {
-        return BrailleBlockPunchCards.printBits(resultItem.bestPositions, 64);
-
+    private static UrlDetails createDetails(DecoratedSearchResultItem item) {
+        return new UrlDetails(
+                item.documentId(),
+                item.domainId(),
+                item.url,
+                item.title,
+                item.description,
+                item.format,
+                item.features,
+                DomainIndexingState.ACTIVE,
+                item.rankingScore, // termScore
+                item.resultsFromDomain,
+                BrailleBlockPunchCards.printBits(item.bestPositions, 64),
+                Long.bitCount(item.bestPositions),
+                item.rawIndexResult,
+                item.rawIndexResult.keywordScores
+        );
     }
 }

From 2db0e446cbc6442758d48ae68143c7e0699995d0 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 22 Aug 2024 11:49:29 +0200
Subject: [PATCH 155/216] (search) Absorb SearchQueryIndexService into
 SearchOperator, and clean up SearchOperator

---
 .../nu/marginalia/search/SearchOperator.java  | 115 ++++++++++--------
 .../search/svc/SearchQueryIndexService.java   |  62 ----------
 2 files changed, 63 insertions(+), 114 deletions(-)
 delete mode 100644 code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java

diff --git a/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java b/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
index a7a4a76b..f25e4490 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
@@ -7,14 +7,19 @@ import nu.marginalia.WebsiteUrl;
 import nu.marginalia.api.math.MathClient;
 import nu.marginalia.api.searchquery.QueryClient;
 import nu.marginalia.api.searchquery.model.query.QueryResponse;
+import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
+import nu.marginalia.bbpc.BrailleBlockPunchCards;
 import nu.marginalia.db.DbDomainQueries;
+import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.model.EdgeDomain;
+import nu.marginalia.model.crawl.DomainIndexingState;
 import nu.marginalia.search.command.SearchParameters;
 import nu.marginalia.search.model.ClusteredUrlDetails;
 import nu.marginalia.search.model.DecoratedSearchResults;
 import nu.marginalia.search.model.SearchFilters;
 import nu.marginalia.search.model.UrlDetails;
-import nu.marginalia.search.svc.SearchQueryIndexService;
+import nu.marginalia.search.results.UrlDeduplicator;
+import nu.marginalia.search.svc.SearchQueryCountService;
 import nu.marginalia.search.svc.SearchUnitConversionService;
 import org.apache.logging.log4j.util.Strings;
 import org.slf4j.Logger;
@@ -23,9 +28,10 @@ import org.slf4j.Marker;
 import org.slf4j.MarkerFactory;
 
 import javax.annotation.Nullable;
-import java.lang.ref.WeakReference;
 import java.time.Duration;
-import java.util.*;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Set;
 import java.util.concurrent.Future;
 import java.util.concurrent.TimeUnit;
 import java.util.stream.Collectors;
@@ -41,30 +47,30 @@ public class SearchOperator {
     private final MathClient mathClient;
     private final DbDomainQueries domainQueries;
     private final QueryClient queryClient;
-    private final SearchQueryIndexService searchQueryService;
     private final SearchQueryParamFactory paramFactory;
     private final WebsiteUrl websiteUrl;
     private final SearchUnitConversionService searchUnitConversionService;
+    private final SearchQueryCountService searchVisitorCount;
 
 
     @Inject
     public SearchOperator(MathClient mathClient,
                           DbDomainQueries domainQueries,
                           QueryClient queryClient,
-                          SearchQueryIndexService searchQueryService,
                           SearchQueryParamFactory paramFactory,
                           WebsiteUrl websiteUrl,
-                          SearchUnitConversionService searchUnitConversionService)
+                          SearchUnitConversionService searchUnitConversionService,
+                          SearchQueryCountService searchVisitorCount
+                          )
     {
 
         this.mathClient = mathClient;
         this.domainQueries = domainQueries;
         this.queryClient = queryClient;
-
-        this.searchQueryService = searchQueryService;
         this.paramFactory = paramFactory;
         this.websiteUrl = websiteUrl;
         this.searchUnitConversionService = searchUnitConversionService;
+        this.searchVisitorCount = searchVisitorCount;
     }
 
     public List<UrlDetails> doSiteSearch(String domain,
@@ -74,7 +80,7 @@ public class SearchOperator {
         var queryParams = paramFactory.forSiteSearch(domain, domainId, count);
         var queryResponse = queryClient.search(queryParams);
 
-        return searchQueryService.getResultsFromQuery(queryResponse);
+        return getResultsFromQuery(queryResponse);
     }
 
     public List<UrlDetails> doBacklinkSearch(String domain) {
@@ -82,63 +88,35 @@ public class SearchOperator {
         var queryParams = paramFactory.forBacklinkSearch(domain);
         var queryResponse = queryClient.search(queryParams);
 
-        return searchQueryService.getResultsFromQuery(queryResponse);
+        return getResultsFromQuery(queryResponse);
     }
 
     public List<UrlDetails> doLinkSearch(String source, String dest) {
         var queryParams = paramFactory.forLinkSearch(source, dest);
         var queryResponse = queryClient.search(queryParams);
 
-        return searchQueryService.getResultsFromQuery(queryResponse);
+        return getResultsFromQuery(queryResponse);
     }
 
-    private volatile WeakReference<List<ClusteredUrlDetails>> oldResults = new WeakReference<>(Collections.emptyList());
-
     public DecoratedSearchResults doSearch(SearchParameters userParams) {
 
         Future<String> eval = searchUnitConversionService.tryEval(userParams.query());
 
-        List<ClusteredUrlDetails> clusteredResults;
-        QueryResponse queryResponse;
-        List<String> problems;
-        String evalResult;
-        String focusDomain;
+        var queryParams = paramFactory.forRegularSearch(userParams);
+        QueryResponse queryResponse = queryClient.search(queryParams);
+        var queryResults = getResultsFromQuery(queryResponse);
 
-        if (userParams.poisonResults() && Math.random() > 0.1) {
+        logger.info(queryMarker, "Human terms: {}", Strings.join(queryResponse.searchTermsHuman(), ','));
+        logger.info(queryMarker, "Search Result Count: {}", queryResults.size());
 
-            // For botnet users, we return random old query results.  This is to make
-            // it harder for them to figure out if they are being rate limited.
+        String evalResult = getFutureOrDefault(eval, "");
 
-            clusteredResults = new ArrayList<>(Objects.requireNonNullElse(oldResults.get(), List.of()));
+        List<ClusteredUrlDetails> clusteredResults = SearchResultClusterer
+                .selectStrategy(queryResponse)
+                .clusterResults(queryResults, 25);
 
-            // Shuffle the results to make it harder to distinguish
-            Collections.shuffle(clusteredResults);
-
-            problems = List.of();
-            evalResult = "";
-            focusDomain = "";
-        } else {
-            var queryParams = paramFactory.forRegularSearch(userParams);
-            queryResponse = queryClient.search(queryParams);
-            var queryResults = searchQueryService.getResultsFromQuery(queryResponse);
-
-            logger.info(queryMarker, "Human terms: {}", Strings.join(queryResponse.searchTermsHuman(), ','));
-            logger.info(queryMarker, "Search Result Count: {}", queryResults.size());
-
-            evalResult = getFutureOrDefault(eval, "");
-
-            clusteredResults = SearchResultClusterer
-                    .selectStrategy(queryResponse)
-                    .clusterResults(queryResults, 25);
-
-            focusDomain = queryResponse.domain();
-            problems = getProblems(evalResult, queryResults, queryResponse);
-
-            if (userParams.poisonResults()) {
-                // Save the results to feed to the botnet
-                oldResults = new WeakReference<>(clusteredResults);
-            }
-        }
+        String focusDomain = queryResponse.domain();
+        List<String> problems = getProblems(evalResult, queryResults, queryResponse);
 
         return DecoratedSearchResults.builder()
                 .params(userParams)
@@ -151,6 +129,41 @@ public class SearchOperator {
                 .build();
     }
 
+
+    public List<UrlDetails> getResultsFromQuery(QueryResponse queryResponse) {
+        final QueryLimits limits = queryResponse.specs().queryLimits;
+        final UrlDeduplicator deduplicator = new UrlDeduplicator(limits.resultsByDomain());
+
+        // Update the query count (this is what you see on the front page)
+        searchVisitorCount.registerQuery();
+
+        return queryResponse.results().stream()
+                .filter(deduplicator::shouldRetain)
+                .limit(limits.resultsTotal())
+                .map(SearchOperator::createDetails)
+                .toList();
+    }
+
+    private static UrlDetails createDetails(DecoratedSearchResultItem item) {
+        return new UrlDetails(
+                item.documentId(),
+                item.domainId(),
+                item.url,
+                item.title,
+                item.description,
+                item.format,
+                item.features,
+                DomainIndexingState.ACTIVE,
+                item.rankingScore, // termScore
+                item.resultsFromDomain,
+                BrailleBlockPunchCards.printBits(item.bestPositions, 64),
+                Long.bitCount(item.bestPositions),
+                item.rawIndexResult,
+                item.rawIndexResult.keywordScores
+        );
+    }
+
+
     private <T> T getFutureOrDefault(@Nullable Future<T> fut, T defaultValue) {
         if (fut == null || fut.isCancelled())  {
             return defaultValue;
@@ -214,6 +227,4 @@ public class SearchOperator {
         return STR."\"\{term}\" could be spelled \{suggestionsStr}";
     }
 
-
-
 }
diff --git a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java b/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
deleted file mode 100644
index 39619fdf..00000000
--- a/code/services-application/search-service/java/nu/marginalia/search/svc/SearchQueryIndexService.java
+++ /dev/null
@@ -1,62 +0,0 @@
-package nu.marginalia.search.svc;
-
-import com.google.inject.Inject;
-import com.google.inject.Singleton;
-import nu.marginalia.api.searchquery.model.query.QueryResponse;
-import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
-import nu.marginalia.bbpc.BrailleBlockPunchCards;
-import nu.marginalia.index.query.limit.QueryLimits;
-import nu.marginalia.model.crawl.DomainIndexingState;
-import nu.marginalia.search.model.UrlDetails;
-import nu.marginalia.search.results.UrlDeduplicator;
-import org.slf4j.Logger;
-import org.slf4j.LoggerFactory;
-import org.slf4j.Marker;
-import org.slf4j.MarkerFactory;
-
-import java.util.List;
-
-@Singleton
-public class SearchQueryIndexService {
-    private final SearchQueryCountService searchVisitorCount;
-    private final Marker queryMarker = MarkerFactory.getMarker("QUERY");
-    private final Logger logger = LoggerFactory.getLogger(getClass());
-
-    @Inject
-    public SearchQueryIndexService(SearchQueryCountService searchVisitorCount) {
-        this.searchVisitorCount = searchVisitorCount;
-    }
-
-    public List<UrlDetails> getResultsFromQuery(QueryResponse queryResponse) {
-        final QueryLimits limits = queryResponse.specs().queryLimits;
-        final UrlDeduplicator deduplicator = new UrlDeduplicator(limits.resultsByDomain());
-
-        // Update the query count (this is what you see on the front page)
-        searchVisitorCount.registerQuery();
-
-        return queryResponse.results().stream()
-                .filter(deduplicator::shouldRetain)
-                .limit(limits.resultsTotal())
-                .map(SearchQueryIndexService::createDetails)
-                .toList();
-    }
-
-    private static UrlDetails createDetails(DecoratedSearchResultItem item) {
-        return new UrlDetails(
-                item.documentId(),
-                item.domainId(),
-                item.url,
-                item.title,
-                item.description,
-                item.format,
-                item.features,
-                DomainIndexingState.ACTIVE,
-                item.rankingScore, // termScore
-                item.resultsFromDomain,
-                BrailleBlockPunchCards.printBits(item.bestPositions, 64),
-                Long.bitCount(item.bestPositions),
-                item.rawIndexResult,
-                item.rawIndexResult.keywordScores
-        );
-    }
-}

From ea75ddc0e0d9227061167ae334f44e81c154a24e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 22 Aug 2024 11:50:52 +0200
Subject: [PATCH 156/216] (search) Absorb SearchQueryIndexService into
 SearchOperator, and clean up SearchOperator

---
 .../java/nu/marginalia/search/SearchOperator.java             | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java b/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
index f25e4490..6c8cfe4c 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
@@ -222,9 +222,9 @@ public class SearchOperator {
     }
 
     private String searchTermToProblemDescription(String term, List<String> suggestions) {
-        String suggestionsStr = suggestions.stream().map(s -> STR."\"\{s}\"").collect(Collectors.joining(", "));
+        String suggestionsStr = suggestions.stream().map(s -> "\"" + s + "\"").collect(Collectors.joining(", "));
 
-        return STR."\"\{term}\" could be spelled \{suggestionsStr}";
+        return "\"%s\" could be spelled %s".formatted(term, suggestionsStr);
     }
 
 }

From 5d2b455572d5d26e2284218555bf4ac41676c44e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sat, 24 Aug 2024 10:19:49 +0200
Subject: [PATCH 157/216] (search) Clean up inconsistent usage of MathClient in
 SearchOperator

Also clean up SearchOperator and adjacent code
---
 .../nu/marginalia/api/math/MathClient.java    |  34 ++---
 .../api/math/MathProtobufCodec.java           |  11 ++
 .../model/query/QueryResponse.java            |   3 +-
 .../nu/marginalia/search/SearchOperator.java  | 116 +++++++++---------
 .../search/SearchQueryParamFactory.java       |   3 +-
 .../marginalia/search/model/UrlDetails.java   |   8 +-
 6 files changed, 93 insertions(+), 82 deletions(-)

diff --git a/code/functions/math/api/java/nu/marginalia/api/math/MathClient.java b/code/functions/math/api/java/nu/marginalia/api/math/MathClient.java
index ee0a55cd..8d98429d 100644
--- a/code/functions/math/api/java/nu/marginalia/api/math/MathClient.java
+++ b/code/functions/math/api/java/nu/marginalia/api/math/MathClient.java
@@ -2,6 +2,11 @@ package nu.marginalia.api.math;
 
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
+import nu.marginalia.api.math.MathProtobufCodec.DictionaryLookup;
+import nu.marginalia.api.math.MathProtobufCodec.EvalMath;
+import nu.marginalia.api.math.MathProtobufCodec.SpellCheck;
+import nu.marginalia.api.math.MathProtobufCodec.UnitConversion;
+import nu.marginalia.api.math.model.DictionaryResponse;
 import nu.marginalia.service.client.GrpcChannelPoolFactory;
 import nu.marginalia.service.client.GrpcSingleNodeChannelPool;
 import nu.marginalia.service.discovery.property.ServiceKey;
@@ -9,14 +14,11 @@ import nu.marginalia.service.discovery.property.ServicePartition;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
-import java.time.Duration;
-import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
-import java.util.concurrent.*;
-
-import nu.marginalia.api.math.model.*;
-import nu.marginalia.api.math.MathProtobufCodec.*;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Executors;
+import java.util.concurrent.Future;
 
 
 @Singleton
@@ -49,24 +51,14 @@ public class MathClient {
                 .thenApply(SpellCheck::convertResponse);
     }
 
-    public Map<String, List<String>> spellCheck(List<String> words, Duration timeout) throws InterruptedException {
+    // This looks a bit different because we need to spell check multiple words, and we want to do it in parallel
+    public Future<Map<String, List<String>>> spellCheck(List<String> words) throws InterruptedException {
         List<RpcSpellCheckRequest> requests = words.stream().map(SpellCheck::createRequest).toList();
 
-        var future = channelPool.call(MathApiGrpc.MathApiBlockingStub::spellCheck)
+        return channelPool.call(MathApiGrpc.MathApiBlockingStub::spellCheck)
                 .async(executor)
-                .runFor(requests);
-
-        try {
-            var results = future.get();
-            Map<String, List<String>> map = new HashMap<>();
-            for (int i = 0; i < words.size(); i++) {
-                map.put(words.get(i), SpellCheck.convertResponse(results.get(i)));
-            }
-            return map;
-        }
-        catch (ExecutionException e) {
-            throw new RuntimeException(e);
-        }
+                .runFor(requests)
+                .thenApply(rsp -> SpellCheck.convertResponses(words, rsp));
     }
 
     public Future<String> unitConversion(String value, String from, String to) {
diff --git a/code/functions/math/api/java/nu/marginalia/api/math/MathProtobufCodec.java b/code/functions/math/api/java/nu/marginalia/api/math/MathProtobufCodec.java
index 2b865b21..ec077e6b 100644
--- a/code/functions/math/api/java/nu/marginalia/api/math/MathProtobufCodec.java
+++ b/code/functions/math/api/java/nu/marginalia/api/math/MathProtobufCodec.java
@@ -3,7 +3,9 @@ package nu.marginalia.api.math;
 import nu.marginalia.api.math.model.DictionaryEntry;
 import nu.marginalia.api.math.model.DictionaryResponse;
 
+import java.util.HashMap;
 import java.util.List;
+import java.util.Map;
 
 public class MathProtobufCodec {
 
@@ -35,6 +37,15 @@ public class MathProtobufCodec {
         public static List<String> convertResponse(RpcSpellCheckResponse rsp) {
             return rsp.getSuggestionsList();
         }
+
+
+        public static Map<String, List<String>> convertResponses(List<String> words, List<RpcSpellCheckResponse> responses) {
+            var map = new HashMap<String, List<String>>();
+            for (int i = 0; i < words.size(); i++) {
+                map.put(words.get(i), responses.get(i).getSuggestionsList());
+            }
+            return map;
+        }
     }
 
     public static class UnitConversion {
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/QueryResponse.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/QueryResponse.java
index 1834c08f..217fe6cf 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/QueryResponse.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/QueryResponse.java
@@ -2,6 +2,7 @@ package nu.marginalia.api.searchquery.model.query;
 
 import nu.marginalia.api.searchquery.model.results.DecoratedSearchResultItem;
 
+import javax.annotation.Nullable;
 import java.util.HashSet;
 import java.util.List;
 import java.util.Set;
@@ -10,7 +11,7 @@ public record QueryResponse(SearchSpecification specs,
                             List<DecoratedSearchResultItem> results,
                             List<String> searchTermsHuman,
                             List<String> problems,
-                            String domain)
+                            @Nullable String domain)
 {
     public Set<String> getAllKeywords() {
         return new HashSet<>(specs.query.searchTermsInclude);
diff --git a/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java b/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
index 6c8cfe4c..9b78e970 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/SearchOperator.java
@@ -31,6 +31,7 @@ import javax.annotation.Nullable;
 import java.time.Duration;
 import java.util.ArrayList;
 import java.util.List;
+import java.util.Map;
 import java.util.Set;
 import java.util.concurrent.Future;
 import java.util.concurrent.TimeUnit;
@@ -99,25 +100,38 @@ public class SearchOperator {
     }
 
     public DecoratedSearchResults doSearch(SearchParameters userParams) {
+        // The full user-facing search query does additional work to try to evaluate the query
+        // e.g. as a unit conversion query. This is done in parallel with the regular search.
 
         Future<String> eval = searchUnitConversionService.tryEval(userParams.query());
 
+        // Perform the regular search
+
         var queryParams = paramFactory.forRegularSearch(userParams);
         QueryResponse queryResponse = queryClient.search(queryParams);
         var queryResults = getResultsFromQuery(queryResponse);
 
-        logger.info(queryMarker, "Human terms: {}", Strings.join(queryResponse.searchTermsHuman(), ','));
-        logger.info(queryMarker, "Search Result Count: {}", queryResults.size());
-
-        String evalResult = getFutureOrDefault(eval, "");
-
+        // Cluster the results based on the query response
         List<ClusteredUrlDetails> clusteredResults = SearchResultClusterer
                 .selectStrategy(queryResponse)
                 .clusterResults(queryResults, 25);
 
+        // Log the query and results
+
+        logger.info(queryMarker, "Human terms: {}", Strings.join(queryResponse.searchTermsHuman(), ','));
+        logger.info(queryMarker, "Search Result Count: {}", queryResults.size());
+
+        // Get the evaluation result and other data to return to the user
+        String evalResult = getFutureOrDefault(eval, "");
+
         String focusDomain = queryResponse.domain();
+        int focusDomainId = focusDomain == null
+                ? -1
+                : domainQueries.tryGetDomainId(new EdgeDomain(focusDomain)).orElse(-1);
+
         List<String> problems = getProblems(evalResult, queryResults, queryResponse);
 
+        // Return the results to the user
         return DecoratedSearchResults.builder()
                 .params(userParams)
                 .problems(problems)
@@ -125,7 +139,7 @@ public class SearchOperator {
                 .results(clusteredResults)
                 .filters(new SearchFilters(websiteUrl, userParams))
                 .focusDomain(focusDomain)
-                .focusDomainId(getDomainId(focusDomain))
+                .focusDomainId(focusDomainId)
                 .build();
     }
 
@@ -163,13 +177,51 @@ public class SearchOperator {
         );
     }
 
+    @SneakyThrows
+    private List<String> getProblems(String evalResult, List<UrlDetails> queryResults, QueryResponse response) {
+
+        // We don't debug the query if it's a site search
+        if (response.domain() == null)
+            return List.of();
+
+        final List<String> problems = new ArrayList<>(response.problems());
+
+        if (queryResults.size() <= 5 && null == evalResult) {
+            problems.add("Try rephrasing the query, changing the word order or using synonyms to get different results.");
+
+            // Try to spell check the search terms
+            var suggestions = getFutureOrDefault(
+                    mathClient.spellCheck(response.searchTermsHuman()),
+                    Map.of()
+            );
+
+            suggestions.forEach((term, suggestion) -> {
+                if (suggestion.size() > 1) {
+                    String suggestionsStr = "\"%s\" could be spelled %s".formatted(term, suggestion.stream().map(s -> "\"" + s + "\"").collect(Collectors.joining(", ")));
+                    problems.add(suggestionsStr);
+                }
+            });
+        }
+
+        Set<String> representativeKeywords = response.getAllKeywords();
+        if (representativeKeywords.size() > 1 && (representativeKeywords.contains("definition") || representativeKeywords.contains("define") || representativeKeywords.contains("meaning")))
+        {
+            problems.add("Tip: Try using a query that looks like <tt>define:word</tt> if you want a dictionary definition");
+        }
+
+        return problems;
+    }
 
     private <T> T getFutureOrDefault(@Nullable Future<T> fut, T defaultValue) {
+        return getFutureOrDefault(fut, Duration.ofMillis(50), defaultValue);
+    }
+
+    private <T> T getFutureOrDefault(@Nullable Future<T> fut, Duration timeout, T defaultValue) {
         if (fut == null || fut.isCancelled())  {
             return defaultValue;
         }
         try {
-            return fut.get(50, TimeUnit.MILLISECONDS);
+            return fut.get(timeout.toMillis(), TimeUnit.MILLISECONDS);
         }
         catch (Exception ex) {
             logger.warn("Error fetching eval result", ex);
@@ -177,54 +229,4 @@ public class SearchOperator {
         }
     }
 
-    private int getDomainId(String domain) {
-        if (domain == null) {
-            return -1;
-        }
-
-        return domainQueries.tryGetDomainId(new EdgeDomain(domain)).orElse(-1);
-    }
-
-    private List<String> getProblems(String evalResult, List<UrlDetails> queryResults, QueryResponse response) {
-        final List<String> problems = new ArrayList<>(response.problems());
-        boolean siteSearch = response.domain() != null;
-
-        if (!siteSearch) {
-            if (queryResults.size() <= 5 && null == evalResult) {
-                spellCheckTerms(response);
-            }
-
-            if (queryResults.size() <= 5) {
-                problems.add("Try rephrasing the query, changing the word order or using synonyms to get different results. <a href=\"https://memex.marginalia.nu/projects/edge/search-tips.gmi\">Tips</a>.");
-            }
-
-            Set<String> representativeKeywords = response.getAllKeywords();
-            if (representativeKeywords.size()>1 && (representativeKeywords.contains("definition") || representativeKeywords.contains("define") || representativeKeywords.contains("meaning")))
-            {
-                problems.add("Tip: Try using a query that looks like <tt>define:word</tt> if you want a dictionary definition");
-            }
-        }
-
-        return problems;
-    }
-
-
-    @SneakyThrows
-    private void spellCheckTerms(QueryResponse response) {
-        var suggestions = mathClient
-                .spellCheck(response.searchTermsHuman(), Duration.ofMillis(20));
-
-        suggestions.entrySet()
-                .stream()
-                .filter(e -> e.getValue().size() > 1)
-                .map(e -> searchTermToProblemDescription(e.getKey(), e.getValue()))
-                .forEach(response.problems()::add);
-    }
-
-    private String searchTermToProblemDescription(String term, List<String> suggestions) {
-        String suggestionsStr = suggestions.stream().map(s -> "\"" + s + "\"").collect(Collectors.joining(", "));
-
-        return "\"%s\" could be spelled %s".formatted(term, suggestionsStr);
-    }
-
 }
diff --git a/code/services-application/search-service/java/nu/marginalia/search/SearchQueryParamFactory.java b/code/services-application/search-service/java/nu/marginalia/search/SearchQueryParamFactory.java
index 410a4c07..9fd94e63 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/SearchQueryParamFactory.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/SearchQueryParamFactory.java
@@ -21,7 +21,6 @@ public class SearchQueryParamFactory {
         userParams.js().addTacitTerms(prototype);
         userParams.adtech().addTacitTerms(prototype);
 
-
         return new QueryParams(
                 userParams.query(),
                 null,
@@ -81,7 +80,7 @@ public class SearchQueryParamFactory {
     }
 
     public QueryParams forLinkSearch(String sourceDomain, String destDomain) {
-        return new QueryParams(STR."site:\{sourceDomain} links:\{destDomain}",
+        return new QueryParams("site:" + sourceDomain + " links:" + destDomain,
                 null,
                 List.of(),
                 List.of(),
diff --git a/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java b/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java
index 2999b66d..e38d5692 100644
--- a/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java
+++ b/code/services-application/search-service/java/nu/marginalia/search/model/UrlDetails.java
@@ -12,7 +12,7 @@ import java.util.List;
 
 /** A class to hold details about a single search result. */
 @AllArgsConstructor @NoArgsConstructor @With @Getter @ToString
-public class UrlDetails {
+public class UrlDetails implements Comparable<UrlDetails> {
     public long id;
     public int domainId;
 
@@ -62,6 +62,12 @@ public class UrlDetails {
         return Long.hashCode(id);
     }
 
+    @Override
+    public int compareTo(UrlDetails other) {
+        int result = Double.compare(getTermScore(), other.getTermScore());
+        if (result == 0) result = Long.compare(getId(), other.getId());
+        return result;
+    }
 
     public boolean equals(Object other) {
         if (other == null) {

From 0999f0732094d98753542285546c6b91cbbdf1a2 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:34:12 +0200
Subject: [PATCH 158/216] (search-query) Add new ranking parameters for
 proximity and verbatim matches

---
 code/common/config/build.gradle                       |  1 +
 .../api/searchquery/IndexProtobufCodec.java           |  4 ++++
 .../model/results/ResultRankingParameters.java        |  6 +++++-
 .../searchquery/model/results/SearchResultItem.java   |  1 -
 .../api/src/main/protobuf/query-api.proto             | 10 +++++++++-
 .../index/results/IndexResultScoreCalculator.java     | 11 ++++-------
 .../java/nu/marginalia/query/QueryBasicInterface.java |  2 ++
 .../query-service/resources/templates/qdebug.hdb      |  6 ++++++
 8 files changed, 31 insertions(+), 10 deletions(-)

diff --git a/code/common/config/build.gradle b/code/common/config/build.gradle
index d3628671..e78e8a9c 100644
--- a/code/common/config/build.gradle
+++ b/code/common/config/build.gradle
@@ -33,6 +33,7 @@ dependencies {
     testImplementation project(':code:libraries:test-helpers')
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index 267ba12d..80d36911 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -118,6 +118,8 @@ public class IndexProtobufCodec {
                 params.getBm25Weight(),
                 params.getTcfFirstPositionWeight(),
                 params.getTcfAvgDistWeight(),
+                params.getTcfVerbatimWeight(),
+                params.getTcfProximityWeight(),
                 ResultRankingParameters.TemporalBias.valueOf(params.getTemporalBias().getBias().name()),
                 params.getTemporalBiasWeight(),
                 params.getExportDebugData()
@@ -143,6 +145,8 @@ public class IndexProtobufCodec {
                         .setBm25Weight(rankingParams.bm25Weight)
                         .setTcfAvgDistWeight(rankingParams.tcfAvgDist)
                         .setTcfFirstPositionWeight(rankingParams.tcfFirstPosition)
+                        .setTcfProximityWeight(rankingParams.tcfProximity)
+                        .setTcfVerbatimWeight(rankingParams.tcfVerbatim)
                         .setTemporalBiasWeight(rankingParams.temporalBiasWeight)
                         .setExportDebugData(rankingParams.exportDebugData);
 
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
index 68e2b094..4917d193 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
@@ -33,6 +33,8 @@ public class ResultRankingParameters {
     public double bm25Weight;
     public double tcfFirstPosition;
     public double tcfAvgDist;
+    public double tcfVerbatim;
+    public double tcfProximity;
 
     public TemporalBias temporalBias;
     public double temporalBiasWeight;
@@ -50,7 +52,9 @@ public class ResultRankingParameters {
                 .shortSentencePenalty(5)
                 .bm25Weight(1.)
                 .tcfAvgDist(25.)
-                .tcfFirstPosition(5) // FIXME: what's a good default?
+                .tcfVerbatim(1.)
+                .tcfProximity(1.)
+                .tcfFirstPosition(25)
                 .temporalBias(TemporalBias.NONE)
                 .temporalBiasWeight(1. / (5.))
                 .exportDebugData(false)
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
index f7662fa6..953cbdc8 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/SearchResultItem.java
@@ -88,7 +88,6 @@ public class SearchResultItem implements Comparable<SearchResultItem> {
 
     @Override
     public int compareTo(@NotNull SearchResultItem o) {
-        // this looks like a bug, but we actually want this in a reversed order
         int diff = Double.compare(getScore(), o.getScore());
         if (diff != 0)
             return diff;
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index a8368c06..76a9b393 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -103,6 +103,13 @@ message RpcRawResultItem {
   int32 htmlFeatures = 4; // bitmask encoding features of the document
   repeated RpcResultKeywordScore keywordScores = 5;
   bool hasPriorityTerms = 6; // true if this word is important to the document
+  MATCH_TYPE matchType = 7; // the type of match this result represents
+
+  enum MATCH_TYPE {
+    FLAGS = 0;
+    PROXIMITY = 1;
+    PHRASE = 2;
+  };
 }
 
 /* Information about how well a keyword matches a query */
@@ -134,7 +141,8 @@ message RpcResultRankingParameters {
   double bm25Weight = 11;
   double tcfAvgDistWeight = 12;
   double tcfFirstPositionWeight = 13;
-  // 14, 15 unused
+  double tcfVerbatimWeight = 14;
+  double tcfProximityWeight = 15;
   RpcTemporalBias temporalBias = 16;
   double temporalBiasWeight = 17;
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 1989c74f..0dfc7b29 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -309,14 +309,12 @@ public class IndexResultScoreCalculator {
                 + rankingBonus
                 + topologyBonus
                 + temporalBias
-                + flagsPenalty
-                + verbatimMatchScore
-                + keywordMinDistFac;
-
-
+                + flagsPenalty;
 
         double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
         double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
+        double tcfProximity = rankingParams.tcfProximity * keywordMinDistFac;
+        double tcfVerbatim = rankingParams.tcfVerbatim * verbatimMatchScore;
 
         double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
         double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
@@ -376,13 +374,12 @@ public class IndexResultScoreCalculator {
                 }
 
             }
-
         }
 
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
-                tcfAvgDist + tcfFirstPosition
+                tcfAvgDist + tcfFirstPosition + tcfProximity + tcfVerbatim
                         + bM25
                         + bFlags
                         + Math.max(0, overallPart),
diff --git a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
index 73a989bf..409348f3 100644
--- a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
+++ b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
@@ -108,6 +108,8 @@ public class QueryBasicInterface {
                 .shortDocumentPenalty(doubleFromRequest(request, "shortDocumentPenalty", sensibleDefaults.shortDocumentPenalty))
                 .tcfFirstPosition(doubleFromRequest(request, "tcfFirstPosition", sensibleDefaults.tcfFirstPosition))
                 .tcfAvgDist(doubleFromRequest(request, "tcfAvgDist", sensibleDefaults.tcfAvgDist))
+                .tcfVerbatim(doubleFromRequest(request, "tcfVerbatim", sensibleDefaults.tcfVerbatim))
+                .tcfProximity(doubleFromRequest(request, "tcfProximity", sensibleDefaults.tcfProximity))
                 .bm25Params(new Bm25Parameters(
                         doubleFromRequest(request, "bm25.k1", sensibleDefaults.bm25Params.k()),
                         doubleFromRequest(request, "bm25.b", sensibleDefaults.bm25Params.b())
diff --git a/code/services-core/query-service/resources/templates/qdebug.hdb b/code/services-core/query-service/resources/templates/qdebug.hdb
index b6da4e5c..df256894 100644
--- a/code/services-core/query-service/resources/templates/qdebug.hdb
+++ b/code/services-core/query-service/resources/templates/qdebug.hdb
@@ -36,6 +36,12 @@
         <div class="col-sm-2"><label for="tcfFirstPosition">TCF First Position Weight</label></div>
         <div class="col-sm-2"><input type="text" class="form-control" id="tcfFirstPosition" name="tcfFirstPosition" value="{{tcfFirstPosition}}"></div>
     </div>
+    <div class="row my-2">
+        <div class="col-sm-2"><label for="tcfVerbatim">TCF Verbatim</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="tcfVerbatim" name="tcfVerbatim" value="{{tcfVerbatim}}"></div>
+        <div class="col-sm-2"><label for="tcfProximity">TCF Proximity</label></div>
+        <div class="col-sm-2"><input type="text" class="form-control" id="tcfProximity" name="tcfProximity" value="{{tcfProximity}}"></div>
+    </div>
     <div class="row my-2">
         <div class="col-sm-2"><label for="bm25.k1">BM25 K1</label></div>
         <div class="col-sm-2"><input type="text" class="form-control" id="bm25.k1" name="bm25.k1" value="{{bm25Params.k}}"></div>

From 96bcf03ad524979a0b80be0561cd6d349f02f80f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:34:36 +0200
Subject: [PATCH 159/216] (index) Address broken tests

They are still broken, but less so.
---
 .../results/IndexResultRankingService.java    |  6 +++-
 ...IndexQueryServiceIntegrationSmokeTest.java | 30 ++++++++++++++-----
 .../IndexQueryServiceIntegrationTest.java     |  2 +-
 .../IndexResultDomainDeduplicatorTest.java    |  2 +-
 4 files changed, 29 insertions(+), 11 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
index 88ad26a1..f477b437 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultRankingService.java
@@ -311,7 +311,11 @@ public class IndexResultRankingService {
             }
         }
 
-        assert constraintsFull.size() == 1 : "Exactly one full constraint group is required";
+        if (constraintsFull.isEmpty()) {
+            logger.warn("No full constraints in query, adding empty group");
+            constraintsFull.add(new PhraseConstraintGroupList.PhraseConstraintGroup(List.of(), idsAll));
+        }
+
 
         return new QuerySearchTerms(termToId,
                 idsAll,
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index 5021f2ee..e0e0b941 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -4,6 +4,8 @@ import com.google.inject.Guice;
 import com.google.inject.Inject;
 import lombok.SneakyThrows;
 import nu.marginalia.IndexLocations;
+import nu.marginalia.api.searchquery.RpcDecoratedResultItem;
+import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchQuery;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
@@ -123,15 +125,19 @@ public class IndexQueryServiceIntegrationSmokeTest {
                         .rankingParams(ResultRankingParameters.sensibleDefaults())
                         .domains(new ArrayList<>())
                         .searchSetIdentifier("NONE")
-                        .query(new SearchQuery(
-                                "2 3 5",
-                                List.of("3", "5", "2"), List.of("4"), Collections.emptyList(), Collections.emptyList(),
-                                Collections.emptyList())).build());
+                        .query(
+                            SearchQuery.builder()
+                                    .compiledQuery("2 3 5")
+                                    .include("3", "5", "2")
+                                    .exclude("4")
+                                    .build()
+                        ).build());
 
         int[] idxes = new int[] { 30, 510, 90, 150, 210, 270, 330, 390, 450 };
         long[] ids = IntStream.of(idxes).mapToLong(this::fullId).toArray();
         long[] actual = rsp
                 .stream()
+                .sorted(Comparator.comparing(RpcDecoratedResultItem::getRankingScore))
                 .mapToLong(i -> i.getRawItem().getCombinedId())
                 .toArray();
 
@@ -171,6 +177,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
                                 SearchQuery.builder()
                                 .compiledQuery("2")
                                 .include("2")
+                                .phraseConstraint(new SearchPhraseConstraint.Full("2"))
                                 .build()
                         ).build()
         );
@@ -179,6 +186,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
         long[] ids = IntStream.of(idxes).mapToLong(Long::valueOf).toArray();
         long[] actual = rsp
                 .stream()
+                .sorted(Comparator.comparing(RpcDecoratedResultItem::getRankingScore))
                 .mapToLong(i -> i.getRawItem().getCombinedId())
                 .map(UrlIdCodec::getDocumentOrdinal)
                 .toArray();
@@ -221,10 +229,12 @@ public class IndexQueryServiceIntegrationSmokeTest {
                                 List.of("4"),
                                 Collections.emptyList(),
                                 Collections.emptyList(),
-                                Collections.emptyList())).build());
+                                List.of(new SearchPhraseConstraint.Full("2", "3", "5")))).build());
         int[] idxes = new int[] {  210, 270 };
         long[] ids = IntStream.of(idxes).mapToLong(id -> UrlIdCodec.encodeId(id/100, id)).toArray();
-        long[] actual = rsp.stream().mapToLong(i -> i.getRawItem().getCombinedId()).toArray();
+        long[] actual = rsp.stream()
+                .sorted(Comparator.comparing(RpcDecoratedResultItem::getRankingScore))
+                .mapToLong(i -> i.getRawItem().getCombinedId()).toArray();
 
         Assertions.assertArrayEquals(ids, actual);
     }
@@ -256,7 +266,11 @@ public class IndexQueryServiceIntegrationSmokeTest {
                         .searchSetIdentifier("NONE")
                         .rankingParams(ResultRankingParameters.sensibleDefaults())
                         .query(
-                            new SearchQuery("4", List.of("4"), Collections.emptyList(), Collections.emptyList(), Collections.emptyList(), Collections.emptyList())
+                            new SearchQuery("4", List.of("4"),
+                                    Collections.emptyList(),
+                                    Collections.emptyList(),
+                                    Collections.emptyList(),
+                                    List.of(new SearchPhraseConstraint.Full("4")))
                         ).build());
 
 
@@ -354,7 +368,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         ldbw.add(new DocdbUrlDetail(
                 fullId, new EdgeUrl("https://www.example.com/"+id),
-                "test", "test", 0., "HTML5", 0, null, 0, 10
+                "test", "test", 0., "HTML5", 0, null, fullId, 10
         ));
 
         List<String> keywords = IntStream.of(factors).mapToObj(Integer::toString).toList();
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 0aa943bb..13179f99 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -578,7 +578,7 @@ public class IndexQueryServiceIntegrationTest {
                         "HTML5",
                         0,
                         null,
-                        0,
+                        key.hashCode(),
                         5
                 ));
             }
diff --git a/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java b/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
index de538945..af071e24 100644
--- a/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
+++ b/code/index/test/nu/marginalia/index/results/IndexResultDomainDeduplicatorTest.java
@@ -25,7 +25,7 @@ class IndexResultDomainDeduplicatorTest {
     }
 
     SearchResultItem forId(int domain, int ordinal) {
-        return new SearchResultItem(UrlIdCodec.encodeId(domain, ordinal), 0, 0, List.of(),false, null, Double.NaN);
+        return new SearchResultItem(UrlIdCodec.encodeId(domain, ordinal), 0, 0, List.of(), false, 0L, null, Double.NaN);
     }
 
 }
\ No newline at end of file

From b09e2dbeb7261fd4ef6863976c560cb6a6c3b79b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:35:48 +0200
Subject: [PATCH 160/216] (build) Fix dependency churn from testcontainers

Apparently you need to pull in commons-codec now in order to run testcontainers, through spooky action at a distance.
---
 code/common/db/build.gradle                                | 1 +
 code/common/linkdb/build.gradle                            | 1 +
 code/common/service/build.gradle                           | 1 +
 code/execution/build.gradle                                | 1 +
 code/index/build.gradle                                    | 1 +
 code/libraries/message-queue/build.gradle                  | 1 +
 code/processes/loading-process/build.gradle                | 1 +
 code/processes/website-adjacencies-calculator/build.gradle | 1 +
 code/services-application/api-service/build.gradle         | 1 +
 code/services-application/search-service/build.gradle      | 1 +
 code/services-core/control-service/build.gradle            | 1 +
 code/services-core/executor-service/build.gradle           | 1 +
 12 files changed, 12 insertions(+)

diff --git a/code/common/db/build.gradle b/code/common/db/build.gradle
index 4f32b50d..f0fe081f 100644
--- a/code/common/db/build.gradle
+++ b/code/common/db/build.gradle
@@ -54,6 +54,7 @@ dependencies {
 
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/common/linkdb/build.gradle b/code/common/linkdb/build.gradle
index 1d6d34d0..b95743f6 100644
--- a/code/common/linkdb/build.gradle
+++ b/code/common/linkdb/build.gradle
@@ -41,6 +41,7 @@ dependencies {
     testImplementation libs.mockito
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/common/service/build.gradle b/code/common/service/build.gradle
index 8cc9583e..4b2b4f1d 100644
--- a/code/common/service/build.gradle
+++ b/code/common/service/build.gradle
@@ -46,6 +46,7 @@ dependencies {
     implementation libs.bundles.mariadb
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/execution/build.gradle b/code/execution/build.gradle
index 8e17bfec..ae22f2ea 100644
--- a/code/execution/build.gradle
+++ b/code/execution/build.gradle
@@ -82,6 +82,7 @@ dependencies {
     testImplementation libs.mockito
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/index/build.gradle b/code/index/build.gradle
index 007c7483..ad1d1000 100644
--- a/code/index/build.gradle
+++ b/code/index/build.gradle
@@ -71,6 +71,7 @@ dependencies {
     testImplementation project(':code:libraries:array')
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/libraries/message-queue/build.gradle b/code/libraries/message-queue/build.gradle
index 2cfe41c1..c6ce03c9 100644
--- a/code/libraries/message-queue/build.gradle
+++ b/code/libraries/message-queue/build.gradle
@@ -34,6 +34,7 @@ dependencies {
     testImplementation project(':code:common:db')
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/processes/loading-process/build.gradle b/code/processes/loading-process/build.gradle
index 84c13ceb..0d9d51c1 100644
--- a/code/processes/loading-process/build.gradle
+++ b/code/processes/loading-process/build.gradle
@@ -62,6 +62,7 @@ dependencies {
 
     testImplementation libs.bundles.selenium
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/processes/website-adjacencies-calculator/build.gradle b/code/processes/website-adjacencies-calculator/build.gradle
index d983cf2d..37787b6a 100644
--- a/code/processes/website-adjacencies-calculator/build.gradle
+++ b/code/processes/website-adjacencies-calculator/build.gradle
@@ -42,6 +42,7 @@ dependencies {
     testImplementation libs.mockito
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/services-application/api-service/build.gradle b/code/services-application/api-service/build.gradle
index 85de3320..0680f59e 100644
--- a/code/services-application/api-service/build.gradle
+++ b/code/services-application/api-service/build.gradle
@@ -52,6 +52,7 @@ dependencies {
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/services-application/search-service/build.gradle b/code/services-application/search-service/build.gradle
index e7a6bd66..998b7f26 100644
--- a/code/services-application/search-service/build.gradle
+++ b/code/services-application/search-service/build.gradle
@@ -80,6 +80,7 @@ dependencies {
     testImplementation libs.mockito
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/services-core/control-service/build.gradle b/code/services-core/control-service/build.gradle
index c476ff10..3c7c5956 100644
--- a/code/services-core/control-service/build.gradle
+++ b/code/services-core/control-service/build.gradle
@@ -68,6 +68,7 @@ dependencies {
     testImplementation libs.bundles.junit
     testImplementation libs.mockito
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')
diff --git a/code/services-core/executor-service/build.gradle b/code/services-core/executor-service/build.gradle
index 24af8dd9..2e7934bc 100644
--- a/code/services-core/executor-service/build.gradle
+++ b/code/services-core/executor-service/build.gradle
@@ -92,6 +92,7 @@ dependencies {
     testImplementation libs.mockito
 
     testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
+    testImplementation libs.commons.codec
     testImplementation 'org.testcontainers:mariadb:1.17.4'
     testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
     testImplementation project(':code:libraries:test-helpers')

From 099133bdbc63d405caacf9b156a8271c3662d8ff Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:43:35 +0200
Subject: [PATCH 161/216] (index) Fix verbatim match score after moving full
 phrase group to a separate entity

---
 .../index/results/IndexResultScoreCalculator.java     | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 0dfc7b29..c5bbcd6f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -410,6 +410,13 @@ public class IndexResultScoreCalculator {
 
         float verbatimMatchScore = 0.f;
 
+        var fullGroup = constraints.getFullGroup();
+        for (var tag : HtmlTag.includedTags) {
+            if (fullGroup.test(spans.getSpan(tag), positions)) {
+                verbatimMatches.set(tag);
+            }
+        }
+
         for (var optionalGroup : constraints.getOptionalGroups()) {
             int groupSize = optionalGroup.size;
             float sizeScalingFactor = groupSize / (float) largestOptional;
@@ -417,10 +424,6 @@ public class IndexResultScoreCalculator {
             for (var tag : HtmlTag.includedTags) {
                 if (optionalGroup.test(spans.getSpan(tag), positions)) {
                     verbatimMatchScore += verbatimMatches.getWeight(tag) * sizeScalingFactor * groupSize;
-
-                    if (optionalGroup.size == largestOptional) {
-                        verbatimMatches.set(tag);
-                    }
                 }
             }
         }

From 4372c8c835931aa5f2c93e758b34c346e27aaa6d Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:43:54 +0200
Subject: [PATCH 162/216] (index) Give ranking components more consistent names

---
 .../results/IndexResultScoreCalculator.java   | 35 ++++++++++---------
 1 file changed, 18 insertions(+), 17 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index c5bbcd6f..d3e03556 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -311,16 +311,16 @@ public class IndexResultScoreCalculator {
                 + temporalBias
                 + flagsPenalty;
 
-        double tcfAvgDist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
-        double tcfFirstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
-        double tcfProximity = rankingParams.tcfProximity * keywordMinDistFac;
-        double tcfVerbatim = rankingParams.tcfVerbatim * verbatimMatchScore;
+        double score_avg_dist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
+        double score_firstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
 
-        double bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
-        double bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
+        double score_bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
+        double score_bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
+        double score_verbatim = rankingParams.tcfVerbatim * verbatimMatchScore;
+        double score_proximity = rankingParams.tcfProximity * keywordMinDistFac;
 
-        bM25 *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
-        bFlags *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
+        score_bM25 *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
+        score_bFlags *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
 
         if (rankingFactors != null) {
             rankingFactors.addDocumentFactor("overall.averageSentenceLengthPenalty", Double.toString(averageSentenceLengthPenalty));
@@ -330,14 +330,15 @@ public class IndexResultScoreCalculator {
             rankingFactors.addDocumentFactor("overall.topologyBonus", Double.toString(topologyBonus));
             rankingFactors.addDocumentFactor("overall.temporalBias", Double.toString(temporalBias));
             rankingFactors.addDocumentFactor("overall.flagsPenalty", Double.toString(flagsPenalty));
-            rankingFactors.addDocumentFactor("overall.verbatimMatchScore", Double.toString(verbatimMatchScore));
-            rankingFactors.addDocumentFactor("overall.keywordMinDistFac", Double.toString(keywordMinDistFac));
 
-            rankingFactors.addDocumentFactor("tcf.avgDist", Double.toString(tcfAvgDist));
-            rankingFactors.addDocumentFactor("tcf.firstPosition", Double.toString(tcfFirstPosition));
 
-            rankingFactors.addDocumentFactor("bm25.main", Double.toString(bM25));
-            rankingFactors.addDocumentFactor("bm25.flags", Double.toString(bFlags));
+
+            rankingFactors.addDocumentFactor("score.bm25-main", Double.toString(score_bM25));
+            rankingFactors.addDocumentFactor("score.bm25-flags", Double.toString(score_bFlags));
+            rankingFactors.addDocumentFactor("score.verbatim", Double.toString(score_verbatim));
+            rankingFactors.addDocumentFactor("score.proximity", Double.toString(score_proximity));
+            rankingFactors.addDocumentFactor("score.avgDist", Double.toString(score_avg_dist));
+            rankingFactors.addDocumentFactor("score.firstPosition", Double.toString(score_firstPosition));
 
             rankingFactors.addDocumentFactor("unordered.title", Integer.toString(unorderedMatchInTitleCount));
             rankingFactors.addDocumentFactor("unordered.heading", Integer.toString(unorderedMatchInHeadingCount));
@@ -379,9 +380,9 @@ public class IndexResultScoreCalculator {
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
-                tcfAvgDist + tcfFirstPosition + tcfProximity + tcfVerbatim
-                        + bM25
-                        + bFlags
+                score_avg_dist + score_firstPosition + score_proximity + score_verbatim
+                        + score_bM25
+                        + score_bFlags
                         + Math.max(0, overallPart),
                 -Math.min(0, overallPart));
 

From 773377fe84cd4b3c1058a87899523f2b8a5de3df Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:48:34 +0200
Subject: [PATCH 163/216] (index) Correct handling of full phrase match group

---
 .../marginalia/index/results/IndexResultScoreCalculator.java  | 4 +++-
 .../index/results/model/PhraseConstraintGroupList.java        | 4 ----
 2 files changed, 3 insertions(+), 5 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index d3e03556..1ea4bd4d 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -404,7 +404,7 @@ public class IndexResultScoreCalculator {
                                       DocumentSpans spans) {
 
         // Calculate a bonus for keyword coherences when large ones exist
-        int largestOptional = constraints.largestOptional();
+        int largestOptional = constraints.getFullGroup().size;
         if (largestOptional < 2) {
             return 0;
         }
@@ -414,10 +414,12 @@ public class IndexResultScoreCalculator {
         var fullGroup = constraints.getFullGroup();
         for (var tag : HtmlTag.includedTags) {
             if (fullGroup.test(spans.getSpan(tag), positions)) {
+                verbatimMatchScore += verbatimMatches.getWeight(tag) * fullGroup.size;
                 verbatimMatches.set(tag);
             }
         }
 
+        // For optional groups, we scale the score by the size of the group relative to the full group
         for (var optionalGroup : constraints.getOptionalGroups()) {
             int groupSize = optionalGroup.size;
             float sizeScalingFactor = groupSize / (float) largestOptional;
diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index cdd7820f..f065ae8a 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -93,10 +93,6 @@ public class PhraseConstraintGroupList {
     public int numOptional() {
         return optionalGroups.size();
     }
-    public int largestOptional() {
-        return fullGroup.size;
-    }
-
 
     public static final class PhraseConstraintGroup {
         private final int[] offsets;

From 6eb0f13411e9e71e6ece6bbfa172f9d7d7382961 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 10:54:04 +0200
Subject: [PATCH 164/216] (index) Adjust handling of full phrase matches to
 prioritize full query matches over large partial matches

---
 .../results/IndexResultScoreCalculator.java   | 41 ++++++++++++-------
 1 file changed, 27 insertions(+), 14 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 1ea4bd4d..564c714a 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -414,7 +414,7 @@ public class IndexResultScoreCalculator {
         var fullGroup = constraints.getFullGroup();
         for (var tag : HtmlTag.includedTags) {
             if (fullGroup.test(spans.getSpan(tag), positions)) {
-                verbatimMatchScore += verbatimMatches.getWeight(tag) * fullGroup.size;
+                verbatimMatchScore += verbatimMatches.getWeightFull(tag) * fullGroup.size;
                 verbatimMatches.set(tag);
             }
         }
@@ -426,29 +426,26 @@ public class IndexResultScoreCalculator {
 
             for (var tag : HtmlTag.includedTags) {
                 if (optionalGroup.test(spans.getSpan(tag), positions)) {
-                    verbatimMatchScore += verbatimMatches.getWeight(tag) * sizeScalingFactor * groupSize;
+                    verbatimMatchScore += verbatimMatches.getWeightPartial(tag) * sizeScalingFactor * groupSize;
                 }
             }
         }
 
-        if (constraints.numOptional() > 0) {
-            verbatimMatchScore += (float) Math.pow(constraints.countOptional(positions) / (double) constraints.numOptional(), 2);
-        }
-
         return verbatimMatchScore;
-
     }
 
     private static class VerbatimMatches {
         private final BitSet matches;
-        private final float[] weights;
+        private final float[] weights_full;
+        private final float[] weights_partial;
 
         public VerbatimMatches() {
             matches = new BitSet(HtmlTag.includedTags.length);
-            weights = new float[HtmlTag.includedTags.length];
+            weights_full = new float[HtmlTag.includedTags.length];
+            weights_partial = new float[HtmlTag.includedTags.length];
 
-            for (int i = 0; i < weights.length; i++) {
-                weights[i] = switch(HtmlTag.includedTags[i]) {
+            for (int i = 0; i < weights_full.length; i++) {
+                weights_full[i] = switch(HtmlTag.includedTags[i]) {
                     case TITLE -> 4.0f;
                     case HEADING -> 1.5f;
                     case ANCHOR -> 0.2f;
@@ -459,6 +456,19 @@ public class IndexResultScoreCalculator {
                     default -> 0.0f;
                 };
             }
+
+            for (int i = 0; i < weights_full.length; i++) {
+                weights_partial[i] = switch(HtmlTag.includedTags[i]) {
+                    case TITLE -> 1.5f;
+                    case HEADING -> 1.f;
+                    case ANCHOR -> 0.2f;
+                    case NAV -> 0.1f;
+                    case CODE -> 0.25f;
+                    case EXTERNAL_LINKTEXT -> 1.0f;
+                    case BODY -> 0.25f;
+                    default -> 0.0f;
+                };
+            }
         }
 
         public boolean get(HtmlTag tag) {
@@ -471,11 +481,14 @@ public class IndexResultScoreCalculator {
             matches.set(tag.ordinal());
         }
 
-        public float getWeight(HtmlTag tag) {
+        public float getWeightFull(HtmlTag tag) {
             assert !tag.exclude;
-            return weights[tag.ordinal()];
+            return weights_full[tag.ordinal()];
+        }
+        public float getWeightPartial(HtmlTag tag) {
+            assert !tag.exclude;
+            return weights_partial[tag.ordinal()];
         }
-
 
     }
 

From 7f498e10b7597d27c014fac23296344a8e603f5c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:01:35 +0200
Subject: [PATCH 165/216] (index) Adjust proximity score

---
 .../results/IndexResultScoreCalculator.java   | 16 +++---------
 .../model/PhraseConstraintGroupList.java      | 25 +++++++++++++++++++
 .../sequence/SequenceOperations.java          | 21 +++++++---------
 .../sequence/SequenceOperationsTest.java      |  6 ++---
 4 files changed, 39 insertions(+), 29 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 564c714a..f8bd6fb9 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -27,9 +27,7 @@ import nu.marginalia.sequence.SequenceOperations;
 
 import javax.annotation.Nullable;
 import java.lang.foreign.Arena;
-import java.util.ArrayList;
 import java.util.BitSet;
-import java.util.List;
 
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.booleanAggregate;
 import static nu.marginalia.api.searchquery.model.compiled.aggregate.CompiledQueryAggregates.intMaxMinAggregate;
@@ -225,19 +223,11 @@ public class IndexResultScoreCalculator {
         float[] weightedCounts = new float[compiledQuery.size()];
         float keywordMinDistFac = 0;
         if (positions.length > 2) {
-            List<IntIterator> iterators = new ArrayList<>(positions.length);
-
-            for (int i = 0; i < positions.length; i++) {
-                if (positions[i] != null && ctx.regularMask.get(i)) {
-                    iterators.add(positions[i].iterator());
-                }
-            }
-
-            int minDist = SequenceOperations.minDistance(iterators);
-            if (minDist > 0) {
+            int minDist = constraintGroups.getFullGroup().minDistance(positions);
+            if (minDist > 0 && minDist < Integer.MAX_VALUE) {
                 if (minDist < 32) {
                     // If min-dist is sufficiently small, we give a tapering reward to the document
-                    keywordMinDistFac = 2.0f / (1.f + (float) Math.sqrt(minDist));
+                    keywordMinDistFac = 2.0f / (0.1f + (float) Math.sqrt(minDist));
                 } else {
                     // if it is too large, we add a mounting penalty
                     keywordMinDistFac = -1.0f * (float) Math.sqrt(minDist);
diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index f065ae8a..4b679ddc 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -193,5 +193,30 @@ public class PhraseConstraintGroupList {
             return false;
         }
 
+        public int minDistance(CodedSequence[] positions) {
+            IntIterator[] sequences = new IntIterator[present.cardinality()];
+
+            for (int oi = 0, si = 0; oi < offsets.length; oi++) {
+                if (!present.get(oi)) {
+                    continue;
+                }
+                int offset = offsets[oi];
+                if (offset < 0)
+                    return Integer.MAX_VALUE;
+
+                // Create iterators that are offset by their relative position in the
+                // sequence.  This is done by subtracting the index from the offset,
+                // so that when we intersect them, an overlap means that the terms are
+                // in the correct order.  Note the offset is negative!
+
+                var posForTerm = positions[offset];
+                if (posForTerm == null) {
+                    return Integer.MAX_VALUE;
+                }
+                sequences[si++] = posForTerm.offsetIterator(-oi);
+            }
+
+            return SequenceOperations.minDistance(sequences);
+        }
     }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 6a5e76b0..36a82d5c 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -4,8 +4,6 @@ import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 
-import java.util.List;
-
 public class SequenceOperations {
 
     /** Return true if the sequences intersect, false otherwise.
@@ -145,21 +143,20 @@ public class SequenceOperations {
         return minDistance;
     }
 
-    public static int minDistance(List<IntIterator> iterators) {
-        if (iterators.size() <= 1)
+    public static int minDistance(IntIterator[] iterators) {
+        if (iterators.length <= 1)
             return 0;
 
-        int[] values = new int[iterators.size()];
+        int[] values = new int[iterators.length];
 
-        for (int i = 0; i < iterators.size(); i++) {
-            if (iterators.get(i).hasNext())
-                values[i] = iterators.get(i).nextInt();
+        for (int i = 0; i < iterators.length; i++) {
+            if (iterators[i].hasNext())
+                values[i] = iterators[i].nextInt();
             else
                 return 0;
         }
 
         int minDist = Integer.MAX_VALUE;
-        int successes = 0;
 
         int minVal = Integer.MAX_VALUE;
         int maxVal = Integer.MIN_VALUE;
@@ -171,13 +168,13 @@ public class SequenceOperations {
 
         minDist = Math.min(minDist, maxVal - minVal);
 
-        for (int i = 0; successes < iterators.size(); i = (i + 1) % iterators.size())
+        for (int i = 0;; i = (i + 1) % iterators.length)
         {
             if (values[i] == minVal) {
-                if (!iterators.get(i).hasNext()) {
+                if (!iterators[i].hasNext()) {
                     break;
                 }
-                values[i] = iterators.get(i).nextInt();
+                values[i] = iterators[i].nextInt();
 
                 if (values[i] > maxVal) {
                     maxVal = values[i];
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index 6e235407..514eedc9 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -1,10 +1,10 @@
 package nu.marginalia.sequence;
 
+import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import org.junit.jupiter.api.Test;
 
 import java.nio.ByteBuffer;
-import java.util.List;
 
 import static org.junit.jupiter.api.Assertions.*;
 
@@ -91,8 +91,6 @@ class SequenceOperationsTest {
         GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 20, 50, 100);
         GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 30, 60, 90);
 
-        assertEquals(19, SequenceOperations.minDistance(List.of(seq1.iterator(), seq2.iterator(), seq3.iterator())));
-
-
+        assertEquals(19, SequenceOperations.minDistance(new IntIterator[]{seq1.iterator(), seq2.iterator(), seq3.iterator()}));
     }
 }
\ No newline at end of file

From 53700e666762f7912d90fac11d9b7f53adee318c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:08:41 +0200
Subject: [PATCH 166/216] (index) Try harmonic mean for avgMinDist

---
 .../index/results/IndexResultScoreCalculator.java      | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index f8bd6fb9..8585a023 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -301,7 +301,7 @@ public class IndexResultScoreCalculator {
                 + temporalBias
                 + flagsPenalty;
 
-        double score_avg_dist = rankingParams.tcfAvgDist * (1.0 / calculateAvgMinDistance(positionsQuery, ctx));
+        double score_avg_dist = rankingParams.tcfAvgDist * calculateAvgMinDistance(positionsQuery, ctx);
         double score_firstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
 
         double score_bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
@@ -581,13 +581,15 @@ public class IndexResultScoreCalculator {
                     continue;
 
                 int distance = SequenceOperations.minDistance(posi.iterator(), posj.iterator());
-                sum += distance;
-                cnt++;
+                if (distance > 0) {
+                    sum += (1.0 / distance);
+                    cnt++;
+                }
             }
         }
 
         if (cnt > 0 && sum > 0) {
-            return sum / cnt;
+            return cnt / sum;
         } else {
             return 1000.;
         }

From 65bee366dcc1e88c486e494a7a91c6e213b1b7c8 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:11:52 +0200
Subject: [PATCH 167/216] (index) Try harmonic mean for avgMinDist

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 8585a023..3486d78d 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -591,7 +591,7 @@ public class IndexResultScoreCalculator {
         if (cnt > 0 && sum > 0) {
             return cnt / sum;
         } else {
-            return 1000.;
+            return 0;
         }
     }
 

From 9aa8f13731efbdff5e45f6183562ae96d1e1badd Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:20:19 +0200
Subject: [PATCH 168/216] (index) Remove tcfAvgDist ranking parameter

This is captured by tcfProximity already
---
 .../api/searchquery/IndexProtobufCodec.java   |  2 -
 .../results/ResultRankingParameters.java      |  2 -
 .../api/src/main/protobuf/query-api.proto     |  2 +-
 .../results/IndexResultScoreCalculator.java   | 48 +------------------
 .../marginalia/query/QueryBasicInterface.java |  1 -
 .../resources/templates/qdebug.hdb            |  2 -
 6 files changed, 2 insertions(+), 55 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
index 80d36911..bd421bfc 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/IndexProtobufCodec.java
@@ -117,7 +117,6 @@ public class IndexProtobufCodec {
                 params.getShortSentencePenalty(),
                 params.getBm25Weight(),
                 params.getTcfFirstPositionWeight(),
-                params.getTcfAvgDistWeight(),
                 params.getTcfVerbatimWeight(),
                 params.getTcfProximityWeight(),
                 ResultRankingParameters.TemporalBias.valueOf(params.getTemporalBias().getBias().name()),
@@ -143,7 +142,6 @@ public class IndexProtobufCodec {
                         .setShortSentenceThreshold(rankingParams.shortSentenceThreshold)
                         .setShortSentencePenalty(rankingParams.shortSentencePenalty)
                         .setBm25Weight(rankingParams.bm25Weight)
-                        .setTcfAvgDistWeight(rankingParams.tcfAvgDist)
                         .setTcfFirstPositionWeight(rankingParams.tcfFirstPosition)
                         .setTcfProximityWeight(rankingParams.tcfProximity)
                         .setTcfVerbatimWeight(rankingParams.tcfVerbatim)
diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
index 4917d193..1c190329 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
@@ -32,7 +32,6 @@ public class ResultRankingParameters {
 
     public double bm25Weight;
     public double tcfFirstPosition;
-    public double tcfAvgDist;
     public double tcfVerbatim;
     public double tcfProximity;
 
@@ -51,7 +50,6 @@ public class ResultRankingParameters {
                 .shortSentenceThreshold(2)
                 .shortSentencePenalty(5)
                 .bm25Weight(1.)
-                .tcfAvgDist(25.)
                 .tcfVerbatim(1.)
                 .tcfProximity(1.)
                 .tcfFirstPosition(25)
diff --git a/code/functions/search-query/api/src/main/protobuf/query-api.proto b/code/functions/search-query/api/src/main/protobuf/query-api.proto
index 76a9b393..1504d46f 100644
--- a/code/functions/search-query/api/src/main/protobuf/query-api.proto
+++ b/code/functions/search-query/api/src/main/protobuf/query-api.proto
@@ -139,7 +139,7 @@ message RpcResultRankingParameters {
   int32 shortSentenceThreshold = 9;
   double shortSentencePenalty = 10;
   double bm25Weight = 11;
-  double tcfAvgDistWeight = 12;
+  // -- 12 unused --
   double tcfFirstPositionWeight = 13;
   double tcfVerbatimWeight = 14;
   double tcfProximityWeight = 15;
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 3486d78d..1b7b727f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -301,7 +301,6 @@ public class IndexResultScoreCalculator {
                 + temporalBias
                 + flagsPenalty;
 
-        double score_avg_dist = rankingParams.tcfAvgDist * calculateAvgMinDistance(positionsQuery, ctx);
         double score_firstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
 
         double score_bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
@@ -327,7 +326,6 @@ public class IndexResultScoreCalculator {
             rankingFactors.addDocumentFactor("score.bm25-flags", Double.toString(score_bFlags));
             rankingFactors.addDocumentFactor("score.verbatim", Double.toString(score_verbatim));
             rankingFactors.addDocumentFactor("score.proximity", Double.toString(score_proximity));
-            rankingFactors.addDocumentFactor("score.avgDist", Double.toString(score_avg_dist));
             rankingFactors.addDocumentFactor("score.firstPosition", Double.toString(score_firstPosition));
 
             rankingFactors.addDocumentFactor("unordered.title", Integer.toString(unorderedMatchInTitleCount));
@@ -370,7 +368,7 @@ public class IndexResultScoreCalculator {
         // Renormalize to 0...15, where 0 is the best possible score;
         // this is a historical artifact of the original ranking function
         double ret = normalize(
-                score_avg_dist + score_firstPosition + score_proximity + score_verbatim
+                score_firstPosition + score_proximity + score_verbatim
                         + score_bM25
                         + score_bFlags
                         + Math.max(0, overallPart),
@@ -551,48 +549,4 @@ public class IndexResultScoreCalculator {
         return Math.sqrt((1.0 + 500. + 10 * penalty) / (1.0 + value));
     }
 
-
-    public static double calculateAvgMinDistance(CompiledQuery<CodedSequence> positions, ResultRankingContext ctx) {
-        double sum = 0;
-        int cnt = 0;
-
-        for (int i = 0; i < positions.size(); i++) {
-
-            // Skip terms that are not in the regular mask
-            if (!ctx.regularMask.get(i))
-                continue;
-
-            var posi = positions.at(i);
-
-            // Skip terms that are not in the document
-            if (posi == null)
-                continue;
-
-            for (int j = i + 1; j < positions.size(); j++) {
-
-                // Skip terms that are not in the regular mask
-                if (!ctx.regularMask.get(j))
-                    continue;
-
-                var posj = positions.at(j);
-
-                // Skip terms that are not in the document
-                if (posj == null)
-                    continue;
-
-                int distance = SequenceOperations.minDistance(posi.iterator(), posj.iterator());
-                if (distance > 0) {
-                    sum += (1.0 / distance);
-                    cnt++;
-                }
-            }
-        }
-
-        if (cnt > 0 && sum > 0) {
-            return cnt / sum;
-        } else {
-            return 0;
-        }
-    }
-
 }
diff --git a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
index 409348f3..937b80d7 100644
--- a/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
+++ b/code/services-core/query-service/java/nu/marginalia/query/QueryBasicInterface.java
@@ -107,7 +107,6 @@ public class QueryBasicInterface {
                 .shortDocumentThreshold(intFromRequest(request, "shortDocumentThreshold", sensibleDefaults.shortDocumentThreshold))
                 .shortDocumentPenalty(doubleFromRequest(request, "shortDocumentPenalty", sensibleDefaults.shortDocumentPenalty))
                 .tcfFirstPosition(doubleFromRequest(request, "tcfFirstPosition", sensibleDefaults.tcfFirstPosition))
-                .tcfAvgDist(doubleFromRequest(request, "tcfAvgDist", sensibleDefaults.tcfAvgDist))
                 .tcfVerbatim(doubleFromRequest(request, "tcfVerbatim", sensibleDefaults.tcfVerbatim))
                 .tcfProximity(doubleFromRequest(request, "tcfProximity", sensibleDefaults.tcfProximity))
                 .bm25Params(new Bm25Parameters(
diff --git a/code/services-core/query-service/resources/templates/qdebug.hdb b/code/services-core/query-service/resources/templates/qdebug.hdb
index df256894..5e71d13b 100644
--- a/code/services-core/query-service/resources/templates/qdebug.hdb
+++ b/code/services-core/query-service/resources/templates/qdebug.hdb
@@ -31,8 +31,6 @@
         <div class="col-sm-2"><input type="text" class="form-control" id="shortDocumentPenalty" name="shortDocumentPenalty" value="{{shortDocumentPenalty}}"></div>
     </div>
     <div class="row my-2">
-        <div class="col-sm-2"><label for="tcfAvgDist">TCF Average Distance</label></div>
-        <div class="col-sm-2"><input type="text" class="form-control" id="tcfAvgDist" name="tcfAvgDist" value="{{tcfAvgDist}}"></div>
         <div class="col-sm-2"><label for="tcfFirstPosition">TCF First Position Weight</label></div>
         <div class="col-sm-2"><input type="text" class="form-control" id="tcfFirstPosition" name="tcfFirstPosition" value="{{tcfFirstPosition}}"></div>
     </div>

From 4fbcc02f96ad0ee4f2a2d1b699068be70c7b426e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:24:16 +0200
Subject: [PATCH 169/216] (index) Adjust sensible defaults for ranking
 parameters

---
 .../searchquery/model/results/ResultRankingParameters.java    | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
index 1c190329..3db0c2c0 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/ResultRankingParameters.java
@@ -50,8 +50,8 @@ public class ResultRankingParameters {
                 .shortSentenceThreshold(2)
                 .shortSentencePenalty(5)
                 .bm25Weight(1.)
-                .tcfVerbatim(1.)
-                .tcfProximity(1.)
+                .tcfVerbatim(2.)
+                .tcfProximity(2.)
                 .tcfFirstPosition(25)
                 .temporalBias(TemporalBias.NONE)
                 .temporalBiasWeight(1. / (5.))

From aa2c960b74b2a674c016d68dfa473349521899aa Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:53:44 +0200
Subject: [PATCH 170/216] (index) Optimize ranking calculations

---
 .../index/forward/spans/DocumentSpan.java     | 30 +++++++++++++
 .../results/IndexResultScoreCalculator.java   | 45 +++++++++----------
 2 files changed, 51 insertions(+), 24 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 771ae422..d690f377 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -17,6 +17,36 @@ public class DocumentSpan {
         this.startsEnds = null;
     }
 
+    public boolean intersects(IntIterator positionsIter) {
+        if (null == startsEnds) {
+            return false;
+        }
+
+        var iter = startsEnds.iterator();
+        int start = -1;
+        int end = -1;
+
+        while (iter.hasNext()) {
+            if (start < 0) {
+                start = iter.nextInt();
+                end = iter.nextInt();
+            }
+
+            int position = positionsIter.nextInt();
+            if (position < start) {
+                continue;
+            }
+
+            if (position < end) {
+                return true;
+            }
+
+            start = -1;
+        }
+
+        return false;
+    }
+
     public boolean containsPosition(int position) {
         if (startsEnds == null) {
             return false;
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 1b7b727f..67d6243c 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -1,6 +1,7 @@
 package nu.marginalia.index.results;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQuery;
 import nu.marginalia.api.searchquery.model.compiled.CompiledQueryLong;
 import nu.marginalia.api.searchquery.model.results.ResultRankingContext;
@@ -247,34 +248,30 @@ public class IndexResultScoreCalculator {
                 boolean titleMatch = false;
                 boolean headingMatch = false;
 
-                var iter = positions[i].iterator();
-
-                while (iter.hasNext()) {
-                    int pos = iter.nextInt();
+                IntList positionValues = positions[i].values();
 
+                for (int idx = 0; idx < positionValues.size(); idx++) {
+                    int pos = positionValues.getInt(idx);
                     firstPosition = Math.max(firstPosition, pos);
-
-                    if (spans.title.containsPosition(pos)) {
-                        titleMatch = true;
-                        weightedCounts[i] += 2.5f;
-                    }
-                    else if (spans.heading.containsPosition(pos)) {
-                        headingMatch = true;
-                        weightedCounts[i] += 2.5f;
-                    }
-                    else if (spans.code.containsPosition(pos))
-                        weightedCounts[i] += 0.25f;
-                    else if (spans.anchor.containsPosition(pos))
-                        weightedCounts[i] += 0.2f;
-                    else if (spans.nav.containsPosition(pos))
-                        weightedCounts[i] += 0.1f;
-                    else
-                        weightedCounts[i] += 1.0f;
-
-                    if (spans.externalLinkText.containsPosition(pos))
-                        weightedCounts[i] += 1.0f;
                 }
 
+                if (spans.title.intersects(positionValues.iterator())) {
+                    titleMatch = true;
+                    weightedCounts[i] += 2.5f;
+                }
+                else if (spans.heading.intersects(positionValues.iterator())) {
+                    headingMatch = true;
+                    weightedCounts[i] += 2.5f;
+                }
+                else if (spans.code.intersects(positionValues.iterator()))
+                    weightedCounts[i] += 0.25f;
+                else if (spans.anchor.intersects(positionValues.iterator()))
+                    weightedCounts[i] += 0.2f;
+                else if (spans.nav.intersects(positionValues.iterator()))
+                    weightedCounts[i] += 0.1f;
+                else
+                    weightedCounts[i] += 1.0f;
+
                 if (titleMatch) {
                     unorderedMatchInTitleCount++;
                 }

From 3fb3c0b92e3b4489d7f6a58a29e429d82333eabb Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 11:56:11 +0200
Subject: [PATCH 171/216] (index) Optimize ranking calculations

---
 .../java/nu/marginalia/index/forward/spans/DocumentSpan.java  | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index d690f377..60432a06 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -18,7 +18,7 @@ public class DocumentSpan {
     }
 
     public boolean intersects(IntIterator positionsIter) {
-        if (null == startsEnds) {
+        if (null == startsEnds || !positionsIter.hasNext()) {
             return false;
         }
 
@@ -26,7 +26,7 @@ public class DocumentSpan {
         int start = -1;
         int end = -1;
 
-        while (iter.hasNext()) {
+        while (iter.hasNext() && positionsIter.hasNext()) {
             if (start < 0) {
                 start = iter.nextInt();
                 end = iter.nextInt();

From 6dda2c2d83b6d3e42499961a3389fc4289466429 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 12:06:31 +0200
Subject: [PATCH 172/216] (coded-sequence) Reduce allocations in GCS.values()

---
 .../java/nu/marginalia/sequence/GammaCodedSequence.java       | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 00fcf097..8d8097be 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -93,8 +93,8 @@ public class GammaCodedSequence implements Iterable<Integer>, CodedSequence {
     }
 
     public IntList values() {
-        var intItr = iterator();
-        IntArrayList ret = new IntArrayList(8);
+        var intItr = new EliasGammaSequenceIterator(buffer());
+        IntArrayList ret = new IntArrayList(intItr.rem);
         while (intItr.hasNext()) {
             ret.add(intItr.nextInt());
         }

From 63e5b0ab187bb3cf20474e4e6b97d3e10d27ad9f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 12:06:56 +0200
Subject: [PATCH 173/216] (index) Correct weightedCounts calculations

---
 .../index/forward/spans/DocumentSpan.java     |  9 +++--
 .../results/IndexResultScoreCalculator.java   | 39 ++++++++-----------
 2 files changed, 22 insertions(+), 26 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 60432a06..54578114 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -17,15 +17,16 @@ public class DocumentSpan {
         this.startsEnds = null;
     }
 
-    public boolean intersects(IntIterator positionsIter) {
+    public int countIntersections(IntIterator positionsIter) {
         if (null == startsEnds || !positionsIter.hasNext()) {
-            return false;
+            return 0;
         }
 
         var iter = startsEnds.iterator();
         int start = -1;
         int end = -1;
 
+        int cnt = 0;
         while (iter.hasNext() && positionsIter.hasNext()) {
             if (start < 0) {
                 start = iter.nextInt();
@@ -38,13 +39,13 @@ public class DocumentSpan {
             }
 
             if (position < end) {
-                return true;
+                cnt++;
             }
 
             start = -1;
         }
 
-        return false;
+        return cnt;
     }
 
     public boolean containsPosition(int position) {
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 67d6243c..41fbca55 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -245,9 +245,6 @@ public class IndexResultScoreCalculator {
             if (positions[i] != null && ctx.regularMask.get(i)) {
                 searchableKeywordsCount ++;
 
-                boolean titleMatch = false;
-                boolean headingMatch = false;
-
                 IntList positionValues = positions[i].values();
 
                 for (int idx = 0; idx < positionValues.size(); idx++) {
@@ -255,28 +252,26 @@ public class IndexResultScoreCalculator {
                     firstPosition = Math.max(firstPosition, pos);
                 }
 
-                if (spans.title.intersects(positionValues.iterator())) {
-                    titleMatch = true;
-                    weightedCounts[i] += 2.5f;
-                }
-                else if (spans.heading.intersects(positionValues.iterator())) {
-                    headingMatch = true;
-                    weightedCounts[i] += 2.5f;
-                }
-                else if (spans.code.intersects(positionValues.iterator()))
-                    weightedCounts[i] += 0.25f;
-                else if (spans.anchor.intersects(positionValues.iterator()))
-                    weightedCounts[i] += 0.2f;
-                else if (spans.nav.intersects(positionValues.iterator()))
-                    weightedCounts[i] += 0.1f;
-                else
-                    weightedCounts[i] += 1.0f;
-
-                if (titleMatch) {
+                int cnt;
+                if ((cnt = spans.title.countIntersections(positionValues.iterator())) != 0) {
                     unorderedMatchInTitleCount++;
+                    weightedCounts[i] += 2.5f * cnt;
                 }
-                if (headingMatch) {
+                if ((cnt = spans.heading.countIntersections(positionValues.iterator())) != 0) {
                     unorderedMatchInHeadingCount++;
+                    weightedCounts[i] += 2.5f * cnt;
+                }
+                if ((cnt = spans.code.countIntersections(positionValues.iterator())) != 0) {
+                    weightedCounts[i] += 0.25f * cnt;
+                }
+                if ((cnt = spans.anchor.countIntersections(positionValues.iterator())) != 0) {
+                    weightedCounts[i] += 0.2f * cnt;
+                }
+                if ((cnt = spans.nav.countIntersections(positionValues.iterator())) != 0) {
+                    weightedCounts[i] += 0.1f * cnt;
+                }
+                if ((cnt = spans.body.countIntersections(positionValues.iterator())) != 0) {
+                    weightedCounts[i] += 1.0f * cnt;
                 }
             }
         }

From 6ce029b31774c44137133e87f170a62e682ba0a4 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 12:14:12 +0200
Subject: [PATCH 174/216] (index) Remove vestigial parameter

---
 .../nu/marginalia/index/results/IndexResultScoreCalculator.java | 2 --
 1 file changed, 2 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 41fbca55..a3a7c11d 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -96,7 +96,6 @@ public class IndexResultScoreCalculator {
                 rankingFactors,
                 searchTerms,
                 wordFlagsQuery,
-                positionsQuery,
                 docMetadata,
                 htmlFeatures,
                 docSize,
@@ -176,7 +175,6 @@ public class IndexResultScoreCalculator {
     public double calculateSearchResultValue(DebugRankingFactors rankingFactors,
                                              QuerySearchTerms searchTerms,
                                              CompiledQueryLong wordFlagsQuery,
-                                             CompiledQuery<CodedSequence> positionsQuery,
                                              long documentMetadata,
                                              int features,
                                              int length,

From 24b805472a142844f6188a45c9eda931c8e587c2 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 12:23:09 +0200
Subject: [PATCH 175/216] (index) Evaluate performance implication of decoding
 gcs early

---
 .../results/IndexResultScoreCalculator.java   | 34 ++++++----
 .../model/PhraseConstraintGroupList.java      | 63 ++++---------------
 .../sequence/SequenceOperations.java          | 17 +++--
 .../sequence/SequenceOperationsTest.java      |  2 +-
 4 files changed, 45 insertions(+), 71 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index a3a7c11d..84db185e 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -92,6 +92,16 @@ public class IndexResultScoreCalculator {
             rankingFactors.addDocumentFactor("doc.combinedId", Long.toString(docId));
         }
 
+        IntList[] decodedPositions = new IntList[positions.length];
+        for (int i = 0; i < positions.length; i++) {
+            if (positions[i] != null) {
+                decodedPositions[i] = positions[i].values();
+            }
+            else {
+                decodedPositions[i] = IntList.of();
+            }
+        }
+
         double score = calculateSearchResultValue(
                 rankingFactors,
                 searchTerms,
@@ -100,7 +110,7 @@ public class IndexResultScoreCalculator {
                 htmlFeatures,
                 docSize,
                 spans,
-                positions,
+                decodedPositions,
                 searchTerms.phraseConstraints,
                 rankingContext);
 
@@ -179,7 +189,7 @@ public class IndexResultScoreCalculator {
                                              int features,
                                              int length,
                                              DocumentSpans spans,
-                                             CodedSequence[] positions,
+                                             IntList[] positions,
                                              PhraseConstraintGroupList constraintGroups,
                                              ResultRankingContext ctx)
     {
@@ -243,32 +253,30 @@ public class IndexResultScoreCalculator {
             if (positions[i] != null && ctx.regularMask.get(i)) {
                 searchableKeywordsCount ++;
 
-                IntList positionValues = positions[i].values();
-
-                for (int idx = 0; idx < positionValues.size(); idx++) {
-                    int pos = positionValues.getInt(idx);
+                for (int idx = 0; idx < positions[i].size(); idx++) {
+                    int pos = positions[i].getInt(idx);
                     firstPosition = Math.max(firstPosition, pos);
                 }
 
                 int cnt;
-                if ((cnt = spans.title.countIntersections(positionValues.iterator())) != 0) {
+                if ((cnt = spans.title.countIntersections(positions[i].iterator())) != 0) {
                     unorderedMatchInTitleCount++;
                     weightedCounts[i] += 2.5f * cnt;
                 }
-                if ((cnt = spans.heading.countIntersections(positionValues.iterator())) != 0) {
+                if ((cnt = spans.heading.countIntersections(positions[i].iterator())) != 0) {
                     unorderedMatchInHeadingCount++;
                     weightedCounts[i] += 2.5f * cnt;
                 }
-                if ((cnt = spans.code.countIntersections(positionValues.iterator())) != 0) {
+                if ((cnt = spans.code.countIntersections(positions[i].iterator())) != 0) {
                     weightedCounts[i] += 0.25f * cnt;
                 }
-                if ((cnt = spans.anchor.countIntersections(positionValues.iterator())) != 0) {
+                if ((cnt = spans.anchor.countIntersections(positions[i].iterator())) != 0) {
                     weightedCounts[i] += 0.2f * cnt;
                 }
-                if ((cnt = spans.nav.countIntersections(positionValues.iterator())) != 0) {
+                if ((cnt = spans.nav.countIntersections(positions[i].iterator())) != 0) {
                     weightedCounts[i] += 0.1f * cnt;
                 }
-                if ((cnt = spans.body.countIntersections(positionValues.iterator())) != 0) {
+                if ((cnt = spans.body.countIntersections(positions[i].iterator())) != 0) {
                     weightedCounts[i] += 1.0f * cnt;
                 }
             }
@@ -378,7 +386,7 @@ public class IndexResultScoreCalculator {
 
     private float findVerbatimMatches(VerbatimMatches verbatimMatches,
                                       PhraseConstraintGroupList constraints,
-                                      CodedSequence[] positions,
+                                      IntList[] positions,
                                       DocumentSpans spans) {
 
         // Calculate a bonus for keyword coherences when large ones exist
diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 4b679ddc..2976653b 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -1,6 +1,7 @@
 package nu.marginalia.index.results.model;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
+import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.index.forward.spans.DocumentSpan;
 import nu.marginalia.index.model.SearchTermsUtil;
 import nu.marginalia.index.results.model.ids.TermIdList;
@@ -48,52 +49,6 @@ public class PhraseConstraintGroupList {
         return true;
     }
 
-    public int testOptional(CodedSequence[] positions) {
-
-        int best = 0;
-        for (var constraint : optionalGroups) {
-            if (constraint.test(positions)) {
-                best = Math.max(constraint.size, best);
-            }
-        }
-        return best;
-    }
-
-    public int countOptional(CodedSequence[] positions) {
-
-        int ct = 0;
-        for (var constraint : optionalGroups) {
-            if (constraint.test(positions)) {
-                ct++;
-            }
-        }
-        return ct;
-    }
-
-    public int testOptional(CodedSequence[] positions, DocumentSpan span) {
-
-        int best = 0;
-        for (var constraint : optionalGroups) {
-            if (constraint.test(span, positions)) {
-                best = Math.max(constraint.size, best);
-            }
-        }
-        return best;
-    }
-
-    public boolean allOptionalInSpan(CodedSequence[] positions, DocumentSpan span) {
-        for (var constraint : optionalGroups) {
-            if (!constraint.test(span, positions)) {
-                return false;
-            }
-        }
-        return true;
-    }
-
-    public int numOptional() {
-        return optionalGroups.size();
-    }
-
     public static final class PhraseConstraintGroup {
         private final int[] offsets;
         private final BitSet present;
@@ -159,8 +114,9 @@ public class PhraseConstraintGroupList {
         }
 
 
-        public boolean test(DocumentSpan span, CodedSequence[] positions) {
+        public boolean test(DocumentSpan span, IntList[] positions) {
             IntIterator[] sequences = new IntIterator[present.cardinality()];
+            int[] iterOffsets = new int[sequences.length];
 
             for (int oi = 0, si = 0; oi < offsets.length; oi++) {
                 if (!present.get(oi)) {
@@ -179,10 +135,11 @@ public class PhraseConstraintGroupList {
                 if (posForTerm == null) {
                     return false;
                 }
-                sequences[si++] = posForTerm.offsetIterator(-oi);
+                sequences[si++] = posForTerm.iterator();
+                iterOffsets[si - 1] = -oi;
             }
 
-            var intersections = SequenceOperations.findIntersections(sequences);
+            var intersections = SequenceOperations.findIntersections(iterOffsets, sequences);
 
             for (int idx = 0; idx < intersections.size(); idx++) {
                 if (span.containsRange(intersections.getInt(idx), sequences.length)) {
@@ -193,8 +150,9 @@ public class PhraseConstraintGroupList {
             return false;
         }
 
-        public int minDistance(CodedSequence[] positions) {
+        public int minDistance(IntList[] positions) {
             IntIterator[] sequences = new IntIterator[present.cardinality()];
+            int[] iterOffsets = new int[sequences.length];
 
             for (int oi = 0, si = 0; oi < offsets.length; oi++) {
                 if (!present.get(oi)) {
@@ -213,10 +171,11 @@ public class PhraseConstraintGroupList {
                 if (posForTerm == null) {
                     return Integer.MAX_VALUE;
                 }
-                sequences[si++] = posForTerm.offsetIterator(-oi);
+                sequences[si++] = posForTerm.iterator();
+                iterOffsets[si - 1] = -oi;
             }
 
-            return SequenceOperations.minDistance(sequences);
+            return SequenceOperations.minDistance(sequences, iterOffsets);
         }
     }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 36a82d5c..a55a045b 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -52,6 +52,9 @@ public class SequenceOperations {
     }
 
     public static IntList findIntersections(IntIterator... sequences) {
+        return findIntersections(new int[sequences.length], sequences);
+    }
+    public static IntList findIntersections(int[] iterOffsets, IntIterator... sequences) {
 
         if (sequences.length < 1)
             return IntList.of();
@@ -61,7 +64,7 @@ public class SequenceOperations {
 
         for (int i = 0; i < sequences.length; i++) {
             if (sequences[i].hasNext())
-                values[i] = sequences[i].nextInt();
+                values[i] = sequences[i].nextInt() + iterOffsets[i];
             else
                 return IntList.of();
         }
@@ -81,7 +84,7 @@ public class SequenceOperations {
                 successes = 1;
 
                 if (sequences[i].hasNext()) {
-                    max = sequences[i].nextInt();
+                    max = sequences[i].nextInt() + iterOffsets[i];
                 } else {
                     break;
                 }
@@ -94,7 +97,7 @@ public class SequenceOperations {
                 // or until the end of the sequence is reached
                 while (values[i] < max) {
                     if (sequences[i].hasNext()) {
-                        values[i] = sequences[i].nextInt();
+                        values[i] = sequences[i].nextInt() + iterOffsets[i];
                     } else {
                         break outer;
                     }
@@ -144,6 +147,10 @@ public class SequenceOperations {
     }
 
     public static int minDistance(IntIterator[] iterators) {
+        return minDistance(iterators, new int[iterators.length]);
+    }
+
+    public static int minDistance(IntIterator[] iterators, int[] iterOffsets) {
         if (iterators.length <= 1)
             return 0;
 
@@ -151,7 +158,7 @@ public class SequenceOperations {
 
         for (int i = 0; i < iterators.length; i++) {
             if (iterators[i].hasNext())
-                values[i] = iterators[i].nextInt();
+                values[i] = iterators[i].nextInt() + iterOffsets[i];
             else
                 return 0;
         }
@@ -174,7 +181,7 @@ public class SequenceOperations {
                 if (!iterators[i].hasNext()) {
                     break;
                 }
-                values[i] = iterators[i].nextInt();
+                values[i] = iterators[i].nextInt() + iterOffsets[i];
 
                 if (values[i] > maxVal) {
                     maxVal = values[i];
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index 514eedc9..cf72412d 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -71,7 +71,7 @@ class SequenceOperationsTest {
         GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 8, 10, 14);
         GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 1, 5, 8, 9, 10);
 
-        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(seq1.iterator(), seq2.iterator(), seq3.iterator()));
+        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(iterOffsets, seq1.iterator(), seq2.iterator(), seq3.iterator()));
     }
 
 

From 982b03382b7bf26677dd2c0212fc94eb84f33f66 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 12:31:15 +0200
Subject: [PATCH 176/216] (index) Optimize DocumentSpan

---
 .../nu/marginalia/index/forward/spans/DocumentSpan.java     | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 54578114..b66030d2 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -7,10 +7,10 @@ import nu.marginalia.sequence.CodedSequence;
 public class DocumentSpan {
 
     /** A list of the interlaced start and end positions of each span in the document of this type */
-    private final CodedSequence startsEnds;
+    private final IntList startsEnds;
 
     public DocumentSpan(CodedSequence startsEnds) {
-        this.startsEnds = startsEnds;
+        this.startsEnds = startsEnds.values();
     }
 
     public DocumentSpan() {
@@ -160,6 +160,6 @@ public class DocumentSpan {
             return 0;
         }
 
-        return startsEnds.valueCount() / 2;
+        return startsEnds.size() / 2;
     }
 }

From 965c89798e65a68205bdab96494380bea7f09b3b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 12:44:33 +0200
Subject: [PATCH 177/216] (index) Optimize DocumentSpan

---
 .../index/forward/spans/DocumentSpan.java     | 26 +++++++++++++------
 .../results/IndexResultScoreCalculator.java   |  6 +++--
 .../model/PhraseConstraintGroupList.java      | 17 +++---------
 .../sequence/SequenceOperationsTest.java      |  2 +-
 4 files changed, 27 insertions(+), 24 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index b66030d2..cd528892 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -68,21 +68,31 @@ public class DocumentSpan {
         return false;
     }
 
-    public boolean containsRange(int rangeStart, int len) {
-        if (startsEnds == null) {
+    public boolean containsRange(IntIterator positionsIter, int len) {
+        if (null == startsEnds || !positionsIter.hasNext()) {
             return false;
         }
 
         var iter = startsEnds.iterator();
-        while (iter.hasNext()) {
-            int start = iter.nextInt();
-            if (start > rangeStart) {
-                return false;
+        int start = -1;
+        int end = -1;
+
+        while (iter.hasNext() && positionsIter.hasNext()) {
+            if (start < 0) {
+                start = iter.nextInt();
+                end = iter.nextInt();
             }
-            int end = iter.nextInt();
-            if (end > rangeStart + len) {
+
+            int position = positionsIter.nextInt();
+            if (position < start) {
+                continue;
+            }
+
+            if (position + len < end) {
                 return true;
             }
+
+            start = -1;
         }
 
         return false;
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 84db185e..d5546076 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -398,8 +398,9 @@ public class IndexResultScoreCalculator {
         float verbatimMatchScore = 0.f;
 
         var fullGroup = constraints.getFullGroup();
+        IntList fullGroupIntersections = fullGroup.findIntersections(positions);
         for (var tag : HtmlTag.includedTags) {
-            if (fullGroup.test(spans.getSpan(tag), positions)) {
+            if (spans.getSpan(tag).containsRange(fullGroupIntersections.iterator(), fullGroup.size)) {
                 verbatimMatchScore += verbatimMatches.getWeightFull(tag) * fullGroup.size;
                 verbatimMatches.set(tag);
             }
@@ -410,8 +411,9 @@ public class IndexResultScoreCalculator {
             int groupSize = optionalGroup.size;
             float sizeScalingFactor = groupSize / (float) largestOptional;
 
+            IntList intersections = optionalGroup.findIntersections(positions);
             for (var tag : HtmlTag.includedTags) {
-                if (optionalGroup.test(spans.getSpan(tag), positions)) {
+                if (spans.getSpan(tag).containsRange(intersections.iterator(), groupSize)) {
                     verbatimMatchScore += verbatimMatches.getWeightPartial(tag) * sizeScalingFactor * groupSize;
                 }
             }
diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 2976653b..399ff8ca 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -2,7 +2,6 @@ package nu.marginalia.index.results.model;
 
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
-import nu.marginalia.index.forward.spans.DocumentSpan;
 import nu.marginalia.index.model.SearchTermsUtil;
 import nu.marginalia.index.results.model.ids.TermIdList;
 import nu.marginalia.sequence.CodedSequence;
@@ -114,7 +113,7 @@ public class PhraseConstraintGroupList {
         }
 
 
-        public boolean test(DocumentSpan span, IntList[] positions) {
+        public IntList findIntersections(IntList[] positions) {
             IntIterator[] sequences = new IntIterator[present.cardinality()];
             int[] iterOffsets = new int[sequences.length];
 
@@ -124,7 +123,7 @@ public class PhraseConstraintGroupList {
                 }
                 int offset = offsets[oi];
                 if (offset < 0)
-                    return false;
+                    return IntList.of();
 
                 // Create iterators that are offset by their relative position in the
                 // sequence.  This is done by subtracting the index from the offset,
@@ -133,21 +132,13 @@ public class PhraseConstraintGroupList {
 
                 var posForTerm = positions[offset];
                 if (posForTerm == null) {
-                    return false;
+                    return IntList.of();
                 }
                 sequences[si++] = posForTerm.iterator();
                 iterOffsets[si - 1] = -oi;
             }
 
-            var intersections = SequenceOperations.findIntersections(iterOffsets, sequences);
-
-            for (int idx = 0; idx < intersections.size(); idx++) {
-                if (span.containsRange(intersections.getInt(idx), sequences.length)) {
-                    return true;
-                }
-            }
-
-            return false;
+            return SequenceOperations.findIntersections(iterOffsets, sequences);
         }
 
         public int minDistance(IntList[] positions) {
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index cf72412d..514eedc9 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -71,7 +71,7 @@ class SequenceOperationsTest {
         GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 8, 10, 14);
         GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 1, 5, 8, 9, 10);
 
-        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(iterOffsets, seq1.iterator(), seq2.iterator(), seq3.iterator()));
+        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(seq1.iterator(), seq2.iterator(), seq3.iterator()));
     }
 
 

From a5585110a6a2d21c9d5a15590733da989075bfd1 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:16:31 +0200
Subject: [PATCH 178/216] (index) Optimize SequenceOperations

---
 .../index/forward/spans/DocumentSpan.java     | 53 +++++++++----------
 .../results/IndexResultScoreCalculator.java   | 34 ++++++------
 .../model/PhraseConstraintGroupList.java      |  4 +-
 .../sequence/SequenceOperations.java          | 29 +++++-----
 4 files changed, 60 insertions(+), 60 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index cd528892..6880617f 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -17,32 +17,30 @@ public class DocumentSpan {
         this.startsEnds = null;
     }
 
-    public int countIntersections(IntIterator positionsIter) {
-        if (null == startsEnds || !positionsIter.hasNext()) {
+    public int countIntersections(IntList positions) {
+        if (null == startsEnds || startsEnds.isEmpty() || positions.isEmpty()) {
             return 0;
         }
 
-        var iter = startsEnds.iterator();
-        int start = -1;
-        int end = -1;
+        int sei = 0;
+        int start = startsEnds.getInt(sei++);
+        int end = startsEnds.getInt(sei++);
 
         int cnt = 0;
-        while (iter.hasNext() && positionsIter.hasNext()) {
-            if (start < 0) {
-                start = iter.nextInt();
-                end = iter.nextInt();
-            }
-
-            int position = positionsIter.nextInt();
+        for (int pi = 0; pi < positions.size(); pi++) {
+            int position = positions.getInt(pi);
             if (position < start) {
                 continue;
             }
 
             if (position < end) {
                 cnt++;
+            } else if (sei + 2 < startsEnds.size()) {
+                start = startsEnds.getInt(sei++);
+                end = startsEnds.getInt(sei++);
+            } else {
+                return cnt;
             }
-
-            start = -1;
         }
 
         return cnt;
@@ -68,31 +66,32 @@ public class DocumentSpan {
         return false;
     }
 
-    public boolean containsRange(IntIterator positionsIter, int len) {
-        if (null == startsEnds || !positionsIter.hasNext()) {
+    public boolean containsRange(IntList positions, int len) {
+        if (null == startsEnds || startsEnds.size() < 2 || positions.isEmpty()) {
             return false;
         }
 
-        var iter = startsEnds.iterator();
-        int start = -1;
-        int end = -1;
+        int sei = 0;
 
-        while (iter.hasNext() && positionsIter.hasNext()) {
-            if (start < 0) {
-                start = iter.nextInt();
-                end = iter.nextInt();
-            }
 
-            int position = positionsIter.nextInt();
+        int start = startsEnds.getInt(sei++);
+        int end = startsEnds.getInt(sei++);
+
+        for (int pi = 0; pi < positions.size(); pi++) {
+            int position = positions.getInt(pi);
             if (position < start) {
                 continue;
             }
 
             if (position + len < end) {
                 return true;
+            } else if (sei + 2 < startsEnds.size()) {
+                start = startsEnds.getInt(sei++);
+                end = startsEnds.getInt(sei++);
+            }
+            else {
+                return false;
             }
-
-            start = -1;
         }
 
         return false;
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index d5546076..70ab33cd 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -126,10 +126,10 @@ public class IndexResultScoreCalculator {
      *  This is used in the GUI.
      * */
     private long calculatePositionsMask(CodedSequence[] positions) {
-        IntIterator[] iters = new IntIterator[rankingContext.regularMask.cardinality()];
+        IntList[] iters = new IntList[rankingContext.regularMask.cardinality()];
         for (int i = 0, j = 0; i < positions.length; i++) {
             if (rankingContext.regularMask.get(i)) {
-                iters[j++] = positions[i].iterator();
+                iters[j++] = positions[i].values();
             }
         }
         IntIterator intersection = SequenceOperations.findIntersections(iters).intIterator();
@@ -259,24 +259,24 @@ public class IndexResultScoreCalculator {
                 }
 
                 int cnt;
-                if ((cnt = spans.title.countIntersections(positions[i].iterator())) != 0) {
+                if ((cnt = spans.title.countIntersections(positions[i])) != 0) {
                     unorderedMatchInTitleCount++;
                     weightedCounts[i] += 2.5f * cnt;
                 }
-                if ((cnt = spans.heading.countIntersections(positions[i].iterator())) != 0) {
+                if ((cnt = spans.heading.countIntersections(positions[i])) != 0) {
                     unorderedMatchInHeadingCount++;
                     weightedCounts[i] += 2.5f * cnt;
                 }
-                if ((cnt = spans.code.countIntersections(positions[i].iterator())) != 0) {
+                if ((cnt = spans.code.countIntersections(positions[i])) != 0) {
                     weightedCounts[i] += 0.25f * cnt;
                 }
-                if ((cnt = spans.anchor.countIntersections(positions[i].iterator())) != 0) {
+                if ((cnt = spans.anchor.countIntersections(positions[i])) != 0) {
                     weightedCounts[i] += 0.2f * cnt;
                 }
-                if ((cnt = spans.nav.countIntersections(positions[i].iterator())) != 0) {
+                if ((cnt = spans.nav.countIntersections(positions[i])) != 0) {
                     weightedCounts[i] += 0.1f * cnt;
                 }
-                if ((cnt = spans.body.countIntersections(positions[i].iterator())) != 0) {
+                if ((cnt = spans.body.countIntersections(positions[i])) != 0) {
                     weightedCounts[i] += 1.0f * cnt;
                 }
             }
@@ -351,13 +351,13 @@ public class IndexResultScoreCalculator {
 
                 if (positions[i] != null) {
                     rankingFactors.addTermFactor(termId, "positions.all", positions[i].iterator());
-                    rankingFactors.addTermFactor(termId, "positions.title", SequenceOperations.findIntersections(spans.title.iterator(), positions[i].iterator()).iterator());
-                    rankingFactors.addTermFactor(termId, "positions.heading", SequenceOperations.findIntersections(spans.heading.iterator(), positions[i].iterator()).iterator());
-                    rankingFactors.addTermFactor(termId, "positions.anchor", SequenceOperations.findIntersections(spans.anchor.iterator(), positions[i].iterator()).iterator());
-                    rankingFactors.addTermFactor(termId, "positions.code", SequenceOperations.findIntersections(spans.code.iterator(), positions[i].iterator()).iterator());
-                    rankingFactors.addTermFactor(termId, "positions.nav", SequenceOperations.findIntersections(spans.nav.iterator(), positions[i].iterator()).iterator());
-                    rankingFactors.addTermFactor(termId, "positions.body", SequenceOperations.findIntersections(spans.body.iterator(), positions[i].iterator()).iterator());
-                    rankingFactors.addTermFactor(termId, "positions.externalLinkText", SequenceOperations.findIntersections(spans.externalLinkText.iterator(), positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.title", SequenceOperations.findIntersections(spans.title, positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.heading", SequenceOperations.findIntersections(spans.heading, positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.anchor", SequenceOperations.findIntersections(spans.anchor.iterator(), positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.code", SequenceOperations.findIntersections(spans.code.iterator(), positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.nav", SequenceOperations.findIntersections(spans.nav.iterator(), positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.body", SequenceOperations.findIntersections(spans.body.iterator(), positions[i].iterator()).iterator());
+//                    rankingFactors.addTermFactor(termId, "positions.externalLinkText", SequenceOperations.findIntersections(spans.externalLinkText.iterator(), positions[i].iterator()).iterator());
                 }
 
             }
@@ -400,7 +400,7 @@ public class IndexResultScoreCalculator {
         var fullGroup = constraints.getFullGroup();
         IntList fullGroupIntersections = fullGroup.findIntersections(positions);
         for (var tag : HtmlTag.includedTags) {
-            if (spans.getSpan(tag).containsRange(fullGroupIntersections.iterator(), fullGroup.size)) {
+            if (spans.getSpan(tag).containsRange(fullGroupIntersections, fullGroup.size)) {
                 verbatimMatchScore += verbatimMatches.getWeightFull(tag) * fullGroup.size;
                 verbatimMatches.set(tag);
             }
@@ -413,7 +413,7 @@ public class IndexResultScoreCalculator {
 
             IntList intersections = optionalGroup.findIntersections(positions);
             for (var tag : HtmlTag.includedTags) {
-                if (spans.getSpan(tag).containsRange(intersections.iterator(), groupSize)) {
+                if (spans.getSpan(tag).containsRange(intersections, groupSize)) {
                     verbatimMatchScore += verbatimMatches.getWeightPartial(tag) * sizeScalingFactor * groupSize;
                 }
             }
diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 399ff8ca..1b87e51f 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -114,7 +114,7 @@ public class PhraseConstraintGroupList {
 
 
         public IntList findIntersections(IntList[] positions) {
-            IntIterator[] sequences = new IntIterator[present.cardinality()];
+            IntList[] sequences = new IntList[present.cardinality()];
             int[] iterOffsets = new int[sequences.length];
 
             for (int oi = 0, si = 0; oi < offsets.length; oi++) {
@@ -134,7 +134,7 @@ public class PhraseConstraintGroupList {
                 if (posForTerm == null) {
                     return IntList.of();
                 }
-                sequences[si++] = posForTerm.iterator();
+                sequences[si++] = posForTerm;
                 iterOffsets[si - 1] = -oi;
             }
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index a55a045b..90f3bf2a 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -51,20 +51,21 @@ public class SequenceOperations {
         return true;
     }
 
-    public static IntList findIntersections(IntIterator... sequences) {
-        return findIntersections(new int[sequences.length], sequences);
+    public static IntList findIntersections(IntList... positions) {
+        return findIntersections(new int[positions.length], positions);
     }
-    public static IntList findIntersections(int[] iterOffsets, IntIterator... sequences) {
+    public static IntList findIntersections(int[] iterOffsets, IntList... positions) {
 
-        if (sequences.length < 1)
+        if (positions.length < 1)
             return IntList.of();
 
+        int[] indexes = new int[positions.length];
         // Initialize values and find the maximum value
-        int[] values = new int[sequences.length];
+        int[] values = new int[positions.length];
 
-        for (int i = 0; i < sequences.length; i++) {
-            if (sequences[i].hasNext())
-                values[i] = sequences[i].nextInt() + iterOffsets[i];
+        for (int i = 0; i < positions.length; i++) {
+            if (indexes[i]++ < positions[i].size())
+                values[i] = positions[i].getInt(indexes[i]) + iterOffsets[i];
             else
                 return IntList.of();
         }
@@ -77,14 +78,14 @@ public class SequenceOperations {
         IntList ret = new IntArrayList();
 
         outer:
-        for (int i = 0;; i = (i + 1) % sequences.length)
+        for (int i = 0;; i = (i + 1) % positions.length)
         {
-            if (successes == sequences.length) {
+            if (successes == positions.length) {
                 ret.add(max);
                 successes = 1;
 
-                if (sequences[i].hasNext()) {
-                    max = sequences[i].nextInt() + iterOffsets[i];
+                if (indexes[i]++ < positions[i].size()) {
+                    values[i] = positions[i].getInt(indexes[i]) + iterOffsets[i];
                 } else {
                     break;
                 }
@@ -96,8 +97,8 @@ public class SequenceOperations {
                 // Discard values until we reach the maximum value seen so far,
                 // or until the end of the sequence is reached
                 while (values[i] < max) {
-                    if (sequences[i].hasNext()) {
-                        values[i] = sequences[i].nextInt() + iterOffsets[i];
+                    if (indexes[i]++ < positions[i].size()) {
+                        values[i] = positions[i].getInt(indexes[i]) + iterOffsets[i];
                     } else {
                         break outer;
                     }

From 00ab2684fa8ae74d03d7e439e8b1e0569b5adf9c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:17:38 +0200
Subject: [PATCH 179/216] (index) Optimize SequenceOperations

---
 .../java/nu/marginalia/sequence/SequenceOperations.java   | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 90f3bf2a..44b71f24 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -64,8 +64,8 @@ public class SequenceOperations {
         int[] values = new int[positions.length];
 
         for (int i = 0; i < positions.length; i++) {
-            if (indexes[i]++ < positions[i].size())
-                values[i] = positions[i].getInt(indexes[i]) + iterOffsets[i];
+            if (indexes[i] < positions[i].size())
+                values[i] = positions[i].getInt(indexes[i]++) + iterOffsets[i];
             else
                 return IntList.of();
         }
@@ -85,7 +85,7 @@ public class SequenceOperations {
                 successes = 1;
 
                 if (indexes[i]++ < positions[i].size()) {
-                    values[i] = positions[i].getInt(indexes[i]) + iterOffsets[i];
+                    values[i] = positions[i].getInt(indexes[i]++) + iterOffsets[i];
                 } else {
                     break;
                 }
@@ -98,7 +98,7 @@ public class SequenceOperations {
                 // or until the end of the sequence is reached
                 while (values[i] < max) {
                     if (indexes[i]++ < positions[i].size()) {
-                        values[i] = positions[i].getInt(indexes[i]) + iterOffsets[i];
+                        values[i] = positions[i].getInt(indexes[i]++) + iterOffsets[i];
                     } else {
                         break outer;
                     }

From 0d01a48260458bfca610b08c75a485ac40e63555 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:19:37 +0200
Subject: [PATCH 180/216] (index) Optimize SequenceOperations

---
 .../nu/marginalia/sequence/SequenceOperations.java  | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 44b71f24..0ba271e5 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -54,7 +54,8 @@ public class SequenceOperations {
     public static IntList findIntersections(IntList... positions) {
         return findIntersections(new int[positions.length], positions);
     }
-    public static IntList findIntersections(int[] iterOffsets, IntList... positions) {
+
+    public static IntList findIntersections(int[] offsets, IntList... positions) {
 
         if (positions.length < 1)
             return IntList.of();
@@ -65,7 +66,7 @@ public class SequenceOperations {
 
         for (int i = 0; i < positions.length; i++) {
             if (indexes[i] < positions[i].size())
-                values[i] = positions[i].getInt(indexes[i]++) + iterOffsets[i];
+                values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
             else
                 return IntList.of();
         }
@@ -84,8 +85,8 @@ public class SequenceOperations {
                 ret.add(max);
                 successes = 1;
 
-                if (indexes[i]++ < positions[i].size()) {
-                    values[i] = positions[i].getInt(indexes[i]++) + iterOffsets[i];
+                if (indexes[i] < positions[i].size()) {
+                    values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
                 } else {
                     break;
                 }
@@ -97,8 +98,8 @@ public class SequenceOperations {
                 // Discard values until we reach the maximum value seen so far,
                 // or until the end of the sequence is reached
                 while (values[i] < max) {
-                    if (indexes[i]++ < positions[i].size()) {
-                        values[i] = positions[i].getInt(indexes[i]++) + iterOffsets[i];
+                    if (indexes[i] < positions[i].size()) {
+                        values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
                     } else {
                         break outer;
                     }

From d94373f4b1234e19c53eeeecd4b9aeb6a339f364 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:24:37 +0200
Subject: [PATCH 181/216] (index) Optimize calculatePositionsMask

---
 .../index/results/IndexResultScoreCalculator.java           | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 70ab33cd..b1dcd254 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -118,18 +118,18 @@ public class IndexResultScoreCalculator {
                 docMetadata,
                 htmlFeatures,
                 score,
-                calculatePositionsMask(positions)
+                calculatePositionsMask(decodedPositions)
         );
     }
 
     /** Calculate a bitmask illustrating the intersected positions of the search terms in the document.
      *  This is used in the GUI.
      * */
-    private long calculatePositionsMask(CodedSequence[] positions) {
+    private long calculatePositionsMask(IntList[] positions) {
         IntList[] iters = new IntList[rankingContext.regularMask.cardinality()];
         for (int i = 0, j = 0; i < positions.length; i++) {
             if (rankingContext.regularMask.get(i)) {
-                iters[j++] = positions[i].values();
+                iters[j++] = positions[i];
             }
         }
         IntIterator intersection = SequenceOperations.findIntersections(iters).intIterator();

From efd56efc639121221b3ce95cef81b3a4f2b4328f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:28:06 +0200
Subject: [PATCH 182/216] (index) Optimize SequenceOperations.minDistance

---
 .../model/PhraseConstraintGroupList.java      |  4 +--
 .../sequence/SequenceOperations.java          | 25 ++++++++++---------
 .../sequence/SequenceOperationsTest.java      |  3 +--
 3 files changed, 16 insertions(+), 16 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 1b87e51f..9720643c 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -142,7 +142,7 @@ public class PhraseConstraintGroupList {
         }
 
         public int minDistance(IntList[] positions) {
-            IntIterator[] sequences = new IntIterator[present.cardinality()];
+            IntList[] sequences = new IntList[present.cardinality()];
             int[] iterOffsets = new int[sequences.length];
 
             for (int oi = 0, si = 0; oi < offsets.length; oi++) {
@@ -162,7 +162,7 @@ public class PhraseConstraintGroupList {
                 if (posForTerm == null) {
                     return Integer.MAX_VALUE;
                 }
-                sequences[si++] = posForTerm.iterator();
+                sequences[si++] = posForTerm;
                 iterOffsets[si - 1] = -oi;
             }
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 0ba271e5..57604f08 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -148,19 +148,19 @@ public class SequenceOperations {
         return minDistance;
     }
 
-    public static int minDistance(IntIterator[] iterators) {
-        return minDistance(iterators, new int[iterators.length]);
+    public static int minDistance(IntList[] positions) {
+        return minDistance(positions, new int[positions.length]);
     }
 
-    public static int minDistance(IntIterator[] iterators, int[] iterOffsets) {
-        if (iterators.length <= 1)
+    public static int minDistance(IntList[] positions, int[] offsets) {
+        if (positions.length <= 1)
             return 0;
 
-        int[] values = new int[iterators.length];
-
-        for (int i = 0; i < iterators.length; i++) {
-            if (iterators[i].hasNext())
-                values[i] = iterators[i].nextInt() + iterOffsets[i];
+        int[] values = new int[positions.length];
+        int[] indexes = new int[positions.length];
+        for (int i = 0; i < positions.length; i++) {
+            if (indexes[i] < positions[i].size())
+                values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
             else
                 return 0;
         }
@@ -177,13 +177,14 @@ public class SequenceOperations {
 
         minDist = Math.min(minDist, maxVal - minVal);
 
-        for (int i = 0;; i = (i + 1) % iterators.length)
+        for (int i = 0;; i = (i + 1) % positions.length)
         {
             if (values[i] == minVal) {
-                if (!iterators[i].hasNext()) {
+                if (indexes[i] < positions[i].size()) {
+                    values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
+                } else {
                     break;
                 }
-                values[i] = iterators[i].nextInt() + iterOffsets[i];
 
                 if (values[i] > maxVal) {
                     maxVal = values[i];
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index 514eedc9..e0ec3492 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -1,6 +1,5 @@
 package nu.marginalia.sequence;
 
-import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import org.junit.jupiter.api.Test;
 
@@ -91,6 +90,6 @@ class SequenceOperationsTest {
         GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 20, 50, 100);
         GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 30, 60, 90);
 
-        assertEquals(19, SequenceOperations.minDistance(new IntIterator[]{seq1.iterator(), seq2.iterator(), seq3.iterator()}));
+        assertEquals(19, SequenceOperations.minDistance(new IntList[]{seq1.values(), seq2.values(), seq3.values()}));
     }
 }
\ No newline at end of file

From 5660f291af632f5b0b829cc798da880fb3b31742 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:43:29 +0200
Subject: [PATCH 183/216] (index) Optimize DocumentSpan.countIntersections

---
 .../index/forward/spans/DocumentSpan.java     | 21 +++++--------------
 1 file changed, 5 insertions(+), 16 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 6880617f..26245c49 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -22,24 +22,13 @@ public class DocumentSpan {
             return 0;
         }
 
-        int sei = 0;
-        int start = startsEnds.getInt(sei++);
-        int end = startsEnds.getInt(sei++);
-
         int cnt = 0;
         for (int pi = 0; pi < positions.size(); pi++) {
-            int position = positions.getInt(pi);
-            if (position < start) {
-                continue;
-            }
-
-            if (position < end) {
-                cnt++;
-            } else if (sei + 2 < startsEnds.size()) {
-                start = startsEnds.getInt(sei++);
-                end = startsEnds.getInt(sei++);
-            } else {
-                return cnt;
+            for (int sei = 0; sei < startsEnds.size(); sei ++) {
+                if (startsEnds.getInt(sei) > positions.getInt(pi)) {
+                    cnt += sei % 2;
+                    break;
+                }
             }
         }
 

From 893fae6d59252857f5df79a1a12e5726f0f67b06 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:51:43 +0200
Subject: [PATCH 184/216] (index) Optimize DocumentSpan.countIntersections

---
 .../nu/marginalia/index/forward/spans/DocumentSpan.java  | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 26245c49..b703a77e 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -23,10 +23,15 @@ public class DocumentSpan {
         }
 
         int cnt = 0;
+        int seis = 0;
+
         for (int pi = 0; pi < positions.size(); pi++) {
-            for (int sei = 0; sei < startsEnds.size(); sei ++) {
-                if (startsEnds.getInt(sei) > positions.getInt(pi)) {
+            int position = positions.getInt(pi);
+
+            for (int sei = seis; sei < startsEnds.size(); sei ++) {
+                if (startsEnds.getInt(sei) > position) {
                     cnt += sei % 2;
+                    seis = Math.max(seis, sei - 1);
                     break;
                 }
             }

From 9c5f4637751946295f8374ba72e4f3fd9c87bee5 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 13:59:11 +0200
Subject: [PATCH 185/216] (index) Optimize DocumentSpan.countIntersections

---
 .../index/forward/spans/DocumentSpan.java     | 42 ++++++++++++++-----
 .../results/IndexResultScoreCalculator.java   | 14 ++++---
 2 files changed, 40 insertions(+), 16 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index b703a77e..6eaf46c5 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -4,6 +4,8 @@ import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.CodedSequence;
 
+import java.util.Arrays;
+
 public class DocumentSpan {
 
     /** A list of the interlaced start and end positions of each span in the document of this type */
@@ -17,22 +19,42 @@ public class DocumentSpan {
         this.startsEnds = null;
     }
 
-    public int countIntersections(IntList positions) {
-        if (null == startsEnds || startsEnds.isEmpty() || positions.isEmpty()) {
+    public int countIntersections(int[] positions) {
+        if (null == startsEnds || startsEnds.isEmpty() || positions.length == 0) {
             return 0;
         }
 
+
+
         int cnt = 0;
-        int seis = 0;
 
-        for (int pi = 0; pi < positions.size(); pi++) {
-            int position = positions.getInt(pi);
+        if (positions.length < 8) {
+            int seis = 0;
 
-            for (int sei = seis; sei < startsEnds.size(); sei ++) {
-                if (startsEnds.getInt(sei) > position) {
-                    cnt += sei % 2;
-                    seis = Math.max(seis, sei - 1);
-                    break;
+            for (int pi = 0; pi < positions.length; pi++) {
+                int position = positions[pi];
+
+                for (int sei = seis; sei < startsEnds.size(); sei ++) {
+                    if (startsEnds.getInt(sei) > position) {
+                        cnt += sei % 2;
+                        seis = Math.max(seis, sei - 1);
+                        break;
+                    }
+                }
+            }
+        }
+        else {
+            for (int sei = 0; sei < startsEnds.size(); ) {
+                int start = startsEnds.getInt(sei++);
+                int end = startsEnds.getInt(sei++);
+
+                int i = Arrays.binarySearch(positions, start);
+                if (i < 0) {
+                    i = -i - 1;
+                }
+                while (i < positions.length && positions[i] < end) {
+                    cnt++;
+                    i++;
                 }
             }
         }
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index b1dcd254..0815153f 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -250,8 +250,10 @@ public class IndexResultScoreCalculator {
 
         int firstPosition = 1;
         for (int i = 0; i < weightedCounts.length; i++) {
+
             if (positions[i] != null && ctx.regularMask.get(i)) {
                 searchableKeywordsCount ++;
+                int[] posArray = positions[i].toIntArray();
 
                 for (int idx = 0; idx < positions[i].size(); idx++) {
                     int pos = positions[i].getInt(idx);
@@ -259,24 +261,24 @@ public class IndexResultScoreCalculator {
                 }
 
                 int cnt;
-                if ((cnt = spans.title.countIntersections(positions[i])) != 0) {
+                if ((cnt = spans.title.countIntersections(posArray)) != 0) {
                     unorderedMatchInTitleCount++;
                     weightedCounts[i] += 2.5f * cnt;
                 }
-                if ((cnt = spans.heading.countIntersections(positions[i])) != 0) {
+                if ((cnt = spans.heading.countIntersections(posArray)) != 0) {
                     unorderedMatchInHeadingCount++;
                     weightedCounts[i] += 2.5f * cnt;
                 }
-                if ((cnt = spans.code.countIntersections(positions[i])) != 0) {
+                if ((cnt = spans.code.countIntersections(posArray)) != 0) {
                     weightedCounts[i] += 0.25f * cnt;
                 }
-                if ((cnt = spans.anchor.countIntersections(positions[i])) != 0) {
+                if ((cnt = spans.anchor.countIntersections(posArray)) != 0) {
                     weightedCounts[i] += 0.2f * cnt;
                 }
-                if ((cnt = spans.nav.countIntersections(positions[i])) != 0) {
+                if ((cnt = spans.nav.countIntersections(posArray)) != 0) {
                     weightedCounts[i] += 0.1f * cnt;
                 }
-                if ((cnt = spans.body.countIntersections(positions[i])) != 0) {
+                if ((cnt = spans.body.countIntersections(posArray)) != 0) {
                     weightedCounts[i] += 1.0f * cnt;
                 }
             }

From fdf05cedae5ef14b6fe36fb2a01caf435d653fb6 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 14:12:30 +0200
Subject: [PATCH 186/216] (index) Optimize DocumentSpan.countIntersections

---
 .../nu/marginalia/index/forward/spans/DocumentSpan.java  | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index 6eaf46c5..b3fbb8b0 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -24,8 +24,6 @@ public class DocumentSpan {
             return 0;
         }
 
-
-
         int cnt = 0;
 
         if (positions.length < 8) {
@@ -44,11 +42,13 @@ public class DocumentSpan {
             }
         }
         else {
-            for (int sei = 0; sei < startsEnds.size(); ) {
+            int ss = 0;
+
+            for (int sei = 0; sei < startsEnds.size() && ss < positions.length; ) {
                 int start = startsEnds.getInt(sei++);
                 int end = startsEnds.getInt(sei++);
 
-                int i = Arrays.binarySearch(positions, start);
+                int i = Arrays.binarySearch(positions, ss, positions.length, start);
                 if (i < 0) {
                     i = -i - 1;
                 }
@@ -56,6 +56,7 @@ public class DocumentSpan {
                     cnt++;
                     i++;
                 }
+                ss = i;
             }
         }
 

From 805cb5ad58c5095f7d805fdcf37d8cce8b09406b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 25 Aug 2024 14:54:17 +0200
Subject: [PATCH 187/216] (coded-sequence) Correct behavior of
 findIntersections

---
 .../marginalia/sequence/SequenceOperations.java | 17 +++++++++++------
 .../sequence/SequenceOperationsTest.java        |  2 +-
 2 files changed, 12 insertions(+), 7 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 57604f08..ff394b77 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -87,6 +87,9 @@ public class SequenceOperations {
 
                 if (indexes[i] < positions[i].size()) {
                     values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
+
+                    // Update the maximum value, if necessary
+                    max = Math.max(max, values[i]);
                 } else {
                     break;
                 }
@@ -177,18 +180,22 @@ public class SequenceOperations {
 
         minDist = Math.min(minDist, maxVal - minVal);
 
-        for (int i = 0;; i = (i + 1) % positions.length)
-        {
-            if (values[i] == minVal) {
+        for (;;) {
+            for (int i = 0; i < positions.length; i++) {
+                if (values[i] > minVal) {
+                    continue;
+                }
+
                 if (indexes[i] < positions[i].size()) {
                     values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
                 } else {
-                    break;
+                    return minDist;
                 }
 
                 if (values[i] > maxVal) {
                     maxVal = values[i];
                 }
+
                 if (values[i] > minVal) {
                     minVal = Integer.MAX_VALUE;
                     for (int val : values) {
@@ -199,7 +206,5 @@ public class SequenceOperations {
                 minDist = Math.min(minDist, maxVal - minVal);
             }
         }
-
-        return minDist;
     }
 }
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index e0ec3492..dcf69a42 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -70,7 +70,7 @@ class SequenceOperationsTest {
         GammaCodedSequence seq2 = GammaCodedSequence.generate(wa, 2, 5, 8, 10, 14);
         GammaCodedSequence seq3 = GammaCodedSequence.generate(wa, 1, 5, 8, 9, 10);
 
-        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(seq1.iterator(), seq2.iterator(), seq3.iterator()));
+        assertEquals(IntList.of(8, 10), SequenceOperations.findIntersections(seq1.values(), seq2.values(), seq3.values()));
     }
 
 

From f3182a92648c5eb0fdcba43d65399b0758c2ce53 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 26 Aug 2024 12:02:37 +0200
Subject: [PATCH 188/216] (coded-sequence) Evaluate new minDist implementation

---
 .../model/PhraseConstraintGroupList.java      |   2 +-
 .../sequence/SequenceOperations.java          | 135 ++++++++++--------
 2 files changed, 77 insertions(+), 60 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 9720643c..ea2cd1aa 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -138,7 +138,7 @@ public class PhraseConstraintGroupList {
                 iterOffsets[si - 1] = -oi;
             }
 
-            return SequenceOperations.findIntersections(iterOffsets, sequences);
+            return SequenceOperations.findIntersections(sequences, iterOffsets);
         }
 
         public int minDistance(IntList[] positions) {
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index ff394b77..665f2988 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -51,11 +51,24 @@ public class SequenceOperations {
         return true;
     }
 
+    /** Find any intersections between the given positions lists, and return the list of intersections.
+     * If any of the lists are empty, return an empty list.
+     * <p></p>
+     */
     public static IntList findIntersections(IntList... positions) {
-        return findIntersections(new int[positions.length], positions);
+        return findIntersections(positions, new int[positions.length]);
     }
 
-    public static IntList findIntersections(int[] offsets, IntList... positions) {
+    /** Find any intersections between the given positions lists, and return the list of intersections.
+     * If any of the lists are empty, return an empty list.
+     * <p></p>
+     * A constant offset can be applied to each position list by providing an array of offsets.
+     *
+     * @param positions the positions lists to compare - each list must be sorted in ascending order
+     *                  and contain unique values.
+     * @param offsets constant offsets to apply to each position
+     * */
+    public static IntList findIntersections(IntList[] positions, int[] offsets) {
 
         if (positions.length < 1)
             return IntList.of();
@@ -116,51 +129,27 @@ public class SequenceOperations {
         return ret;
     }
 
-    /** Return the minimum word distance between two sequences, or a negative value if either sequence is empty.
+
+    /** Given each set of positions, one from each list, find the set with the smallest distance between them
+     * and return that distance.  If any of the lists are empty, return 0.
      * */
-    public static int minDistance(IntIterator seqA, IntIterator seqB)
-    {
-        int minDistance = Integer.MAX_VALUE;
-
-        if (!seqA.hasNext() || !seqB.hasNext())
-            return -1;
-
-        int a = seqA.nextInt();
-        int b = seqB.nextInt();
-
-        while (true) {
-            int distance = Math.abs(a - b);
-            if (distance < minDistance)
-                minDistance = distance;
-
-            if (a <= b) {
-                if (seqA.hasNext()) {
-                    a = seqA.nextInt();
-                } else {
-                    break;
-                }
-            } else {
-                if (seqB.hasNext()) {
-                    b = seqB.nextInt();
-                } else {
-                    break;
-                }
-            }
-        }
-
-        return minDistance;
-    }
-
     public static int minDistance(IntList[] positions) {
         return minDistance(positions, new int[positions.length]);
     }
 
+    /** Given each set of positions, one from each list, find the set with the smallest distance between them
+     * and return that distance.  If any of the lists are empty, return 0.
+     *
+     * @param positions the positions lists to compare - each list must be sorted in ascending order
+     * @param offsets the offsets to apply to each position
+     */
     public static int minDistance(IntList[] positions, int[] offsets) {
         if (positions.length <= 1)
             return 0;
 
         int[] values = new int[positions.length];
         int[] indexes = new int[positions.length];
+
         for (int i = 0; i < positions.length; i++) {
             if (indexes[i] < positions[i].size())
                 values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
@@ -170,40 +159,68 @@ public class SequenceOperations {
 
         int minDist = Integer.MAX_VALUE;
 
-        int minVal = Integer.MAX_VALUE;
         int maxVal = Integer.MIN_VALUE;
 
-        for (int val : values) {
-            minVal = Math.min(minVal, val);
-            maxVal = Math.max(maxVal, val);
+        int maxI = 0;
+
+        // Find the maximum value in values[] and its index in positions[]
+        for (int i = 0; i < positions.length; i++) {
+            if (values[i] > maxVal) {
+                maxVal = values[i];
+                maxI = i;
+            }
         }
 
-        minDist = Math.min(minDist, maxVal - minVal);
-
         for (;;) {
+            // For all the other indexes except maxI, update values[] with the largest value smaller than maxVal
+            for (int idx = 0; idx < positions.length - 1; idx++) {
+                int i = (maxI + idx) % positions.length;
+
+                // Update values[i] until it is the largest value smaller than maxVal
+
+                int len = positions[i].size();
+                int offset = offsets[i];
+                int prevValue = values[i];
+                int value = prevValue;
+
+                for (; indexes[i] < len && value <= maxVal;) {
+                    prevValue = value;
+                    value = positions[i].getInt(indexes[i]++) + offset;
+                }
+
+                values[i] = prevValue;
+            }
+
+            // Calculate minVal and update minDist
+            int minVal = Integer.MAX_VALUE;
+            for (int val : values) {
+                minVal = Math.min(minVal, val);
+            }
+            minDist = Math.min(minDist, maxVal - minVal);
+
+
+            // Find the next maximum value and its index.  We look for the largest value smaller than the current maxVal,
+            // which is the next target value
+            maxVal = Integer.MAX_VALUE;
+
             for (int i = 0; i < positions.length; i++) {
-                if (values[i] > minVal) {
+                int index = indexes[i];
+                if (index >= positions[i].size()) { // no more values in this list, skip
                     continue;
                 }
 
-                if (indexes[i] < positions[i].size()) {
-                    values[i] = positions[i].getInt(indexes[i]++) + offsets[i];
-                } else {
-                    return minDist;
+                int value =  positions[i].getInt(index) + offsets[i];
+                if (value < maxVal) {
+                    maxVal = value;
+                    maxI = i;
                 }
+            }
 
-                if (values[i] > maxVal) {
-                    maxVal = values[i];
-                }
-
-                if (values[i] > minVal) {
-                    minVal = Integer.MAX_VALUE;
-                    for (int val : values) {
-                        minVal = Math.min(minVal, val);
-                    }
-                }
-
-                minDist = Math.min(minDist, maxVal - minVal);
+            if (maxVal != Integer.MAX_VALUE) {
+                indexes[maxI]++;
+            }
+            else {
+                return minDist;
             }
         }
     }

From 7d471ec30dc43280be358e7bcc3f716762114049 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 26 Aug 2024 12:45:11 +0200
Subject: [PATCH 189/216] (coded-sequence) Evaluate new minDist implementation

---
 .../java/nu/marginalia/sequence/SequenceOperations.java     | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 665f2988..5cac0dda 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -183,9 +183,13 @@ public class SequenceOperations {
                 int prevValue = values[i];
                 int value = prevValue;
 
-                for (; indexes[i] < len && value <= maxVal;) {
+                while (indexes[i] < len) {
                     prevValue = value;
                     value = positions[i].getInt(indexes[i]++) + offset;
+                    if (value >= maxVal) {
+                        indexes[i]--; // correct for overshooting the largest value smaller than maxVal
+                        break;
+                    }
                 }
 
                 values[i] = prevValue;

From 67a98fb0b018ff3ef743d9ff4f253055d09ba4d3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 26 Aug 2024 12:49:15 +0200
Subject: [PATCH 190/216] (coded-sequence) Handle weird legacy HTML that puts
 everything in a heading

---
 .../results/IndexResultScoreCalculator.java   | 58 ++++++++++---------
 1 file changed, 31 insertions(+), 27 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 0815153f..acbedcbd 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -251,36 +251,40 @@ public class IndexResultScoreCalculator {
         int firstPosition = 1;
         for (int i = 0; i < weightedCounts.length; i++) {
 
-            if (positions[i] != null && ctx.regularMask.get(i)) {
-                searchableKeywordsCount ++;
-                int[] posArray = positions[i].toIntArray();
+            if (positions[i] == null || !ctx.regularMask.get(i))
+                continue;
 
-                for (int idx = 0; idx < positions[i].size(); idx++) {
-                    int pos = positions[i].getInt(idx);
-                    firstPosition = Math.max(firstPosition, pos);
-                }
+            searchableKeywordsCount ++;
+            int[] posArray = positions[i].toIntArray();
 
-                int cnt;
-                if ((cnt = spans.title.countIntersections(posArray)) != 0) {
-                    unorderedMatchInTitleCount++;
-                    weightedCounts[i] += 2.5f * cnt;
-                }
-                if ((cnt = spans.heading.countIntersections(posArray)) != 0) {
+            for (int idx = 0; idx < positions[i].size(); idx++) {
+                int pos = positions[i].getInt(idx);
+                firstPosition = Math.max(firstPosition, pos);
+            }
+
+            int cnt;
+            if ((cnt = spans.title.countIntersections(posArray)) != 0) {
+                unorderedMatchInTitleCount++;
+                weightedCounts[i] += 2.5f * cnt;
+            }
+            if ((cnt = spans.heading.countIntersections(posArray)) != 0) {
+                if (spans.heading.size() < 64) {
+                    // Correct for the case where there's a lot of headings everywhere, or the entire document is a heading
                     unorderedMatchInHeadingCount++;
-                    weightedCounts[i] += 2.5f * cnt;
-                }
-                if ((cnt = spans.code.countIntersections(posArray)) != 0) {
-                    weightedCounts[i] += 0.25f * cnt;
-                }
-                if ((cnt = spans.anchor.countIntersections(posArray)) != 0) {
-                    weightedCounts[i] += 0.2f * cnt;
-                }
-                if ((cnt = spans.nav.countIntersections(posArray)) != 0) {
-                    weightedCounts[i] += 0.1f * cnt;
-                }
-                if ((cnt = spans.body.countIntersections(posArray)) != 0) {
-                    weightedCounts[i] += 1.0f * cnt;
                 }
+                weightedCounts[i] += 2.5f * cnt;
+            }
+            if ((cnt = spans.code.countIntersections(posArray)) != 0) {
+                weightedCounts[i] += 0.25f * cnt;
+            }
+            if ((cnt = spans.anchor.countIntersections(posArray)) != 0) {
+                weightedCounts[i] += 0.2f * cnt;
+            }
+            if ((cnt = spans.nav.countIntersections(posArray)) != 0) {
+                weightedCounts[i] += 0.1f * cnt;
+            }
+            if ((cnt = spans.body.countIntersections(posArray)) != 0) {
+                weightedCounts[i] += 1.0f * cnt;
             }
         }
 
@@ -290,7 +294,7 @@ public class IndexResultScoreCalculator {
         }
 
         if (!verbatimMatches.get(HtmlTag.HEADING) && unorderedMatchInHeadingCount == searchableKeywordsCount) {
-            verbatimMatchScore += 2.0f * unorderedMatchInHeadingCount;
+            verbatimMatchScore += 1.0f * unorderedMatchInHeadingCount;
         }
 
         double overallPart = averageSentenceLengthPenalty

From 77efce0673a10f3ea26abcfd25e771348b762e01 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 26 Aug 2024 12:51:29 +0200
Subject: [PATCH 191/216] (paper-doll) Fix compilation

---
 .../nu/marginalia/search/paperdoll/SearchServicePaperDoll.java  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
index 7ef84262..8ccc5826 100644
--- a/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
+++ b/code/services-application/search-service/test/nu/marginalia/search/paperdoll/SearchServicePaperDoll.java
@@ -91,7 +91,7 @@ public class SearchServicePaperDoll extends AbstractModule {
             long positions)
     {
         results.add(new DecoratedSearchResultItem(
-                new SearchResultItem(url.hashCode(), 2, 3, score),
+                new SearchResultItem(url.hashCode(), 2, 3, score, 0),
                 new EdgeUrl(url),
                 title,
                 description,

From 30bf845c81f6ac7bfbbb7db2368725b69fcd90ad Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 26 Aug 2024 13:04:15 +0200
Subject: [PATCH 192/216] (index) Speed up minDist calculations by excluding
 large lists

---
 .../results/model/PhraseConstraintGroupList.java | 16 +++++++++++-----
 .../marginalia/sequence/SequenceOperations.java  |  1 -
 2 files changed, 11 insertions(+), 6 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index ea2cd1aa..25062890 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.results.model;
 
+import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.index.model.SearchTermsUtil;
@@ -142,8 +143,8 @@ public class PhraseConstraintGroupList {
         }
 
         public int minDistance(IntList[] positions) {
-            IntList[] sequences = new IntList[present.cardinality()];
-            int[] iterOffsets = new int[sequences.length];
+            List<IntList> sequences = new ArrayList<>(present.cardinality());
+            IntList iterOffsets = new IntArrayList(present.cardinality());
 
             for (int oi = 0, si = 0; oi < offsets.length; oi++) {
                 if (!present.get(oi)) {
@@ -162,11 +163,16 @@ public class PhraseConstraintGroupList {
                 if (posForTerm == null) {
                     return Integer.MAX_VALUE;
                 }
-                sequences[si++] = posForTerm;
-                iterOffsets[si - 1] = -oi;
+
+                if (posForTerm.size() > 16) { // heuristic to avoid large sequences, which is expensive and not very useful
+                    continue;
+                }
+
+                sequences.add(posForTerm);
+                iterOffsets.add(-oi);
             }
 
-            return SequenceOperations.minDistance(sequences, iterOffsets);
+            return SequenceOperations.minDistance(sequences.toArray(IntList[]::new), iterOffsets.toIntArray());
         }
     }
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
index 5cac0dda..76a0be27 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/SequenceOperations.java
@@ -158,7 +158,6 @@ public class SequenceOperations {
         }
 
         int minDist = Integer.MAX_VALUE;
-
         int maxVal = Integer.MIN_VALUE;
 
         int maxI = 0;

From abab5bdc8a6a5cf1086ac679e5bf116cb0fdcd0c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Mon, 26 Aug 2024 14:20:39 +0200
Subject: [PATCH 193/216] (index, EXPERIMENTAL) Evaluate using Varint instead
 of GCS for position data

---
 .../marginalia/model/idx/CodedWordSpan.java   |   4 +-
 .../construction/ForwardIndexConverter.java   |   1 -
 .../index/forward/spans/DocumentSpan.java     |  26 +--
 .../index/forward/spans/DocumentSpans.java    |   4 +
 .../spans/ForwardIndexSpansReader.java        |  10 +-
 .../index/journal/IndexJournalPage.java       |  10 +-
 .../index/journal/IndexJournalSlopWriter.java |   6 +-
 .../marginalia/index/positions/TermData.java  |   4 +-
 .../construction/full/TestJournalFactory.java |  17 +-
 .../index/CombinedIndexReaderTest.java        |   5 +-
 ...IndexQueryServiceIntegrationSmokeTest.java |  10 +-
 .../IndexQueryServiceIntegrationTest.java     |   8 +-
 .../sequence/VarintCodedSequence.java         |  61 ++++++-
 .../nu/marginalia/sequence/io/BitReader.java  |  15 +-
 .../slop/VarintCodedSequenceArrayColumn.java  | 154 ++++++++++++++++++
 .../slop/VarintCodedSequenceColumn.java       | 148 +++++++++++++++++
 .../marginalia/bench/SequenceBenchmarks.java  |  52 +++---
 .../sequence/SequenceOperationsTest.java      |   2 +
 .../keyword/model/DocumentKeywords.java       |   6 +-
 .../model/DocumentKeywordsBuilder.java        |  10 +-
 .../writer/ConverterBatchWriter.java          |   4 +-
 .../model/processed/SlopDocumentRecord.java   |  28 ++--
 .../processed/SlopDocumentRecordTest.java     |   6 +-
 23 files changed, 478 insertions(+), 113 deletions(-)
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceArrayColumn.java
 create mode 100644 code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceColumn.java

diff --git a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
index 7dd25cec..5be7dcdb 100644
--- a/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
+++ b/code/common/model/java/nu/marginalia/model/idx/CodedWordSpan.java
@@ -1,6 +1,6 @@
 package nu.marginalia.model.idx;
 
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 
-public record CodedWordSpan(byte code, GammaCodedSequence spans) {
+public record CodedWordSpan(byte code, VarintCodedSequence spans) {
 }
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
index f58ac876..43f7371c 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java
@@ -120,7 +120,6 @@ public class ForwardIndexConverter {
                         for (int i = 0; i < spansCodes.length; i++) {
                             spansWriter.writeSpan(spansCodes[i], spans.get(i));
                         }
-
                         long encodedSpansOffset = spansWriter.endRecord();
 
 
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index b3fbb8b0..b5d915e2 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -6,6 +6,7 @@ import nu.marginalia.sequence.CodedSequence;
 
 import java.util.Arrays;
 
+/** A list of the interlaced start and end positions of each span in the document of this type */
 public class DocumentSpan {
 
     /** A list of the interlaced start and end positions of each span in the document of this type */
@@ -19,6 +20,7 @@ public class DocumentSpan {
         this.startsEnds = null;
     }
 
+    /** Counts the number of intersections between the spans in the document of this type and the given list of positions */
     public int countIntersections(int[] positions) {
         if (null == startsEnds || startsEnds.isEmpty() || positions.length == 0) {
             return 0;
@@ -26,37 +28,39 @@ public class DocumentSpan {
 
         int cnt = 0;
 
-        if (positions.length < 8) {
+        if (positions.length < 8) { // for small arrays we can do a linear search
             int seis = 0;
 
             for (int pi = 0; pi < positions.length; pi++) {
                 int position = positions[pi];
 
+                // search through the spans until we find an item that is greater than the given position
                 for (int sei = seis; sei < startsEnds.size(); sei ++) {
                     if (startsEnds.getInt(sei) > position) {
-                        cnt += sei % 2;
+                        cnt += sei % 2;  // if sei is odd, we are between a start and end position in the spans list
                         seis = Math.max(seis, sei - 1);
                         break;
                     }
                 }
             }
         }
-        else {
-            int ss = 0;
+        else { // for large arrays we use a binary search
+            int searchStart = 0;
 
-            for (int sei = 0; sei < startsEnds.size() && ss < positions.length; ) {
+            for (int sei = 0; sei < startsEnds.size() && searchStart < positions.length; ) {
                 int start = startsEnds.getInt(sei++);
                 int end = startsEnds.getInt(sei++);
 
-                int i = Arrays.binarySearch(positions, ss, positions.length, start);
-                if (i < 0) {
-                    i = -i - 1;
-                }
+                // find the first position that is greater or equal to the start position
+                int i = Arrays.binarySearch(positions, searchStart, positions.length, start);
+                if (i < 0) i = -i - 1; // if the position is not found, we get the insertion point
+
+                // ... from that point, count the number of positions that smaller than the end position
                 while (i < positions.length && positions[i] < end) {
                     cnt++;
                     i++;
                 }
-                ss = i;
+                searchStart = i;
             }
         }
 
@@ -83,6 +87,8 @@ public class DocumentSpan {
         return false;
     }
 
+    /** Returns true if for any position in the list, there exists a range
+     * (position[i], position[i]+len] that is overlapped by a span */
     public boolean containsRange(IntList positions, int len) {
         if (null == startsEnds || startsEnds.size() < 2 || positions.isEmpty()) {
             return false;
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
index 56bb51e9..2db9dfeb 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpans.java
@@ -3,6 +3,10 @@ package nu.marginalia.index.forward.spans;
 import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.sequence.CodedSequence;
 
+/** All spans associated with a document
+ * <p></p>
+ * A span is a list of document positions that are associated with a particular tag in the document.
+ * */
 public class DocumentSpans {
     private static final DocumentSpan EMPTY_SPAN = new DocumentSpan();
 
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java
index 5bbadb08..b99742c5 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/ForwardIndexSpansReader.java
@@ -1,9 +1,10 @@
 package nu.marginalia.index.forward.spans;
 
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 
 import java.io.IOException;
 import java.lang.foreign.Arena;
+import java.nio.ByteBuffer;
 import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
@@ -18,9 +19,11 @@ public class ForwardIndexSpansReader implements AutoCloseable {
     }
 
     public DocumentSpans readSpans(Arena arena, long encodedOffset) throws IOException {
+        // Decode the size and offset from the encoded offset
         long size = SpansCodec.decodeSize(encodedOffset);
         long offset = SpansCodec.decodeStartOffset(encodedOffset);
 
+        // Allocate a buffer from the arena
         var buffer = arena.allocate(size).asByteBuffer();
         buffer.clear();
         while (buffer.hasRemaining()) {
@@ -28,15 +31,18 @@ public class ForwardIndexSpansReader implements AutoCloseable {
         }
         buffer.flip();
 
+        // Read the number of spans in the document
         int count = buffer.get();
 
         DocumentSpans ret = new DocumentSpans();
 
+        // Decode each span
         while (count-- > 0) {
             byte code = buffer.get();
             short len = buffer.getShort();
 
-            ret.accept(code, new GammaCodedSequence(buffer.slice(buffer.position(), len)));
+            ByteBuffer data = buffer.slice(buffer.position(), len);
+            ret.accept(code, new VarintCodedSequence(data));
 
             // Reset the buffer position to the end of the span
             buffer.position(buffer.position() + len);
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
index cb1bbf4d..5732d1c0 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalPage.java
@@ -1,6 +1,6 @@
 package nu.marginalia.index.journal;
 
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
+import nu.marginalia.sequence.slop.VarintCodedSequenceArrayColumn;
 import nu.marginalia.slop.SlopTable;
 import nu.marginalia.slop.column.array.ByteArrayColumn;
 import nu.marginalia.slop.column.array.LongArrayColumn;
@@ -19,10 +19,10 @@ public record IndexJournalPage(Path baseDir, int page) {
 
     public static LongArrayColumn termIds = new LongArrayColumn("termIds", StorageType.ZSTD);
     public static ByteArrayColumn termMeta = new ByteArrayColumn("termMetadata", StorageType.ZSTD);
-    public static GammaCodedSequenceArrayColumn positions = new GammaCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
+    public static VarintCodedSequenceArrayColumn positions = new VarintCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
 
     public static ByteArrayColumn spanCodes = new ByteArrayColumn("spanCodes", StorageType.ZSTD);
-    public static GammaCodedSequenceArrayColumn spans = new GammaCodedSequenceArrayColumn("spans", StorageType.ZSTD);
+    public static VarintCodedSequenceArrayColumn spans = new VarintCodedSequenceArrayColumn("spans", StorageType.ZSTD);
 
     public IndexJournalPage {
         if (!baseDir.toFile().isDirectory()) {
@@ -55,11 +55,11 @@ public record IndexJournalPage(Path baseDir, int page) {
         return termMeta.open(table);
     }
 
-    public GammaCodedSequenceArrayColumn.Reader openTermPositions(SlopTable table) throws IOException {
+    public VarintCodedSequenceArrayColumn.Reader openTermPositions(SlopTable table) throws IOException {
         return positions.open(table);
     }
 
-    public GammaCodedSequenceArrayColumn.Reader openSpans(SlopTable table) throws IOException {
+    public VarintCodedSequenceArrayColumn.Reader openSpans(SlopTable table) throws IOException {
         return spans.open(table);
     }
 
diff --git a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
index c04fab0d..44d68979 100644
--- a/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
+++ b/code/index/index-journal/java/nu/marginalia/index/journal/IndexJournalSlopWriter.java
@@ -3,7 +3,7 @@ package nu.marginalia.index.journal;
 import lombok.SneakyThrows;
 import nu.marginalia.hash.MurmurHash3_128;
 import nu.marginalia.model.processed.SlopDocumentRecord;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
+import nu.marginalia.sequence.slop.VarintCodedSequenceArrayColumn;
 import nu.marginalia.slop.SlopTable;
 import nu.marginalia.slop.column.array.ByteArrayColumn;
 import nu.marginalia.slop.column.array.LongArrayColumn;
@@ -24,9 +24,9 @@ public class IndexJournalSlopWriter extends SlopTable {
 
     private final LongArrayColumn.Writer termIdsWriter;
     private final ByteArrayColumn.Writer termMetadataWriter;
-    private final GammaCodedSequenceArrayColumn.Writer termPositionsWriter;
+    private final VarintCodedSequenceArrayColumn.Writer termPositionsWriter;
 
-    private final GammaCodedSequenceArrayColumn.Writer spansWriter;
+    private final VarintCodedSequenceArrayColumn.Writer spansWriter;
     private final ByteArrayColumn.Writer spanCodesWriter;
 
     private static final MurmurHash3_128 hash = new MurmurHash3_128();
diff --git a/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java b/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
index e86ba3e0..737f10f1 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/positions/TermData.java
@@ -1,7 +1,7 @@
 package nu.marginalia.index.positions;
 
 import nu.marginalia.sequence.CodedSequence;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 
 import java.nio.ByteBuffer;
 
@@ -17,6 +17,6 @@ public class TermData {
     }
 
     public CodedSequence positions() {
-        return new GammaCodedSequence(buffer, 1, buffer.capacity());
+        return new VarintCodedSequence(buffer, 1, buffer.capacity());
     }
 }
diff --git a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
index 80c0970c..1be94b55 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/construction/full/TestJournalFactory.java
@@ -3,11 +3,10 @@ package nu.marginalia.index.construction.full;
 import nu.marginalia.index.journal.IndexJournalPage;
 import nu.marginalia.index.journal.IndexJournalSlopWriter;
 import nu.marginalia.model.processed.SlopDocumentRecord;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import nu.marginalia.test.TestUtil;
 
 import java.io.IOException;
-import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.util.Arrays;
@@ -46,14 +45,14 @@ public class TestJournalFactory {
                     '}';
         }
     }
-    public record WordWithMeta(String wordId, byte meta, GammaCodedSequence gcs) {
-        public WordWithMeta(long wordId, byte meta, GammaCodedSequence gcs) {
+    public record WordWithMeta(String wordId, byte meta, VarintCodedSequence gcs) {
+        public WordWithMeta(long wordId, byte meta, VarintCodedSequence gcs) {
             this(String.valueOf(wordId), meta, gcs);
         }
     }
 
     public static WordWithMeta wm(long wordId, int meta, int... positions) {
-        return new WordWithMeta(wordId, (byte) meta, GammaCodedSequence.generate(ByteBuffer.allocate(128), positions));
+        return new WordWithMeta(wordId, (byte) meta, VarintCodedSequence.generate(positions));
     }
 
     public IndexJournalPage createReader(EntryData... entries) throws IOException {
@@ -64,11 +63,11 @@ public class TestJournalFactory {
             String[] termIds = new String[entry.wordIds.length];
             byte[] meta = new byte[entry.wordIds.length];
 
-            GammaCodedSequence[] positions = new GammaCodedSequence[entry.wordIds.length];
+            VarintCodedSequence[] positions = new VarintCodedSequence[entry.wordIds.length];
             for (int i = 0; i < entry.wordIds.length; i++) {
                 termIds[i] = entry.wordIds[i];
                 meta[i] = 0;
-                positions[i] = new GammaCodedSequence(new byte[1]);
+                positions[i] = VarintCodedSequence.generate();
             }
 
             writer.put(
@@ -100,11 +99,11 @@ public class TestJournalFactory {
 
             String[] termIds = new String[entry.wordIds.length];
             byte[] meta = new byte[entry.wordIds.length];
-            GammaCodedSequence[] positions = new GammaCodedSequence[entry.wordIds.length];
+            VarintCodedSequence[] positions = new VarintCodedSequence[entry.wordIds.length];
             for (int i = 0; i < entry.wordIds.length; i++) {
                 termIds[i] = entry.wordIds[i].wordId;
                 meta[i] = entry.wordIds[i].meta;
-                positions[i] = Objects.requireNonNullElseGet(entry.wordIds[i].gcs, () -> new GammaCodedSequence(new byte[1]));
+                positions[i] = Objects.requireNonNullElseGet(entry.wordIds[i].gcs, VarintCodedSequence::generate);
             }
 
             writer.put(
diff --git a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
index 379ff399..c0f4bd8b 100644
--- a/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
+++ b/code/index/test/nu/marginalia/index/CombinedIndexReaderTest.java
@@ -28,7 +28,7 @@ import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import nu.marginalia.service.server.Initialization;
 import nu.marginalia.storage.FileStorageService;
 import org.junit.jupiter.api.AfterEach;
@@ -39,7 +39,6 @@ import org.junit.jupiter.api.parallel.Execution;
 import java.io.IOException;
 import java.lang.foreign.Arena;
 import java.net.URISyntaxException;
-import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.sql.SQLException;
@@ -321,7 +320,7 @@ public class CombinedIndexReaderTest {
                 for (int i = 0; i < words.size(); i++) {
                     metadata[i] = words.get(i).termMetadata;
                 }
-                var positions = words.stream().map(w -> w.positions).map(pos ->  GammaCodedSequence.generate(ByteBuffer.allocate(1024), pos.toIntArray())).toList();
+                var positions = words.stream().map(w -> w.positions).map(pos ->  VarintCodedSequence.generate(pos.toIntArray())).toList();
 
                 indexJournalWriter.put(doc,
                         new SlopDocumentRecord.KeywordsProjection(
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index e0e0b941..a211dc5b 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -31,7 +31,7 @@ import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
 import nu.marginalia.storage.FileStorageService;
@@ -377,11 +377,11 @@ public class IndexQueryServiceIntegrationSmokeTest {
             metadata[i] = WordFlags.Title.asBit();
         }
 
-        List<GammaCodedSequence> positions = new ArrayList<>();
+        List<VarintCodedSequence> positions = new ArrayList<>();
 
         ByteBuffer wa = ByteBuffer.allocate(32);
         for (int i = 0; i < factors.length; i++) {
-            positions.add(GammaCodedSequence.generate(wa, factors));
+            positions.add(VarintCodedSequence.generate(factors));
         }
 
         indexJournalWriter.put(fullId,
@@ -417,11 +417,11 @@ public class IndexQueryServiceIntegrationSmokeTest {
             metadata[i] = WordFlags.Title.asBit();
         }
 
-        List<GammaCodedSequence> positions = new ArrayList<>();
+        List<VarintCodedSequence> positions = new ArrayList<>();
 
         ByteBuffer wa = ByteBuffer.allocate(32);
         for (int i = 0; i < factors.length; i++) {
-            positions.add(GammaCodedSequence.generate(wa, i + 1));
+            positions.add(VarintCodedSequence.generate(i + 1));
         }
 
         indexJournalWriter.put(fullId,
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
index 13179f99..87f53cf3 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationTest.java
@@ -33,7 +33,7 @@ import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.process.control.FakeProcessHeartbeat;
 import nu.marginalia.process.control.ProcessHeartbeat;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import nu.marginalia.service.control.ServiceHeartbeat;
 import nu.marginalia.service.server.Initialization;
 import nu.marginalia.storage.FileStorageService;
@@ -46,7 +46,6 @@ import org.junit.jupiter.api.parallel.Execution;
 import javax.annotation.CheckReturnValue;
 import java.io.IOException;
 import java.net.URISyntaxException;
-import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.sql.SQLException;
@@ -544,10 +543,9 @@ public class IndexQueryServiceIntegrationTest {
                     metadata[i] = (byte) words.get(i).termMetadata;
                 }
 
-                List<GammaCodedSequence> positions = new ArrayList<>();
-                ByteBuffer workBuffer = ByteBuffer.allocate(8192);
+                List<VarintCodedSequence> positions = new ArrayList<>();
                 for (int i = 0; i < words.size(); i++) {
-                    positions.add(GammaCodedSequence.generate(workBuffer, words.get(i).positions));
+                    positions.add(VarintCodedSequence.generate(words.get(i).positions));
                 }
 
                 indexJournalWriter.put(doc,
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
index bf49e2b2..f3e60400 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
@@ -20,6 +20,13 @@ public class VarintCodedSequence implements CodedSequence {
         this.startLimit = buffer.limit();
     }
 
+    public VarintCodedSequence(ByteBuffer buffer, int startPos, int startLimit) {
+        this.raw = buffer;
+
+        this.startPos = startPos;
+        this.startLimit = startLimit;
+    }
+
     private static int requiredBufferSize(int[] values) {
         int prev = 0;
         int size = 0;
@@ -32,11 +39,47 @@ public class VarintCodedSequence implements CodedSequence {
         return size + varintSize(size + 1);
     }
 
+    private static int requiredBufferSize(IntList values) {
+        int prev = 0;
+        int size = 0;
+
+        for (int i = 0; i < values.size(); i++) {
+            int value = values.getInt(i);
+            size += varintSize(value - prev);
+            prev = value;
+        }
+
+        return size + varintSize(size + 1);
+    }
+
     private static int varintSize(int value) {
         int bits = 32 - Integer.numberOfLeadingZeros(value);
         return (bits + 6) / 7;
     }
 
+    public static VarintCodedSequence generate(IntList values) {
+        int bufferSize = requiredBufferSize(values);
+        ByteBuffer buffer = ByteBuffer.allocate(bufferSize);
+
+        int prev = 0;
+
+        encodeValue(buffer, values.size() + 1);
+
+        for (int i = 0; i < values.size(); i++) {
+            int value = values.getInt(i);
+            int toEncode = value - prev;
+            assert toEncode > 0 : "Values must be strictly increasing";
+
+            encodeValue(buffer, toEncode);
+
+            prev = value;
+        }
+
+        buffer.flip();
+
+        return new VarintCodedSequence(buffer);
+    }
+
     public static VarintCodedSequence generate(int... values) {
         int bufferSize = requiredBufferSize(values);
         ByteBuffer buffer = ByteBuffer.allocate(bufferSize);
@@ -60,20 +103,23 @@ public class VarintCodedSequence implements CodedSequence {
     }
 
     private static void encodeValue(ByteBuffer buffer, int value) {
-        if (value < 0x80) {
+        if (value < (1<<7)) {
             buffer.put((byte) value);
         }
-        else if (value < 0x4_000) {
+        else if (value < (1<<14)) {
             buffer.put((byte) (value >>> (7) | 0x80));
             buffer.put((byte) (value & 0x7F));
         }
-        else if (value < 0x20_0000) {
+        else if (value < (1<<21)) {
             buffer.put((byte) (value >>> (14) | 0x80));
             buffer.put((byte) (value >>> (7) | 0x80));
             buffer.put((byte) (value & 0x7F));
         }
-        else if (value < 0x1000_0000) {
-            buffer.putInt(Integer.expand(value, 0x00808080) | 0x80808000);
+        else if (value < (1<<28)) {
+            buffer.put((byte) ((value >>> 21) | 0x80));
+            buffer.put((byte) ((value >>> 14) | 0x80));
+            buffer.put((byte) ((value >>> 7) | 0x80));
+            buffer.put((byte) (value & 0x7F));
         }
         else {
             throw new IllegalArgumentException("Value too large to encode");
@@ -139,12 +185,13 @@ public class VarintCodedSequence implements CodedSequence {
             return b;
         }
 
-        int value = b;
+        int value = b & 0x7F;
         do {
             b = buffer.get();
-            value = value << 7 | (b & 0x7F);
+            value = (value << 7) | (b & 0x7F);
         } while ((b & 0x80) != 0);
 
+
         return value;
     }
 
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
index 756ed7ab..6c5c4759 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/io/BitReader.java
@@ -49,20 +49,22 @@ public class BitReader {
 
     /** Read the next width bits from the buffer */
     public int get(int width) {
-        if (width == 0) {
-            return 0;
+        // Fast path for reading a full integer from the current value
+        if (bitPosition >= width) {
+            // We have enough bits in the current value to satisfy the request
+            int result = (int)(currentValue >>> (bitPosition - width)) & ~-(1<<width);
+            // Update the bit position
+            bitPosition -= width;
+            return result;
         }
-        assert width <= 32;
 
         if (bitPosition <= 0) {
             readNext();
         }
 
         int result = 0;
-
-        while (width > 0) {
+        do {
             int dw = bitPosition - width;
-
             if (dw >= 0) { // We have enough bits in the current value to satisfy the request
                 result |= ((int)(currentValue >>> dw)) & ~-(1<<width);
 
@@ -85,6 +87,7 @@ public class BitReader {
                 readNext(); // implicitly: bitPosition = 0 here
             }
         }
+        while (width > 0);
 
         return result;
     }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceArrayColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceArrayColumn.java
new file mode 100644
index 00000000..1d8141d7
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceArrayColumn.java
@@ -0,0 +1,154 @@
+package nu.marginalia.sequence.slop;
+
+import nu.marginalia.sequence.VarintCodedSequence;
+import nu.marginalia.slop.column.AbstractColumn;
+import nu.marginalia.slop.column.AbstractObjectColumn;
+import nu.marginalia.slop.column.ObjectColumnReader;
+import nu.marginalia.slop.column.ObjectColumnWriter;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.StorageType;
+
+import java.io.IOException;
+import java.net.URI;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Path;
+import java.util.ArrayList;
+import java.util.List;
+
+/** Slop column extension for storing GammaCodedSequence objects. */
+public class VarintCodedSequenceArrayColumn extends AbstractObjectColumn<List<VarintCodedSequence>, VarintCodedSequenceArrayColumn.Reader, VarintCodedSequenceArrayColumn.Writer> {
+
+    private final VarintColumn groupsColumn;
+    private final VarintCodedSequenceColumn dataColumn;
+
+    public VarintCodedSequenceArrayColumn(String name) {
+        this(name, StorageType.PLAIN);
+    }
+
+    public VarintCodedSequenceArrayColumn(String name, StorageType storageType) {
+        super(name,
+                "vcs[]",
+                ByteOrder.nativeOrder(),
+                ColumnFunction.DATA,
+                storageType);
+
+        groupsColumn = new VarintColumn(name, ColumnFunction.GROUP_LENGTH, storageType);
+        dataColumn = new VarintCodedSequenceColumn(name);
+    }
+
+    public Writer createUnregistered(Path path, int page) throws IOException {
+        return new Writer(
+                dataColumn.createUnregistered(path, page),
+                groupsColumn.createUnregistered(path, page)
+        );
+    }
+
+    public Reader openUnregistered(URI uri, int page) throws IOException {
+        return new Reader(
+                dataColumn.openUnregistered(uri, page),
+                groupsColumn.openUnregistered(uri, page)
+        );
+    }
+
+
+    public class Writer implements ObjectColumnWriter<List<VarintCodedSequence>> {
+        private final VarintColumn.Writer groupsWriter;
+        private final VarintCodedSequenceColumn.Writer dataWriter;
+
+        Writer(VarintCodedSequenceColumn.Writer dataWriter, VarintColumn.Writer groupsWriter)
+        {
+            this.groupsWriter = groupsWriter;
+            this.dataWriter = dataWriter;
+        }
+
+        @Override
+        public AbstractColumn<?, ?> columnDesc() {
+            return VarintCodedSequenceArrayColumn.this;
+        }
+
+        @Override
+        public void put(List<VarintCodedSequence> sequences) throws IOException {
+            groupsWriter.put(sequences.size());
+            for (VarintCodedSequence sequence : sequences) {
+                dataWriter.put(sequence);
+            }
+        }
+
+        public long position() {
+            return groupsWriter.position();
+        }
+
+        public void close() throws IOException {
+            dataWriter.close();
+            groupsWriter.close();
+        }
+    }
+
+    public class Reader implements ObjectColumnReader<List<VarintCodedSequence>> {
+        private final VarintCodedSequenceColumn.Reader dataReader;
+        private final VarintColumn.Reader groupsReader;
+
+        public Reader(VarintCodedSequenceColumn.Reader dataReader, VarintColumn.Reader groupsReader) {
+            this.dataReader = dataReader;
+            this.groupsReader = groupsReader;
+        }
+
+        @Override
+        public AbstractColumn<?, ?> columnDesc() {
+            return VarintCodedSequenceArrayColumn.this;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            int toSkip = 0;
+            for (int i = 0; i < positions; i++) {
+                toSkip += groupsReader.get();
+            }
+            dataReader.skip(toSkip);
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return groupsReader.hasRemaining();
+        }
+
+        public long position() throws IOException {
+            return groupsReader.position();
+        }
+
+        @Override
+        public List<VarintCodedSequence> get() throws IOException {
+            int count = groupsReader.get();
+            var ret = new ArrayList<VarintCodedSequence>(count);
+
+            for (int i = 0; i < count; i++) {
+                ret.add(dataReader.get());
+            }
+
+            return ret;
+        }
+
+        public List<ByteBuffer> getData(ByteBuffer workArea) throws IOException {
+            int count = groupsReader.get();
+            var ret = new ArrayList<ByteBuffer>(count);
+
+            for (int i = 0; i < count; i++) {
+                int start = workArea.position();
+                dataReader.getData(workArea);
+                var slice = workArea.slice(start, workArea.position() - start);
+                ret.add(slice);
+            }
+
+            return ret;
+        }
+
+
+        public void close() throws IOException {
+            dataReader.close();
+            groupsReader.close();
+        }
+
+    }
+}
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceColumn.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceColumn.java
new file mode 100644
index 00000000..a4363fc3
--- /dev/null
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/slop/VarintCodedSequenceColumn.java
@@ -0,0 +1,148 @@
+package nu.marginalia.sequence.slop;
+
+import nu.marginalia.sequence.VarintCodedSequence;
+import nu.marginalia.slop.column.AbstractColumn;
+import nu.marginalia.slop.column.AbstractObjectColumn;
+import nu.marginalia.slop.column.ObjectColumnReader;
+import nu.marginalia.slop.column.ObjectColumnWriter;
+import nu.marginalia.slop.column.dynamic.VarintColumn;
+import nu.marginalia.slop.desc.ColumnFunction;
+import nu.marginalia.slop.desc.StorageType;
+import nu.marginalia.slop.storage.Storage;
+import nu.marginalia.slop.storage.StorageReader;
+import nu.marginalia.slop.storage.StorageWriter;
+
+import java.io.IOException;
+import java.net.URI;
+import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
+import java.nio.file.Path;
+
+/** Slop column extension for storing GammaCodedSequence objects. */
+public class VarintCodedSequenceColumn extends AbstractObjectColumn<VarintCodedSequence, VarintCodedSequenceColumn.Reader, VarintCodedSequenceColumn.Writer> {
+
+    private final VarintColumn indexColumn;
+
+    public VarintCodedSequenceColumn(String name) {
+        this(name, StorageType.PLAIN);
+    }
+
+    public VarintCodedSequenceColumn(String name, StorageType storageType) {
+        super(name,
+                "vcs",
+                ByteOrder.nativeOrder(),
+                ColumnFunction.DATA,
+                storageType);
+
+        indexColumn = new VarintColumn(name, ColumnFunction.DATA_LEN, StorageType.PLAIN);
+    }
+
+    public Writer createUnregistered(Path path, int page) throws IOException {
+        return new Writer(
+                Storage.writer(path, this, page),
+                indexColumn.createUnregistered(path, page)
+        );
+    }
+
+    public Reader openUnregistered(URI uri, int page) throws IOException {
+        return new Reader(
+                Storage.reader(uri, this, page, false),
+                indexColumn.openUnregistered(uri, page)
+        );
+    }
+
+    public class Writer implements ObjectColumnWriter<VarintCodedSequence> {
+        private final VarintColumn.Writer indexWriter;
+        private final StorageWriter storage;
+
+        public Writer(StorageWriter storage,
+                      VarintColumn.Writer indexWriter)
+        {
+            this.storage = storage;
+
+            this.indexWriter = indexWriter;
+        }
+
+        @Override
+        public AbstractColumn<?, ?> columnDesc() {
+            return VarintCodedSequenceColumn.this;
+        }
+
+        @Override
+        public void put(VarintCodedSequence sequence) throws IOException {
+            var buffer = sequence.buffer();
+            int length = buffer.remaining();
+
+            indexWriter.put(length);
+            storage.putBytes(buffer);
+        }
+
+        public long position() {
+            return indexWriter.position();
+        }
+
+        public void close() throws IOException {
+            indexWriter.close();
+            storage.close();
+        }
+    }
+
+    public class Reader implements ObjectColumnReader<VarintCodedSequence> {
+        private final VarintColumn.Reader indexReader;
+        private final StorageReader storage;
+
+        Reader(StorageReader reader, VarintColumn.Reader indexReader) throws IOException {
+            this.storage = reader;
+            this.indexReader = indexReader;
+        }
+
+        @Override
+        public AbstractColumn<?, ?> columnDesc() {
+            return VarintCodedSequenceColumn.this;
+        }
+
+        @Override
+        public void skip(long positions) throws IOException {
+            for (int i = 0; i < positions; i++) {
+                int size = indexReader.get();
+                storage.skip(size, 1);
+            }
+        }
+
+        @Override
+        public boolean hasRemaining() throws IOException {
+            return indexReader.hasRemaining();
+        }
+
+        public long position() throws IOException {
+            return indexReader.position();
+        }
+
+        @Override
+        public VarintCodedSequence get() throws IOException {
+            int size = indexReader.get();
+
+            ByteBuffer dest = ByteBuffer.allocate(size);
+            storage.getBytes(dest);
+            dest.flip();
+
+            return new VarintCodedSequence(dest);
+        }
+
+        public void getData(ByteBuffer workArea) throws IOException {
+            int size = indexReader.get();
+
+            int oldLimit = workArea.limit();
+            workArea.limit(workArea.position() + size);
+            storage.getBytes(workArea);
+            workArea.limit(oldLimit);
+        }
+
+
+        public void close() throws IOException {
+            indexReader.close();
+            storage.close();
+        }
+
+    }
+}
diff --git a/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java b/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
index 534e0c6b..69ebbb3b 100644
--- a/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
+++ b/code/libraries/coded-sequence/src/jmh/java/nu/marginalia/bench/SequenceBenchmarks.java
@@ -25,51 +25,51 @@ public class SequenceBenchmarks {
             workArea = ByteBuffer.allocate(65536);
             arrayValues = new int[] { 1, 3, 5, 16, 1024, 2048, 4096, 4098, 4100 };
             list = new IntArrayList(arrayValues);
-            vcs = VarintCodedSequence.generate(1, 3, 5, 16, 1024, 2048);
-            gcs = GammaCodedSequence.generate(workArea, 1, 3, 5, 16, 1024, 2048);
+            vcs = VarintCodedSequence.generate(16,21,24,28,66,71,76,83,87,98,101,106,113,115,119,122,143,148,159,164,167,177,182,211,223,242,245,250,273,275,280,289,292,300,307,322,330,338,345,371,397,402,411,420,427,430,433,437,440,448,451,481,490,513,522,555,571,573,585,597,606,613,634,638,640,644,656,660,666,683,689,692,696,709,712,718,727,731,735,738);
+            gcs = GammaCodedSequence.generate(workArea, 16,21,24,28,66,71,76,83,87,98,101,106,113,115,119,122,143,148,159,164,167,177,182,211,223,242,245,250,273,275,280,289,292,300,307,322,330,338,345,371,397,402,411,420,427,430,433,437,440,448,451,481,490,513,522,555,571,573,585,597,606,613,634,638,640,644,656,660,666,683,689,692,696,709,712,718,727,731,735,738);
         }
     }
 
+    @Fork(value = 1, warmups = 1)
+    @Warmup(iterations = 1)
+    @Benchmark
+    @BenchmarkMode(Mode.Throughput)
+    public int vcsDecode(SequenceState state) {
+        var iter = state.vcs.iterator();
+        int sum = 0;
+        while (iter.hasNext()) {
+            sum += iter.nextInt();
+        }
+        return sum;
+    }
+//
 //    @Fork(value = 5, warmups = 5)
 //    @Warmup(iterations = 5)
 //    @Benchmark
 //    @BenchmarkMode(Mode.Throughput)
-//    public int vcsDecode(SequenceState state) {
-//        var iter = state.vcs.iterator();
+//    public int listDecode2(SequenceState state) {
+//        var list = state.arrayValues;
 //        int sum = 0;
-//        while (iter.hasNext()) {
-//            sum += iter.nextInt();
+//        for (int i = 0; i < list.length; i++) {
+//            sum += list[i];
 //        }
 //        return sum;
 //    }
 
-    @Fork(value = 5, warmups = 5)
-    @Warmup(iterations = 5)
+
+    @Fork(value = 1, warmups = 1)
+    @Warmup(iterations = 1)
     @Benchmark
     @BenchmarkMode(Mode.Throughput)
-    public int listDecode2(SequenceState state) {
-        var list = state.arrayValues;
+    public int gcsDecode(SequenceState state) {
+        var iter = state.gcs.iterator();
         int sum = 0;
-        for (int i = 0; i < list.length; i++) {
-            sum += list[i];
+        while (iter.hasNext()) {
+            sum += iter.nextInt();
         }
         return sum;
     }
 
-
-//    @Fork(value = 1, warmups = 1)
-//    @Warmup(iterations = 1)
-//    @Benchmark
-//    @BenchmarkMode(Mode.Throughput)
-//    public int gcsDecode(SequenceState state) {
-//        var iter = state.gcs.iterator();
-//        int sum = 0;
-//        while (iter.hasNext()) {
-//            sum += iter.nextInt();
-//        }
-//        return sum;
-//    }
-
 //    @Fork(value = 1, warmups = 1)
 //    @Warmup(iterations = 1)
 //    @Benchmark
diff --git a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
index dcf69a42..0db059c5 100644
--- a/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
+++ b/code/libraries/coded-sequence/test/nu/marginalia/sequence/SequenceOperationsTest.java
@@ -63,6 +63,8 @@ class SequenceOperationsTest {
         assertTrue(SequenceOperations.intersectSequences(seq1.iterator(), seq2.iterator(), seq3.iterator()));
     }
 
+
+
     @Test
     void intersectSequencesDeepMatch3findIntersections() {
         ByteBuffer wa = ByteBuffer.allocate(1024);
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
index 6e619138..7beede50 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywords.java
@@ -1,7 +1,7 @@
 package nu.marginalia.keyword.model;
 
 import nu.marginalia.model.idx.CodedWordSpan;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 
 import java.util.List;
 
@@ -9,12 +9,12 @@ public final class DocumentKeywords {
 
     public final List<String> keywords;
     public final byte[] metadata;
-    public final List<GammaCodedSequence> positions;
+    public final List<VarintCodedSequence> positions;
     public final List<CodedWordSpan> spans;
 
     public DocumentKeywords(List<String> keywords,
                             byte[] metadata,
-                            List<GammaCodedSequence> positions,
+                            List<VarintCodedSequence> positions,
                             List<CodedWordSpan> spans)
     {
         this.keywords = keywords;
diff --git a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
index 1f3629e9..bae5ac7c 100644
--- a/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
+++ b/code/processes/converting-process/ft-keyword-extraction/java/nu/marginalia/keyword/model/DocumentKeywordsBuilder.java
@@ -8,7 +8,7 @@ import lombok.Getter;
 import nu.marginalia.language.sentence.tag.HtmlTag;
 import nu.marginalia.model.idx.CodedWordSpan;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -39,7 +39,7 @@ public class DocumentKeywordsBuilder {
     public DocumentKeywords build(ByteBuffer workArea) {
         final List<String> wordArray = new ArrayList<>(wordToMeta.size());
         final TByteArrayList meta = new TByteArrayList(wordToMeta.size());
-        final List<GammaCodedSequence> positions = new ArrayList<>(wordToMeta.size());
+        final List<VarintCodedSequence> positions = new ArrayList<>(wordToMeta.size());
 
         var iter = wordToMeta.object2ByteEntrySet().fastIterator();
 
@@ -49,13 +49,13 @@ public class DocumentKeywordsBuilder {
             meta.add(entry.getByteValue());
             wordArray.add(entry.getKey());
 
-            var posList = wordToPos.getOrDefault(entry.getKey(), IntList.of());
+            IntList posList = wordToPos.getOrDefault(entry.getKey(), IntList.of());
 
             if (posList.size() > MAX_POSITIONS_PER_WORD) {
                 posList.subList(MAX_POSITIONS_PER_WORD, posList.size()).clear();
             }
 
-            positions.add(GammaCodedSequence.generate(workArea, posList));
+            positions.add(VarintCodedSequence.generate(posList));
         }
 
         // Encode spans
@@ -70,7 +70,7 @@ public class DocumentKeywordsBuilder {
                 positionsForTag.add(span.end());
             }
 
-            spans.add(new CodedWordSpan((byte) tag.charValue(), GammaCodedSequence.generate(workArea, positionsForTag)));
+            spans.add(new CodedWordSpan((byte) tag.charValue(), VarintCodedSequence.generate(positionsForTag)));
         });
 
         return new DocumentKeywords(wordArray, meta.toArray(), positions, spans);
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
index bc47b92d..1f305246 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/writer/ConverterBatchWriter.java
@@ -12,7 +12,7 @@ import nu.marginalia.model.crawl.HtmlFeature;
 import nu.marginalia.model.processed.SlopDocumentRecord;
 import nu.marginalia.model.processed.SlopDomainLinkRecord;
 import nu.marginalia.model.processed.SlopDomainRecord;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
@@ -96,7 +96,7 @@ public class ConverterBatchWriter implements AutoCloseable, ConverterBatchWriter
 
             var wb = document.words.build(workArea);
 
-            List<GammaCodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
+            List<VarintCodedSequence> spanSequences = new ArrayList<>(wb.spans.size());
             byte[] spanCodes = new byte[wb.spans.size()];
 
             for (int i = 0; i < wb.spans.size(); i++) {
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index 1515ed9a..c07f7d08 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -1,8 +1,8 @@
 package nu.marginalia.model.processed;
 
 import lombok.Builder;
-import nu.marginalia.sequence.GammaCodedSequence;
-import nu.marginalia.sequence.slop.GammaCodedSequenceArrayColumn;
+import nu.marginalia.sequence.VarintCodedSequence;
+import nu.marginalia.sequence.slop.VarintCodedSequenceArrayColumn;
 import nu.marginalia.slop.SlopTable;
 import nu.marginalia.slop.column.array.ByteArrayColumn;
 import nu.marginalia.slop.column.array.ObjectArrayColumn;
@@ -39,9 +39,9 @@ public record SlopDocumentRecord(
         Integer pubYear,
         List<String> words,
         byte[] metas,
-        List<GammaCodedSequence> positions,
+        List<VarintCodedSequence> positions,
         byte[] spanCodes,
-        List<GammaCodedSequence> spans
+        List<VarintCodedSequence> spans
 ) {
 
     public SlopDocumentRecord {
@@ -60,9 +60,9 @@ public record SlopDocumentRecord(
             int length,
             List<String> words,
             byte[] metas,
-            List<GammaCodedSequence> positions,
+            List<VarintCodedSequence> positions,
             byte[] spanCodes,
-            List<GammaCodedSequence> spans)
+            List<VarintCodedSequence> spans)
     {
         // Override the equals method since records don't generate default equals that deal with array fields properly
         @Override
@@ -127,12 +127,12 @@ public record SlopDocumentRecord(
 
     private static final ObjectArrayColumn<String> keywordsColumn = new StringColumn("keywords", StorageType.ZSTD).asArray();
     private static final ByteArrayColumn termMetaColumn = new ByteArrayColumn("termMetadata", StorageType.ZSTD);
-    private static final GammaCodedSequenceArrayColumn termPositionsColumn = new GammaCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
+    private static final VarintCodedSequenceArrayColumn termPositionsColumn = new VarintCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
 
     // Spans columns
 
     private static final ByteArrayColumn spanCodesColumn = new ByteArrayColumn("spanCodes", StorageType.ZSTD);
-    private static final GammaCodedSequenceArrayColumn spansColumn = new GammaCodedSequenceArrayColumn("spans", StorageType.ZSTD);
+    private static final VarintCodedSequenceArrayColumn spansColumn = new VarintCodedSequenceArrayColumn("spans", StorageType.ZSTD);
 
     public static class KeywordsProjectionReader extends SlopTable {
         private final TxtStringColumn.Reader domainsReader;
@@ -143,10 +143,10 @@ public record SlopDocumentRecord(
 
         private final ObjectArrayColumn<String>.Reader keywordsReader;
         private final ByteArrayColumn.Reader termMetaReader;
-        private final GammaCodedSequenceArrayColumn.Reader termPositionsReader;
+        private final VarintCodedSequenceArrayColumn.Reader termPositionsReader;
 
         private final ByteArrayColumn.Reader spanCodesReader;
-        private final GammaCodedSequenceArrayColumn.Reader spansReader;
+        private final VarintCodedSequenceArrayColumn.Reader spansReader;
 
         public KeywordsProjectionReader(SlopTable.Ref<SlopDocumentRecord> pageRef) throws IOException {
             super(pageRef);
@@ -177,10 +177,10 @@ public record SlopDocumentRecord(
             int length = lengthsReader.get();
 
             List<String> words = keywordsReader.get();
-            List<GammaCodedSequence> positions = termPositionsReader.get();
+            List<VarintCodedSequence> positions = termPositionsReader.get();
             byte[] metas = termMetaReader.get();
             byte[] spanCodes = spanCodesReader.get();
-            List<GammaCodedSequence> spans = spansReader.get();
+            List<VarintCodedSequence> spans = spansReader.get();
 
             return new KeywordsProjection(
                     domain,
@@ -272,9 +272,9 @@ public record SlopDocumentRecord(
         private final IntColumn.Writer pubYearWriter;
         private final ObjectArrayColumn<String>.Writer keywordsWriter;
         private final ByteArrayColumn.Writer termMetaWriter;
-        private final GammaCodedSequenceArrayColumn.Writer termPositionsWriter;
+        private final VarintCodedSequenceArrayColumn.Writer termPositionsWriter;
         private final ByteArrayColumn.Writer spansCodesWriter;
-        private final GammaCodedSequenceArrayColumn.Writer spansWriter;
+        private final VarintCodedSequenceArrayColumn.Writer spansWriter;
 
         public Writer(Path baseDir, int page) throws IOException {
             super(baseDir, page);
diff --git a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
index 3dd7ae80..35195cc1 100644
--- a/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
+++ b/code/processes/converting-process/model/test/nu/marginalia/model/processed/SlopDocumentRecordTest.java
@@ -1,6 +1,6 @@
 package nu.marginalia.model.processed;
 
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.sequence.VarintCodedSequence;
 import nu.marginalia.slop.SlopTable;
 import nu.marginalia.test.TestUtil;
 import org.junit.jupiter.api.AfterEach;
@@ -46,9 +46,9 @@ public class SlopDocumentRecordTest {
                 null,
                 List.of("test1", "test2"),
                 new byte[] { 2, 3},
-                List.of(GammaCodedSequence.generate(workArea, 1, 3, 5), GammaCodedSequence.generate(workArea, 2, 4, 6)),
+                List.of(VarintCodedSequence.generate(1, 3, 5), VarintCodedSequence.generate(2, 4, 6)),
                 new byte[] { 'a', 'b' },
-                List.of(GammaCodedSequence.generate(workArea, 2, 3, 5), GammaCodedSequence.generate(workArea, 3, 4, 6))
+                List.of(VarintCodedSequence.generate(2, 3, 5), VarintCodedSequence.generate(3, 4, 6))
         );
 
         try (var writer = new SlopDocumentRecord.Writer(testDir, 0)) {

From bb5d946c2650dcfe063143d60fdfefe590271a5c Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 29 Aug 2024 11:34:23 +0200
Subject: [PATCH 194/216] (index, EXPERIMENTAL) Clean up ranking code

---
 .../results/debug/DebugRankingFactors.java    |   3 +-
 .../index/forward/spans/DocumentSpan.java     |  20 +-
 .../results/IndexResultScoreCalculator.java   | 505 +++++++++---------
 .../model/PhraseConstraintGroupList.java      |  13 +-
 4 files changed, 280 insertions(+), 261 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java
index 25d012d3..fecab104 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/results/debug/DebugRankingFactors.java
@@ -6,6 +6,7 @@ import java.util.ArrayList;
 import java.util.List;
 import java.util.StringJoiner;
 
+/** Utility for capturing debug information about ranking factors */
 public class DebugRankingFactors {
     private final List<DebugFactor> documentFactors = new ArrayList<>();
     private final List<DebugTermFactor> termFactors = new ArrayList<>();
@@ -28,10 +29,10 @@ public class DebugRankingFactors {
         }
         termFactors.add(new DebugTermFactor(termId, null, factor, joiner.toString()));
     }
+
     public List<DebugFactor> getDocumentFactors() {
         return documentFactors;
     }
-
     public List<DebugTermFactor> getTermFactors() {
         return termFactors;
     }
diff --git a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
index b5d915e2..f1b32135 100644
--- a/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
+++ b/code/index/index-forward/java/nu/marginalia/index/forward/spans/DocumentSpan.java
@@ -1,5 +1,6 @@
 package nu.marginalia.index.forward.spans;
 
+import it.unimi.dsi.fastutil.ints.IntArrayList;
 import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.sequence.CodedSequence;
@@ -129,7 +130,24 @@ public class DocumentSpan {
         return new DocumentSpanPositionsIterator();
     }
 
-    /** Iteator over the values between the start and end positions of each span in the document of this type */
+    /** Returns a list with all values between the start and end positions of each span in the document of this type
+     * This is an expensive operation and should not be used in the main execution path, but only for debugging
+     * and testing
+     * */
+    public IntList positionValues() {
+        if (null == startsEnds)
+            return IntList.of();
+
+        IntList ret = new IntArrayList();
+        var iter = startsEnds.iterator();
+        while (iter.hasNext()) {
+            ret.add(iter.nextInt());
+        }
+        return ret;
+    }
+
+    /** Iteator over the values between the start and end positions of each span in the document of this type
+     * */
     class DocumentSpanPositionsIterator implements IntIterator {
         private final IntIterator startStopIterator;
 
diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index acbedcbd..321505b7 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -56,7 +56,7 @@ public class IndexResultScoreCalculator {
 
     @Nullable
     public SearchResultItem calculateScore(Arena arena,
-                                           @Nullable DebugRankingFactors rankingFactors,
+                                           @Nullable DebugRankingFactors debugRankingFactors,
                                            long combinedId,
                                            QuerySearchTerms searchTerms,
                                            long[] wordFlags,
@@ -84,14 +84,19 @@ public class IndexResultScoreCalculator {
         long docId = UrlIdCodec.removeRank(combinedId);
         long docMetadata = index.getDocumentMetadata(docId);
         int htmlFeatures = index.getHtmlFeatures(docId);
+
         int docSize = index.getDocumentSize(docId);
+        if (docSize <= 0) docSize = 5000;
+
         DocumentSpans spans = index.getDocumentSpans(arena, docId);
 
-        if (rankingFactors != null) {
-            rankingFactors.addDocumentFactor("doc.docId", Long.toString(combinedId));
-            rankingFactors.addDocumentFactor("doc.combinedId", Long.toString(docId));
+        if (debugRankingFactors != null) {
+            debugRankingFactors.addDocumentFactor("doc.docId", Long.toString(combinedId));
+            debugRankingFactors.addDocumentFactor("doc.combinedId", Long.toString(docId));
         }
 
+        // Decode the coded positions lists into plain IntLists as at this point we will be
+        // going over them multiple times
         IntList[] decodedPositions = new IntList[positions.length];
         for (int i = 0; i < positions.length; i++) {
             if (positions[i] != null) {
@@ -102,17 +107,78 @@ public class IndexResultScoreCalculator {
             }
         }
 
-        double score = calculateSearchResultValue(
-                rankingFactors,
-                searchTerms,
-                wordFlagsQuery,
-                docMetadata,
-                htmlFeatures,
-                docSize,
-                spans,
-                decodedPositions,
-                searchTerms.phraseConstraints,
-                rankingContext);
+        var params = rankingContext.params;
+
+        double documentBonus = calculateDocumentBonus(docMetadata, htmlFeatures, docSize, params, debugRankingFactors);
+
+        VerbatimMatches verbatimMatches = new VerbatimMatches(decodedPositions, searchTerms.phraseConstraints, spans);
+        UnorderedMatches unorderedMatches = new UnorderedMatches(decodedPositions, compiledQuery, rankingContext.regularMask, spans);
+
+        float proximitiyFac = getProximitiyFac(decodedPositions, searchTerms.phraseConstraints, verbatimMatches, unorderedMatches, spans);
+
+        double score_firstPosition = params.tcfFirstPosition * (1.0 / Math.sqrt(unorderedMatches.firstPosition));
+        double score_verbatim = params.tcfVerbatim * verbatimMatches.getScore();
+        double score_proximity = params.tcfProximity * proximitiyFac;
+        double score_bM25 = params.bm25Weight
+                * wordFlagsQuery.root.visit(new Bm25GraphVisitor(params.bm25Params, unorderedMatches.getWeightedCounts(), docSize, rankingContext))
+                / (Math.sqrt(unorderedMatches.searchableKeywordCount + 1));
+        double score_bFlags = params.bm25Weight
+                * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(params.bm25Params, wordFlagsQuery.data, unorderedMatches.getWeightedCounts(), rankingContext))
+                / (Math.sqrt(unorderedMatches.searchableKeywordCount + 1));
+
+        double score = normalize(
+                score_firstPosition + score_proximity + score_verbatim
+                        + score_bM25
+                        + score_bFlags
+                        + Math.max(0, documentBonus),
+                -Math.min(0, documentBonus));
+
+        if (Double.isNaN(score)) { // This should never happen but if it does, we want to know about it
+            if (getClass().desiredAssertionStatus()) {
+                throw new IllegalStateException("NaN in result value calculation");
+            }
+            score = Double.MAX_VALUE;
+        }
+
+        // Capture ranking factors for debugging
+        if (debugRankingFactors != null) {
+            debugRankingFactors.addDocumentFactor("score.bm25-main", Double.toString(score_bM25));
+            debugRankingFactors.addDocumentFactor("score.bm25-flags", Double.toString(score_bFlags));
+            debugRankingFactors.addDocumentFactor("score.verbatim", Double.toString(score_verbatim));
+            debugRankingFactors.addDocumentFactor("score.proximity", Double.toString(score_proximity));
+            debugRankingFactors.addDocumentFactor("score.firstPosition", Double.toString(score_firstPosition));
+
+            for (int i = 0; i < searchTerms.termIdsAll.size(); i++) {
+                long termId = searchTerms.termIdsAll.at(i);
+
+                var flags = wordFlagsQuery.at(i);
+
+                debugRankingFactors.addTermFactor(termId, "flags.rawEncoded", Long.toString(flags));
+
+                for (var flag : WordFlags.values()) {
+                    if (flag.isPresent((byte) flags)) {
+                        debugRankingFactors.addTermFactor(termId, "flags." + flag.name(), "true");
+                    }
+                }
+
+                for (HtmlTag tag : HtmlTag.includedTags) {
+                    if (verbatimMatches.get(tag)) {
+                        debugRankingFactors.addTermFactor(termId, "verbatim." + tag.name().toLowerCase(), "true");
+                    }
+                }
+
+                if (positions[i] != null) {
+                    debugRankingFactors.addTermFactor(termId, "positions.all", positions[i].iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.title", SequenceOperations.findIntersections(spans.title.positionValues(), decodedPositions[i]).iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.heading", SequenceOperations.findIntersections(spans.heading.positionValues(), decodedPositions[i]).iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.anchor", SequenceOperations.findIntersections(spans.anchor.positionValues(), decodedPositions[i]).iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.code", SequenceOperations.findIntersections(spans.code.positionValues(), decodedPositions[i]).iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.nav", SequenceOperations.findIntersections(spans.nav.positionValues(), decodedPositions[i]).iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.body", SequenceOperations.findIntersections(spans.body.positionValues(), decodedPositions[i]).iterator());
+                    debugRankingFactors.addTermFactor(termId, "positions.externalLinkText", SequenceOperations.findIntersections(spans.externalLinkText.positionValues(), decodedPositions[i]).iterator());
+                }
+            }
+        }
 
         return new SearchResultItem(combinedId,
                 docMetadata,
@@ -122,29 +188,6 @@ public class IndexResultScoreCalculator {
         );
     }
 
-    /** Calculate a bitmask illustrating the intersected positions of the search terms in the document.
-     *  This is used in the GUI.
-     * */
-    private long calculatePositionsMask(IntList[] positions) {
-        IntList[] iters = new IntList[rankingContext.regularMask.cardinality()];
-        for (int i = 0, j = 0; i < positions.length; i++) {
-            if (rankingContext.regularMask.get(i)) {
-                iters[j++] = positions[i];
-            }
-        }
-        IntIterator intersection = SequenceOperations.findIntersections(iters).intIterator();
-
-        long result = 0;
-        int bit = 0;
-
-        while (intersection.hasNext() && bit < 64) {
-            bit = (int) (Math.sqrt(intersection.nextInt()));
-            result |= 1L << bit;
-        }
-
-        return result;
-    }
-
     private boolean meetsQueryStrategyRequirements(CompiledQueryLong queryGraphScores,
                                                    QueryStrategy queryStrategy)
     {
@@ -180,24 +223,35 @@ public class IndexResultScoreCalculator {
         return true;
     }
 
+    /** Calculate a bitmask illustrating the intersected positions of the search terms in the document.
+     *  This is used in the GUI.
+     * */
+    private long calculatePositionsMask(IntList[] positions) {
+        IntList[] iters = new IntList[rankingContext.regularMask.cardinality()];
+        for (int i = 0, j = 0; i < positions.length; i++) {
+            if (rankingContext.regularMask.get(i)) {
+                iters[j++] = positions[i];
+            }
+        }
+        IntIterator intersection = SequenceOperations.findIntersections(iters).intIterator();
 
+        long result = 0;
+        int bit = 0;
 
-    public double calculateSearchResultValue(DebugRankingFactors rankingFactors,
-                                             QuerySearchTerms searchTerms,
-                                             CompiledQueryLong wordFlagsQuery,
-                                             long documentMetadata,
-                                             int features,
-                                             int length,
-                                             DocumentSpans spans,
-                                             IntList[] positions,
-                                             PhraseConstraintGroupList constraintGroups,
-                                             ResultRankingContext ctx)
-    {
-        if (length < 0) {
-            length = 5000;
+        while (intersection.hasNext() && bit < 64) {
+            bit = (int) (Math.sqrt(intersection.nextInt()));
+            result |= 1L << bit;
         }
 
-        var rankingParams = ctx.params;
+        return result;
+    }
+
+
+    private double calculateDocumentBonus(long documentMetadata,
+                                          int features,
+                                          int length,
+                                          ResultRankingParameters rankingParams,
+                                          @Nullable DebugRankingFactors debugRankingFactors) {
 
         int rank = DocumentMetadata.decodeRank(documentMetadata);
         int asl = DocumentMetadata.decodeAvgSentenceLength(documentMetadata);
@@ -223,218 +277,76 @@ public class IndexResultScoreCalculator {
             temporalBias = 0;
         }
 
-        final int titleLength = Math.max(1, spans.title.length());
-
-        VerbatimMatches verbatimMatches = new VerbatimMatches();
-
-        float verbatimMatchScore = findVerbatimMatches(verbatimMatches, constraintGroups, positions, spans);
-
-        float[] weightedCounts = new float[compiledQuery.size()];
-        float keywordMinDistFac = 0;
-        if (positions.length > 2) {
-            int minDist = constraintGroups.getFullGroup().minDistance(positions);
-            if (minDist > 0 && minDist < Integer.MAX_VALUE) {
-                if (minDist < 32) {
-                    // If min-dist is sufficiently small, we give a tapering reward to the document
-                    keywordMinDistFac = 2.0f / (0.1f + (float) Math.sqrt(minDist));
-                } else {
-                    // if it is too large, we add a mounting penalty
-                    keywordMinDistFac = -1.0f * (float) Math.sqrt(minDist);
-                }
-            }
+        if (debugRankingFactors != null) {
+            debugRankingFactors.addDocumentFactor("documentBonus.averageSentenceLengthPenalty", Double.toString(averageSentenceLengthPenalty));
+            debugRankingFactors.addDocumentFactor("documentBonus.documentLengthPenalty", Double.toString(documentLengthPenalty));
+            debugRankingFactors.addDocumentFactor("documentBonus.qualityPenalty", Double.toString(qualityPenalty));
+            debugRankingFactors.addDocumentFactor("documentBonus.rankingBonus", Double.toString(rankingBonus));
+            debugRankingFactors.addDocumentFactor("documentBonus.topologyBonus", Double.toString(topologyBonus));
+            debugRankingFactors.addDocumentFactor("documentBonus.temporalBias", Double.toString(temporalBias));
+            debugRankingFactors.addDocumentFactor("documentBonus.flagsPenalty", Double.toString(flagsPenalty));
         }
 
-        int searchableKeywordsCount = 0;
-        int unorderedMatchInTitleCount = 0;
-        int unorderedMatchInHeadingCount = 0;
-
-        int firstPosition = 1;
-        for (int i = 0; i < weightedCounts.length; i++) {
-
-            if (positions[i] == null || !ctx.regularMask.get(i))
-                continue;
-
-            searchableKeywordsCount ++;
-            int[] posArray = positions[i].toIntArray();
-
-            for (int idx = 0; idx < positions[i].size(); idx++) {
-                int pos = positions[i].getInt(idx);
-                firstPosition = Math.max(firstPosition, pos);
-            }
-
-            int cnt;
-            if ((cnt = spans.title.countIntersections(posArray)) != 0) {
-                unorderedMatchInTitleCount++;
-                weightedCounts[i] += 2.5f * cnt;
-            }
-            if ((cnt = spans.heading.countIntersections(posArray)) != 0) {
-                if (spans.heading.size() < 64) {
-                    // Correct for the case where there's a lot of headings everywhere, or the entire document is a heading
-                    unorderedMatchInHeadingCount++;
-                }
-                weightedCounts[i] += 2.5f * cnt;
-            }
-            if ((cnt = spans.code.countIntersections(posArray)) != 0) {
-                weightedCounts[i] += 0.25f * cnt;
-            }
-            if ((cnt = spans.anchor.countIntersections(posArray)) != 0) {
-                weightedCounts[i] += 0.2f * cnt;
-            }
-            if ((cnt = spans.nav.countIntersections(posArray)) != 0) {
-                weightedCounts[i] += 0.1f * cnt;
-            }
-            if ((cnt = spans.body.countIntersections(posArray)) != 0) {
-                weightedCounts[i] += 1.0f * cnt;
-            }
-        }
-
-        if (!verbatimMatches.get(HtmlTag.TITLE) && searchableKeywordsCount > 2 && unorderedMatchInTitleCount == searchableKeywordsCount) {
-            verbatimMatchScore += 2.5f * unorderedMatchInTitleCount;
-            verbatimMatchScore += 2.f * unorderedMatchInTitleCount / titleLength;
-        }
-
-        if (!verbatimMatches.get(HtmlTag.HEADING) && unorderedMatchInHeadingCount == searchableKeywordsCount) {
-            verbatimMatchScore += 1.0f * unorderedMatchInHeadingCount;
-        }
-
-        double overallPart = averageSentenceLengthPenalty
+        return averageSentenceLengthPenalty
                 + documentLengthPenalty
                 + qualityPenalty
                 + rankingBonus
                 + topologyBonus
                 + temporalBias
                 + flagsPenalty;
-
-        double score_firstPosition = rankingParams.tcfFirstPosition * (1.0 / Math.sqrt(firstPosition));
-
-        double score_bM25 = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new Bm25GraphVisitor(rankingParams.bm25Params, weightedCounts, length, ctx));
-        double score_bFlags = rankingParams.bm25Weight * wordFlagsQuery.root.visit(new TermFlagsGraphVisitor(rankingParams.bm25Params, wordFlagsQuery.data, weightedCounts, ctx));
-        double score_verbatim = rankingParams.tcfVerbatim * verbatimMatchScore;
-        double score_proximity = rankingParams.tcfProximity * keywordMinDistFac;
-
-        score_bM25 *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
-        score_bFlags *= 1.0 / (Math.sqrt(weightedCounts.length + 1));
-
-        if (rankingFactors != null) {
-            rankingFactors.addDocumentFactor("overall.averageSentenceLengthPenalty", Double.toString(averageSentenceLengthPenalty));
-            rankingFactors.addDocumentFactor("overall.documentLengthPenalty", Double.toString(documentLengthPenalty));
-            rankingFactors.addDocumentFactor("overall.qualityPenalty", Double.toString(qualityPenalty));
-            rankingFactors.addDocumentFactor("overall.rankingBonus", Double.toString(rankingBonus));
-            rankingFactors.addDocumentFactor("overall.topologyBonus", Double.toString(topologyBonus));
-            rankingFactors.addDocumentFactor("overall.temporalBias", Double.toString(temporalBias));
-            rankingFactors.addDocumentFactor("overall.flagsPenalty", Double.toString(flagsPenalty));
-
-
-
-            rankingFactors.addDocumentFactor("score.bm25-main", Double.toString(score_bM25));
-            rankingFactors.addDocumentFactor("score.bm25-flags", Double.toString(score_bFlags));
-            rankingFactors.addDocumentFactor("score.verbatim", Double.toString(score_verbatim));
-            rankingFactors.addDocumentFactor("score.proximity", Double.toString(score_proximity));
-            rankingFactors.addDocumentFactor("score.firstPosition", Double.toString(score_firstPosition));
-
-            rankingFactors.addDocumentFactor("unordered.title", Integer.toString(unorderedMatchInTitleCount));
-            rankingFactors.addDocumentFactor("unordered.heading", Integer.toString(unorderedMatchInHeadingCount));
-
-            for (int i = 0; i < searchTerms.termIdsAll.size(); i++) {
-                long termId = searchTerms.termIdsAll.at(i);
-
-                rankingFactors.addTermFactor(termId, "factor.weightedCount", Double.toString(weightedCounts[i]));
-                var flags = wordFlagsQuery.at(i);
-
-                rankingFactors.addTermFactor(termId, "flags.rawEncoded", Long.toString(flags));
-
-                for (var flag : WordFlags.values()) {
-                    if (flag.isPresent((byte) flags)) {
-                        rankingFactors.addTermFactor(termId, "flags." + flag.name(), "true");
-                    }
-                }
-
-                for (HtmlTag tag : HtmlTag.includedTags) {
-                    if (verbatimMatches.get(tag)) {
-                        rankingFactors.addTermFactor(termId, "verbatim." + tag.name().toLowerCase(), "true");
-                    }
-                }
-
-                if (positions[i] != null) {
-                    rankingFactors.addTermFactor(termId, "positions.all", positions[i].iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.title", SequenceOperations.findIntersections(spans.title, positions[i].iterator()).iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.heading", SequenceOperations.findIntersections(spans.heading, positions[i].iterator()).iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.anchor", SequenceOperations.findIntersections(spans.anchor.iterator(), positions[i].iterator()).iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.code", SequenceOperations.findIntersections(spans.code.iterator(), positions[i].iterator()).iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.nav", SequenceOperations.findIntersections(spans.nav.iterator(), positions[i].iterator()).iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.body", SequenceOperations.findIntersections(spans.body.iterator(), positions[i].iterator()).iterator());
-//                    rankingFactors.addTermFactor(termId, "positions.externalLinkText", SequenceOperations.findIntersections(spans.externalLinkText.iterator(), positions[i].iterator()).iterator());
-                }
-
-            }
-        }
-
-        // Renormalize to 0...15, where 0 is the best possible score;
-        // this is a historical artifact of the original ranking function
-        double ret = normalize(
-                score_firstPosition + score_proximity + score_verbatim
-                        + score_bM25
-                        + score_bFlags
-                        + Math.max(0, overallPart),
-                -Math.min(0, overallPart));
-
-        if (Double.isNaN(ret)) { // This should never happen but if it does, we want to know about it
-            if (getClass().desiredAssertionStatus()) {
-                throw new IllegalStateException("NaN in result value calculation");
-            }
-
-            return Double.MAX_VALUE;
-        }
-        else {
-            return ret;
-        }
     }
 
-    private float findVerbatimMatches(VerbatimMatches verbatimMatches,
-                                      PhraseConstraintGroupList constraints,
-                                      IntList[] positions,
-                                      DocumentSpans spans) {
+    /** Calculate the proximity factor for the document.
+     * <p></p>
+     * The proximity factor is a bonus based on how close the search terms are to each other in the document
+     * that turns into a penalty if the distance is too large.
+     * */
+    private static float getProximitiyFac(IntList[] positions,
+                                          PhraseConstraintGroupList constraintGroups,
+                                          VerbatimMatches verbatimMatches,
+                                          UnorderedMatches unorderedMatches,
+                                          DocumentSpans spans
+                                          ) {
+        float proximitiyFac = 0;
 
-        // Calculate a bonus for keyword coherences when large ones exist
-        int largestOptional = constraints.getFullGroup().size;
-        if (largestOptional < 2) {
-            return 0;
-        }
-
-        float verbatimMatchScore = 0.f;
-
-        var fullGroup = constraints.getFullGroup();
-        IntList fullGroupIntersections = fullGroup.findIntersections(positions);
-        for (var tag : HtmlTag.includedTags) {
-            if (spans.getSpan(tag).containsRange(fullGroupIntersections, fullGroup.size)) {
-                verbatimMatchScore += verbatimMatches.getWeightFull(tag) * fullGroup.size;
-                verbatimMatches.set(tag);
-            }
-        }
-
-        // For optional groups, we scale the score by the size of the group relative to the full group
-        for (var optionalGroup : constraints.getOptionalGroups()) {
-            int groupSize = optionalGroup.size;
-            float sizeScalingFactor = groupSize / (float) largestOptional;
-
-            IntList intersections = optionalGroup.findIntersections(positions);
-            for (var tag : HtmlTag.includedTags) {
-                if (spans.getSpan(tag).containsRange(intersections, groupSize)) {
-                    verbatimMatchScore += verbatimMatches.getWeightPartial(tag) * sizeScalingFactor * groupSize;
+        if (positions.length > 2) {
+            int minDist = constraintGroups.getFullGroup().minDistance(positions);
+            if (minDist > 0 && minDist < Integer.MAX_VALUE) {
+                if (minDist < 32) {
+                    // If min-dist is sufficiently small, we give a tapering reward to the document
+                    proximitiyFac = 2.0f / (0.1f + (float) Math.sqrt(minDist));
+                } else {
+                    // if it is too large, we add a mounting penalty
+                    proximitiyFac = -1.0f * (float) Math.sqrt(minDist);
                 }
             }
         }
 
-        return verbatimMatchScore;
+
+        // Give bonus proximity score if all keywords are in the title
+        if (!verbatimMatches.get(HtmlTag.TITLE) && unorderedMatches.searchableKeywordCount > 2 && unorderedMatches.getObservationCount(HtmlTag.TITLE) == unorderedMatches.searchableKeywordCount) {
+            proximitiyFac += unorderedMatches.getObservationCount(HtmlTag.TITLE) * (2.5f + 2.f / Math.max(1, spans.title.length()));
+        }
+        // Give bonus proximity score if all keywords are in a heading
+        if (spans.heading.size() < 64 &&
+                ! verbatimMatches.get(HtmlTag.HEADING)
+                && unorderedMatches.getObservationCount(HtmlTag.HEADING) == unorderedMatches.searchableKeywordCount)
+        {
+            proximitiyFac += 1.0f * unorderedMatches.getObservationCount(HtmlTag.HEADING);
+        }
+
+        return proximitiyFac;
     }
 
+    /** A helper class for capturing the verbatim phrase matches in the document */
     private static class VerbatimMatches {
         private final BitSet matches;
-        private final float[] weights_full;
-        private final float[] weights_partial;
+        private float score = 0.f;
 
-        public VerbatimMatches() {
-            matches = new BitSet(HtmlTag.includedTags.length);
+        private static final float[] weights_full;
+        private static final float[] weights_partial;
+
+        static {
             weights_full = new float[HtmlTag.includedTags.length];
             weights_partial = new float[HtmlTag.includedTags.length];
 
@@ -451,7 +363,7 @@ public class IndexResultScoreCalculator {
                 };
             }
 
-            for (int i = 0; i < weights_full.length; i++) {
+            for (int i = 0; i < weights_partial.length; i++) {
                 weights_partial[i] = switch(HtmlTag.includedTags[i]) {
                     case TITLE -> 1.5f;
                     case HEADING -> 1.f;
@@ -465,25 +377,108 @@ public class IndexResultScoreCalculator {
             }
         }
 
+        public VerbatimMatches(IntList[] positions, PhraseConstraintGroupList constraints, DocumentSpans spans) {
+            matches = new BitSet(HtmlTag.includedTags.length);
+
+            int largestOptional = constraints.getFullGroup().size;
+            if (largestOptional < 2) {
+                return;
+            }
+
+            // Capture full query matches
+            var fullGroup = constraints.getFullGroup();
+            IntList fullGroupIntersections = fullGroup.findIntersections(positions);
+            for (var tag : HtmlTag.includedTags) {
+                if (spans.getSpan(tag).containsRange(fullGroupIntersections, fullGroup.size)) {
+                    matches.set(tag.ordinal());
+                    score += weights_full[tag.ordinal()] * fullGroup.size;
+                }
+            }
+
+            // For optional groups, we scale the score by the size of the group relative to the full group
+            for (var optionalGroup : constraints.getOptionalGroups()) {
+                int groupSize = optionalGroup.size;
+                float sizeScalingFactor = groupSize / (float) largestOptional;
+
+                IntList intersections = optionalGroup.findIntersections(positions);
+                for (var tag : HtmlTag.includedTags) {
+                    if (spans.getSpan(tag).containsRange(intersections, groupSize)) {
+                        score += weights_partial[tag.ordinal()] * optionalGroup.size * sizeScalingFactor;
+                    }
+                }
+            }
+        }
+
         public boolean get(HtmlTag tag) {
             assert !tag.exclude;
             return matches.get(tag.ordinal());
         }
 
-        public void set(HtmlTag tag) {
-            assert !tag.exclude;
-            matches.set(tag.ordinal());
+        public float getScore() {
+            return score;
+        }
+    }
+
+    /** A helper class for capturing the counts of unordered matches in the document */
+    private static class UnorderedMatches {
+        private final int[] observationsByTag;
+        private final float[] valuesByWordIdx;
+        private static final float[] weights;
+
+        private int firstPosition = 1;
+        private int searchableKeywordCount = 0;
+        static {
+            weights = new float[HtmlTag.includedTags.length];
+
+            for (int i = 0; i < weights.length; i++) {
+                weights[i] = switch(HtmlTag.includedTags[i]) {
+                    case TITLE -> 2.5f;
+                    case HEADING -> 2.5f;
+                    case ANCHOR -> 0.2f;
+                    case NAV -> 0.1f;
+                    case CODE -> 0.25f;
+                    case BODY -> 1.0f;
+                    default -> 0.0f;
+                };
+            }
         }
 
-        public float getWeightFull(HtmlTag tag) {
-            assert !tag.exclude;
-            return weights_full[tag.ordinal()];
-        }
-        public float getWeightPartial(HtmlTag tag) {
-            assert !tag.exclude;
-            return weights_partial[tag.ordinal()];
+        public UnorderedMatches(IntList[] positions, CompiledQuery<String> compiledQuery,
+                                BitSet regularMask,
+                                DocumentSpans spans) {
+            observationsByTag = new int[HtmlTag.includedTags.length];
+            valuesByWordIdx = new float[compiledQuery.size()];
+
+            for (int i = 0; i < compiledQuery.size(); i++) {
+
+                if (positions[i] == null || !regularMask.get(i))
+                    continue;
+
+                if (positions[i].isEmpty()) continue;
+
+                firstPosition = Math.max(firstPosition, positions[i].getInt(0));
+                searchableKeywordCount ++;
+
+                int[] posArray = positions[i].toIntArray();
+                for (var tag : HtmlTag.includedTags) {
+                    int cnt = spans.getSpan(tag).countIntersections(posArray);
+                    observationsByTag[tag.ordinal()] += cnt;
+                    valuesByWordIdx[i] += cnt * weights[tag.ordinal()];
+                }
+            }
         }
 
+        public int getObservationCount(HtmlTag tag) {
+            return observationsByTag[tag.ordinal()];
+        }
+
+        public float[] getWeightedCounts() {
+            return valuesByWordIdx;
+        }
+
+        public int size() {
+            return valuesByWordIdx.length;
+        }
     }
 
 
diff --git a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
index 25062890..11cce9a4 100644
--- a/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
+++ b/code/index/java/nu/marginalia/index/results/model/PhraseConstraintGroupList.java
@@ -17,9 +17,14 @@ import java.util.List;
  * wordIds that we require to be in the same sentence
  */
 public class PhraseConstraintGroupList {
-    List<PhraseConstraintGroup> mandatoryGroups = new ArrayList<>();
-    List<PhraseConstraintGroup> optionalGroups = new ArrayList<>();
-    PhraseConstraintGroup fullGroup;
+    /** A list of groups representing parts of the query that must be present in the specified order */
+    private final List<PhraseConstraintGroup> mandatoryGroups = new ArrayList<>();
+
+    /** A list of groups representing segments of the query */
+    private final List<PhraseConstraintGroup> optionalGroups = new ArrayList<>();
+
+    /** A group representing all terms in the query, segmentation be damned */
+    private final PhraseConstraintGroup fullGroup;
 
     public PhraseConstraintGroupList(
             PhraseConstraintGroup fullGroup,
@@ -146,7 +151,7 @@ public class PhraseConstraintGroupList {
             List<IntList> sequences = new ArrayList<>(present.cardinality());
             IntList iterOffsets = new IntArrayList(present.cardinality());
 
-            for (int oi = 0, si = 0; oi < offsets.length; oi++) {
+            for (int oi = 0; oi < offsets.length; oi++) {
                 if (!present.get(oi)) {
                     continue;
                 }

From 8290c19e24123c67b0dbc2e328dfcb5feff0986a Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 3 Sep 2024 11:21:01 +0200
Subject: [PATCH 195/216] (query-parsing) Drop search term elements that aren't
 indexed by the search engine

---
 .../searchquery/query_parser/QueryParser.java      | 14 ++++++++++++--
 .../util/transform_list/TransformList.java         |  8 +++++++-
 .../java/nu/marginalia/language/WordPatterns.java  |  5 -----
 3 files changed, 19 insertions(+), 8 deletions(-)

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
index 2c5eaed1..f77fd1ba 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
@@ -61,10 +61,20 @@ public class QueryParser {
         if (str.isBlank())
             return;
 
-        if (str.endsWith(":") || str.endsWith(".")) {
+        // Remove trailing punctuation
+        int lastChar = str.charAt(str.length() - 1);
+        if (":.,!?$".indexOf(lastChar) >= 0)
             entity.replace(new QueryToken.LiteralTerm(str.substring(0, str.length() - 1), lt.displayStr()));
-        }
 
+        // Remove term elements that aren't indexed by the search engine
+        if (str.endsWith("()"))
+            entity.replace(new QueryToken.LiteralTerm(str.substring(0, str.length() - 2), lt.displayStr()));
+        if (str.startsWith("$"))
+            entity.replace(new QueryToken.LiteralTerm(str.substring(1), lt.displayStr()));
+
+        if (entity.isBlank()) {
+            entity.remove();
+        }
     }
 
     private static void createNegatedTerms(TransformList<QueryToken>.Entity first, TransformList<QueryToken>.Entity second) {
diff --git a/code/functions/search-query/java/nu/marginalia/util/transform_list/TransformList.java b/code/functions/search-query/java/nu/marginalia/util/transform_list/TransformList.java
index 62dd2e0a..a0dc6d7f 100644
--- a/code/functions/search-query/java/nu/marginalia/util/transform_list/TransformList.java
+++ b/code/functions/search-query/java/nu/marginalia/util/transform_list/TransformList.java
@@ -1,5 +1,7 @@
 package nu.marginalia.util.transform_list;
 
+import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
+
 import java.util.List;
 import java.util.function.BiConsumer;
 import java.util.function.Consumer;
@@ -30,7 +32,7 @@ import java.util.function.Predicate;
  * </pre>
  * </code>
  */
-public class TransformList<T> {
+public class TransformList<T extends QueryToken> {
     private final List<T> backingList;
 
     public TransformList(List<T> backingList) {
@@ -138,6 +140,10 @@ public class TransformList<T> {
             value = newValue;
         }
 
+        public boolean isBlank() {
+            return value == null || value.str().isBlank();
+        }
+
         public void remove() {
             action = Action.REMOVE;
         }
diff --git a/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java b/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java
index 9f137ddc..c0990f22 100644
--- a/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java
+++ b/code/libraries/language-processing/java/nu/marginalia/language/WordPatterns.java
@@ -1,11 +1,6 @@
 package nu.marginalia.language;
 
 /** Logic for deciding which words are eligible to be keywords.
- * <p/>
- * This is in dire need of oversight. Here be towering dragons with names,
- * a skull next to their HP bar, and their own Mick Gordon soundtrack just
- * for the battle.
- *
  */
 public class WordPatterns {
     public static final int MIN_WORD_LENGTH = 1;

From f6d981761d5fb2ac245a995fcffb869f0963210d Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 3 Sep 2024 11:24:05 +0200
Subject: [PATCH 196/216] (query-parsing) Drop search term elements that aren't
 indexed by the search engine

---
 .../functions/searchquery/query_parser/QueryParser.java         | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
index f77fd1ba..5c726644 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
@@ -16,8 +16,8 @@ public class QueryParser {
 
         TransformList<QueryToken> list = new TransformList<>(basicTokens);
 
-        list.transformEach(QueryParser::handleQuoteTokens);
         list.transformEach(QueryParser::trimLiterals);
+        list.transformEach(QueryParser::handleQuoteTokens);
         list.transformEachPair(QueryParser::createNegatedTerms);
         list.transformEachPair(QueryParser::createPriorityTerms);
         list.transformEach(QueryParser::handleSpecialOperations);

From 99b3b00b68c595d2fcb7367e95200d961b97f5ef Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 3 Sep 2024 11:35:32 +0200
Subject: [PATCH 197/216] (query-parsing) Merge QueryTokenizer into QueryParser
 and add escaping of query grammar

---
 .../searchquery/query_parser/QueryParser.java | 89 +++++++++++++++++-
 .../query_parser/QueryTokenizer.java          | 91 -------------------
 2 files changed, 85 insertions(+), 95 deletions(-)
 delete mode 100644 code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
index 5c726644..2bb46f9f 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
@@ -3,16 +3,17 @@ package nu.marginalia.functions.searchquery.query_parser;
 import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.language.WordPatterns;
+import nu.marginalia.language.encoding.AsciiFlattener;
 import nu.marginalia.util.transform_list.TransformList;
 
+import java.util.ArrayList;
 import java.util.List;
+import java.util.regex.Pattern;
 
 public class QueryParser {
 
-    private final QueryTokenizer tokenizer = new QueryTokenizer();
-
     public List<QueryToken> parse(String query) {
-        List<QueryToken> basicTokens = tokenizer.tokenizeQuery(query);
+        List<QueryToken> basicTokens = tokenizeQuery(query);
 
         TransformList<QueryToken> list = new TransformList<>(basicTokens);
 
@@ -27,6 +28,84 @@ public class QueryParser {
         return list.getBackingList();
     }
 
+    private static final Pattern noisePattern = Pattern.compile("[,\\s]");
+
+    public List<QueryToken> tokenizeQuery(String rawQuery) {
+        List<QueryToken> tokens = new ArrayList<>();
+
+        String query = AsciiFlattener.flattenUnicode(rawQuery);
+        query = noisePattern.matcher(query).replaceAll(" ");
+
+        int chr = -1;
+        int prevChr = -1;
+        for (int i = 0; i < query.length(); i++) {
+            prevChr = chr;
+            chr = query.charAt(i);
+
+            boolean escape = prevChr == '\\';
+
+            if (!escape && '(' == chr) {
+                tokens.add(new QueryToken.LParen());
+            }
+            else if (!escape && ')' == chr && prevChr != '(') { // special case to deal with queries like "strlen()"
+                tokens.add(new QueryToken.RParen());
+            }
+            else if (!escape && '"' == chr) {
+                int end = query.indexOf('"', i+1);
+
+                if (end == -1) {
+                    end = query.length();
+                }
+
+                tokens.add(new QueryToken.Quot(query.substring(i + 1, end).toLowerCase()));
+
+                i = end;
+            }
+            else if (!escape && '-' == chr) {
+                tokens.add(new QueryToken.Minus());
+            }
+            else if (!escape && '?' == chr) {
+                tokens.add(new QueryToken.QMark());
+            }
+            else if (!Character.isSpaceChar(chr)) {
+
+                int end = i+1;
+                for (; end < query.length(); end++) {
+                    if (query.charAt(end) == ' ' || query.charAt(end) == ')')
+                        break;
+                }
+
+                String displayStr = query.substring(i, end);
+                String str = trimEscape(displayStr.toLowerCase());
+
+                tokens.add(new QueryToken.LiteralTerm(str, displayStr));
+
+                i = end-1;
+            }
+        }
+        return tokens;
+    }
+
+    private String trimEscape(String str) {
+        if (!str.contains("\\")) {
+            return str;
+        }
+
+        StringBuilder sb = new StringBuilder(str.length());
+        for (int j = 0; j < str.length(); j++) {
+            char c = str.charAt(j);
+            if (c == '\\') {
+                if (j + 1 < str.length()) {
+                    sb.append(str.charAt(j + 1));
+                    j++;
+                }
+            } else {
+                sb.append(c);
+            }
+        }
+        return sb.toString();
+    }
+
     private static void normalizeDomainName(TransformList<QueryToken>.Entity entity) {
         var t = entity.value();
 
@@ -63,10 +142,12 @@ public class QueryParser {
 
         // Remove trailing punctuation
         int lastChar = str.charAt(str.length() - 1);
-        if (":.,!?$".indexOf(lastChar) >= 0)
+        if (":.,!?$'".indexOf(lastChar) >= 0)
             entity.replace(new QueryToken.LiteralTerm(str.substring(0, str.length() - 1), lt.displayStr()));
 
         // Remove term elements that aren't indexed by the search engine
+        if (str.endsWith("'s"))
+            entity.replace(new QueryToken.LiteralTerm(str.substring(0, str.length() - 2), lt.displayStr()));
         if (str.endsWith("()"))
             entity.replace(new QueryToken.LiteralTerm(str.substring(0, str.length() - 2), lt.displayStr()));
         if (str.startsWith("$"))
diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java
deleted file mode 100644
index 79179524..00000000
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryTokenizer.java
+++ /dev/null
@@ -1,91 +0,0 @@
-package nu.marginalia.functions.searchquery.query_parser;
-
-import nu.marginalia.functions.searchquery.query_parser.token.QueryToken;
-import nu.marginalia.language.encoding.AsciiFlattener;
-
-import java.util.ArrayList;
-import java.util.List;
-import java.util.Objects;
-import java.util.regex.Pattern;
-
-public class QueryTokenizer {
-    private static final Pattern noisePattern = Pattern.compile("[,\\s]");
-
-    public List<QueryToken> tokenizeQuery(String rawQuery) {
-        List<QueryToken> tokens = new ArrayList<>();
-
-        String query = AsciiFlattener.flattenUnicode(rawQuery);
-        query = noisePattern.matcher(query).replaceAll(" ");
-
-        for (int i = 0; i < query.length(); i++) {
-            int chr = query.charAt(i);
-
-            if ('(' == chr) {
-                tokens.add(new QueryToken.LParen());
-            }
-            else if (')' == chr) {
-                tokens.add(new QueryToken.RParen());
-            }
-            else if ('"' == chr) {
-                int end = query.indexOf('"', i+1);
-
-                if (end == -1) {
-                    end = query.length();
-                }
-
-                tokens.add(new QueryToken.Quot(query.substring(i + 1, end).toLowerCase()));
-
-                i = end;
-            }
-            else if ('-' == chr) {
-                tokens.add(new QueryToken.Minus());
-            }
-            else if ('?' == chr) {
-                tokens.add(new QueryToken.QMark());
-            }
-            else if (Character.isSpaceChar(chr)) {
-                //
-            }
-            else {
-
-                int end = i+1;
-                for (; end < query.length(); end++) {
-                    if (query.charAt(end) == ' ' || query.charAt(end) == ')')
-                        break;
-                }
-
-                String displayStr = query.substring(i, end);
-                String str = toLowerCaseStripPossessive(displayStr);
-
-                tokens.add(new QueryToken.LiteralTerm(str, displayStr));
-
-                i = end-1;
-            }
-        }
-        return tokens;
-    }
-
-    public static String toLowerCaseStripPossessive(String word) {
-        String val = stripPossessive(word).toLowerCase();
-
-        if (Objects.equals(val, word)) {
-            return word;
-        }
-
-        return val;
-    }
-
-    public static String stripPossessive(String s) {
-        int end = s.length();
-
-        if (s.endsWith("'")) {
-            return s.substring(0, end-1);
-        }
-
-        if (s.endsWith("'s") || s.endsWith("'S")) {
-            return s.substring(0, end-2);
-        }
-
-        return s;
-    }
-}

From 50ba8fd0999feef55964b8542c623842e6edebdf Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 3 Sep 2024 11:45:14 +0200
Subject: [PATCH 198/216] (query-parsing) Correct handling of trailing
 parentheses

---
 .../searchquery/query_parser/QueryParser.java | 32 +++++++++++++------
 .../query/svc/QueryFactoryTest.java           |  9 ++++++
 2 files changed, 31 insertions(+), 10 deletions(-)

diff --git a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
index 2bb46f9f..0cd358c2 100644
--- a/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
+++ b/code/functions/search-query/java/nu/marginalia/functions/searchquery/query_parser/QueryParser.java
@@ -37,20 +37,19 @@ public class QueryParser {
         query = noisePattern.matcher(query).replaceAll(" ");
 
         int chr = -1;
-        int prevChr = -1;
+        int parenDepth = 0;
         for (int i = 0; i < query.length(); i++) {
-            prevChr = chr;
             chr = query.charAt(i);
 
-            boolean escape = prevChr == '\\';
-
-            if (!escape && '(' == chr) {
+            if ('(' == chr) {
+                parenDepth++;
                 tokens.add(new QueryToken.LParen());
             }
-            else if (!escape && ')' == chr && prevChr != '(') { // special case to deal with queries like "strlen()"
+            else if (')' == chr) {
+                parenDepth--;
                 tokens.add(new QueryToken.RParen());
             }
-            else if (!escape && '"' == chr) {
+            else if ('"' == chr) {
                 int end = query.indexOf('"', i+1);
 
                 if (end == -1) {
@@ -61,17 +60,30 @@ public class QueryParser {
 
                 i = end;
             }
-            else if (!escape && '-' == chr) {
+            else if ('-' == chr) {
                 tokens.add(new QueryToken.Minus());
             }
-            else if (!escape && '?' == chr) {
+            else if ('?' == chr) {
                 tokens.add(new QueryToken.QMark());
             }
             else if (!Character.isSpaceChar(chr)) {
 
+                // search for the end of the term
                 int end = i+1;
+                int prevC = -1;
+                int c = -1;
                 for (; end < query.length(); end++) {
-                    if (query.charAt(end) == ' ' || query.charAt(end) == ')')
+                    prevC = c;
+                    c = query.charAt(end);
+
+                    if (prevC == '\\')
+                        continue;
+                    if (c == ' ')
+                        break;
+
+                    // special case to deal with possible RPAREN token at the end,
+                    // but we don't want to break if it's likely part of the search term
+                    if (c == '(' && prevC != ')' && parenDepth > 0)
                         break;
                 }
 
diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index 0f9ef452..4f2b59b0 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -243,4 +243,13 @@ public class QueryFactoryTest {
         System.out.println("Time: " + (System.currentTimeMillis() - start));
         System.out.println(subquery);
     }
+
+    @Test
+    public void testParsing() {
+        long start = System.currentTimeMillis();
+        var subquery = parseAndGetSpecs("strlen()");
+        assertEquals("strlen", subquery.query.compiledQuery);
+        System.out.println("Time: " + (System.currentTimeMillis() - start));
+        System.out.println(subquery);
+    }
 }
\ No newline at end of file

From dc67c81f9982dfa03deecd1a8e830a6183a65392 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 4 Sep 2024 15:00:40 +0200
Subject: [PATCH 199/216] (summary)  Fix a few cases where noscript tags would
 sometimes be used for document summary

---
 .../processor/logic/dom/DomPruningFilter.java       | 13 ++++++++-----
 .../plugin/HtmlDocumentProcessorPlugin.java         |  6 +++---
 .../plugin/specialization/BlogSpecialization.java   |  7 ++++++-
 .../summary/heuristic/DomFilterHeuristic.java       |  2 +-
 4 files changed, 18 insertions(+), 10 deletions(-)

diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java
index 51264400..68819ecf 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/logic/dom/DomPruningFilter.java
@@ -50,6 +50,12 @@ public class DomPruningFilter implements NodeFilter {
             }
         }
 
+        if (node instanceof Element el) {
+            if (shouldAlwaysPurge(el)) {
+                return FilterResult.REMOVE;
+            }
+        }
+
         data.put(node, dataForNode);
 
         if (dataForNode.depth <= 1)
@@ -62,11 +68,6 @@ public class DomPruningFilter implements NodeFilter {
                 && dataForNode.treeSize > 3)
             return FilterResult.REMOVE;
 
-        if (node instanceof Element el) {
-            if (shouldAlwaysPurge(el)) {
-                return FilterResult.REMOVE;
-            }
-        }
 
         return FilterResult.CONTINUE;
     }
@@ -98,6 +99,8 @@ public class DomPruningFilter implements NodeFilter {
             return true;
         if ("iframe".equalsIgnoreCase(tagName))
             return true;
+        if ("noscript".equalsIgnoreCase(tagName))
+            return true;
         if ("footer".equalsIgnoreCase(tagName))
             return true;
         if ("header".equalsIgnoreCase(tagName))
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
index 101462ef..ccb8a383 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/HtmlDocumentProcessorPlugin.java
@@ -135,8 +135,8 @@ public class HtmlDocumentProcessorPlugin extends AbstractDocumentProcessorPlugin
             throw new DisqualifiedException(DisqualificationReason.IRRELEVANT);
         }
 
-        DocumentLanguageData dld =
-                sentenceExtractorProvider.get().extractSentences(specialization.prune(doc));
+        var prunedDoc = specialization.prune(doc);
+        DocumentLanguageData dld = sentenceExtractorProvider.get().extractSentences(prunedDoc);
 
         checkDocumentLanguage(dld);
 
@@ -174,7 +174,7 @@ public class HtmlDocumentProcessorPlugin extends AbstractDocumentProcessorPlugin
 
         DocumentKeywordsBuilder words = keywordExtractor.extractKeywords(dld, linkTexts, url);
 
-        ret.description = specialization.getSummary(doc, words.importantWords);
+        ret.description = specialization.getSummary(prunedDoc, words.importantWords);
         ret.generator = generatorParts.type();
 
         var tagWords = new MetaTagsBuilder()
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java
index feeb2126..9a699a68 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/plugin/specialization/BlogSpecialization.java
@@ -3,10 +3,10 @@ package nu.marginalia.converting.processor.plugin.specialization;
 import ca.rmen.porterstemmer.PorterStemmer;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
+import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import nu.marginalia.keyword.model.DocumentKeywordsBuilder;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.idx.WordFlags;
-import nu.marginalia.converting.processor.summary.SummaryExtractor;
 import org.apache.logging.log4j.util.Strings;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
@@ -122,6 +122,11 @@ public class BlogSpecialization extends DefaultSpecialization {
                 String classes = el.attr("class");
                 String id = el.id();
 
+                String tagName = el.tagName();
+
+                if (tagName.equalsIgnoreCase("noscript"))
+                    return FilterResult.REMOVE;
+
                 for (String badClassElement : badClassElements) {
                     if (classes.contains(badClassElement)) {
                         return FilterResult.REMOVE;
diff --git a/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java
index 7a1c2be3..30d9ccc9 100644
--- a/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java
+++ b/code/processes/converting-process/java/nu/marginalia/converting/processor/summary/heuristic/DomFilterHeuristic.java
@@ -20,7 +20,7 @@ public class DomFilterHeuristic implements SummaryHeuristic {
 
         var filter = new SummarizingDOMFilter();
 
-        doc.filter(filter);
+        doc.body().filter(filter);
 
         return filter.getSummary(
                 maxSummaryLength+32,

From f78ef36cd41961eaca08630a4073c5ede383226b Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Wed, 4 Sep 2024 15:19:00 +0200
Subject: [PATCH 200/216] (slop) Upgrade to 0.0.8, add encodings to string
 columns.

---
 .../model/processed/SlopDocumentRecord.java     | 17 +++++++++--------
 .../model/processed/SlopDomainLinkRecord.java   |  5 +++--
 .../model/processed/SlopDomainRecord.java       | 11 ++++++-----
 settings.gradle                                 |  2 +-
 4 files changed, 19 insertions(+), 16 deletions(-)

diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
index c07f7d08..dacb1f60 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDocumentRecord.java
@@ -17,6 +17,7 @@ import nu.marginalia.slop.desc.StorageType;
 import org.jetbrains.annotations.Nullable;
 
 import java.io.IOException;
+import java.nio.charset.StandardCharsets;
 import java.nio.file.Path;
 import java.util.Arrays;
 import java.util.List;
@@ -106,16 +107,16 @@ public record SlopDocumentRecord(
     }
 
     // Basic information
-    private static final TxtStringColumn domainsColumn = new TxtStringColumn("domain", StorageType.GZIP);
-    private static final TxtStringColumn urlsColumn = new TxtStringColumn("url", StorageType.GZIP);
+    private static final TxtStringColumn domainsColumn = new TxtStringColumn("domain", StandardCharsets.UTF_8, StorageType.GZIP);
+    private static final TxtStringColumn urlsColumn = new TxtStringColumn("url", StandardCharsets.UTF_8, StorageType.GZIP);
     private static final VarintColumn ordinalsColumn = new VarintColumn("ordinal", StorageType.PLAIN);
-    private static final EnumColumn statesColumn = new EnumColumn("state", StorageType.PLAIN);
-    private static final StringColumn stateReasonsColumn = new StringColumn("stateReason", StorageType.GZIP);
+    private static final EnumColumn statesColumn = new EnumColumn("state", StandardCharsets.US_ASCII, StorageType.PLAIN);
+    private static final StringColumn stateReasonsColumn = new StringColumn("stateReason", StandardCharsets.US_ASCII, StorageType.GZIP);
 
     // Document metadata
-    private static final StringColumn titlesColumn = new StringColumn("title", StorageType.GZIP);
-    private static final StringColumn descriptionsColumn = new StringColumn("description", StorageType.GZIP);
-    private static final EnumColumn htmlStandardsColumn = new EnumColumn("htmlStandard", StorageType.PLAIN);
+    private static final StringColumn titlesColumn = new StringColumn("title", StandardCharsets.UTF_8, StorageType.GZIP);
+    private static final StringColumn descriptionsColumn = new StringColumn("description", StandardCharsets.UTF_8, StorageType.GZIP);
+    private static final EnumColumn htmlStandardsColumn = new EnumColumn("htmlStandard", StandardCharsets.UTF_8, StorageType.PLAIN);
     private static final IntColumn htmlFeaturesColumn = new IntColumn("htmlFeatures", StorageType.PLAIN);
     private static final IntColumn lengthsColumn = new IntColumn("length", StorageType.PLAIN);
     private static final IntColumn pubYearColumn = new IntColumn("pubYear", StorageType.PLAIN);
@@ -125,7 +126,7 @@ public record SlopDocumentRecord(
 
     // Keyword-level columns, these are enumerated by the counts column
 
-    private static final ObjectArrayColumn<String> keywordsColumn = new StringColumn("keywords", StorageType.ZSTD).asArray();
+    private static final ObjectArrayColumn<String> keywordsColumn = new StringColumn("keywords", StandardCharsets.UTF_8, StorageType.ZSTD).asArray();
     private static final ByteArrayColumn termMetaColumn = new ByteArrayColumn("termMetadata", StorageType.ZSTD);
     private static final VarintCodedSequenceArrayColumn termPositionsColumn = new VarintCodedSequenceArrayColumn("termPositions", StorageType.ZSTD);
 
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
index a2184fc1..9a43dbf0 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainLinkRecord.java
@@ -5,6 +5,7 @@ import nu.marginalia.slop.column.string.TxtStringColumn;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
+import java.nio.charset.StandardCharsets;
 import java.nio.file.Path;
 import java.util.function.BiConsumer;
 
@@ -12,8 +13,8 @@ public record SlopDomainLinkRecord(
         String source,
         String dest)
 {
-    private static final TxtStringColumn sourcesColumn = new TxtStringColumn("source", StorageType.GZIP);
-    private static final TxtStringColumn destsColumn = new TxtStringColumn("dest", StorageType.GZIP);
+    private static final TxtStringColumn sourcesColumn = new TxtStringColumn("source", StandardCharsets.UTF_8, StorageType.GZIP);
+    private static final TxtStringColumn destsColumn = new TxtStringColumn("dest", StandardCharsets.UTF_8, StorageType.GZIP);
 
     public static Reader reader(Path baseDir, int page) throws IOException {
         return new Reader(baseDir, page);
diff --git a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
index 6b3d1395..820d0c7f 100644
--- a/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
+++ b/code/processes/converting-process/model/java/nu/marginalia/model/processed/SlopDomainRecord.java
@@ -8,6 +8,7 @@ import nu.marginalia.slop.column.string.TxtStringColumn;
 import nu.marginalia.slop.desc.StorageType;
 
 import java.io.IOException;
+import java.nio.charset.StandardCharsets;
 import java.nio.file.Path;
 import java.util.List;
 import java.util.function.Consumer;
@@ -28,16 +29,16 @@ public record SlopDomainRecord(
             String ip)
     {}
 
-    private static final TxtStringColumn domainsColumn = new TxtStringColumn("domain", StorageType.GZIP);
-    private static final EnumColumn statesColumn = new EnumColumn("state", StorageType.PLAIN);
-    private static final TxtStringColumn redirectDomainsColumn = new TxtStringColumn("redirectDomain", StorageType.GZIP);
-    private static final TxtStringColumn ipColumn = new TxtStringColumn("ip", StorageType.GZIP);
+    private static final TxtStringColumn domainsColumn = new TxtStringColumn("domain", StandardCharsets.UTF_8, StorageType.GZIP);
+    private static final EnumColumn statesColumn = new EnumColumn("state", StandardCharsets.US_ASCII, StorageType.PLAIN);
+    private static final TxtStringColumn redirectDomainsColumn = new TxtStringColumn("redirectDomain", StandardCharsets.UTF_8, StorageType.GZIP);
+    private static final TxtStringColumn ipColumn = new TxtStringColumn("ip", StandardCharsets.US_ASCII, StorageType.GZIP);
 
     private static final IntColumn knownUrlsColumn = new IntColumn("knownUrls", StorageType.PLAIN);
     private static final IntColumn goodUrlsColumn = new IntColumn("goodUrls", StorageType.PLAIN);
     private static final IntColumn visitedUrlsColumn = new IntColumn("visitedUrls", StorageType.PLAIN);
 
-    private static final ObjectArrayColumn<String> rssFeedsColumn = new TxtStringColumn("rssFeeds", StorageType.GZIP).asArray();
+    private static final ObjectArrayColumn<String> rssFeedsColumn = new TxtStringColumn("rssFeeds", StandardCharsets.UTF_8, StorageType.GZIP).asArray();
 
 
     public static class DomainNameReader extends SlopTable {
diff --git a/settings.gradle b/settings.gradle
index cadac6a5..9d4810e5 100644
--- a/settings.gradle
+++ b/settings.gradle
@@ -226,7 +226,7 @@ dependencyResolutionManagement {
             library('jetty-util','org.eclipse.jetty','jetty-util').version('9.4.54.v20240208')
             library('jetty-servlet','org.eclipse.jetty','jetty-servlet').version('9.4.54.v20240208')
 
-            library('slop', 'nu.marginalia', 'slop').version('0.0.7-SNAPSHOT')
+            library('slop', 'nu.marginalia', 'slop').version('0.0.8-SNAPSHOT')
 
             bundle('jetty', ['jetty-server', 'jetty-util', 'jetty-servlet'])
 

From a3b0189934f348ca41a64090f5494c910508c34f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Sun, 8 Sep 2024 10:22:32 +0200
Subject: [PATCH 201/216] Fix build errors after merge

---
 .../nu/marginalia/crawl/retreival/CrawlerRetreiver.java     | 3 ---
 .../nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java  | 1 -
 .../marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java | 3 ---
 .../nu/marginalia/io/crawldata/CrawledDomainReader.java     | 1 -
 .../test/nu/marginalia/crawling/HttpFetcherTest.java        | 6 +++---
 5 files changed, 3 insertions(+), 11 deletions(-)

diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
index 09a82367..457c524c 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/CrawlerRetreiver.java
@@ -9,9 +9,6 @@ import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
 import nu.marginalia.crawl.retreival.revisit.CrawlerRevisitor;
 import nu.marginalia.crawl.retreival.revisit.DocumentWithReference;
 import nu.marginalia.crawl.retreival.sitemap.SitemapFetcher;
-import nu.marginalia.crawling.body.HttpFetchResult;
-import nu.marginalia.crawling.model.CrawledDomain;
-import nu.marginalia.crawling.model.CrawlerDomainStatus;
 import nu.marginalia.ip_blocklist.UrlBlocklist;
 import nu.marginalia.link_parser.LinkParser;
 import nu.marginalia.model.EdgeDomain;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java
index d0a8b075..42723d5c 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcher.java
@@ -4,7 +4,6 @@ import com.google.inject.ImplementedBy;
 import crawlercommons.robots.SimpleRobotRules;
 import nu.marginalia.crawl.retreival.RateLimitException;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.body.HttpFetchResult;
diff --git a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java
index 49ac03bc..40725b0f 100644
--- a/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java
+++ b/code/processes/crawling-process/java/nu/marginalia/crawl/retreival/fetcher/HttpFetcherImpl.java
@@ -12,9 +12,6 @@ import nu.marginalia.crawl.retreival.fetcher.socket.FastTerminatingSocketFactory
 import nu.marginalia.crawl.retreival.fetcher.socket.IpInterceptingNetworkInterceptor;
 import nu.marginalia.crawl.retreival.fetcher.socket.NoSecuritySSL;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.body.ContentTypeLogic;
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.HttpFetchResult;
 import nu.marginalia.model.EdgeDomain;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.model.body.ContentTypeLogic;
diff --git a/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java
index 7588bbaa..7e359814 100644
--- a/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java
+++ b/code/processes/crawling-process/model/java/nu/marginalia/io/crawldata/CrawledDomainReader.java
@@ -1,7 +1,6 @@
 package nu.marginalia.io.crawldata;
 
 import nu.marginalia.io.crawldata.format.ParquetSerializableCrawlDataStream;
-import nu.marginalia.crawling.io.format.ParquetSerializableCrawlDataStream;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
diff --git a/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java b/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java
index af196da7..611cc8c2 100644
--- a/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java
+++ b/code/processes/crawling-process/test/nu/marginalia/crawling/HttpFetcherTest.java
@@ -6,10 +6,10 @@ import nu.marginalia.crawl.retreival.fetcher.ContentTags;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcher;
 import nu.marginalia.crawl.retreival.fetcher.HttpFetcherImpl;
 import nu.marginalia.crawl.retreival.fetcher.warc.WarcRecorder;
-import nu.marginalia.crawling.body.ContentTypeLogic;
-import nu.marginalia.crawling.body.DocumentBodyExtractor;
-import nu.marginalia.crawling.body.DocumentBodyResult;
 import nu.marginalia.model.EdgeUrl;
+import nu.marginalia.model.body.ContentTypeLogic;
+import nu.marginalia.model.body.DocumentBodyExtractor;
+import nu.marginalia.model.body.DocumentBodyResult;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.Test;
 

From 50ec922c2be725f3866233f3471310d317289644 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 10 Sep 2024 10:18:08 +0200
Subject: [PATCH 202/216] (index) Fix broken index tests

Also cleaned up the tests to be less fragile to ranking algorithm changes.
---
 .../model/query/SearchSpecification.java      |  12 +-
 .../forward/ForwardIndexSpansReaderTest.java  |   9 +-
 .../index/PositionsFileReaderTest.java        |  12 +-
 ...IndexQueryServiceIntegrationSmokeTest.java | 105 +++++++++++-------
 4 files changed, 83 insertions(+), 55 deletions(-)

diff --git a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchSpecification.java b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchSpecification.java
index bbb5b7ae..78afdd1f 100644
--- a/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchSpecification.java
+++ b/code/functions/search-query/api/java/nu/marginalia/api/searchquery/model/query/SearchSpecification.java
@@ -19,10 +19,14 @@ public class SearchSpecification {
 
     public final String humanQuery;
 
-    public final SpecificationLimit quality;
-    public final SpecificationLimit year;
-    public final SpecificationLimit size;
-    public final SpecificationLimit rank;
+    @Builder.Default
+    public final SpecificationLimit quality = SpecificationLimit.none();
+    @Builder.Default
+    public final SpecificationLimit year = SpecificationLimit.none();
+    @Builder.Default
+    public final SpecificationLimit size = SpecificationLimit.none();
+    @Builder.Default
+    public final SpecificationLimit rank = SpecificationLimit.none();
 
     public final QueryLimits queryLimits;
 
diff --git a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
index 72fa4b41..b668d1c7 100644
--- a/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
+++ b/code/index/index-forward/test/nu/marginalia/index/forward/ForwardIndexSpansReaderTest.java
@@ -2,7 +2,8 @@ package nu.marginalia.index.forward;
 
 import nu.marginalia.index.forward.spans.ForwardIndexSpansReader;
 import nu.marginalia.index.forward.spans.ForwardIndexSpansWriter;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.language.sentence.tag.HtmlTag;
+import nu.marginalia.sequence.VarintCodedSequence;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.Test;
 
@@ -33,12 +34,12 @@ class ForwardIndexSpansReaderTest {
         long offset2;
         try (var writer = new ForwardIndexSpansWriter(testFile)) {
             writer.beginRecord(1);
-            writer.writeSpan((byte) 'h', GammaCodedSequence.generate(wa, 1, 3, 5, 8).buffer());
+            writer.writeSpan(HtmlTag.HEADING.code, VarintCodedSequence.generate(1, 3, 5, 8).buffer());
             offset1 = writer.endRecord();
 
             writer.beginRecord(2);
-            writer.writeSpan((byte) 'c', GammaCodedSequence.generate(wa, 2, 4, 6, 7).buffer());
-            writer.writeSpan((byte) 'a', GammaCodedSequence.generate(wa, 3, 5).buffer());
+            writer.writeSpan(HtmlTag.CODE.code, VarintCodedSequence.generate(2, 4, 6, 7).buffer());
+            writer.writeSpan(HtmlTag.ANCHOR.code, VarintCodedSequence.generate(3, 5).buffer());
             offset2 = writer.endRecord();
         }
 
diff --git a/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java b/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
index 34274635..6d512333 100644
--- a/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
+++ b/code/index/index-reverse/test/nu/marginalia/index/PositionsFileReaderTest.java
@@ -2,9 +2,9 @@ package nu.marginalia.index;
 
 import it.unimi.dsi.fastutil.ints.IntList;
 import nu.marginalia.index.construction.PositionsFileConstructor;
-import nu.marginalia.index.positions.TermData;
 import nu.marginalia.index.positions.PositionsFileReader;
-import nu.marginalia.sequence.GammaCodedSequence;
+import nu.marginalia.index.positions.TermData;
+import nu.marginalia.sequence.VarintCodedSequence;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -15,7 +15,7 @@ import java.nio.ByteBuffer;
 import java.nio.file.Files;
 import java.nio.file.Path;
 
-import static org.junit.jupiter.api.Assertions.*;
+import static org.junit.jupiter.api.Assertions.assertEquals;
 
 class PositionsFileReaderTest {
 
@@ -35,9 +35,9 @@ class PositionsFileReaderTest {
         ByteBuffer workArea = ByteBuffer.allocate(8192);
         long key1, key2, key3;
         try (PositionsFileConstructor constructor = new PositionsFileConstructor(file)) {
-            key1 = constructor.add((byte) 43, GammaCodedSequence.generate(workArea, 1, 2, 3).buffer());
-            key2 = constructor.add((byte) 51, GammaCodedSequence.generate(workArea, 2, 3, 5, 1000, 5000, 20241).buffer());
-            key3 = constructor.add((byte) 61, GammaCodedSequence.generate(workArea, 3, 5, 7).buffer());
+            key1 = constructor.add((byte) 43, VarintCodedSequence.generate(1, 2, 3).buffer());
+            key2 = constructor.add((byte) 51, VarintCodedSequence.generate(2, 3, 5, 1000, 5000, 20241).buffer());
+            key3 = constructor.add((byte) 61, VarintCodedSequence.generate(3, 5, 7).buffer());
         }
 
         System.out.println("key1: " + Long.toHexString(key1));
diff --git a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
index a211dc5b..a2b09d12 100644
--- a/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
+++ b/code/index/test/nu/marginalia/index/IndexQueryServiceIntegrationSmokeTest.java
@@ -118,10 +118,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
                 SearchSpecification.builder()
                         .queryLimits(new QueryLimits(10, 10, Integer.MAX_VALUE, 4000))
                         .queryStrategy(QueryStrategy.SENTENCE)
-                        .year(SpecificationLimit.none())
-                        .quality(SpecificationLimit.none())
-                        .size(SpecificationLimit.none())
-                        .rank(SpecificationLimit.none())
                         .rankingParams(ResultRankingParameters.sensibleDefaults())
                         .domains(new ArrayList<>())
                         .searchSetIdentifier("NONE")
@@ -133,17 +129,29 @@ public class IndexQueryServiceIntegrationSmokeTest {
                                     .build()
                         ).build());
 
-        int[] idxes = new int[] { 30, 510, 90, 150, 210, 270, 330, 390, 450 };
-        long[] ids = IntStream.of(idxes).mapToLong(this::fullId).toArray();
         long[] actual = rsp
                 .stream()
                 .sorted(Comparator.comparing(RpcDecoratedResultItem::getRankingScore))
                 .mapToLong(i -> i.getRawItem().getCombinedId())
+                .map(UrlIdCodec::getDocumentOrdinal)
                 .toArray();
 
         System.out.println(Arrays.toString(actual));
-        System.out.println(Arrays.toString(ids));
-        Assertions.assertArrayEquals(ids, actual);
+
+        for (long id : actual) {
+            Assertions.assertTrue((id % 2) == 0,
+                    "Expected all results to contain the factor 2");
+            Assertions.assertTrue((id % 3) == 0,
+                    "Expected all results to contain the factor 2");
+            Assertions.assertTrue((id % 5) == 0,
+                    "Expected all results to contain the factor 2");
+        }
+
+        Assertions.assertEquals(9, actual.length,
+                "Expected 10 results");
+        Assertions.assertEquals(9,
+                Arrays.stream(actual).boxed().distinct().count(),
+                "Results not unique");
     }
 
     @Test
@@ -166,15 +174,11 @@ public class IndexQueryServiceIntegrationSmokeTest {
                 SearchSpecification.builder()
                         .queryLimits(new QueryLimits(10, 10, Integer.MAX_VALUE, 4000))
                         .queryStrategy(QueryStrategy.SENTENCE)
-                        .year(SpecificationLimit.none())
-                        .quality(SpecificationLimit.none())
-                        .size(SpecificationLimit.none())
-                        .rank(SpecificationLimit.none())
                         .rankingParams(ResultRankingParameters.sensibleDefaults())
                         .domains(new ArrayList<>())
                         .searchSetIdentifier("NONE")
                         .query(
-                                SearchQuery.builder()
+                            SearchQuery.builder()
                                 .compiledQuery("2")
                                 .include("2")
                                 .phraseConstraint(new SearchPhraseConstraint.Full("2"))
@@ -182,8 +186,6 @@ public class IndexQueryServiceIntegrationSmokeTest {
                         ).build()
         );
 
-        int[] idxes = new int[] { 504, 360, 420, 480, 240, 180, 300, 120, 280, 440 };
-        long[] ids = IntStream.of(idxes).mapToLong(Long::valueOf).toArray();
         long[] actual = rsp
                 .stream()
                 .sorted(Comparator.comparing(RpcDecoratedResultItem::getRankingScore))
@@ -192,8 +194,17 @@ public class IndexQueryServiceIntegrationSmokeTest {
                 .toArray();
 
         System.out.println(Arrays.toString(actual));
-        System.out.println(Arrays.toString(ids));
-        Assertions.assertArrayEquals(ids, actual);
+
+        for (long id : actual) {
+            Assertions.assertTrue((id % 2) == 0,
+                    "Expected all results to contain the factor 2");
+        }
+
+        Assertions.assertEquals(10, actual.length,
+                "Expected 10 results");
+        Assertions.assertEquals(10,
+                Arrays.stream(actual).boxed().distinct().count(),
+                "Results not unique");
     }
 
     @Test
@@ -216,25 +227,40 @@ public class IndexQueryServiceIntegrationSmokeTest {
         var rsp = queryService.justQuery(
                 SearchSpecification.builder()
                         .queryLimits(new QueryLimits(10, 10, Integer.MAX_VALUE, 4000))
-                        .year(SpecificationLimit.none())
-                        .quality(SpecificationLimit.none())
-                        .size(SpecificationLimit.none())
-                        .rank(SpecificationLimit.none())
                         .rankingParams(ResultRankingParameters.sensibleDefaults())
                         .queryStrategy(QueryStrategy.SENTENCE)
                         .domains(List.of(2))
-                        .query(new SearchQuery(
-                                "2 3 5",
-                                List.of("3", "5", "2"),
-                                List.of("4"),
-                                Collections.emptyList(),
-                                Collections.emptyList(),
-                                List.of(new SearchPhraseConstraint.Full("2", "3", "5")))).build());
-        int[] idxes = new int[] {  210, 270 };
-        long[] ids = IntStream.of(idxes).mapToLong(id -> UrlIdCodec.encodeId(id/100, id)).toArray();
+                        .query(
+                            SearchQuery.builder()
+                                .compiledQuery("2 3 5")
+                                .include("3", "5", "2")
+                                .exclude("4")
+                                .phraseConstraint(new SearchPhraseConstraint.Full("2", "3", "5"))
+                                .build()
+                        ).build());
+        long[] ids = new long[] {  210, 270 };
         long[] actual = rsp.stream()
                 .sorted(Comparator.comparing(RpcDecoratedResultItem::getRankingScore))
-                .mapToLong(i -> i.getRawItem().getCombinedId()).toArray();
+                .mapToLong(i -> i.getRawItem().getCombinedId())
+                .map(UrlIdCodec::getDocumentOrdinal)
+                .toArray();
+
+        for (long id : actual) {
+            System.out.println("Considering " + id);
+            Assertions.assertTrue((id % 2) == 0,
+                    "Expected all results to contain the factor 2");
+            Assertions.assertTrue((id % 3) == 0,
+                    "Expected all results to contain the factor 3");
+            Assertions.assertTrue((id % 5) == 0,
+                    "Expected all results to contain the factor 5");
+            Assertions.assertTrue((id/100) == 2);
+        }
+
+        Assertions.assertEquals(2, actual.length,
+                "Expected 10 results");
+        Assertions.assertEquals(2,
+                Arrays.stream(actual).boxed().distinct().count(),
+                "Results not unique");
 
         Assertions.assertArrayEquals(ids, actual);
     }
@@ -258,26 +284,23 @@ public class IndexQueryServiceIntegrationSmokeTest {
         var rsp = queryService.justQuery(
                 SearchSpecification.builder()
                         .queryLimits(new QueryLimits(10, 10, Integer.MAX_VALUE, 4000))
-                        .quality(SpecificationLimit.none())
                         .year(SpecificationLimit.equals(1998))
-                        .size(SpecificationLimit.none())
-                        .rank(SpecificationLimit.none())
                         .queryStrategy(QueryStrategy.SENTENCE)
                         .searchSetIdentifier("NONE")
                         .rankingParams(ResultRankingParameters.sensibleDefaults())
                         .query(
-                            new SearchQuery("4", List.of("4"),
-                                    Collections.emptyList(),
-                                    Collections.emptyList(),
-                                    Collections.emptyList(),
-                                    List.of(new SearchPhraseConstraint.Full("4")))
+                            SearchQuery.builder()
+                                .compiledQuery("4")
+                                .include("4")
+                                .phraseConstraint(new SearchPhraseConstraint.Full("4"))
+                                .build()
                         ).build());
 
 
         Set<Integer> years = new HashSet<>();
 
         for (var res : rsp) {
-            years.add(DocumentMetadata.decodeYear(res.getRawItem().getCombinedId()));
+            years.add(DocumentMetadata.decodeYear(res.getRawItem().getEncodedDocMetadata()));
         }
 
         assertEquals(Set.of(1998), years);
@@ -407,7 +430,7 @@ public class IndexQueryServiceIntegrationSmokeTest {
 
         ldbw.add(new DocdbUrlDetail(
                 fullId, new EdgeUrl("https://www.example.com/"+id),
-                "test", "test", 0., "HTML5", 0, null, 0, 10
+                "test", "test", 0., "HTML5", 0, null, id, 10
         ));
 
 

From 35f49bbb60fdb9f89f73c497eb3e57f3eec8d0f1 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 10 Sep 2024 10:33:56 +0200
Subject: [PATCH 203/216] (coded-sequence) Add equals and hashCode to VCS

---
 .../java/nu/marginalia/sequence/CodedSequence.java  |  1 +
 .../nu/marginalia/sequence/GammaCodedSequence.java  | 13 +++++++++----
 .../nu/marginalia/sequence/VarintCodedSequence.java | 12 ++++++++++++
 3 files changed, 22 insertions(+), 4 deletions(-)

diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
index c22623ca..493e87ee 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/CodedSequence.java
@@ -19,4 +19,5 @@ public interface CodedSequence  {
     int bufferSize();
 
     int valueCount();
+
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
index 8d8097be..bfb3a548 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/GammaCodedSequence.java
@@ -7,7 +7,7 @@ import nu.marginalia.sequence.io.BitReader;
 import nu.marginalia.sequence.io.BitWriter;
 
 import java.nio.ByteBuffer;
-import java.util.Arrays;
+import java.util.Objects;
 import java.util.StringJoiner;
 
 /** A sequence of integers encoded using the Elias Gamma code,
@@ -102,11 +102,14 @@ public class GammaCodedSequence implements Iterable<Integer>, CodedSequence {
     }
 
     public int hashCode() {
-        return raw.hashCode();
+        return values().hashCode();
     }
 
-    public boolean equals(Object obj) {
-        return obj instanceof GammaCodedSequence other && Arrays.equals(bytes(), other.bytes());
+    public boolean equals(Object other) {
+        if (other instanceof CodedSequence cs) {
+            return Objects.equals(values(), cs.values());
+        }
+        return false;
     }
 
     public String toString() {
@@ -255,4 +258,6 @@ public class GammaCodedSequence implements Iterable<Integer>, CodedSequence {
 
 
     }
+
+
 }
diff --git a/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java b/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
index f3e60400..da98d4ce 100644
--- a/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
+++ b/code/libraries/coded-sequence/java/nu/marginalia/sequence/VarintCodedSequence.java
@@ -5,6 +5,7 @@ import it.unimi.dsi.fastutil.ints.IntIterator;
 import it.unimi.dsi.fastutil.ints.IntList;
 
 import java.nio.ByteBuffer;
+import java.util.Objects;
 
 public class VarintCodedSequence implements CodedSequence {
 
@@ -242,4 +243,15 @@ public class VarintCodedSequence implements CodedSequence {
 
 
     }
+
+    public int hashCode() {
+        return values().hashCode();
+    }
+
+    public boolean equals(Object other) {
+        if (other instanceof CodedSequence cs) {
+            return Objects.equals(values(), cs.values());
+        }
+        return false;
+    }
 }

From 99523ca0798962b6cdb39a8bc67ddb71ff6b86d3 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 10 Sep 2024 10:35:56 +0200
Subject: [PATCH 204/216] (query-parser) Remove test that is no longer relevant

---
 .../query/svc/QueryFactoryTest.java           | 19 -------------------
 1 file changed, 19 deletions(-)

diff --git a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
index 4f2b59b0..74345adc 100644
--- a/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
+++ b/code/functions/search-query/test/nu/marginalia/query/svc/QueryFactoryTest.java
@@ -2,7 +2,6 @@ package nu.marginalia.query.svc;
 
 import nu.marginalia.WmsaHome;
 import nu.marginalia.api.searchquery.model.query.QueryParams;
-import nu.marginalia.api.searchquery.model.query.SearchPhraseConstraint;
 import nu.marginalia.api.searchquery.model.query.SearchSpecification;
 import nu.marginalia.api.searchquery.model.results.ResultRankingParameters;
 import nu.marginalia.functions.searchquery.QueryFactory;
@@ -130,24 +129,6 @@ public class QueryFactoryTest {
         assertEquals(2000, size.value());
     }
 
-    @Test
-    public void testQuotedStopwords() {
-        {
-            // the is a stopword, so it should generate an ngram search term
-            var specs = parseAndGetSpecs("\"the shining\"");
-            assertEquals("( shining | the_shining )", specs.query.compiledQuery);
-        }
-
-        {
-            // tde isn't a stopword, so we should get the normal behavior
-            var specs = parseAndGetSpecs("\"tde shining\"");
-            assertEquals("( shining tde | tde_shining )", specs.query.compiledQuery);
-            assertEquals(List.of("tde_shining"), specs.query.searchTermsPriority);
-            assertEquals(List.of(new SearchPhraseConstraint.Mandatory(List.of("tde", "shining"))), specs.query.phraseConstraints);
-        }
-    }
-
-
     @Test
     public void testParseQualityEq() {
         var quality = parseAndGetSpecs("q=2000").quality;

From 2a92de29ce2ba0a8641acc8a7ecb5f5b5c306af9 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Thu, 12 Sep 2024 11:36:00 +0200
Subject: [PATCH 205/216] (loader) Fix it so that the loader doesn't explode if
 it sees an invalid URL

---
 .../loading/documents/DocumentLoaderService.java          | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
index bba79952..d96f1149 100644
--- a/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
+++ b/code/processes/loading-process/java/nu/marginalia/loading/documents/DocumentLoaderService.java
@@ -83,9 +83,15 @@ public class DocumentLoaderService {
                     projection.ordinal()
             );
 
+            var parsedUrl = EdgeUrl.parse(projection.url());
+            if (parsedUrl.isEmpty()) {
+                logger.error("Failed to parse URL: {}", projection.url());
+                return;
+            }
+
             documentDbWriter.add(new DocdbUrlDetail(
                     urlId,
-                    new EdgeUrl(projection.url()),
+                    parsedUrl.get(),
                     projection.title(),
                     projection.description(),
                     projection.quality(),

From 8047e77757f0c5d18d2945de22a0f922d56c205d Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 13 Sep 2024 11:01:05 +0200
Subject: [PATCH 206/216] (doc) Correct dead links and stale information in the
 docs

---
 code/common/model/readme.md                   |  1 -
 code/index/index-forward/readme.md            |  2 +-
 code/index/index-journal/readme.md            | 22 +++++++------------
 code/index/index-reverse/readme.md            | 18 +++++++++++----
 code/index/query/readme.md                    |  2 +-
 code/index/readme.md                          |  3 ++-
 code/libraries/array/readme.md                |  2 +-
 .../ft-keyword-extraction/readme.md           |  2 +-
 .../converting-process/model/readme.md        | 19 +++++-----------
 .../crawling-process/model/readme.md          | 19 ++++++++--------
 .../explorer-service/readme.md                |  2 +-
 11 files changed, 43 insertions(+), 49 deletions(-)

diff --git a/code/common/model/readme.md b/code/common/model/readme.md
index d07bb4fa..60457102 100644
--- a/code/common/model/readme.md
+++ b/code/common/model/readme.md
@@ -8,5 +8,4 @@ This package contains common models to the search engine
 * [EdgeUrl](java/nu/marginalia/model/EdgeUrl.java)
 * [DocumentMetadata](java/nu/marginalia/model/idx/DocumentMetadata.java)
 * [DocumentFlags](java/nu/marginalia/model/idx/DocumentFlags.java)
-* [WordMetadata](java/nu/marginalia/model/idx/WordMetadata.java)
 * [WordFlags](java/nu/marginalia/model/idx/WordFlags.java)
\ No newline at end of file
diff --git a/code/index/index-forward/readme.md b/code/index/index-forward/readme.md
index 39e272e5..58dadfc3 100644
--- a/code/index/index-forward/readme.md
+++ b/code/index/index-forward/readme.md
@@ -17,5 +17,5 @@ so it's relatively easy to construct.
 
 ## Central Classes
 
-* [ForwardIndexConverter](java/nu/marginalia/index/forward/ForwardIndexConverter.java) constructs the index.
+* [ForwardIndexConverter](java/nu/marginalia/index/forward/construction/ForwardIndexConverter.java) constructs the index.
 * [ForwardIndexReader](java/nu/marginalia/index/forward/ForwardIndexReader.java) interrogates the index.
\ No newline at end of file
diff --git a/code/index/index-journal/readme.md b/code/index/index-journal/readme.md
index af7059b3..4f6b3360 100644
--- a/code/index/index-journal/readme.md
+++ b/code/index/index-journal/readme.md
@@ -6,19 +6,13 @@ This journal is written by [processes/loading-process](../../processes/loading-p
 when constructing the [forward](../index-forward) and [reverse](../index-reverse) 
 indices. 
 
-The journal format is a file header, followed by a zstd-compressed list of entries,
-each containing a header with document-level data, and a data section
-with keyword-level data.
+The journal uses the [Slop library](https://github.com/MarginaliaSearch/SlopData) to store data
+in a columnar fashion. 
 
-The journal data may be split into multiple files, and the journal writers and readers
-are designed to handle this transparently via their *Paging* implementation.
+The journal will may be split into multiple files to help index
+construction, as a merge strategy is used to reduce the amount
+of RAM required during index construction.
 
-## Central Classes
-
-### Model
-* [IndexJournalEntry](java/nu/marginalia/index/journal/model/IndexJournalEntry.java)
-* [IndexJournalEntryHeader](java/nu/marginalia/index/journal/model/IndexJournalEntryHeader.java)
-* [IndexJournalEntryData](java/nu/marginalia/index/journal/model/IndexJournalEntryData.java)
-### I/O
-* [IndexJournalReader](java/nu/marginalia/index/journal/reader/IndexJournalReader.java)
-* [IndexJournalWriter](java/nu/marginalia/index/journal/writer/IndexJournalWriter.java)
\ No newline at end of file
+Unlike most slop data stores, the index journal allows direct access
+to the underlying columns, as the needs of the index construction processes
+are fairly varied. 
\ No newline at end of file
diff --git a/code/index/index-reverse/readme.md b/code/index/index-reverse/readme.md
index fcc4fcfc..0874bf8d 100644
--- a/code/index/index-reverse/readme.md
+++ b/code/index/index-reverse/readme.md
@@ -7,7 +7,10 @@ There are two tiers of this index.
 * A priority index which only indexes terms that are flagged with priority flags<sup>1</sup>.
 * A full index that indexes all terms. 
 
-The full index also provides access to term-level metadata, while the priority index is a binary index that only offers information about which documents has a specific word.
+The full index also provides access to term-level metadata, while the priority index is 
+a binary index that only offers information about which documents has a specific word.
+
+The priority index is also compressed, while the full index at this point is not.
 
 [1] See WordFlags in [common/model](../../common/model/) and
 KeywordMetadata in [features-convert/keyword-extraction](../../features-convert/keyword-extraction).
@@ -34,9 +37,16 @@ to form a finalized reverse index.
 ![Illustration of the data layout of the finalized index](index.svg)
 ## Central Classes
 
-* [ReversePreindex](java/nu/marginalia/index/construction/ReversePreindex.java) intermediate reverse index state.
-* [ReverseIndexConstructor](java/nu/marginalia/index/construction/ReverseIndexConstructor.java) constructs the index.
-* [ReverseIndexReader](java/nu/marginalia/index/ReverseIndexReader.java) interrogates the index.
+Full index:
+* [FullPreindex](java/nu/marginalia/index/construction/full/FullPreindex.java) intermediate reverse index state.
+* [FullIndexConstructor](java/nu/marginalia/index/construction/full/FullIndexConstructor.java) constructs the index.
+* [FullReverseIndexReader](java/nu/marginalia/index/FullReverseIndexReader.java) interrogates the index.
+
+Prio index:
+* [PrioPreindex](java/nu/marginalia/index/construction/prio/PrioPreindex.java) intermediate reverse index state.
+* [PrioIndexConstructor](java/nu/marginalia/index/construction/prio/PrioIndexConstructor.java) constructs the index.
+* [PrioIndexReader](java/nu/marginalia/index/PrioReverseIndexReader.java) interrogates the index.
+
 
 ## See Also
 
diff --git a/code/index/query/readme.md b/code/index/query/readme.md
index 7386339c..b733b376 100644
--- a/code/index/query/readme.md
+++ b/code/index/query/readme.md
@@ -19,4 +19,4 @@ interfaces are implemented within the index-service module.
 
 * [index/index-reverse](../index-reverse) implements many of these interfaces.
 * [libraries/array](../../libraries/array)
-* [libraries/array/.../LongQueryBuffer](../../libraries/array/java/nu/marginalia/array/buffer/LongQueryBuffer.java)
\ No newline at end of file
+* [libraries/array/.../LongQueryBuffer](../../libraries/array/java/nu/marginalia/array/page/LongQueryBuffer.java)
\ No newline at end of file
diff --git a/code/index/readme.md b/code/index/readme.md
index 6a819e0f..b730ae75 100644
--- a/code/index/readme.md
+++ b/code/index/readme.md
@@ -32,7 +32,8 @@ results higher.
 
 ## Central Classes
 
-* [ResultValuator](java/nu/marginalia/ranking/results/ResultValuator.java)
+* [IndexResultRankingService](java/nu/marginalia/index/results/IndexResultRankingService.java)
+* [IndexResultScoreCalculator](java/nu/marginalia/index/results/IndexResultScoreCalculator.java)
 
 ---
 
diff --git a/code/libraries/array/readme.md b/code/libraries/array/readme.md
index f656b3e1..073be1eb 100644
--- a/code/libraries/array/readme.md
+++ b/code/libraries/array/readme.md
@@ -36,7 +36,7 @@ try (var array = LongArrayFactory.mmapForWritingConfined(Path.of("/tmp/test"), 1
 
 ## Query Buffers
 
-The class and [LongQueryBuffer](java/nu/marginalia/array/buffer/LongQueryBuffer.java) is used heavily in the search engine's query processing.
+The class and [LongQueryBuffer](java/nu/marginalia/array/page/LongQueryBuffer.java) is used heavily in the search engine's query processing.
 
 It is a dual-pointer buffer that offers tools for filtering data.
 
diff --git a/code/processes/converting-process/ft-keyword-extraction/readme.md b/code/processes/converting-process/ft-keyword-extraction/readme.md
index a9c04962..f961d3d0 100644
--- a/code/processes/converting-process/ft-keyword-extraction/readme.md
+++ b/code/processes/converting-process/ft-keyword-extraction/readme.md
@@ -11,4 +11,4 @@ functions based on [POS tags](https://www.ling.upenn.edu/courses/Fall_2003/ling0
 
 ## See Also
 
-* [libraries/language-processing](../../libraries/language-processing) does a lot of the heavy lifting.
\ No newline at end of file
+* [libraries/language-processing](../../../libraries/language-processing) does a lot of the heavy lifting.
\ No newline at end of file
diff --git a/code/processes/converting-process/model/readme.md b/code/processes/converting-process/model/readme.md
index e7f5cebb..ef2b50e4 100644
--- a/code/processes/converting-process/model/readme.md
+++ b/code/processes/converting-process/model/readme.md
@@ -1,18 +1,9 @@
 The processed-data package contains models and logic for
-reading and writing parquet files with the output from the
-[converting-process](../../processes/converting-process).
+reading and writing [Slop](https://github.com/MarginaliaSearch/SlopData) tables with the output from the
+[converting-process](../../converting-process).
 
 Main models:
 
-* [DocumentRecord](java/nu/marginalia/model/processed/DocumentRecord.java)
-* * [DocumentRecordKeywordsProjection](java/nu/marginalia/model/processed/DocumentRecordKeywordsProjection.java)
-* * [DocumentRecordMetadataProjection](java/nu/marginalia/model/processed/DocumentRecordMetadataProjection.java)
-* [DomainLinkRecord](java/nu/marginalia/model/processed/DomainLinkRecord.java)
-* [DomainRecord](java/nu/marginalia/model/processed/DomainRecord.java)
-
-Since parquet is a column based format, some of the readable models are projections
-that only read parts of the input file.
-
-## See Also
-
-[third-party/parquet-floor](../../../third-party/parquet-floor)
\ No newline at end of file
+* [SlopDocumentRecord](java/nu/marginalia/model/processed/SlopDocumentRecord.java)
+* [SlopDomainLinkRecord](java/nu/marginalia/model/processed/SlopDomainLinkRecord.java)
+* [SlopDomainRecord](java/nu/marginalia/model/processed/SlopDomainRecord.java)
diff --git a/code/processes/crawling-process/model/readme.md b/code/processes/crawling-process/model/readme.md
index 3bb9cb58..c48a5db9 100644
--- a/code/processes/crawling-process/model/readme.md
+++ b/code/processes/crawling-process/model/readme.md
@@ -1,7 +1,7 @@
 # Crawling Models
 
-Contains crawl data models shared by the [crawling-process](../../processes/crawling-process/) and
-[converting-process](../../processes/converting-process/).
+Contains crawl data models shared by the [crawling-process](../../) and
+[converting-process](../../../processes/converting-process/).
 
 To ensure backward compatibility with older versions of the data, the serialization is
 abstracted away from the model classes.  
@@ -15,27 +15,26 @@ removed in the future.
 
 ## Central Classes
 
-* [CrawledDocument](java/nu/marginalia/crawling/model/CrawledDocument.java)
-* [CrawledDomain](java/nu/marginalia/crawling/model/CrawledDomain.java)
+* [CrawledDocument](java/nu/marginalia/model/crawldata/CrawledDocument.java)
+* [CrawledDomain](java/nu/marginalia/model/crawldata/CrawledDomain.java)
 
 ### Serialization
 
 These serialization classes automatically negotiate the serialization format based on the 
 file extension.
 
-Data is accessed through a [SerializableCrawlDataStream](java/nu/marginalia/crawling/io/SerializableCrawlDataStream.java),
+Data is accessed through a [SerializableCrawlDataStream](java/nu/marginalia/io/crawldata/SerializableCrawlDataStream.java),
 which is a somewhat enhanced Iterator that can be used to read data. 
 
-* [CrawledDomainReader](java/nu/marginalia/crawling/io/CrawledDomainReader.java)
-* [CrawledDomainWriter](java/nu/marginalia/crawling/io/CrawledDomainWriter.java)
+* [CrawledDomainReader](java/nu/marginalia/io/crawldata/CrawledDomainReader.java)
 
 ### Parquet Serialization
 
-The parquet serialization is done using the [CrawledDocumentParquetRecordFileReader](java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileReader.java)
-and [CrawledDocumentParquetRecordFileWriter](java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecordFileWriter.java) classes,
+The parquet serialization is done using the [CrawledDocumentParquetRecordFileReader](java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileReader.java)
+and [CrawledDocumentParquetRecordFileWriter](java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecordFileWriter.java) classes,
 which read and write parquet files respectively.
 
-The model classes are serialized to parquet using the [CrawledDocumentParquetRecord](java/nu/marginalia/crawling/parquet/CrawledDocumentParquetRecord.java)
+The model classes are serialized to parquet using the [CrawledDocumentParquetRecord](java/nu/marginalia/parquet/crawldata/CrawledDocumentParquetRecord.java)
 
 The record has the following fields:
 
diff --git a/code/services-application/explorer-service/readme.md b/code/services-application/explorer-service/readme.md
index cf258eb8..567886d6 100644
--- a/code/services-application/explorer-service/readme.md
+++ b/code/services-application/explorer-service/readme.md
@@ -8,4 +8,4 @@ Externally the service is available at [https://explore2.marginalia.nu/](https:/
 
 * [features-search/screenshots](../../features-search/screenshots)
 * [features-search/random-websites](../../features-search/random-websites)
-* [tools/website-adjacencies-calculator](../../tools/website-adjacencies-calculator)
+* [processes/website-adjacencies-calculator](../../processes/website-adjacencies-calculator)

From 1cf62f58501e6276a37283877f83416707aa3ae8 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 13 Sep 2024 11:02:13 +0200
Subject: [PATCH 207/216] (doc) Correct dead links and stale information in the
 docs

---
 code/readme.md | 2 --
 1 file changed, 2 deletions(-)

diff --git a/code/readme.md b/code/readme.md
index f89805c5..ac65deb6 100644
--- a/code/readme.md
+++ b/code/readme.md
@@ -71,8 +71,6 @@ Features are relatively stand-alone components that serve some part of the domai
 but isolated. 
 
 * [features-search](features-search)
-* [features-crawl](features-crawl)
-* [features-convert](features-convert)
 
 ### Libraries and primitives
 

From a8bec13ed99aeded8027c43d18bee7d11e2e7851 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 13 Sep 2024 16:14:56 +0200
Subject: [PATCH 208/216] (index) Evaluate using mmap reads during index
 construction in favor of filechannel reads

It's likely that this will be faster, as the reads are on average small and sequential, and can't be buffered easily.
---
 .../full/FullIndexBTreeTransformer.java       | 10 ++-
 .../index/construction/full/FullPreindex.java | 72 ++++++++-----------
 .../index/construction/prio/PrioPreindex.java | 68 +++++++++---------
 .../marginalia/array/algo/LongArrayBase.java  |  1 +
 .../array/page/SegmentLongArray.java          | 19 +++++
 .../array/page/UnsafeLongArray.java           | 19 +++++
 6 files changed, 107 insertions(+), 82 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java
index ccf21331..0af6165e 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullIndexBTreeTransformer.java
@@ -6,14 +6,12 @@ import nu.marginalia.btree.BTreeWriter;
 import nu.marginalia.btree.model.BTreeContext;
 
 import java.io.IOException;
-import java.nio.channels.FileChannel;
 
 /** Constructs the BTrees in a reverse index */
 public class FullIndexBTreeTransformer implements LongArrayTransformations.LongIOTransformer {
     private final BTreeWriter writer;
-    private final FileChannel intermediateChannel;
-
     private final int entrySize;
+    private final LongArray documentsArray;
 
     long start = 0;
     long writeOffset = 0;
@@ -21,10 +19,10 @@ public class FullIndexBTreeTransformer implements LongArrayTransformations.LongI
     public FullIndexBTreeTransformer(LongArray urlsFileMap,
                                      int entrySize,
                                      BTreeContext bTreeContext,
-                                     FileChannel intermediateChannel) {
+                                     LongArray documentsArray) {
+        this.documentsArray = documentsArray;
         this.writer = new BTreeWriter(urlsFileMap, bTreeContext);
         this.entrySize = entrySize;
-        this.intermediateChannel = intermediateChannel;
     }
 
     @Override
@@ -39,7 +37,7 @@ public class FullIndexBTreeTransformer implements LongArrayTransformations.LongI
         final long offsetForBlock = writeOffset;
 
         writeOffset += writer.write(writeOffset, size,
-                mapRegion -> mapRegion.transferFrom(intermediateChannel, start, 0, end - start)
+                mapRegion -> mapRegion.transferFrom(documentsArray, start, 0, end - start)
         );
 
         start = end;
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
index 50f3a4bb..4774519e 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
@@ -13,7 +13,6 @@ import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
 import java.io.IOException;
-import java.nio.channels.FileChannel;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.StandardOpenOption;
@@ -87,13 +86,10 @@ public class FullPreindex {
 
         // Write the docs file
         LongArray finalDocs = LongArrayFactory.mmapForWritingConfined(outputFileDocs, sizeEstimator.size);
-        try (var intermediateDocChannel = documents.createDocumentsFileChannel()) {
-            offsets.transformEachIO(0, offsets.size(),
-                    new FullIndexBTreeTransformer(finalDocs, 2,
-                            ReverseIndexParameters.fullDocsBTreeContext,
-                            intermediateDocChannel));
-            intermediateDocChannel.force(false);
-        }
+        offsets.transformEachIO(0, offsets.size(),
+                new FullIndexBTreeTransformer(finalDocs, 2,
+                        ReverseIndexParameters.fullDocsBTreeContext,
+                        documents.documents));
 
         LongArray wordIds = segments.wordIds;
 
@@ -148,42 +144,36 @@ public class FullPreindex {
         leftIter.next();
         rightIter.next();
 
-        try (FileChannel leftChannel = left.documents.createDocumentsFileChannel();
-             FileChannel rightChannel = right.documents.createDocumentsFileChannel())
+        while (mergingIter.canPutMore()
+                && leftIter.isPositionBeforeEnd()
+                && rightIter.isPositionBeforeEnd())
         {
+            final long currentWord = mergingIter.wordId;
 
-            while (mergingIter.canPutMore()
-                    && leftIter.isPositionBeforeEnd()
-                    && rightIter.isPositionBeforeEnd())
+            if (leftIter.wordId == currentWord && rightIter.wordId == currentWord)
             {
-                final long currentWord = mergingIter.wordId;
-
-                if (leftIter.wordId == currentWord && rightIter.wordId == currentWord)
-                {
-                    // both inputs have documents for the current word
-                    mergeSegments(leftIter, rightIter,
-                            left.documents, right.documents,
-                            mergedDocuments, mergingIter);
-                }
-                else if (leftIter.wordId == currentWord) {
-                    if (!copySegment(leftIter, mergedDocuments, leftChannel, mergingIter))
-                        break;
-                }
-                else if (rightIter.wordId == currentWord) {
-                    if (!copySegment(rightIter, mergedDocuments, rightChannel, mergingIter))
-                        break;
-                }
-                else assert false : "This should never happen"; // the helvetica scenario
+                // both inputs have documents for the current word
+                mergeSegments(leftIter, rightIter,
+                        left.documents, right.documents,
+                        mergedDocuments, mergingIter);
             }
-
-            if (leftIter.isPositionBeforeEnd()) {
-                while (copySegment(leftIter, mergedDocuments, leftChannel, mergingIter));
+            else if (leftIter.wordId == currentWord) {
+                if (!copySegment(leftIter, left.documents,  mergingIter, mergedDocuments))
+                    break;
             }
-
-            if (rightIter.isPositionBeforeEnd()) {
-                while (copySegment(rightIter, mergedDocuments, rightChannel, mergingIter));
+            else if (rightIter.wordId == currentWord) {
+                if (!copySegment(rightIter, right.documents,  mergingIter, mergedDocuments))
+                    break;
             }
+            else assert false : "This should never happen"; // the helvetica scenario
+        }
 
+        if (leftIter.isPositionBeforeEnd()) {
+            while (copySegment(leftIter, left.documents,  mergingIter, mergedDocuments));
+        }
+
+        if (rightIter.isPositionBeforeEnd()) {
+            while (copySegment(rightIter, right.documents,  mergingIter, mergedDocuments));
         }
 
         if (leftIter.isPositionBeforeEnd())
@@ -284,15 +274,15 @@ public class FullPreindex {
      * into the destination segment, and advance the construction iterator.
      */
     private static boolean copySegment(FullPreindexWordSegments.SegmentIterator sourceIter,
-                                       LongArray dest,
-                                       FileChannel sourceChannel,
-                                       FullPreindexWordSegments.SegmentConstructionIterator mergingIter) throws IOException {
+                                       FullPreindexDocuments srcDocuments,
+                                       FullPreindexWordSegments.SegmentConstructionIterator mergingIter,
+                                       LongArray dest) throws IOException {
 
         long size = sourceIter.endOffset - sourceIter.startOffset;
         long start = mergingIter.startOffset;
         long end = start + size;
 
-        dest.transferFrom(sourceChannel,
+        dest.transferFrom(srcDocuments.documents,
                 sourceIter.startOffset,
                 mergingIter.startOffset,
                 end);
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index ee1ab3ac..e0a8db92 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -139,44 +139,39 @@ public class PrioPreindex {
         leftIter.next();
         rightIter.next();
 
-        try (FileChannel leftChannel = left.documents.createDocumentsFileChannel();
-             FileChannel rightChannel = right.documents.createDocumentsFileChannel())
+        while (mergingIter.canPutMore()
+                && leftIter.isPositionBeforeEnd()
+                && rightIter.isPositionBeforeEnd())
         {
+            final long currentWord = mergingIter.wordId;
 
-            while (mergingIter.canPutMore()
-                    && leftIter.isPositionBeforeEnd()
-                    && rightIter.isPositionBeforeEnd())
+            if (leftIter.wordId == currentWord && rightIter.wordId == currentWord)
             {
-                final long currentWord = mergingIter.wordId;
-
-                if (leftIter.wordId == currentWord && rightIter.wordId == currentWord)
-                {
-                    // both inputs have documents for the current word
-                    mergeSegments(leftIter, rightIter,
-                            left.documents, right.documents,
-                            mergedDocuments, mergingIter);
-                }
-                else if (leftIter.wordId == currentWord) {
-                    if (!copySegment(leftIter, mergedDocuments, leftChannel, mergingIter))
-                        break;
-                }
-                else if (rightIter.wordId == currentWord) {
-                    if (!copySegment(rightIter, mergedDocuments, rightChannel, mergingIter))
-                        break;
-                }
-                else assert false : "This should never happen"; // the helvetica scenario
+                // both inputs have documents for the current word
+                mergeSegments(leftIter, rightIter,
+                        left.documents, right.documents,
+                        mergedDocuments, mergingIter);
             }
-
-            if (leftIter.isPositionBeforeEnd()) {
-                while (copySegment(leftIter, mergedDocuments, leftChannel, mergingIter));
+            else if (leftIter.wordId == currentWord) {
+                if (!copySegment(leftIter, left.documents,  mergingIter, mergedDocuments))
+                    break;
             }
-
-            if (rightIter.isPositionBeforeEnd()) {
-                while (copySegment(rightIter, mergedDocuments, rightChannel, mergingIter));
+            else if (rightIter.wordId == currentWord) {
+                if (!copySegment(rightIter, right.documents,  mergingIter, mergedDocuments))
+                    break;
             }
-
+            else assert false : "This should never happen"; // the helvetica scenario
         }
 
+        if (leftIter.isPositionBeforeEnd()) {
+            while (copySegment(leftIter, left.documents,  mergingIter, mergedDocuments));
+        }
+
+        if (rightIter.isPositionBeforeEnd()) {
+            while (copySegment(rightIter, right.documents,  mergingIter, mergedDocuments));
+        }
+
+
         if (leftIter.isPositionBeforeEnd())
             throw new IllegalStateException("Left has more to go");
         if (rightIter.isPositionBeforeEnd())
@@ -270,24 +265,27 @@ public class PrioPreindex {
         rightIter.next();
     }
 
+    /** Copy the data from the source segment at the position and length indicated by sourceIter,
+     * into the destination segment, and advance the construction iterator.
+     */
     /** Copy the data from the source segment at the position and length indicated by sourceIter,
      * into the destination segment, and advance the construction iterator.
      */
     private static boolean copySegment(PrioPreindexWordSegments.SegmentIterator sourceIter,
-                                       LongArray dest,
-                                       FileChannel sourceChannel,
-                                       PrioPreindexWordSegments.SegmentConstructionIterator mergingIter) throws IOException {
+                                       PrioPreindexDocuments srcDocuments,
+                                       PrioPreindexWordSegments.SegmentConstructionIterator mergingIter,
+                                       LongArray dest) throws IOException {
 
         long size = sourceIter.endOffset - sourceIter.startOffset;
         long start = mergingIter.startOffset;
         long end = start + size;
 
-        dest.transferFrom(sourceChannel,
+        dest.transferFrom(srcDocuments.documents,
                 sourceIter.startOffset,
                 mergingIter.startOffset,
                 end);
 
-        boolean putNext = mergingIter.putNext(size);
+        boolean putNext = mergingIter.putNext(size / 2);
         boolean iterNext = sourceIter.next();
 
         if (!putNext && iterNext)
diff --git a/code/libraries/array/java/nu/marginalia/array/algo/LongArrayBase.java b/code/libraries/array/java/nu/marginalia/array/algo/LongArrayBase.java
index b5ef03da..5ce59973 100644
--- a/code/libraries/array/java/nu/marginalia/array/algo/LongArrayBase.java
+++ b/code/libraries/array/java/nu/marginalia/array/algo/LongArrayBase.java
@@ -108,4 +108,5 @@ public interface LongArrayBase extends BulkTransferArray<LongBuffer> {
     void write(Path file) throws IOException;
 
     void transferFrom(FileChannel source, long sourceStart, long arrayStart, long arrayEnd) throws IOException;
+    void transferFrom(LongArray source, long sourceStart, long arrayStart, long arrayEnd) throws IOException;
 }
diff --git a/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java b/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
index ac420de9..5c63e5c3 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
@@ -167,6 +167,25 @@ public class SegmentLongArray implements LongArray {
         }
 
     }
+    
+    @Override
+    public void transferFrom(LongArray source,
+                             long sourceStartL,
+                             long destStartL,
+                             long destEndL)
+    {
+        if (destStartL > destEndL)
+            throw new IndexOutOfBoundsException("Source start after end");
+
+        if (sourceStartL + (destEndL - destStartL) > source.size())
+            throw new IndexOutOfBoundsException("Source array too small");
+        if (destEndL > size())
+            throw new IndexOutOfBoundsException("Destination array too small");
+
+        for (long i = destStartL; i < destEndL; i++) {
+            set(i, source.get(sourceStartL + i - destStartL));
+        }
+    }
 
     @Override
     public MemorySegment getMemorySegment() {
diff --git a/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java b/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
index 04ea42d4..509fb829 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
@@ -269,4 +269,23 @@ public class UnsafeLongArray implements LongArray {
         }
     }
 
+    @Override
+    public void transferFrom(LongArray source,
+                             long sourceStartL,
+                             long destStartL,
+                             long destEndL)
+    {
+        if (destStartL > destEndL)
+            throw new IndexOutOfBoundsException("Source start after end");
+
+        if (sourceStartL + (destEndL - destStartL) > source.size())
+            throw new IndexOutOfBoundsException("Source array too small");
+        if (destEndL > size())
+            throw new IndexOutOfBoundsException("Destination array too small");
+
+        for (long i = destStartL; i < destEndL; i++) {
+            set(i, source.get(sourceStartL + i - destStartL));
+        }
+    }
+
 }

From 934af0dd4b1ebf6a7c122e7c807ca3a20faf4ce1 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 13 Sep 2024 16:33:19 +0200
Subject: [PATCH 209/216] (index) Correct units in log message when shrinking
 the documents file

---
 .../nu/marginalia/index/construction/full/FullPreindex.java     | 2 +-
 .../nu/marginalia/index/construction/prio/PrioPreindex.java     | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
index 4774519e..57100fa9 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/full/FullPreindex.java
@@ -233,7 +233,7 @@ public class FullPreindex {
         mergedDocuments.force();
 
         long beforeSize = mergedDocuments.size();
-        long afterSize = sizeLongs * 8;
+        long afterSize = sizeLongs;
         if (beforeSize != afterSize) {
             mergedDocuments.close();
             try (var bc = Files.newByteChannel(docsFile, StandardOpenOption.WRITE)) {
diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index e0a8db92..5f9d6849 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -229,7 +229,7 @@ public class PrioPreindex {
         mergedDocuments.force();
 
         long beforeSize = mergedDocuments.size();
-        long afterSize = sizeLongs * 8;
+        long afterSize = sizeLongs;
         if (beforeSize != afterSize) {
             mergedDocuments.close();
             try (var bc = Files.newByteChannel(docsFile, StandardOpenOption.WRITE)) {

From 6e47eae9036c15080ea0cd07b01d9aa79249dece Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Fri, 13 Sep 2024 16:34:14 +0200
Subject: [PATCH 210/216] (index) Correct strange close handling of
 PositionsFileConstructor

---
 .../index/construction/PositionsFileConstructor.java        | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
index 152188a9..808e03fd 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/PositionsFileConstructor.java
@@ -63,9 +63,11 @@ public class PositionsFileConstructor implements AutoCloseable {
     }
 
     public void close() throws IOException {
-        while (workBuffer.position() < workBuffer.limit()) {
+        if (workBuffer.hasRemaining()) {
             workBuffer.flip();
-            channel.write(workBuffer);
+
+            while (workBuffer.hasRemaining())
+                channel.write(workBuffer);
         }
 
         channel.force(false);

From b95646625fb9046e71a2535379da187efa8c6ae6 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 17 Sep 2024 13:39:08 +0200
Subject: [PATCH 211/216] (index) Correct prio index construction with mmap

Accidentally snuck in behavior from full index
---
 .../nu/marginalia/index/construction/prio/PrioPreindex.java     | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
index 5f9d6849..3b971288 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioPreindex.java
@@ -285,7 +285,7 @@ public class PrioPreindex {
                 mergingIter.startOffset,
                 end);
 
-        boolean putNext = mergingIter.putNext(size / 2);
+        boolean putNext = mergingIter.putNext(size);
         boolean iterNext = sourceIter.next();
 
         if (!putNext && iterNext)

From 9f9c6736abe01c844bf72552d7fae5fe8a479a40 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 17 Sep 2024 13:49:02 +0200
Subject: [PATCH 212/216] (index) Use MemorySegment.copy for
 LongArray->LongArray transfers

---
 .../java/nu/marginalia/array/page/SegmentLongArray.java   | 8 +++++---
 .../java/nu/marginalia/array/page/UnsafeLongArray.java    | 8 +++++---
 2 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java b/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
index 5c63e5c3..76e2b213 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
@@ -182,9 +182,11 @@ public class SegmentLongArray implements LongArray {
         if (destEndL > size())
             throw new IndexOutOfBoundsException("Destination array too small");
 
-        for (long i = destStartL; i < destEndL; i++) {
-            set(i, source.get(sourceStartL + i - destStartL));
-        }
+        MemorySegment.copy(
+                source.getMemorySegment(), JAVA_LONG, sourceStartL,
+                segment, JAVA_LONG, destStartL,
+                destEndL - destStartL
+        );
     }
 
     @Override
diff --git a/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java b/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
index 509fb829..36e9f32e 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
@@ -283,9 +283,11 @@ public class UnsafeLongArray implements LongArray {
         if (destEndL > size())
             throw new IndexOutOfBoundsException("Destination array too small");
 
-        for (long i = destStartL; i < destEndL; i++) {
-            set(i, source.get(sourceStartL + i - destStartL));
-        }
+        MemorySegment.copy(
+                source.getMemorySegment(), JAVA_LONG, sourceStartL,
+                segment, JAVA_LONG, destStartL,
+                destEndL - destStartL
+        );
     }
 
 }

From a74df7f9050039cfa522bf86d6c7e29e369eaf4e Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 17 Sep 2024 13:52:52 +0200
Subject: [PATCH 213/216] (index) Increase buffer size for
 PrioDocIdsTransformer

---
 .../index/construction/prio/PrioDocIdsTransformer.java        | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
index 85bbedac..3072ffb8 100644
--- a/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
+++ b/code/index/index-reverse/java/nu/marginalia/index/construction/prio/PrioDocIdsTransformer.java
@@ -19,8 +19,8 @@ public class PrioDocIdsTransformer implements LongArrayTransformations.LongIOTra
     private final FileChannel writeChannel;
     private final FileChannel readChannel;
 
-    private final ByteBuffer readBuffer = ByteBuffer.allocate(8192).order(ByteOrder.LITTLE_ENDIAN);
-    private final ByteBuffer writeBuffer = ByteBuffer.allocate(8192);
+    private final ByteBuffer readBuffer = ByteBuffer.allocate(65536).order(ByteOrder.LITTLE_ENDIAN);
+    private final ByteBuffer writeBuffer = ByteBuffer.allocate(65536);
 
     long startL = 0;
     long writeOffsetB = 0;

From 60ad4786bc2a00f967f52815006456851b37c312 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 17 Sep 2024 13:56:31 +0200
Subject: [PATCH 214/216] (index) Use MemorySegment.copy for
 LongArray->LongArray transfers

---
 .../java/nu/marginalia/array/page/SegmentLongArray.java      | 5 +++--
 .../array/java/nu/marginalia/array/page/UnsafeLongArray.java | 5 +++--
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java b/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
index 76e2b213..c87b16f0 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/SegmentLongArray.java
@@ -183,10 +183,11 @@ public class SegmentLongArray implements LongArray {
             throw new IndexOutOfBoundsException("Destination array too small");
 
         MemorySegment.copy(
-                source.getMemorySegment(), JAVA_LONG, sourceStartL,
-                segment, JAVA_LONG, destStartL,
+                source.getMemorySegment(), JAVA_LONG, sourceStartL * JAVA_LONG.byteSize(),
+                segment, JAVA_LONG, destStartL * JAVA_LONG.byteSize(),
                 destEndL - destStartL
         );
+
     }
 
     @Override
diff --git a/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java b/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
index 36e9f32e..f4c47dd4 100644
--- a/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
+++ b/code/libraries/array/java/nu/marginalia/array/page/UnsafeLongArray.java
@@ -284,10 +284,11 @@ public class UnsafeLongArray implements LongArray {
             throw new IndexOutOfBoundsException("Destination array too small");
 
         MemorySegment.copy(
-                source.getMemorySegment(), JAVA_LONG, sourceStartL,
-                segment, JAVA_LONG, destStartL,
+                source.getMemorySegment(), JAVA_LONG, sourceStartL * JAVA_LONG.byteSize(),
+                segment, JAVA_LONG, destStartL * JAVA_LONG.byteSize(),
                 destEndL - destStartL
         );
+
     }
 
 }

From 87aa8693382cd696bda6c679beaaf112b4d0b3b0 Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 17 Sep 2024 14:40:37 +0200
Subject: [PATCH 215/216] (index) Correct positions mask to take into account
 offsets when overlapping

---
 .../index/results/IndexResultScoreCalculator.java   | 13 ++++---------
 1 file changed, 4 insertions(+), 9 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
index 321505b7..105eb3e0 100644
--- a/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
+++ b/code/index/java/nu/marginalia/index/results/IndexResultScoreCalculator.java
@@ -184,7 +184,7 @@ public class IndexResultScoreCalculator {
                 docMetadata,
                 htmlFeatures,
                 score,
-                calculatePositionsMask(decodedPositions)
+                calculatePositionsMask(decodedPositions, searchTerms.phraseConstraints)
         );
     }
 
@@ -226,18 +226,13 @@ public class IndexResultScoreCalculator {
     /** Calculate a bitmask illustrating the intersected positions of the search terms in the document.
      *  This is used in the GUI.
      * */
-    private long calculatePositionsMask(IntList[] positions) {
-        IntList[] iters = new IntList[rankingContext.regularMask.cardinality()];
-        for (int i = 0, j = 0; i < positions.length; i++) {
-            if (rankingContext.regularMask.get(i)) {
-                iters[j++] = positions[i];
-            }
-        }
-        IntIterator intersection = SequenceOperations.findIntersections(iters).intIterator();
+    private long calculatePositionsMask(IntList[] positions, PhraseConstraintGroupList phraseConstraints) {
 
         long result = 0;
         int bit = 0;
 
+        IntIterator intersection = phraseConstraints.getFullGroup().findIntersections(positions).intIterator();
+
         while (intersection.hasNext() && bit < 64) {
             bit = (int) (Math.sqrt(intersection.nextInt()));
             result |= 1L << bit;

From f4eeef145e5c5d157e13ce21e2feff28096d825f Mon Sep 17 00:00:00 2001
From: Viktor Lofgren <vlofgren@marginalia.nu>
Date: Tue, 17 Sep 2024 15:20:41 +0200
Subject: [PATCH 216/216] (index) Reduce fetch size to improve timeout
 characteristics

---
 code/index/java/nu/marginalia/index/IndexGrpcService.java | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/code/index/java/nu/marginalia/index/IndexGrpcService.java b/code/index/java/nu/marginalia/index/IndexGrpcService.java
index e1614166..81172a5b 100644
--- a/code/index/java/nu/marginalia/index/IndexGrpcService.java
+++ b/code/index/java/nu/marginalia/index/IndexGrpcService.java
@@ -336,10 +336,10 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
             }
 
             private void executeSearch() {
-                final LongArrayList results = new LongArrayList(512);
+                final LongArrayList results = new LongArrayList(64);
 
                 // These queries are different indices for one subquery
-                final LongQueryBuffer buffer = new LongQueryBuffer(512);
+                final LongQueryBuffer buffer = new LongQueryBuffer(64);
 
                 while (query.hasMore() && budget.hasTimeLeft())
                 {
@@ -350,7 +350,7 @@ public class IndexGrpcService extends IndexApiGrpc.IndexApiImplBase {
                         results.add(buffer.data.get(i));
                     }
 
-                    if (results.size() >= 512) {
+                    if (results.size() >= 64) {
                         enqueueResults(new CombinedDocIdList(results));
                         results.clear();
                     }