(ngram) Grab titles separately when extracting ngrams from wiki data

2025-02-23 21:18:58 +00:00 · 2024-04-13 19:34:16 +02:00 · 2024-04-13 19:34:16 +02:00 · f3255e080d
commit f3255e080d
parent 0da03d4cfc
1 changed files with 13 additions and 5 deletions
--- a/code/libraries/term-frequency-dict/java/nu/marginalia/segmentation/NgramExtractorMain.java
+++ b/code/libraries/term-frequency-dict/java/nu/marginalia/segmentation/NgramExtractorMain.java
@ -117,10 +117,9 @@ public class NgramExtractorMain {
                32
                );
-        reader.forEachArticles((title, body) -> {
+        reader.forEachTitles((title) -> {
            pool.submitQuietly(() -> {
                LongArrayList orderedHashesTitle = new LongArrayList();
                LongArrayList orderedHashesBody = new LongArrayList();
                String normalizedTitle = title.replace('_', ' ');
@ -128,6 +127,18 @@ public class NgramExtractorMain {
                    String[] terms = BasicSentenceExtractor.getStemmedParts(sent);
                    orderedHashesTitle.add(orderedHasher.rollingHash(terms));
                }
                synchronized (lexicon) {
                    for (var hash : orderedHashesTitle) {
                        lexicon.incOrderedTitle(hash);
                    }
                }
            });
        });
        reader.forEachArticles((title, body) -> {
            pool.submitQuietly(() -> {
                LongArrayList orderedHashesBody = new LongArrayList();
                for (var sent : getNgramBodyTerms(Jsoup.parse(body))) {
                    String[] terms = BasicSentenceExtractor.getStemmedParts(sent);
@ -135,9 +146,6 @@ public class NgramExtractorMain {
                }
                synchronized (lexicon) {
                    for (var hash : orderedHashesTitle) {
                        lexicon.incOrderedTitle(hash);
                    }
                    for (var hash : orderedHashesBody) {
                        lexicon.incOrderedBody(hash);
                    }