go

[Dictionary.git] / src / com / hughes / android / dictionary / engine / Index.java
diff --git a/src/com/hughes/android/dictionary/engine/Index.java b/src/com/hughes/android/dictionary/engine/Index.java

index e2c2fee96e145fff7ec15caff0b71a17be031bd9..d0d2404a02bba315ed6b7fc65bdedc4e600b7de2 100644 (file)
--- a/src/com/hughes/android/dictionary/engine/Index.java
+++ b/src/com/hughes/android/dictionary/engine/Index.java
@@ -17,6 +17,7 @@ import com.hughes.util.raf.RAFSerializable;
  import com.hughes.util.raf.RAFSerializer;
  import com.hughes.util.raf.UniformRAFList;
  import com.ibm.icu.text.Collator;
+import com.ibm.icu.text.Transliterator;
  
  public final class Index implements RAFSerializable<Index> {
    
@@ -24,29 +25,39 @@ public final class Index implements RAFSerializable<Index> {
    
    final Dictionary dict;
    
-  final String shortName;
-  final String longName;
+  public final String shortName;
+  public final String longName;
    
    // persisted: tells how the entries are sorted.
-  final Language sortLanguage;
+  public final Language sortLanguage;
+  final String normalizerRules;
+  
+  // Built from the two above.
+  final Transliterator normalizer;
      
    // persisted
-  final List<IndexEntry> sortedIndexEntries;
+  public final List<IndexEntry> sortedIndexEntries;
  
    // One big list!
    // Various sub-types.
    // persisted
-  final List<RowBase> rows;
+  public final List<RowBase> rows;
+  
+  public final boolean swapPairEntries;
    
    // --------------------------------------------------------------------------
    
-  public Index(final Dictionary dict, final String shortName, final String longName, final Language sortLanguage) {
+  public Index(final Dictionary dict, final String shortName, final String longName, final Language sortLanguage, final String normalizerRules, final boolean swapPairEntries) {
      this.dict = dict;
      this.shortName = shortName;
      this.longName = longName;
      this.sortLanguage = sortLanguage;
+    this.normalizerRules = normalizerRules;
+    this.swapPairEntries = swapPairEntries;
      sortedIndexEntries = new ArrayList<IndexEntry>();
      rows = new ArrayList<RowBase>();
+    
+    normalizer = Transliterator.createFromRules("", normalizerRules, Transliterator.FORWARD);
    }
    
    public Index(final Dictionary dict, final RandomAccessFile raf) throws IOException {
@@ -55,17 +66,15 @@ public final class Index implements RAFSerializable<Index> {
      longName = raf.readUTF();
      final String languageCode = raf.readUTF();
      sortLanguage = Language.lookup(languageCode);
+    normalizerRules = raf.readUTF();
+    swapPairEntries = raf.readBoolean();
      if (sortLanguage == null) {
        throw new IOException("Unsupported language: " + languageCode);
      }
      sortedIndexEntries = CachingList.create(RAFList.create(raf, IndexEntry.SERIALIZER, raf.getFilePointer()), CACHE_SIZE);
      rows = CachingList.create(UniformRAFList.create(raf, new RowBase.Serializer(this), raf.getFilePointer()), CACHE_SIZE);
-  }
-  
-  public void print(final PrintStream out) {
-    for (final RowBase row : rows) {
-      row.print(out);
-    }
+
+    normalizer = Transliterator.createFromRules("", normalizerRules, Transliterator.FORWARD);
    }
    
    @Override
@@ -73,14 +82,24 @@ public final class Index implements RAFSerializable<Index> {
      raf.writeUTF(shortName);
      raf.writeUTF(longName);
      raf.writeUTF(sortLanguage.getSymbol());
+    raf.writeUTF(normalizerRules);
+    raf.writeBoolean(swapPairEntries);
      RAFList.write(raf, sortedIndexEntries, IndexEntry.SERIALIZER);
      UniformRAFList.write(raf, (Collection<RowBase>) rows, new RowBase.Serializer(this), 5);
    }
  
+  public void print(final PrintStream out) {
+    for (final RowBase row : rows) {
+      row.print(out);
+    }
+  }
    
-  static final class IndexEntry implements RAFSerializable<Index.IndexEntry> {
-    String token;
-    int startRow;
+  public static final class IndexEntry implements RAFSerializable<Index.IndexEntry> {
+    public final String token;
+    public final int startRow;
+    public final int numRows;
+    
+    private String normalizedToken;
      
      static final RAFSerializer<IndexEntry> SERIALIZER = new RAFSerializer<IndexEntry> () {
        @Override
@@ -92,70 +111,118 @@ public final class Index implements RAFSerializable<Index> {
          t.write(raf);
        }};
        
-    public IndexEntry(final String token, final int startRow) {
+    public IndexEntry(final String token, final int startRow, final int numRows) {
        assert token.equals(token.trim());
        assert token.length() > 0;
        this.token = token;
        this.startRow = startRow;
+      this.numRows = numRows;
      }
      
      public IndexEntry(final RandomAccessFile raf) throws IOException {
        token = raf.readUTF();
        startRow = raf.readInt();
+      numRows = raf.readInt();
      }
      
      public void write(RandomAccessFile raf) throws IOException {
        raf.writeUTF(token);
        raf.writeInt(startRow);
+      raf.writeInt(numRows);
      }
  
      public String toString() {
-      return token + "@" + startRow;
+      return String.format("%s@%d(%d)", token, startRow, numRows);
      }
-}
-  
  
-  private TokenRow sortedIndexToToken(final int sortedIndex) {
-    final IndexEntry indexEntry = sortedIndexEntries.get(sortedIndex);
-    return (TokenRow) rows.get(indexEntry.startRow);
+    public synchronized String normalizedToken(final Transliterator normalizer) {
+      if (normalizedToken == null) {
+        normalizedToken = normalizer.transform(token);
+      }
+      return normalizedToken;
+    }
    }
-
-  public TokenRow find(String token, final AtomicBoolean interrupted) {
-    token = sortLanguage.textNorm(token, true);
+  
+  public IndexEntry findInsertionPoint(String token, final AtomicBoolean interrupted) {
+    token = normalizer.transliterate(token);
  
      int start = 0;
      int end = sortedIndexEntries.size();
      
-    final Collator sortCollator = sortLanguage.getSortCollator();
+    final Collator sortCollator = sortLanguage.getCollator();
      while (start < end) {
        final int mid = (start + end) / 2;
        if (interrupted.get()) {
-        return sortedIndexToToken(mid);
+        return null;
        }
        final IndexEntry midEntry = sortedIndexEntries.get(mid);
  
-      final int comp = sortCollator.compare(token, sortLanguage.textNorm(midEntry.token, true));
+      final int comp = sortCollator.compare(token, midEntry.normalizedToken(normalizer));
        if (comp == 0) {
-        final int result = windBack(token, mid, sortCollator, interrupted);
-        return sortedIndexToToken(result);
+        final int result = windBackCase(token, mid, interrupted);
+        return sortedIndexEntries.get(result);
        } else if (comp < 0) {
-//        Log.d("THAD", "Upper bound: " + midEntry);
+        System.out.println("Upper bound: " + midEntry + ", norm=" + midEntry.normalizedToken(normalizer) + ", mid=" + mid);
          end = mid;
        } else {
-//        Log.d("THAD", "Lower bound: " + midEntry);
+        System.out.println("Lower bound: " + midEntry + ", norm=" + midEntry.normalizedToken(normalizer) + ", mid=" + mid);
          start = mid + 1;
        }
      }
+
+    // If we search for a substring of a string that's in there, return that.
      int result = Math.min(start, sortedIndexEntries.size() - 1);
-    result = windBack(token, result, sortCollator, interrupted);
-    if (result > 0 && sortCollator.compare(sortLanguage.textNorm(sortedIndexEntries.get(result).token, true), token) > 0) {
-      result = windBack(sortLanguage.textNorm(sortedIndexEntries.get(result - 1).token, true), result, sortCollator, interrupted);
+    result = windBackCase(sortedIndexEntries.get(result).normalizedToken(normalizer), result, interrupted);
+    return sortedIndexEntries.get(result);
+  }
+  
+  public static final class SearchResult {
+    public final IndexEntry insertionPoint;
+    public final IndexEntry longestPrefix;
+    public final String longestPrefixString;
+    public final boolean success;
+    
+    public SearchResult(IndexEntry insertionPoint, IndexEntry longestPrefix,
+        String longestPrefixString, boolean success) {
+      this.insertionPoint = insertionPoint;
+      this.longestPrefix = longestPrefix;
+      this.longestPrefixString = longestPrefixString;
+      this.success = success;
+    }
+    
+    @Override
+    public String toString() {
+      return String.format("inerstionPoint=%s,longestPrefix=%s,longestPrefixString=%s,success=%b", insertionPoint.toString(), longestPrefix.toString(), longestPrefixString, success);
      }
-    return sortedIndexToToken(result);
    }
    
-  private final int windBack(final String token, int result, final Collator sortCollator, final AtomicBoolean interrupted) {
-    while (result > 0 && sortCollator.compare(sortLanguage.textNorm(sortedIndexEntries.get(result - 1).token, true), token) >= 0) {
+//  public SearchResult findLongestSubstring(String token, final AtomicBoolean interrupted) {
+//    token = normalizer.transliterate(token);
+//    if (token.length() == 0) {
+//      return new SearchResult(sortedIndexEntries.get(0), sortedIndexEntries.get(0), "", true);
+//    }
+//    IndexEntry insertionPoint = null;
+//    IndexEntry result = null;
+//    boolean unmodified = true;
+//    while (!interrupted.get() && token.length() > 0) {
+//      result = findInsertionPoint(token, interrupted);
+//      if (result == null) {
+//        return null;
+//      }
+//      if (unmodified) {
+//        insertionPoint = result;
+//      }
+//      if (result.normalizedToken(normalizer).startsWith(token)) {
+//        return new SearchResult(insertionPoint, result, token, unmodified);
+//      }
+//      unmodified = false;
+//      token = token.substring(0, token.length() - 1);      
+//    }
+//    return new SearchResult(insertionPoint, sortedIndexEntries.get(0), "", false);
+//  }
+  
+  private final int windBackCase(final String token, int result, final AtomicBoolean interrupted) {
+    while (result > 0 && sortedIndexEntries.get(result - 1).normalizedToken(normalizer).equals(token)) {
        --result;
        if (interrupted.get()) {
          return result;
@@ -164,4 +231,19 @@ public final class Index implements RAFSerializable<Index> {
      return result;
    }
  
+  /*
+  public int tokenRowBinarySearch(final int rowIndex) {
+    int start = 0;
+    int end = sortedIndexEntries.size();
+    while (start < end) {
+      final int mid = (start + end) / 2;
+      final int midRowIndex = sortedIndexEntries.get(mid).startRow;
+      if (midRowIndex == rowIndex) {
+        return mid;
+      }
+      if ()
+    }
+  }
+  */
+
  }
 \ No newline at end of file