]> gitweb.fperrin.net Git - Dictionary.git/blob - src/com/hughes/android/dictionary/engine/Index.java
go
[Dictionary.git] / src / com / hughes / android / dictionary / engine / Index.java
1 /**
2  * 
3  */
4 package com.hughes.android.dictionary.engine;
5
6 import java.io.IOException;
7 import java.io.PrintStream;
8 import java.io.RandomAccessFile;
9 import java.util.ArrayList;
10 import java.util.Collection;
11 import java.util.List;
12 import java.util.concurrent.atomic.AtomicBoolean;
13
14 import com.hughes.util.CachingList;
15 import com.hughes.util.raf.RAFList;
16 import com.hughes.util.raf.RAFSerializable;
17 import com.hughes.util.raf.RAFSerializer;
18 import com.hughes.util.raf.UniformRAFList;
19 import com.ibm.icu.text.Collator;
20 import com.ibm.icu.text.Transliterator;
21
22 public final class Index implements RAFSerializable<Index> {
23   
24   static final int CACHE_SIZE = 5000;
25   
26   final Dictionary dict;
27   
28   public final String shortName;
29   public final String longName;
30   
31   // persisted: tells how the entries are sorted.
32   public final Language sortLanguage;
33   final String normalizerRules;
34   
35   // Built from the two above.
36   final Transliterator normalizer;
37     
38   // persisted
39   public final List<IndexEntry> sortedIndexEntries;
40
41   // One big list!
42   // Various sub-types.
43   // persisted
44   public final List<RowBase> rows;
45   
46   public final boolean swapPairEntries;
47   
48   // --------------------------------------------------------------------------
49   
50   public Index(final Dictionary dict, final String shortName, final String longName, final Language sortLanguage, final String normalizerRules, final boolean swapPairEntries) {
51     this.dict = dict;
52     this.shortName = shortName;
53     this.longName = longName;
54     this.sortLanguage = sortLanguage;
55     this.normalizerRules = normalizerRules;
56     this.swapPairEntries = swapPairEntries;
57     sortedIndexEntries = new ArrayList<IndexEntry>();
58     rows = new ArrayList<RowBase>();
59     
60     normalizer = Transliterator.createFromRules("", normalizerRules, Transliterator.FORWARD);
61   }
62   
63   public Index(final Dictionary dict, final RandomAccessFile raf) throws IOException {
64     this.dict = dict;
65     shortName = raf.readUTF();
66     longName = raf.readUTF();
67     final String languageCode = raf.readUTF();
68     sortLanguage = Language.lookup(languageCode);
69     normalizerRules = raf.readUTF();
70     swapPairEntries = raf.readBoolean();
71     if (sortLanguage == null) {
72       throw new IOException("Unsupported language: " + languageCode);
73     }
74     sortedIndexEntries = CachingList.create(RAFList.create(raf, IndexEntry.SERIALIZER, raf.getFilePointer()), CACHE_SIZE);
75     rows = CachingList.create(UniformRAFList.create(raf, new RowBase.Serializer(this), raf.getFilePointer()), CACHE_SIZE);
76
77     normalizer = Transliterator.createFromRules("", normalizerRules, Transliterator.FORWARD);
78   }
79   
80   @Override
81   public void write(final RandomAccessFile raf) throws IOException {
82     raf.writeUTF(shortName);
83     raf.writeUTF(longName);
84     raf.writeUTF(sortLanguage.getSymbol());
85     raf.writeUTF(normalizerRules);
86     raf.writeBoolean(swapPairEntries);
87     RAFList.write(raf, sortedIndexEntries, IndexEntry.SERIALIZER);
88     UniformRAFList.write(raf, (Collection<RowBase>) rows, new RowBase.Serializer(this), 5);
89   }
90
91   public void print(final PrintStream out) {
92     for (final RowBase row : rows) {
93       row.print(out);
94     }
95   }
96   
97   public static final class IndexEntry implements RAFSerializable<Index.IndexEntry> {
98     public final String token;
99     public final int startRow;
100     public final int numRows;
101     
102     private String normalizedToken;
103     
104     static final RAFSerializer<IndexEntry> SERIALIZER = new RAFSerializer<IndexEntry> () {
105       @Override
106       public IndexEntry read(RandomAccessFile raf) throws IOException {
107         return new IndexEntry(raf);
108       }
109       @Override
110       public void write(RandomAccessFile raf, IndexEntry t) throws IOException {
111         t.write(raf);
112       }};
113       
114     public IndexEntry(final String token, final int startRow, final int numRows) {
115       assert token.equals(token.trim());
116       assert token.length() > 0;
117       this.token = token;
118       this.startRow = startRow;
119       this.numRows = numRows;
120     }
121     
122     public IndexEntry(final RandomAccessFile raf) throws IOException {
123       token = raf.readUTF();
124       startRow = raf.readInt();
125       numRows = raf.readInt();
126     }
127     
128     public void write(RandomAccessFile raf) throws IOException {
129       raf.writeUTF(token);
130       raf.writeInt(startRow);
131       raf.writeInt(numRows);
132     }
133
134     public String toString() {
135       return String.format("%s@%d(%d)", token, startRow, numRows);
136     }
137
138     public synchronized String normalizedToken(final Transliterator normalizer) {
139       if (normalizedToken == null) {
140         normalizedToken = normalizer.transform(token);
141       }
142       return normalizedToken;
143     }
144   }
145   
146   public IndexEntry findInsertionPoint(String token, final AtomicBoolean interrupted) {
147     token = normalizer.transliterate(token);
148
149     int start = 0;
150     int end = sortedIndexEntries.size();
151     
152     final Collator sortCollator = sortLanguage.getCollator();
153     while (start < end) {
154       final int mid = (start + end) / 2;
155       if (interrupted.get()) {
156         return null;
157       }
158       final IndexEntry midEntry = sortedIndexEntries.get(mid);
159
160       final int comp = sortCollator.compare(token, midEntry.normalizedToken(normalizer));
161       if (comp == 0) {
162         final int result = windBackCase(token, mid, interrupted);
163         return sortedIndexEntries.get(result);
164       } else if (comp < 0) {
165         System.out.println("Upper bound: " + midEntry + ", norm=" + midEntry.normalizedToken(normalizer) + ", mid=" + mid);
166         end = mid;
167       } else {
168         System.out.println("Lower bound: " + midEntry + ", norm=" + midEntry.normalizedToken(normalizer) + ", mid=" + mid);
169         start = mid + 1;
170       }
171     }
172
173     // If we search for a substring of a string that's in there, return that.
174     int result = Math.min(start, sortedIndexEntries.size() - 1);
175     result = windBackCase(sortedIndexEntries.get(result).normalizedToken(normalizer), result, interrupted);
176     return sortedIndexEntries.get(result);
177   }
178   
179   public static final class SearchResult {
180     public final IndexEntry insertionPoint;
181     public final IndexEntry longestPrefix;
182     public final String longestPrefixString;
183     public final boolean success;
184     
185     public SearchResult(IndexEntry insertionPoint, IndexEntry longestPrefix,
186         String longestPrefixString, boolean success) {
187       this.insertionPoint = insertionPoint;
188       this.longestPrefix = longestPrefix;
189       this.longestPrefixString = longestPrefixString;
190       this.success = success;
191     }
192     
193     @Override
194     public String toString() {
195       return String.format("inerstionPoint=%s,longestPrefix=%s,longestPrefixString=%s,success=%b", insertionPoint.toString(), longestPrefix.toString(), longestPrefixString, success);
196     }
197   }
198   
199 //  public SearchResult findLongestSubstring(String token, final AtomicBoolean interrupted) {
200 //    token = normalizer.transliterate(token);
201 //    if (token.length() == 0) {
202 //      return new SearchResult(sortedIndexEntries.get(0), sortedIndexEntries.get(0), "", true);
203 //    }
204 //    IndexEntry insertionPoint = null;
205 //    IndexEntry result = null;
206 //    boolean unmodified = true;
207 //    while (!interrupted.get() && token.length() > 0) {
208 //      result = findInsertionPoint(token, interrupted);
209 //      if (result == null) {
210 //        return null;
211 //      }
212 //      if (unmodified) {
213 //        insertionPoint = result;
214 //      }
215 //      if (result.normalizedToken(normalizer).startsWith(token)) {
216 //        return new SearchResult(insertionPoint, result, token, unmodified);
217 //      }
218 //      unmodified = false;
219 //      token = token.substring(0, token.length() - 1);      
220 //    }
221 //    return new SearchResult(insertionPoint, sortedIndexEntries.get(0), "", false);
222 //  }
223   
224   private final int windBackCase(final String token, int result, final AtomicBoolean interrupted) {
225     while (result > 0 && sortedIndexEntries.get(result - 1).normalizedToken(normalizer).equals(token)) {
226       --result;
227       if (interrupted.get()) {
228         return result;
229       }
230     }
231     return result;
232   }
233
234   /*
235   public int tokenRowBinarySearch(final int rowIndex) {
236     int start = 0;
237     int end = sortedIndexEntries.size();
238     while (start < end) {
239       final int mid = (start + end) / 2;
240       final int midRowIndex = sortedIndexEntries.get(mid).startRow;
241       if (midRowIndex == rowIndex) {
242         return mid;
243       }
244       if ()
245     }
246   }
247   */
248
249 }