X-Git-Url: http://gitweb.fperrin.net/?a=blobdiff_plain;f=src%2Fcom%2Fhughes%2Fandroid%2Fdictionary%2Fengine%2FLanguageTest.java;h=be787ebf53fa1be7f7a55b0fa9bc2c1a662c391b;hb=2fc669d88306d563fc9c899d8d91b25d591692ea;hp=7b84dd644845682305cab6e6f7482f70ceb55b21;hpb=4b1b911b69b63a157189a44124861cf365b12888;p=DictionaryPC.git

diff --git a/src/com/hughes/android/dictionary/engine/LanguageTest.java b/src/com/hughes/android/dictionary/engine/LanguageTest.java
index 7b84dd6..be787eb 100644
--- a/src/com/hughes/android/dictionary/engine/LanguageTest.java
+++ b/src/com/hughes/android/dictionary/engine/LanguageTest.java
@@ -21,174 +21,177 @@ import java.util.LinkedHashSet;
 import java.util.List;
 import java.util.Set;
 
-import junit.framework.TestCase;
-
 import com.hughes.android.dictionary.parser.DictFileParser;
 import com.hughes.android.dictionary.parser.wiktionary.WiktionaryLangs;
 import com.ibm.icu.text.Transliterator;
 
+import junit.framework.TestCase;
+
 public class LanguageTest extends TestCase {
-  
-  public void testGermanSort() {
-    final Transliterator normalizer = Transliterator.createFromRules("", Language.de.getDefaultNormalizerRules(), Transliterator.FORWARD);
-    assertEquals("aÃ¼Ã¤Ã¤ss", normalizer.transform("aueAeAEÃ"));
-    final List<String> words = Arrays.asList(
-        "er-ben",
-        "erben",
-        "Erben",
-        "Erbse",
-        "Erbsen",
-        "essen",
-        "Essen",
-        "Grosformat",
-        "Grosformats",
-        "Grossformat",
-        "GroÃformat",
-        "Grossformats",
-        "GroÃformats",
-        "GroÃpoo",
-        "GroÃpoos",
-        "HÃ¶rvermÃ¶gen",
-        "HÃ¶rweite",
-        "hos",
-        "HÃ¶schen",
-        "Hostel",
-        "hulle",
-        "Hulle",
-        "huelle",
-        "Huelle",
-        "hÃ¼lle",
-        "HÃ¼lle",
-        "Huellen",
-        "HÃ¼llen",
-        "Hum"
-        );
-    final NormalizeComparator comparator = new NormalizeComparator(normalizer, Language.de.getCollator());
-    assertEquals(1, comparator.compare("hÃ¼lle", "huelle"));
-    assertEquals(-1, comparator.compare("huelle", "hÃ¼lle"));
-    
-    assertEquals(-1, comparator.compare("hÃ¼lle", "HÃ¼lle"));
-    
-    assertEquals("hÃ¼lle", normalizer.transform("HÃ¼lle"));
-    assertEquals("hulle", normalizer.transform("Hulle"));
-
-    
-    final List<String> sorted = new ArrayList<String>(words);
+
+    public void testGermanSort() {
+        final Transliterator normalizer = Transliterator.createFromRules("", Language.de.getDefaultNormalizerRules(), Transliterator.FORWARD);
+        assertEquals("aÃ¼Ã¤Ã¤ss", normalizer.transform("aueAeAEÃ"));
+        final List<String> words = Arrays.asList(
+                                       "er-ben",
+                                       "erben",
+                                       "Erben",
+                                       "Erbse",
+                                       "Erbsen",
+                                       "essen",
+                                       "Essen",
+                                       "Grosformat",
+                                       "Grosformats",
+                                       "Grossformat",
+                                       "GroÃformat",
+                                       "Grossformats",
+                                       "GroÃformats",
+                                       "GroÃpoo",
+                                       "GroÃpoos",
+                                       "HÃ¶rvermÃ¶gen",
+                                       "HÃ¶rweite",
+                                       "hos",
+                                       "HÃ¶schen",
+                                       "Hostel",
+                                       "hulle",
+                                       "Hulle",
+                                       "huelle",
+                                       "Huelle",
+                                       "hÃ¼lle",
+                                       "HÃ¼lle",
+                                       "Huellen",
+                                       "HÃ¼llen",
+                                       "Hum"
+                                   );
+        final NormalizeComparator comparator = new NormalizeComparator(normalizer, Language.de.getCollator(), 7);
+        assertEquals(1, comparator.compare("hÃ¼lle", "huelle"));
+        assertEquals(-1, comparator.compare("huelle", "hÃ¼lle"));
+
+        assertEquals(-1, comparator.compare("hÃ¼lle", "HÃ¼lle"));
+
+        assertEquals("hÃ¼lle", normalizer.transform("HÃ¼lle"));
+        assertEquals("hulle", normalizer.transform("Hulle"));
+
+
+        final List<String> sorted = new ArrayList<>(words);
 //    Collections.shuffle(shuffled, new Random(0));
-    Collections.sort(sorted, comparator);
-    System.out.println(sorted.toString());
-    for (int i = 0; i < words.size(); ++i) {
-      System.out.println(words.get(i) + "\t" + sorted.get(i));
-      assertEquals(words.get(i), sorted.get(i));
+        sorted.sort(comparator);
+        System.out.println(sorted);
+        for (int i = 0; i < words.size(); ++i) {
+            System.out.println(words.get(i) + "\t" + sorted.get(i));
+            assertEquals(words.get(i), sorted.get(i));
+        }
+    }
+
+    public void testEnglishSort() {
+        final Transliterator normalizer = Transliterator.createFromRules("", Language.en.getDefaultNormalizerRules(), Transliterator.FORWARD);
+
+        final List<String> words = Arrays.asList(
+                                       "pre-print",
+                                       "preppie",
+                                       "preppy",
+                                       "preprocess");
+
+        final List<String> sorted = new ArrayList<>(words);
+        final NormalizeComparator comparator = new NormalizeComparator(normalizer, Language.en.getCollator(), 7);
+        sorted.sort(comparator);
+        for (int i = 0; i < words.size(); ++i) {
+            if (i > 0) {
+                assertTrue(comparator.compare(words.get(i-1), words.get(i)) < 0);
+            }
+            System.out.println(words.get(i) + "\t" + sorted.get(i));
+            assertEquals(words.get(i), sorted.get(i));
+        }
+
+        assertTrue(comparator.compare("pre-print", "preppy") < 0);
+
+    }
+
+    public void testLanguage() {
+        assertEquals(Language.de, Language.lookup("de"));
+        assertEquals(Language.en, Language.lookup("en"));
+        assertEquals("es", Language.lookup("es").getIsoCode());
+    }
+
+    public void testTextNorm() {
+        //final Transliterator transliterator = Transliterator.getInstance("Any-Latin; Upper; Lower; 'oe' > 'o'; NFD; [:Nonspacing Mark:] Remove; NFC", Transliterator.FORWARD);
+        final Transliterator transliterator = Transliterator.createFromRules("", ":: Any-Latin; :: Upper; :: Lower; 'oe' > 'o'; :: NFD; :: [:Nonspacing Mark:] Remove; :: NFC ;", Transliterator.FORWARD);
+        assertEquals("hoschen", transliterator.transliterate("HÃ¶schen"));
+        assertEquals("hoschen", transliterator.transliterate("Hoeschen"));
+        assertEquals("grosspoo", transliterator.transliterate("GroÃpoo"));
+
+        assertEquals("kyanpasu", transliterator.transliterate("ã­ã£ã³ãã¹"));
+        assertEquals("alphabetikos katalogos", transliterator.transliterate("ÎÎ»ÏÎ±Î²Î·ÏÎ¹ÎºÏÏ ÎÎ±ÏÎ¬Î»Î¿Î³Î¿Ï"));
+        assertEquals("biologiceskom", transliterator.transliterate("Ð±Ð¸Ð¾Ð»Ð¾Ð³Ð¸ÑÐµÑÐºÐ¾Ð¼"));
     }
-  }
-
-  public void testEnglishSort() {
-    final Transliterator normalizer = Transliterator.createFromRules("", Language.en.getDefaultNormalizerRules(), Transliterator.FORWARD);
-
-    final List<String> words = Arrays.asList(
-        "pre-print", 
-        "preppie", 
-        "preppy",
-        "preprocess");
-    
-    final List<String> sorted = new ArrayList<String>(words);
-    final NormalizeComparator comparator = new NormalizeComparator(normalizer, Language.en.getCollator());
-    Collections.sort(sorted, comparator);
-    for (int i = 0; i < words.size(); ++i) {
-      if (i > 0) {
-        assertTrue(comparator.compare(words.get(i-1), words.get(i)) < 0);
-      }
-      System.out.println(words.get(i) + "\t" + sorted.get(i));
-      assertEquals(words.get(i), sorted.get(i));
+    public void testHalfTextNorm() {
+        final Transliterator transliterator = Transliterator.createFromRules("", ":: Any-Latin; ' ' > ; :: Lower; ", Transliterator.FORWARD);
+        assertEquals("kyanpasu", transliterator.transliterate("ã­ã£ã³ãã¹"));
+        assertEquals("alphabÄtikÃ³skatÃ¡logos", transliterator.transliterate("ÎÎ»ÏÎ±Î²Î·ÏÎ¹ÎºÏÏ ÎÎ±ÏÎ¬Î»Î¿Î³Î¿Ï"));
+        assertEquals("biologiÄeskom", transliterator.transliterate("Ð±Ð¸Ð¾Ð»Ð¾Ð³Ð¸ÑÐµÑÐºÐ¾Ð¼"));
+
+        assertEquals("xiÃ¨xiÃ¨", transliterator.transliterate("è¬è¬"));
+        assertEquals("xiÃ¨xiÃ¨", transliterator.transliterate("è°¢è°¢"));
+
+        assertEquals("diÃ nnÇo", transliterator.transliterate("é»è¦"));
+        assertEquals("diÃ nnÇo", transliterator.transliterate("çµè"));
+        assertEquals("jÃ¬suÃ njÄ«", transliterator.transliterate("è¨ç®æ©"));
+        assertEquals("jÃ¬suÃ njÄ«", transliterator.transliterate("è®¡ç®æº"));
     }
-    
-    assertTrue(comparator.compare("pre-print", "preppy") < 0);
-
-  }
-  
-  public void testLanguage() {
-    assertEquals(Language.de, Language.lookup("de"));
-    assertEquals(Language.en, Language.lookup("en"));
-    assertEquals("es", Language.lookup("es").getIsoCode());
-  }
-
-  public void testTextNorm() {
-    //final Transliterator transliterator = Transliterator.getInstance("Any-Latin; Upper; Lower; 'oe' > 'o'; NFD; [:Nonspacing Mark:] Remove; NFC", Transliterator.FORWARD);
-    final Transliterator transliterator = Transliterator.createFromRules("", ":: Any-Latin; :: Upper; :: Lower; 'oe' > 'o'; :: NFD; :: [:Nonspacing Mark:] Remove; :: NFC ;", Transliterator.FORWARD);
-    assertEquals("hoschen", transliterator.transliterate("HÃ¶schen"));
-    assertEquals("hoschen", transliterator.transliterate("Hoeschen"));
-    assertEquals("grosspoo", transliterator.transliterate("GroÃpoo"));
-
-    assertEquals("kyanpasu", transliterator.transliterate("ã­ã£ã³ãã¹"));
-    assertEquals("alphabetikos katalogos", transliterator.transliterate("ÎÎ»ÏÎ±Î²Î·ÏÎ¹ÎºÏÏ ÎÎ±ÏÎ¬Î»Î¿Î³Î¿Ï"));
-    assertEquals("biologiceskom", transliterator.transliterate("Ð±Ð¸Ð¾Ð»Ð¾Ð³Ð¸ÑÐµÑÐºÐ¾Ð¼"));
-  }
-  public void testHalfTextNorm() {
-    final Transliterator transliterator = Transliterator.createFromRules("", ":: Any-Latin; ' ' > ; :: Lower; ", Transliterator.FORWARD);
-    assertEquals("kyanpasu", transliterator.transliterate("ã­ã£ã³ãã¹"));
-    assertEquals("alphabÄtikÃ³skatÃ¡logos", transliterator.transliterate("ÎÎ»ÏÎ±Î²Î·ÏÎ¹ÎºÏÏ ÎÎ±ÏÎ¬Î»Î¿Î³Î¿Ï"));
-    assertEquals("biologiÄeskom", transliterator.transliterate("Ð±Ð¸Ð¾Ð»Ð¾Ð³Ð¸ÑÐµÑÐºÐ¾Ð¼"));
-
-    assertEquals("xiÃ¨xiÃ¨", transliterator.transliterate("è¬è¬"));
-    assertEquals("xiÃ¨xiÃ¨", transliterator.transliterate("è°¢è°¢"));
-
-    assertEquals("diÃ nnÇo", transliterator.transliterate("é»è¦"));
-    assertEquals("diÃ nnÇo", transliterator.transliterate("çµè"));
-    assertEquals("jÃ¬suÃ njÄ«", transliterator.transliterate("è¨ç®æ©"));
-    assertEquals("jÃ¬suÃ njÄ«", transliterator.transliterate("è®¡ç®æº"));
-  }
-
-  
-  public void testChinese() {
-    final Language zh = Language.lookup("zh");
-    final Transliterator transliterator = Transliterator.createFromRules("", zh.getDefaultNormalizerRules(), Transliterator.FORWARD);
-    
-    assertEquals("xiexie", transliterator.transliterate("è¬è¬"));
-    assertEquals("xiexie", transliterator.transliterate("è°¢è°¢"));
-
-    assertEquals("diannao", transliterator.transliterate("é»è¦"));
-    assertEquals("diannao", transliterator.transliterate("çµè"));
-    assertEquals("jisuanji", transliterator.transliterate("è¨ç®æ©"));
-    assertEquals("jisuanji", transliterator.transliterate("è®¡ç®æº"));
-    
-    assertEquals("chengjiu", transliterator.transliterate("æå°±"));
-    
-  }
-  
-  public void testArabic() {
-    final Language ar = Language.lookup("ar");
-    final Transliterator transliterator = Transliterator.createFromRules("", ar.getDefaultNormalizerRules(), Transliterator.FORWARD);
-    // These don't seem quite right....
-    assertEquals("haswb", transliterator.transliterate("Ø­Ø§Ø³ÙØ¨"));
-    assertEquals("kmbywtr", transliterator.transliterate("ÙÙØ¨ÙÙØªØ±"));
-
-    assertEquals("{\u200e ÙÙØ¨ÙÙØªØ± \u200e}", Language.fixBidiText("{ÙÙØ¨ÙÙØªØ±}"));
-    assertEquals("{a=\u200e ÙÙØ¨ÙÙØªØ± \u200e}", Language.fixBidiText("{a=ÙÙØ¨ÙÙØªØ±}"));
-    assertEquals("(\u200e ÙÙØ¨ÙÙØªØ± \u200e)", Language.fixBidiText("(ÙÙØ¨ÙÙØªØ±)"));
-    assertEquals("Ø£ÙØ«Ù Ø£ÙÙØ«ÙÙ (âÃºnÎ¸Ä) {f}, Ø¥ÙØ§Ø« (âinÄÎ¸) {p}, Ø§ÙØ§Ø«Ù (âanÄÎ¸Ä) {p}", Language.fixBidiText("Ø£ÙØ«Ù Ø£ÙÙØ«ÙÙ (âÃºnÎ¸Ä) {f}, Ø¥ÙØ§Ø« (âinÄÎ¸) {p}, Ø§ÙØ§Ø«Ù (âanÄÎ¸Ä) {p}"));
-       
-  }
-
-  public void testThai() {
-    final Language th = Language.lookup("TH");
-    final Transliterator transliterator = Transliterator.createFromRules("", th.getDefaultNormalizerRules(), Transliterator.FORWARD);
-    // Not sure these are right, just to know...
-    assertEquals("d", transliterator.transliterate("à¸"));
-    assertEquals("di", transliterator.transliterate("à¸ à¸µ"));
-    assertEquals("dii", transliterator.transliterate("à¸à¸µà¸µ"));
-    
-    assertEquals(Collections.singleton("à¸à¸µà¸µ"), DictFileParser.tokenize("à¸à¸µà¸µ", DictFileParser.NON_CHAR));
-  }
-
-  
-  public void testEnWiktionaryNames() {
-    final Set<String> enLangs = new LinkedHashSet<String>(WiktionaryLangs.isoCodeToWikiName.keySet());
-    for (final String code : WiktionaryLangs.isoCodeToWikiName.keySet()) {
-      enLangs.add(code.toLowerCase());
+
+
+    public void testChinese() {
+        final Language cmn = Language.lookup("cmn");
+        final Transliterator transliterator = Transliterator.createFromRules("", cmn.getDefaultNormalizerRules(), Transliterator.FORWARD);
+
+        assertEquals("xiexie", transliterator.transliterate("è¬è¬"));
+        assertEquals("xiexie", transliterator.transliterate("è°¢è°¢"));
+
+        assertEquals("diannao", transliterator.transliterate("é»è¦"));
+        assertEquals("diannao", transliterator.transliterate("çµè"));
+        assertEquals("jisuanji", transliterator.transliterate("è¨ç®æ©"));
+        assertEquals("jisuanji", transliterator.transliterate("è®¡ç®æº"));
+
+        assertEquals("chengjiu", transliterator.transliterate("æå°±"));
+
+    }
+
+    public void testArabic() {
+        final Language ar = Language.lookup("ar");
+        final Transliterator transliterator = Transliterator.createFromRules("", ar.getDefaultNormalizerRules(), Transliterator.FORWARD);
+        // These don't seem quite right....
+        assertEquals("haswb", transliterator.transliterate("Ø­Ø§Ø³ÙØ¨"));
+        assertEquals("kmbywtr", transliterator.transliterate("ÙÙØ¨ÙÙØªØ±"));
+
+        assertEquals("{\u200e ÙÙØ¨ÙÙØªØ± \u200e}", Language.fixBidiText("{ÙÙØ¨ÙÙØªØ±}"));
+        assertEquals("{a=\u200e ÙÙØ¨ÙÙØªØ± \u200e}", Language.fixBidiText("{a=ÙÙØ¨ÙÙØªØ±}"));
+        assertEquals("(\u200e ÙÙØ¨ÙÙØªØ± \u200e)", Language.fixBidiText("(ÙÙØ¨ÙÙØªØ±)"));
+        assertEquals("Ø£ÙØ«Ù Ø£ÙÙØ«ÙÙ (âÃºnÎ¸Ä) {f}, Ø¥ÙØ§Ø« (âinÄÎ¸) {p}, Ø§ÙØ§Ø«Ù (âanÄÎ¸Ä) {p}", Language.fixBidiText("Ø£ÙØ«Ù Ø£ÙÙØ«ÙÙ (âÃºnÎ¸Ä) {f}, Ø¥ÙØ§Ø« (âinÄÎ¸) {p}, Ø§ÙØ§Ø«Ù (âanÄÎ¸Ä) {p}"));
+
+    }
+
+    public void testThai() {
+        final Language th = Language.lookup("TH");
+        final Transliterator transliterator = Transliterator.createFromRules("", th.getDefaultNormalizerRules(), Transliterator.FORWARD);
+        // Not sure these are right, just to know...
+        assertEquals("d", transliterator.transliterate("à¸"));
+        assertEquals("di", transliterator.transliterate("à¸ à¸µ"));
+        assertEquals("dii", transliterator.transliterate("à¸à¸µà¸µ"));
+
+        assertEquals(Collections.singleton("à¸à¸µà¸µ"), DictFileParser.tokenize("à¸à¸µà¸µ", DictFileParser.NON_CHAR));
+    }
+
+
+    public void testEnWiktionaryNames() {
+        final Set<String> enLangs = new LinkedHashSet<>(WiktionaryLangs.isoCodeToEnWikiName.keySet());
+        final List<String> names = new ArrayList<>();
+        for (final String code : WiktionaryLangs.isoCodeToEnWikiName.keySet()) {
+            names.add(WiktionaryLangs.isoCodeToEnWikiName.get(code));
+            enLangs.add(code.toLowerCase());
+        }
+        Collections.sort(names);
+        System.out.println(names);
+        //assertEquals(enLangs, Language.isoCodeToResources.keySet());
     }
-    assertEquals(enLangs.toString(), Language.isoCodeToResources.keySet().toString());
-    assertEquals(enLangs, Language.isoCodeToResources.keySet());
-  }
 
 }