]> gitweb.fperrin.net Git - DictionaryPC.git/blob - src/com/hughes/android/dictionary/parser/wiktionary/WholeSectionToHtmlParser.java
First decent implementation of HtmlEntry attached to TokenRow.
[DictionaryPC.git] / src / com / hughes / android / dictionary / parser / wiktionary / WholeSectionToHtmlParser.java
1 package com.hughes.android.dictionary.parser.wiktionary;
2
3 import com.hughes.android.dictionary.engine.HtmlEntry;
4 import com.hughes.android.dictionary.engine.IndexBuilder;
5 import com.hughes.android.dictionary.engine.IndexBuilder.TokenData;
6 import com.hughes.android.dictionary.engine.IndexedEntry;
7 import com.hughes.android.dictionary.parser.WikiTokenizer;
8
9 import org.apache.commons.lang3.StringEscapeUtils;
10
11 import java.util.ArrayList;
12 import java.util.List;
13 import java.util.Map;
14 import java.util.regex.Pattern;
15
16 public class WholeSectionToHtmlParser extends AbstractWiktionaryParser {
17   
18   public static final String NAME = "WholeSectionToHtmlParser";
19   public static final Pattern skipSections = Pattern.compile(".*Translations.*");
20   
21   final IndexBuilder titleIndexBuilder;
22   
23   public  WholeSectionToHtmlParser(final IndexBuilder titleIndexBuilder) {
24     this.titleIndexBuilder = titleIndexBuilder;
25   }
26
27   @Override
28   void parseSection(String heading, String text) {
29     HtmlEntry htmlEntry = new HtmlEntry(entrySource, title);
30     IndexedEntry indexedEntry = new IndexedEntry(htmlEntry);
31
32     final AppendAndIndexWikiCallback<WholeSectionToHtmlParser> callback = new AppendCallback(this);
33     callback.builder = new StringBuilder();
34     callback.indexedEntry = indexedEntry;
35     callback.dispatch(text, null);
36
37     htmlEntry.html = callback.builder.toString();
38     indexedEntry.isValid = true;
39     
40     final TokenData tokenData = titleIndexBuilder.getOrCreateTokenData(title);
41     
42     htmlEntry.addToDictionary(titleIndexBuilder.index.dict);
43     tokenData.htmlEntries.add(htmlEntry);
44     //titleIndexBuilder.addEntryWithString(indexedEntry, title, EntryTypeName.WIKTIONARY_TITLE_MULTI_DETAIL);
45   }
46
47   @Override
48   void removeUselessArgs(Map<String, String> namedArgs) {
49   }
50   
51   class AppendCallback extends AppendAndIndexWikiCallback<WholeSectionToHtmlParser> {
52     public AppendCallback(WholeSectionToHtmlParser parser) {
53       super(parser);
54     }
55
56     @Override
57     public void onPlainText(String plainText) {
58       super.onPlainText(StringEscapeUtils.escapeHtml3(plainText));
59     }
60
61     @Override
62     public void onWikiLink(WikiTokenizer wikiTokenizer) {
63       super.onWikiLink(wikiTokenizer);
64     }
65
66     @Override
67     public void onFunction(WikiTokenizer wikiTokenizer, String name,
68         List<String> args, Map<String, String> namedArgs) {
69       super.onFunction(wikiTokenizer, name, args, namedArgs);
70     }
71
72     @Override
73     public void onHtml(WikiTokenizer wikiTokenizer) {
74       super.onHtml(wikiTokenizer);
75     }
76     
77     @Override
78     public void onNewline(WikiTokenizer wikiTokenizer) {
79     }
80
81     @Override
82     public void onHeading(WikiTokenizer wikiTokenizer) {
83       final String headingText = wikiTokenizer.headingWikiText();
84       final int depth = wikiTokenizer.headingDepth();
85       if (skipSections.matcher(headingText).matches()) {
86         while ((wikiTokenizer = wikiTokenizer.nextToken()) != null) {
87           if (wikiTokenizer.isHeading() && wikiTokenizer.headingDepth() <= depth) {
88             wikiTokenizer.returnToLineStart();
89             return;
90           }
91         }
92         return;
93       }
94       builder.append(String.format("\n<h%d>", depth));
95       dispatch(headingText, null);
96       builder.append(String.format("</h%d>\n", depth));
97     }
98
99     final List<Character> listPrefixStack = new ArrayList<Character>();
100     @Override
101     public void onListItem(WikiTokenizer wikiTokenizer) {
102       if (builder.length() != 0 && builder.charAt(builder.length() - 1) != '\n') {
103         builder.append("\n");
104       }
105       final String prefix = wikiTokenizer.listItemPrefix();
106       while (listPrefixStack.size() < prefix.length()) {
107         builder.append(String.format("<%s>", WikiTokenizer.getListTag(prefix.charAt(listPrefixStack.size()))));
108         listPrefixStack.add(prefix.charAt(listPrefixStack.size()));
109       }
110       builder.append("<li>");
111       dispatch(wikiTokenizer.listItemWikiText(), null);
112       builder.append("</li>\n");
113       
114       WikiTokenizer nextToken = wikiTokenizer.nextToken();
115       boolean returnToLineStart = false;
116       if (nextToken != null && nextToken.isNewline()) {
117         nextToken = nextToken.nextToken();
118         returnToLineStart = true;
119       }
120       final String nextListHeader;
121       if (nextToken == null || !nextToken.isListItem()) {
122         nextListHeader = "";
123       } else {
124         nextListHeader = nextToken.listItemPrefix();
125       }
126       if (returnToLineStart) {
127         wikiTokenizer.returnToLineStart();
128       }
129       while (listPrefixStack.size() > nextListHeader.length()) {
130         final char prefixChar = listPrefixStack.remove(listPrefixStack.size() - 1);
131         builder.append(String.format("</%s>\n", WikiTokenizer.getListTag(prefixChar)));
132       }
133     }
134
135     boolean boldOn = false;
136     boolean italicOn = false;
137     @Override
138     public void onMarkup(WikiTokenizer wikiTokenizer) {
139       if ("'''".equals(wikiTokenizer.token())) {
140         if (!boldOn) {
141           builder.append("<b>");
142         } else {
143           builder.append("</b>");
144         }
145         boldOn = !boldOn;
146       } else if ("''".equals(wikiTokenizer.token())) {
147         if (!italicOn) {
148           builder.append("<em>");
149         } else {
150           builder.append("</em>");
151         }
152         italicOn = !italicOn;
153       } else {
154         assert false;
155       }
156     }
157     
158   }
159
160 }