Rewrote the reverse HTML parser and also fixed the bug with Trumbowyg's span tags sometimes becoming visible. Fixes #9
This commit is contained in:
parent
0306c8bf44
commit
1f28ecb804
179
common/parser.go
179
common/parser.go
@ -163,6 +163,13 @@ func shortcodeToUnicode(msg string) string {
|
|||||||
return msg
|
return msg
|
||||||
}
|
}
|
||||||
|
|
||||||
|
type TagToAction struct {
|
||||||
|
Suffix string
|
||||||
|
Do func(*TagToAction, bool, int, []rune) (int, string) // func(tagToAction,open,i,runes) (newI, output)
|
||||||
|
Depth int // For use by Do
|
||||||
|
PartialMode bool
|
||||||
|
}
|
||||||
|
|
||||||
// TODO: Write tests for this
|
// TODO: Write tests for this
|
||||||
// TODO: Preparse Markdown and normalize it into HTML?
|
// TODO: Preparse Markdown and normalize it into HTML?
|
||||||
func PreparseMessage(msg string) string {
|
func PreparseMessage(msg string) string {
|
||||||
@ -175,12 +182,9 @@ func PreparseMessage(msg string) string {
|
|||||||
msg = SanitiseBody(msg)
|
msg = SanitiseBody(msg)
|
||||||
msg = strings.Replace(msg, " ", "", -1)
|
msg = strings.Replace(msg, " ", "", -1)
|
||||||
|
|
||||||
|
//fmt.Println("before msg: ", msg)
|
||||||
var runes = []rune(msg)
|
var runes = []rune(msg)
|
||||||
msg = ""
|
msg = ""
|
||||||
var inBold = false
|
|
||||||
var inItalic = false
|
|
||||||
var inStrike = false
|
|
||||||
var inUnderline = false
|
|
||||||
var stepForward = func(i int, step int, runes []rune) int {
|
var stepForward = func(i int, step int, runes []rune) int {
|
||||||
i += step
|
i += step
|
||||||
if i < len(runes) {
|
if i < len(runes) {
|
||||||
@ -188,65 +192,144 @@ func PreparseMessage(msg string) string {
|
|||||||
}
|
}
|
||||||
return i - step
|
return i - step
|
||||||
}
|
}
|
||||||
|
|
||||||
|
// TODO: We can maybe reduce the size of this by using an offset?
|
||||||
|
// TODO: Move some of these closures out of this function to make things a little more efficient
|
||||||
|
var allowedTags = [][]string{
|
||||||
|
'e': []string{"m"},
|
||||||
|
's': []string{"", "trong", "pan"},
|
||||||
|
'd': []string{"el"},
|
||||||
|
'u': []string{""},
|
||||||
|
'b': []string{""},
|
||||||
|
}
|
||||||
|
var buildLitMatch = func(tag string) func(*TagToAction, bool, int, []rune) (int, string) {
|
||||||
|
return func(action *TagToAction, open bool, _ int, _ []rune) (int, string) {
|
||||||
|
if open {
|
||||||
|
action.Depth++
|
||||||
|
return -1, "<" + tag + ">"
|
||||||
|
}
|
||||||
|
if action.Depth <= 0 {
|
||||||
|
return -1, ""
|
||||||
|
}
|
||||||
|
action.Depth--
|
||||||
|
return -1, "</" + tag + ">"
|
||||||
|
}
|
||||||
|
}
|
||||||
|
var tagToAction = [][]*TagToAction{
|
||||||
|
'e': []*TagToAction{&TagToAction{"m", buildLitMatch("em"), 0, false}},
|
||||||
|
's': []*TagToAction{
|
||||||
|
&TagToAction{"", buildLitMatch("del"), 0, false},
|
||||||
|
&TagToAction{"trong", buildLitMatch("strong"), 0, false},
|
||||||
|
// Hides the span tags Trumbowyg loves blasting out randomly
|
||||||
|
&TagToAction{"pan", func(act *TagToAction, open bool, i int, runes []rune) (int, string) {
|
||||||
|
if open {
|
||||||
|
act.Depth++
|
||||||
|
//fmt.Println("skipping attributes")
|
||||||
|
for ; i < len(runes); i++ {
|
||||||
|
if runes[i] == '&' && peekMatch(i, "gt;", runes) {
|
||||||
|
//fmt.Println("found tag exit")
|
||||||
|
return i + 3, " "
|
||||||
|
}
|
||||||
|
}
|
||||||
|
return -1, " "
|
||||||
|
}
|
||||||
|
if act.Depth <= 0 {
|
||||||
|
return -1, " "
|
||||||
|
}
|
||||||
|
act.Depth--
|
||||||
|
return -1, " "
|
||||||
|
}, 0, true},
|
||||||
|
},
|
||||||
|
'd': []*TagToAction{&TagToAction{"el", buildLitMatch("del"), 0, false}},
|
||||||
|
'u': []*TagToAction{&TagToAction{"", buildLitMatch("u"), 0, false}},
|
||||||
|
'b': []*TagToAction{&TagToAction{"", buildLitMatch("b"), 0, false}},
|
||||||
|
}
|
||||||
|
// TODO: Implement a less literal parser
|
||||||
for i := 0; i < len(runes); i++ {
|
for i := 0; i < len(runes); i++ {
|
||||||
char := runes[i]
|
char := runes[i]
|
||||||
if char == '&' && peek(i, 1, runes) == 'l' && peek(i, 2, runes) == 't' && peek(i, 3, runes) == ';' {
|
if char == '&' && peekMatch(i, "lt;", runes) {
|
||||||
|
//fmt.Println("found less than")
|
||||||
i = stepForward(i, 4, runes)
|
i = stepForward(i, 4, runes)
|
||||||
char := runes[i]
|
char := runes[i]
|
||||||
if char == '/' {
|
//fmt.Println("char: ", char)
|
||||||
i = stepForward(i, 1, runes)
|
//fmt.Println("string(char): ", string(char))
|
||||||
char := runes[i]
|
if int(char) >= len(allowedTags) {
|
||||||
if inItalic && char == 'e' && peekMatch(i, "m>", runes) {
|
//fmt.Println("sentinel char out of bounds")
|
||||||
i += 5
|
i -= 4
|
||||||
inItalic = false
|
continue
|
||||||
msg += "</em>"
|
|
||||||
} else if inBold && char == 's' && peekMatch(i, "trong>", runes) {
|
|
||||||
i += 9
|
|
||||||
inBold = false
|
|
||||||
msg += "</strong>"
|
|
||||||
} else if inStrike && char == 'd' && peekMatch(i, "el>", runes) {
|
|
||||||
i += 6
|
|
||||||
inStrike = false
|
|
||||||
msg += "</del>"
|
|
||||||
} else if inUnderline && char == 'u' && peekMatch(i, ">", runes) {
|
|
||||||
i += 4
|
|
||||||
inUnderline = false
|
|
||||||
msg += "</u>"
|
|
||||||
}
|
}
|
||||||
} else if !inItalic && char == 'e' && peekMatch(i, "m>", runes) {
|
|
||||||
i += 5
|
var closeTag bool
|
||||||
inItalic = true
|
if char == '/' {
|
||||||
msg += "<em>"
|
//fmt.Println("found close tag")
|
||||||
} else if !inBold && char == 's' && peekMatch(i, "trong>", runes) {
|
i = stepForward(i, 1, runes)
|
||||||
i += 9
|
char = runes[i]
|
||||||
inBold = true
|
closeTag = true
|
||||||
msg += "<strong>"
|
}
|
||||||
} else if !inStrike && char == 'd' && peekMatch(i, "el>", runes) {
|
|
||||||
i += 6
|
tags := allowedTags[char]
|
||||||
inStrike = true
|
if len(tags) == 0 {
|
||||||
msg += "<del>"
|
//fmt.Println("couldn't find char in allowedTags")
|
||||||
} else if !inUnderline && char == 'u' && peekMatch(i, ">", runes) {
|
if closeTag {
|
||||||
i += 4
|
i -= 5
|
||||||
inUnderline = true
|
} else {
|
||||||
msg += "<u>"
|
i -= 4
|
||||||
|
}
|
||||||
|
continue
|
||||||
|
}
|
||||||
|
// TODO: Scan through tags and make sure the suffix is present to reduce the number of false positives which hit the loop below
|
||||||
|
//fmt.Printf("tags: %+v\n", tags)
|
||||||
|
|
||||||
|
var newI = -1
|
||||||
|
var out string
|
||||||
|
toActionList := tagToAction[char]
|
||||||
|
//fmt.Println("toActionList: ", toActionList)
|
||||||
|
for _, toAction := range toActionList {
|
||||||
|
//fmt.Printf("toAction: %+v\n", toAction)
|
||||||
|
// TODO: Optimise this, maybe with goto or a function call to avoid scanning the text twice?
|
||||||
|
if (toAction.PartialMode && !closeTag && peekMatch(i, toAction.Suffix, runes)) || peekMatch(i, toAction.Suffix+">", runes) {
|
||||||
|
//fmt.Println("peekMatched")
|
||||||
|
newI, out = toAction.Do(toAction, !closeTag, i, runes)
|
||||||
|
//fmt.Println("newI: ", newI)
|
||||||
|
//fmt.Println("i: ", i)
|
||||||
|
if newI != -1 {
|
||||||
|
i = newI
|
||||||
|
} else {
|
||||||
|
i += len(toAction.Suffix + ">")
|
||||||
|
}
|
||||||
|
//fmt.Println("i: ", i)
|
||||||
|
//fmt.Println("out: ", out)
|
||||||
|
break
|
||||||
|
}
|
||||||
|
}
|
||||||
|
if out == "" {
|
||||||
|
//fmt.Println("no out")
|
||||||
|
if closeTag {
|
||||||
|
i -= 5
|
||||||
|
} else {
|
||||||
|
i -= 4
|
||||||
|
}
|
||||||
|
} else if out != " " {
|
||||||
|
msg += out
|
||||||
}
|
}
|
||||||
} else {
|
} else {
|
||||||
msg += string(char)
|
msg += string(char)
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
|
|
||||||
if inItalic {
|
for _, actionList := range tagToAction {
|
||||||
msg += "</em>"
|
for _, toAction := range actionList {
|
||||||
|
if toAction.Depth > 1 {
|
||||||
|
for ; toAction.Depth > 0; toAction.Depth-- {
|
||||||
|
_, out := toAction.Do(toAction, false, len(runes), runes)
|
||||||
|
if out != "" {
|
||||||
|
msg += out
|
||||||
}
|
}
|
||||||
if inBold {
|
|
||||||
msg += "</strong>"
|
|
||||||
}
|
}
|
||||||
if inStrike {
|
|
||||||
msg += "</del>"
|
|
||||||
}
|
}
|
||||||
if inUnderline {
|
|
||||||
msg += "</u>"
|
|
||||||
}
|
}
|
||||||
|
}
|
||||||
|
//fmt.Println("msg: ", msg)
|
||||||
|
|
||||||
return shortcodeToUnicode(msg)
|
return shortcodeToUnicode(msg)
|
||||||
}
|
}
|
||||||
|
Loading…
Reference in New Issue
Block a user