js如何进行中文分词?
分词经常用在搜索引擎中,特别是中文分词,分词的准确性决定了语义的理解,让机器理解人类的语言就必须进行分词
下满我们用js演示一段简单的中文分词
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>简单的中文分词</title> </head> <body> <script type="text/javascript"> // 字典 var dict = { "家乡": 1, "松花": 1, "松花江": 1, "那里": 1, "四季": 1, "四季迷人": 1, "迷人": 1, "花香": 1 }; // 停止词 var stop = { "的": 1 }; // 待分词的字符串 var words = "我的家乡在松花江边上,那里有四季迷人的花香。"; function splitWords(words) { var start = 0, end = words.length - 1, result = []; while (start != end) { var str = []; for (var i = start; i <= end; i++) { var s = words.substring(i, i + 1); // 如果是停止词,则跳过 if (s in stop) { break; } str.push(s); // 如果在字典中,则添加到分词结果集 if (str.join('') in dict) { result.push(str.join('')); } } start++; } return result; } console.group("Base 分词: "); console.log("待分词的字符串: ", words); console.log("分词结果: ", splitWords(words)); console.groupEnd(); </script> </body> </html>
网友评论0