js如何进行中文分词?

js如何进行中文分词?

js如何进行中文分词?

分词经常用在搜索引擎中,特别是中文分词,分词的准确性决定了语义的理解,让机器理解人类的语言就必须进行分词

下满我们用js演示一段简单的中文分词

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>简单的中文分词</title>
</head>
<body>
    <script type="text/javascript">
        // 字典
        var dict = {
            "家乡": 1,
            "松花": 1,
            "松花江": 1,
            "那里": 1,
            "四季": 1,
            "四季迷人": 1,
            "迷人": 1,
            "花香": 1
        };
        // 停止词
        var stop = {
            "的": 1
        };
        // 待分词的字符串
        var words = "我的家乡在松花江边上,那里有四季迷人的花香。";

        function splitWords(words) {
            var start = 0, end = words.length - 1, result = [];
            while (start != end) {
                var str = [];
                for (var i = start; i <= end; i++) {
                    var s = words.substring(i, i + 1);
                    // 如果是停止词,则跳过
                    if (s in stop) {
                        break;
                    }
                    str.push(s);
                    // 如果在字典中,则添加到分词结果集
                    if (str.join('') in dict) {
                        result.push(str.join(''));
                    }
                }

                start++;
            }

            return result;
        }

        console.group("Base 分词: ");
        console.log("待分词的字符串: ", words);
        console.log("分词结果:       ", splitWords(words));
        console.groupEnd();
    </script>
</body>
</html>


{{collectdata}}

网友评论0