CMC国际注册咨询师张学宁培训老师发表时间:2021-10-09 09:53:20
关键词提取将HTML、JS、CSS等标签程序去除,提取用于排名的有效文字。...去除停用词即反复出现的无 用词,如:“得、的、地、啊、阿、再”等...分词技术是中文搜索引擎特有的技术支持,中文不同于英文单词与 单词之间用空格分隔,因此搜索引擎必须把整个句子切割成小单元词,分词的方法有两种基于字符串匹配的 分词方法按照方向的不同,可以分为正向匹配、逆向匹配和最少切词,混合使用后产生正向匹配,逆向匹配、 正向最小匹配、逆向最小匹配。笔者个人理解为按照中文的习惯对整句进行组词形式的拆分。基于统计分词 方法 直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词语,将所有的统计结果 匹配起来发挥切词的效率。消除噪声消除网页上各种广告文字、图片、版权信息等对搜索引擎无用的东西。 |