array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>NLP之分词 - 爱码网</title>
     
<meta name="keywords" content="NLP之分词" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-306531054.html" title="NLP之分词">NLP之分词</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-10-08">2021-10-08</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<p class="p" align="justify"><span style="font-family: 宋体; color: rgba(255, 0, 0, 1)">不同分词工具原理解析</span></p>
<p class="p" align="justify"><span style="font-family: 宋体">对各种分词工具的介绍，具体参考：</span></p>
<p class="p" align="justify"><a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9lbi1oZW5nL3AvNjIzNDAwNi5odG1s" rel="nofollow" target="_blank"><span style="text-decoration: underline"><span class="16">http://www.cnblogs.com/en-heng/p/6234006.html</span></span></a></p>
<p class="p" align="justify">1） jieba</p>
<p class="p" align="justify"><span style="font-family: 宋体">具体参考</span><span style="font-family: 宋体">：</span></p>
<p class="p" align="justify"><a href="https://blog.csdn.net/rav009/article/details/12196623" rel="nofollow" target="_blank"><span style="text-decoration: underline"><span class="15">https://blog.csdn.net/rav009/article/details/12196623</span></span></a></p>
<p class="p" align="justify">jieba分词原理解析</p>
<p class="p" align="justify"><span style="font-family: 宋体">采用的是</span>Unigram + HMM，Unigram<span style="font-family: 宋体">假设每个词相互独立</span></p>
<p class="p" align="justify"><span style="font-family: 宋体">具体参考：</span></p>
<p class="p" align="justify"><a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9lbi1oZW5nL3AvNjIzNDAwNi5odG1s" rel="nofollow" target="_blank"><span style="text-decoration: underline"><span class="15">http://www.cnblogs.com/en-heng/p/6234006.html</span></span></a></p>
<p class="p" align="justify"><span class="15">先总结一下jieba的分词方法</span></p>
<p><strong><span style="font-family: 宋体">先加载词典（包括自定义词典和自带的词典）生成字典树，对于待分词的句子先通过查字典树，对于那些在字典中出现了的词以此为基础构成一个DAG（<strong>有向无环图</strong>），具体是通过</span></strong><strong>python中的字典表示的，字典的key是可能成词的词的词首在句子中的脚标，value是一个list，list中的每个值代表以key为词首所有可能组成的词的词尾在句子中的脚标。对于这些路径通过动态规划把求解概率最大问题转换为图论中的求最大路径问题，图中边的权重是词的词频的log值。</strong></p>
<p><strong><span style="font-family: 宋体">对于那些没有出现在字典中的词，把他们重新组成片段利用</span>HMM模型进行</strong><strong><span style="font-family: 宋体">分词</span></strong><strong><span style="font-family: 宋体">，注意最后的解码过程中</span>jieba对维特比算法进行了约束。</strong></p>
<p><span style="font-family: 宋体">对于用</span>HMM进行分词具体参考：</p>
<p><a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9lbi1oZW5nL3AvNjE2NDE0NS5odG1s" rel="nofollow" target="_blank"><span style="text-decoration: underline">http://www.cnblogs.com/en-heng/p/6164145.html</span></a></p>
<p>Jieba用的是BEMS四标签格式分别表示词的开始、结束、中间（begin、end、middle）及字符独立成词（single），标签越多或许会更准确，但是会使训练速度更慢。</p>
<p><span style="font-family: 宋体">对于</span>HMM发现新词总共是3个概率值的问题，这是作者基于一个大型语料提前训练出来的，词的初始概率可能就是每个词的频率，那么转移概率和生成概率也是通过一个大型语料训练出来的<span style="font-family: 宋体">（这是学习问题）</span><span style="font-family: 宋体">。</span><span style="font-family: 宋体">语料包括：来源主要有两个，一个是网上能下载到的</span>1998人民日报的切分语料还有一个msr的切分语料。另一个是我自己收集的一些txt小说，用ictclas把他们切分。</p>
<p><span style="font-family: 宋体">主题</span>jieba在使用HMM模型进行分词时对维特比算法进行了如下修改</p>
<p class="p"><span style="font-family: 宋体">为了适配中文分词任务，</span>Jieba对Viterbi算法做了如下的修改：<span style="font-family: 宋体">状态转移时应满足</span>PrevStatus条件，即状态B的前一状态只能是E或者S，...<span style="font-family: 宋体">最后一个状态只能是</span>E或者S，表示词的结尾。</p>
<p class="p" align="justify">1） Foolnltk</p>
<p class="p" align="justify">1. <span style="font-family: 宋体">自定义词典的加载</span></p>
<p class="pre"><strong>import </strong>fool<br>fool.load_userdict(<strong>'dict/aa.txt'</strong>)</p>
<p class="p"><span style="font-family: 宋体">注意：</span><strong>aa.txt</strong><strong><span style="font-family: 宋体">必须是</span></strong><strong>GBK编码的，其次每个词要有一个大于1的权重值：</strong></p>
<p class="p" align="justify"><span style="font-family: 宋体">它是基于字特征</span>+BI-LSTM+CRF进行分词的</p>
<p class="p" align="justify">3）<span style="font-family: 宋体">哈工大的</span>ltp</p>
<p class="p" align="justify"><span style="font-family: 宋体">以微博为训练语料</span></p>
<p class="p" align="justify"><span style="font-family: 宋体">以结构化感知器（</span>Structured Perceptron, SP）方法来进行分词，它也是用于处理序列标注问题。</p>
<p class="p" align="justify">LTP用户词典：官方补充说“LTP的分词模块并非采用词典匹配的策略，外部词典以特征方式（转换为特征：是词典词汇的开头、是词典词汇的中间部分、是词典词汇的结尾）加入机器学习算法，并不能保证所有的词都是按照词典里的方式进行切分”。</p>
<p class="p" align="justify">结构化感知器与CRF以及感知器的区别</p>
<p class="p" align="justify">具体参考：</p>
<p class="p" align="justify"><a href="https://www.zhihu.com/question/51872633" rel="nofollow" target="_blank"><span>https://www.zhihu.com/question/51872633</span></a></p>
<p class="p" align="justify">结构化感知器和crf的最大差别在哪里？感觉crf的模版也可以用到结构化感知器上面</p>
<p class="p" align="justify">Perceptron（感知器）和CRF主要的区别是优化目标不同，CRF优化对数似然函数，是一个概率模型，因此需要计算partition function（配分函数），计算代价较高。而Perceptron优化正确答案与预测结果得分之间的差异（SP以最大熵准则建模score函数，分词结果则等同于最大score函数所对应的标注序列，具体没懂。），scoring function是线性函数。CRF的势函数与Perceptron的scoring function都使用了线性函数，因此特征模板是一致的</p>
<p class="p" align="justify">首先，“全局学习”的概念主要针对的是结构化预测问题（structure prediction），比如序列标注或者句法分析。不同于简单的多元分类，在结构化预测问题中，通常需要一个较为复杂的解码过程才能够获得最终的结构化输出。结构化感知器与普通感知器在学习算法上是一致的，主要的区别在于特征抽取是否考虑全局的结构化输出。而特征抽取过程则进一步决定了模型能否进行全局的结构化学习以及预测。</p>
<p class="p" align="justify">4）中科院的nlpir</p>
<p class="p" align="justify"><span style="font-family: 宋体">以微博为训练语料</span></p>
<p class="p" align="justify"><span style="font-family: 宋体">因为</span>NLPIR是基于字典的分词，所以若用户加载自定义词典将优先使用用户词典。</p>
<p class="p" align="justify"><span style="font-family: 宋体">它的前身是</span><a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9lbi1oZW5nL3AvNjIyNTExNy5odG1s" rel="nofollow" target="_blank">ICTCLAS</a></p>
<p class="p" align="justify"><span style="font-family: 宋体">采用的是</span>Bigram的<a href="/default/index/url?u=aHR0cDovL3d3dy5jbmJsb2dzLmNvbS9lbi1oZW5nL3AvNjE4MzUyMi5odG1s" rel="nofollow" target="_blank">Word-Based Generative Model</a><span style="font-family: 宋体">，</span>Bigram假设每个词出现的概率只和其前一个词有关。</p>
<p class="p" align="justify">Word-Based Generative Model是采用最大联合概率来对最佳分词方案建模。<span style="font-family: 宋体">即为以词为基础的生成式模型，和</span>jieba分词类似，jieba所使用的是Unigram+HMM而它使用的是Bigram+HMM。</p>
<p class="p" align="justify">5）清华的thulac</p>
<p class="p" align="justify"><span style="font-family: 宋体">以人民日报为训练语料</span></p>
<p class="p" align="justify"><span style="font-family: 宋体">和</span>ltp所采用的分词模型相同。</p>
<p class="p" align="justify">6）斯坦福的中文分词</p>
<p class="p" align="justify"><span style="font-family: 宋体">它是以</span>CRF模型为基础进行中文分词的</p>
<p class="p" align="justify"><span style="color: rgba(255, 0, 0, 1)"><strong>为什么要分词？</strong></span></p>
<p class="p" align="justify">神经网络适用于处理具有局部相关性的数据，在NLP任务中，词由字组成，句由词组成，成词的字之间有相关性，成句的词与词之间有相关性。<strong>所以说为什么要分词而不是直接用字进行构建？因为用字破坏了文本中的上下文关系，且字与字之间不是独立的效果不好，分词是为了把句子分为若干个相关性较弱的部分，同时也是为了对明显具有强相关关系的字特征进行组合，便于进一步处理。</strong></p>
<p class="p" align="justify">那么在一些NLP的任务中分词之后把词向量作为神经网络的输入效果就会比以字向量作为输入的效果好吗？其实不是的。在19年的《Is Word Segmentation Necessary for Deep Learning of Chinese Representations?》文章中指出，把字向量作为输入效果更好。但是这篇论文不是说在NLP任务中应该以字向量为输入而不是词向量，它是为了引发我们做具体任务时的思考。论文中指出，之所以词向量的效果不如字向量一方面是因为分词工具的不准确，主要原因是因为单词数据的稀疏性以及OOV单词的存在，在训练语料中常用的词只是占词表中的一小部分，也就是说词表中绝大部分词的词频都很低（词频存在长尾分布的现象，词表中一小部分的词其词频量占词频总量的绝大部分），这就导致在训练词向量时不可避免的会出现过拟合现象，从而使得词向量的质量不高。</p>
<p class="p" align="justify">尽管从直觉上看， ”词“的所携带的信息是比”字“更丰富，但对于神经网络而言，会如何呢？深层的神经网络通过层层的特征组合学习能否根据复杂的过程来学习到字与字之间的组合方式， 如果可以，我们还有必要进行分词吗？很多文本表达中存在的交叉歧义也被带入了以字为序列的文本编码中，使得模型更难从单字的序列中学习到大颗粒度文本蕴含的语义信息，例如双字或者多字词的整体含义等。虽然通过大规模文本建模可以一定程度上区分不同上下文环境的语义，但是依然没有充分并显式地利用预训练和微调整语料中经常出现的词、短语、实体等更大颗粒度的信息。可以参照（<a href="/default/index/url?u=aHR0cHM6Ly93d3cuY25ibG9ncy5jb20vZHlsMjIyL3AvMTE4NTMxMDEuaHRtbA==" rel="nofollow" target="_blank">https://www.cnblogs.com/dyl222/p/11853101.html</a>）中的ZEN模型，使用字和N-gram作为输入，N-gram通过Transformer进行编码，这样可以提取到更加有用的N-gram，能够增加一些大颗粒度信息的同时，相比于词输入还避免了分词引入的错误信息。</p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                                    <li>
                                <a  title="Java中文分词组件 - word分词（skycto JEEditor）" href='/show-809000.html' target="_blank"></a> 
                                <span>2021-11-18</span>
                            </li>
                                                        <li>
                                <a  title="ES - IK分词器(中文的分词器) - frank_cui" href='/show-809018.html' target="_blank"></a> 
                                <span>2021-11-18</span>
                            </li>
                                                        <li>
                                <a  title="分词器 - LoaderMan" href='/show-809038.html' target="_blank"></a> 
                                <span>2021-11-18</span>
                            </li>
                                                        <li>
                                <a  title="ik 分词器" href='/show-809006.html' target="_blank"></a> 
                                <span>2021-11-18</span>
                            </li>
                                                        <li>
                                <a  title="分词器(Tokenizer)" href='/show-809010.html' target="_blank"></a> 
                                <span>2021-11-18</span>
                            </li>
                                                        <li>
                                <a  title="Solr入门之（8）中文分词器配置" href='/show-817866.html' target="_blank"></a> 
                                <span>2021-12-09</span>
                            </li>
                                                        <li>
                                <a  title="Java——word分词·自定义词库 - talkwah" href='/show-809014.html' target="_blank"></a> 
                                <span>2021-11-18</span>
                            </li>
                                                        <li>
                                <a  title="solr 中文分词器IKAnalyzer和拼音分词器pinyin" href='/show-817879.html' target="_blank"></a> 
                                <span>2021-12-09</span>
                            </li>
                                                </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                                 <li>
                    <a title="NLP之电影评分数据的情感分析" href="/show-839059.html" target="_blank"></a> 
                    <span>2021-11-21</span>
                </li>
                                     <li>
                    <a title="NLP获取词向量的方法（Glove、n-gram、word2vec、fastText、ELMo 对比分析）" href="/show-824138.html" target="_blank"></a> 
                    <span>2021-11-29</span>
                </li>
                                     <li>
                    <a title="elasticsearch插件之ik分词器" href="/show-809024.html" target="_blank"></a> 
                    <span>2021-11-18</span>
                </li>
                                     <li>
                    <a title="python 舆情分析 nlp主题分析 （2）-结合snownlp与jieba库，提高分词与情感判断 待续" href="/show-837570.html" target="_blank"></a> 
                    <span>2021-11-21</span>
                </li>
                                     <li>
                    <a title="自然语言处理之中文分词器
    

            自然语言处理之中文分词器" href="/show-809039.html" target="_blank"></a> 
                    <span>2021-11-18</span>
                </li>
                                     <li>
                    <a title="简单编译器之词法分析" href="/show-838073.html" target="_blank"></a> 
                    <span>2021-11-21</span>
                </li>
                                     <li>
                    <a title="分词器" href="/show-809012.html" target="_blank"></a> 
                    <span>2021-11-18</span>
                </li>
                                     <li>
                    <a title="Java分布式中文分词组件 - word分词 - 自定义停用词" href="/show-809011.html" target="_blank"></a> 
                    <span>2021-11-18</span>
                </li>
                            </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                                         <li>
                        <a title="Friso中文分词器 v1.6.4下载" href="/down-10656.html" target="_blank">下载</a> 
                        <span>2022-12-26</span>
                    </li>
                                             <li>
                        <a title="词林词典简繁互转程序源码 php版 v1.0下载" href="/down-9797.html" target="_blank">下载</a> 
                        <span>2022-12-09</span>
                    </li>
                                             <li>
                        <a title="Laravel诗词博客系统 v1.0下载" href="/down-5640.html" target="_blank">下载</a> 
                        <span>2023-02-07</span>
                    </li>
                                             <li>
                        <a title="Android开发之ViewFlipper WORD版下载" href="/down-7216.html" target="_blank">下载</a> 
                        <span>2023-01-09</span>
                    </li>
                                             <li>
                        <a title="编程之美PDF全集下载" href="/down-7312.html" target="_blank">下载</a> 
                        <span>2021-06-05</span>
                    </li>
                                </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">原文链接：https://www.cnblogs.com/dyl222/p/11025378.html</p>')  
            }) 
</script> 
</body>
</html>