cpca库使用简明教程

cpca是chinese_province_city_area_mapper的全称,在处理中文地址比较好用,这里记录下库的主要功能与使用方法。

安装

pip install cpca

cpca.transform

cpca.transform 是 cpca库的核心功能,其输入是任意可迭代对象,输出为pandas的DataFrame对象,参数及含义如下:

  • location_strs :包含地址信息的字符串,是一个可迭代对象,可迭代对象的元素数量将等于输出结果中DataFrame的行数量
  • umap:一个自定义的字典,用于处理“行政区”重名时,字符串中的重名区默认对应哪个的“行政省市”;另外省市行政区域名称不存在重名问题,仅考虑“行政区”重名问题即可
  • index:指定自定义的DataFrame的index值
  • cut:是否使用分词匹配模式,默认是True,会提高处理速度,若指定False,则会采用“全文匹配的模型”,该模型下的精度会高些,但处理速度会慢些
  • lookahead:默认为8个字符,可以理解为窗口大小
  • pos_sensitive:默认为False,改为True时,则在输出的DataFrame中将新增三列,分别表示抽取省、市、地区的起始位置,若值为-1,表示推断出来的
  • open_warning: 是否显示警告信息,默认True,建议打开(当发现重名区并且不知道将其映射到哪一个市时,会将其加入警告信息并显示,打开次功能可以帮助解决数据集中的重名区问题)
  • 函数输入输出如下所示,信息来自官方说明:
    cpca库使用简明教程

参考资料

https://github.com/DQinYuan/chinese_province_city_area_mapper

相关文章: