cpca库使用简明教程

cpca是chinese_province_city_area_mapper的全称，在处理中文地址比较好用，这里记录下库的主要功能与使用方法。

pip install cpca

cpca.transform 是 cpca库的核心功能，其输入是任意可迭代对象，输出为pandas的DataFrame对象，参数及含义如下：

location_strs ：包含地址信息的字符串，是一个可迭代对象，可迭代对象的元素数量将等于输出结果中DataFrame的行数量
umap：一个自定义的字典，用于处理“行政区”重名时，字符串中的重名区默认对应哪个的“行政省市”；另外省市行政区域名称不存在重名问题，仅考虑“行政区”重名问题即可
index：指定自定义的DataFrame的index值
cut：是否使用分词匹配模式，默认是True，会提高处理速度，若指定False，则会采用“全文匹配的模型”，该模型下的精度会高些，但处理速度会慢些
lookahead：默认为8个字符，可以理解为窗口大小
pos_sensitive：默认为False，改为True时，则在输出的DataFrame中将新增三列，分别表示抽取省、市、地区的起始位置，若值为-1，表示推断出来的
open_warning: 是否显示警告信息，默认True，建议打开（当发现重名区并且不知道将其映射到哪一个市时，会将其加入警告信息并显示，打开次功能可以帮助解决数据集中的重名区问题）
函数输入输出如下所示，信息来自官方说明：

https://github.com/DQinYuan/chinese_province_city_area_mapper