一、项目简介

唐诗分析程序主要通过抓取互联网上的唐诗,然后进行数据清洗,存储,数据分析,输出报告。

二、意义

了解数据分析的基本流程

熟悉数据分析方法

锻炼应用技术解决问题的能力

三、数据来源

古诗文网https://www.gushiwen.org/ 

四、功能

数据采集、清洗、存储

五、技术

Stream流处理

文本分词和解析(ansj)

多线程

网页解析工具(HTMLunit)

数据库和JDBC编程

数据可视化(HTML/CSS/JavaScript,echarts,jQuery)

Servlet/Sparkjava嵌入式web容器

唐诗分析程序(爬虫)(一)

相关文章: