目的:爬取信用中国(山西)中行政处罚和法人的详细信息,包括:行政处罚决定书文号、案件名称、处罚类型、处罚事由、处罚依据、......、数据报送时间
结果呈现:采用MySQL存储数据
注:这个简单的例子很经典,我花了很长时间分析网站,在“小耿童鞋”的指导下,我才知道要对函数进行分析,创建新的访问地址,才解决了问题!!!
注:爬取政府机构的网页,嗯......都是bug!很多都没有遇到过!嘻嘻,正好给我练手!!!
注:今天先将怎么分析网页的,后面在附上代码!
分析思路:
网址:http://www./xzcfListNew.jspx
右击→查看网页源代码,发现:源代码中只有conpany-name(行政相对人名称)、company-message(数据送报时间)。
但是在该网址下,按F12在<div>中存放着每个公司的“行政处罚详细信息”,所以详细数据是存在的,只是不知道它存放在哪了...