---------2015.12.30----------------
学习心得:学习极客学院的python教程下的定向数据爬虫
学习成果:通过数据爬虫扒下了喜欢漫画网站的漫画(文章最后是代码)很有成就感~~~~
安装好第三方库文件 Requests
学习笔记:
安装python 第三方库 撞墙时
选择下载网站(几乎所有的第三库文件)
whl文件 改后缀名为.zip 解压后 将解压后的最短文件明拷贝到 python安装位置的Lib文件夹里
重点是要记住三个关键字
Search findall Sub
正则表达式的用法 常用的就是这几个
----[1]-----
# for each in pics_url: #用循环重复一起做就会换行
# print(each) #单独做不换行
----[2]-----
# # text = re.findall('">(.*?)</a></li>', html, re.S) #加上换行符号re.S 要慎用
----[3]-----
# # links = re.findall('href="(.*?)"', html, re.S)
# # #print(links) #单独打印报错
# # SyntaxError: Non-ASCII character '\xe7' in file D:/python_test/hello_word on line 50, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
# # 解决 办法 做#-*-coding:utf8-*-声明
--------------------
但编程的时候 遇到以下几个问题 后面学习的话 我将带着问题去学习 当然如果有朋友可以帮忙解答,那就更好啦
--<1>---
# # title = re.search('<title>(.*?)</title>', html, re.S).group(1)
#为什么要加group不加就是内存地址?
--<2>---
# text = re.findall('<ul>(.*?)</ul>', html, re.S)[0] #为什么一定要加[0]?
--<3>---
# print('下载漫画中:',each) #'中文显示为\xe4\xb8\x8b\xe8\xbd\xbd\xe6\xbc\xab\xe7\x94\xbb\xe4\xb8\xad\xef\xbc\x9a??? 开始还提取了片头照片
附上我的把漫画的教程
# -*-coding:utf8-*- import re import requestsg = open('shuhui.txt','r')htmls = g.read()g.close()pics_url = re.findall('