博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
2015.12.30 日学习总结
阅读量:7078 次
发布时间:2019-06-28

本文共 1271 字,大约阅读时间需要 4 分钟。

hot3.png

---------2015.12.30----------------

学习心得:学习极客学院的python教程下的定向数据爬虫

学习成果:通过数据爬虫扒下了喜欢漫画网站的漫画(文章最后是代码)很有成就感~~~~

         安装好第三方库文件  Requests

学习笔记:

安装python 第三方库 撞墙时

选择下载网站(几乎所有的第三库文件)

whl文件 改后缀名为.zip 解压后 将解压后的最短文件明拷贝到 python安装位置的Lib文件夹里

 

重点是要记住三个关键字

Search  findall  Sub

正则表达式的用法 常用的就是这几个

----[1]-----

# for each in pics_url: #用循环重复一起做就会换行

#     print(each) #单独做不换行

----[2]-----

# # text = re.findall('">(.*?)</a></li>', html, re.S) #加上换行符号re.S 要慎用

----[3]-----

# # links = re.findall('href="(.*?)"', html, re.S)

# # #print(links) #单独打印报错

# # SyntaxError: Non-ASCII character '\xe7' in file D:/python_test/hello_word on line 50, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

# # 解决 办法 #-*-coding:utf8-*-声明

--------------------

但编程的时候 遇到以下几个问题 后面学习的话 我将带着问题去学习 当然如果有朋友可以帮忙解答,那就更好啦

--<1>---

# # title = re.search('<title>(.*?)</title>', html, re.S).group(1)

#为什么要加group不加就是内存地址?

--<2>---

# text = re.findall('<ul>(.*?)</ul>', html, re.S)[0] #为什么一定要加[0]?

--<3>---

# print('下载漫画中:',each) #'中文显示为\xe4\xb8\x8b\xe8\xbd\xbd\xe6\xbc\xab\xe7\x94\xbb\xe4\xb8\xad\xef\xbc\x9a??? 开始还提取了片头照片

 

附上我的把漫画的教程

# -*-coding:utf8-*-  import re  import requestsg = open('shuhui.txt','r')htmls = g.read()g.close()pics_url = re.findall('

转载于:https://my.oschina.net/u/2599860/blog/595365

你可能感兴趣的文章
编程输出完美之星编程大赛 复赛第二场 24点
查看>>
最大连续子序列
查看>>
iPhone loadView 和 viewDidLoad的区别
查看>>
Netfilter/iptables的一些新进展
查看>>
程序员的人生规划
查看>>
PHP中抽象类与接口的应用场景
查看>>
ASP.NET中操作SQL数据库
查看>>
Android性能优化
查看>>
Ehcache BigMemory: 摆脱GC困扰
查看>>
C# socket实践 - 简易版FTP(Server & Client)
查看>>
解答《编程之美》1.18问题1:给所有未标识方块标注有地雷概率
查看>>
Matrix
查看>>
九乘九口诀算法
查看>>
js检查页面上有无重复id的代码分享
查看>>
jQuery validate 根据 asp.net MVC的验证提取简单快捷的验证方式(jquery.validate.unobtrusive.js)...
查看>>
返回上一步
查看>>
Linux中断处理(一)
查看>>
冒泡排序
查看>>
WINDOWS 2003系统时间24小时制与12小时显示格式不一致问题与解决
查看>>
你可以做一个更好的Coder为了自己的将来
查看>>