PHP网页采集的技巧

在采集网页数据的过程中,主要就是调用curl_url函数:

调用格式如下:

在调用curl_url时,首先要确保echo_yes时能正常显示页面,如不能正常显示,主要注意的问题有:

[1]url地址,是否首尾有空格

[2]url地址是否发生跳转,follow_location_yes和follow_location_no这两种情况都要试试,在follow_location_no的情况后,看看转向后的地址是否正常展示;

[3]url地址的协议,如果是https协议,要将use_ssl_no改成use_ssl_yes;

[4]url地址是否在goagent代理下能正常显示,如不能,需要关闭http代理功能;

在获取网页源代码后,通过正则获得需要的数据,这里主要用到的是preg_match和preg_match_all函数

问题1:匹配出字符串中所有的trackback地址

问题2:匹配出字符串中所有的name和value值

问题3:匹配出符合条件的网址以及对应的日期

Leave a Reply