用PHP做SOSO问问小偷采集站设计方案

原创 maro  2012-08-02 15:07 

PHP好久没有去学了,这两天又拿了起来,想起这个的主要原因是本人太懒,不想更新网站,但是又想看到网站每天都能被百度收录,于是想到挂个小偷站吧.
分析了下soso问问的网站模式,我们现在只需要它的内容,也就是只需要已解决的问题,而且为了不偏离咱的主题,大概选择就是IT方面的
列表网址是这个http://wenwen.soso.com/z/s318832640.htm
已解决的问题网址是这个http://wenwen.soso.com/z/q335651413.htm
后面的数字就是编号
首先我们要写个获取页面源码的函数
用到的是PHP file_get_contents() 函数
function getPagecode($pageUrl){
$pageCode="";
for($i=0;$i<5;$i++){
$pageCode=@file_get_contents($pageUrl);
if($pageCode){
return $pageCode;
break;
}
}
}
这个算是PHP小偷站的灵魂了,其他过滤网页源码中的垃圾代码我们用到 PHP str_replace()函数 截取需要的内容用到PHP的explode()函数

本文地址:http://blog.xmaro.com/archives/42.html
版权声明:本文为原创文章,版权归 maro 所有,欢迎分享本文,转载请保留出处!

发表评论


表情