用PHP做SOSO问问小偷采集站设计方案

PHP好久没有去学了,这两天又拿了起来,想起这个的主要原因是本人太懒,不想更新网站,但是又想看到网站每天都能被百度收录,于是想到挂个小偷站吧.
分析了下soso问问的网站模式,我们现在只需要它的内容,也就是只需要已解决的问题,而且为了不偏离咱的主题,大概选择就是IT方面的
列表网址是这个http://wenwen.soso.com/z/s318832640.htm
已解决的问题网址是这个http://wenwen.soso.com/z/q335651413.htm
后面的数字就是编号
首先我们要写个获取页面源码的函数
用到的是PHP file_get_contents() 函数
function getPagecode($pageUrl){
$pageCode=””;
for($i=0;$i<5;$i++){
$pageCode=@file_get_contents($pageUrl);
if($pageCode){
return $pageCode;
break;
}
}
}
这个算是PHP小偷站的灵魂了,其他过滤网页源码中的垃圾代码我们用到 PHP str_replace()函数 截取需要的内容用到PHP的explode()函数

发表评论

电子邮件地址不会被公开。 必填项已用*标注