采集单页面网页地址的源码

vb2008写的,比较简单垃圾的源码,只能采集单页面的,算是个思路吧!

Partial Public Class MainForm
Public Sub New()
' The Me.InitializeComponent call is required for Windows Forms designer support.
Me.InitializeComponent()
'
' TODO : Add constructor code after InitializeComponents
''
End Sub

Sub Button1Click(ByVal sender As Object, ByVal e As EventArgs)
Dim url As String
url=textbox1.text
Dim httpReq As System.Net.HttpWebRequest
Dim httpResp As System.Net.HttpWebResponse
Dim httpURL As New System.Uri(url)
httpReq = CType(System.Net.WebRequest.Create(httpURL), System.Net.HttpWebRequest)
httpReq.Method = "GET"
httpResp = CType(httpReq.GetResponse(), System.Net.HttpWebResponse)
httpReq.KeepAlive = False ' 获取或设置一个值,该值指示是否与 Internet资源建立持久连接。
Dim reader As System.IO.StreamReader = _
New System.IO.StreamReader(httpResp.GetResponseStream, System.Text.Encoding.GetEncoding("GB2312"))
Dim respHTML As String = reader.ReadToEnd() 'respHTML就是网页源代码
Dim strRegex As String = "http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?" '这就是表达式
Dim r As System.Text.RegularExpressions.Regex
Dim m As System.Text.RegularExpressions.MatchCollection
r = New System.Text.RegularExpressions.Regex(strRegex, System.Text.RegularExpressions.RegexOptions.IgnoreCase)
m = r.Matches(respHTML)
Dim i As Integer
For i = 0 To m.Count - 1
Me.listBox1.Items.Add(m(i).Value) 'form1.DefInstance是form1的共享属性和实例
Next i
Me.listBox1.Visible = True ' 设置ListBox为可见
Me.listBox1.Sorted = True ' 对ListBox各元素进行排序
End Sub
End Class

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注