Google資深工程師深度講解Go語言-單任務版爬蟲(十四)
一.獲得初始頁面內容
gopm get -g -v golang.org/x/text //引入gbk庫
報錯: bash: gopm: command not found
解決方法: 使用gopm 完成安裝
gopm--Go Package Manager 的縮寫。是go 上的包管理工具,十分好用。 gopm
1.gopm 安裝:
這個十分簡單只需一條命令就可以了:
go get -u github.com/gpmgo/gopm //親測可用
2.使用 gopm安裝需要的包
gopm 具有豐富的包管理功能,具體的管理命令可以參考官方文檔(官方文檔有中文版 各位爽不爽)鏈接
這里只需要一條命令就可以搞定了:
gopm bin -d $GOPATH/bin PackageName
二.正則表達式獲取郵件地址
package main
import (
"fmt"
"regexp"
)
const text = `
my email is lxw@qq.com
email2 is aa@def.com
email3 is bb@eft.com.cn
`
func main() {
re := regexp.MustCompile(`([a-zA-Z0-9]+)@([a-zA-Z0-9]+)(\.[a-zA-Z0-9]+)`)
match := re.FindAllStringSubmatch(text, -1)
for _, m := range match {
fmt.Println(m)
}
}
2.提取城市和url
package main
import (
"fmt"
"io/ioutil"
"net/http"
"regexp"
)
func main() {
resp, err := http.Get("http://www.zhenai.com/zhenghun")
if err != nil {
panic(err)
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
fmt.Println("Error:status code", resp.StatusCode)
return
}
all, err := ioutil.ReadAll(resp.Body)
if err != nil {
panic(err)
}
//fmt.Printf("%s\n", all)
printCityList(all)
}
func printCityList(contents []byte){
re:=regexp.MustCompile(`]*>([^<]+)`)
match:=re.FindAllSubmatch(contents,-1)
for _,m :=range match {
//for _,sub:=range m {
// fmt.Printf("%s",sub)
//}
//fmt.Println()
fmt.Printf("city: %s, Url:%s \n",m[2],m[1])
}
fmt.Printf("matches found:%d\n",len(match))
}
Go
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。