SEO编程：如何自动生成优秀的页面Title？

新知榜官方账号

2023-10-13 16:05:28

SEO编程：如何自动生成优秀的页面Title？

本文介绍如何使用Python编程实现自动生成优秀的页面Title，通过爬虫获取百度搜索结果中所有着陆页的真实标题，使用分词和词频统计的方法得出标题中的高频词汇，并结合人类语言组织成一句话，最终得出优秀的页面Title。

1. 爬虫，你好！

首先需要安装requests库，使用requests.get()方法获取百度搜索结果页HTML代码。

import requests

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
print(response.content)

2. 兼容各编码

通过chardet库快速检测网页编码，并将编码后的HTML代码转换成字符串。

import chardet

htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
print(html)

3. 获取搜索结果着陆页信息

通过BeautifulSoup库解析HTML代码，并使用CSS选择器提取出所有着陆页的链接，接着通过访问链接获取着陆页的真实URL地址。

import requests
import chardet
from bs4 import BeautifulSoup

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('h3 a')
for item in items:
    resultRedirectUrl = item.attrs['href']
    if 'http://' in resultRedirectUrl or 'https://' in resultRedirectUrl:
        itemHeadRes = requests.head(resultRedirectUrl, verify=False)
        itemUrl = itemHeadRes.headers['Location']
        print(itemUrl)

4. 解密百度着陆页URL

通过使用requests库中的head()方法解密百度搜索结果着陆页的URL地址。

import requests
import chardet
from bs4 import BeautifulSoup

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('h3 a')
for item in items:
    resultRedirectUrl = item.attrs['href']
    if 'http://' in resultRedirectUrl or 'https://' in resultRedirectUrl:
        itemHeadRes = requests.head(resultRedirectUrl, verify=False)
        itemUrl = itemHeadRes.headers['Location']
        print('搜索结果真实网址：', itemUrl)

5. 获取所有着陆页标题

通过使用BeautifulSoup库解析HTML，提取所有着陆页的标题。

import requests
import chardet
from bs4 import BeautifulSoup

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('h3 a')
allTitleStr = ''
for item in items:
    resultRedirectUrl = item.attrs['href']
    if 'http://' in resultRedirectUrl or 'https://' in resultRedirectUrl:
        itemHeadRes = requests.head(resultRedirectUrl, verify=False)
        itemUrl = itemHeadRes.headers['Location']
        itemRes = requests.get(itemUrl, verify=False)
        if itemRes.status_code == 200:
            itemHtmlEncoding = chardet.detect(itemRes.content)['encoding']
            itemHtml = str(itemRes.content, itemHtmlEncoding, errors='ignore')
            itemSoup = BeautifulSoup(itemHtml, 'html.parser')
            if itemSoup.title is not None:
                itemTitle = itemSoup.title.text.strip()
                print('着陆页Title：', itemTitle)
                allTitleStr += itemTitle

print(allTitleStr)

6. 获取所有标题中的词汇

通过使用jieba库对所有标题中的词汇进行分词，并统计出所有词汇的词频。

import requests
import chardet
from bs4 import BeautifulSoup
import jieba

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('h3 a')
allTitleStr = ''
for item in items:
    resultRedirectUrl = item.attrs['href']
    if 'http://' in resultRedirectUrl or 'https://' in resultRedirectUrl:
        itemHeadRes = requests.head(resultRedirectUrl, verify=False)
        itemUrl = itemHeadRes.headers['Location']
        itemRes = requests.get(itemUrl, verify=False)
        if itemRes.status_code == 200:
            itemHtmlEncoding = chardet.detect(itemRes.content)['encoding']
            itemHtml = str(itemRes.content, itemHtmlEncoding, errors='ignore')
            itemSoup = BeautifulSoup(itemHtml, 'html.parser')
            if itemSoup.title is not None:
                itemTitle = itemSoup.title.text.strip()
                print('着陆页Title：', itemTitle)
                allTitleStr += itemTitle

titleWords = [word for word in jieba.lcut(allTitleStr, cut_all=False) if len(word) > 1]
print(titleWords)

7. 得出标题高频词汇

通过使用Counter库对所有词汇进行词频统计，并使用python对字典进行倒序排列，以找到最高频的那些词汇。

import requests
import chardet
from bs4 import BeautifulSoup
import jieba
from collections import Counter

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('h3 a')
allTitleStr = ''
for item in items:
    resultRedirectUrl = item.attrs['href']
    if 'http://' in resultRedirectUrl or 'https://' in resultRedirectUrl:
        itemHeadRes = requests.head(resultRedirectUrl, verify=False)
        itemUrl = itemHeadRes.headers['Location']
        itemRes = requests.get(itemUrl, verify=False)
        if itemRes.status_code == 200:
            itemHtmlEncoding = chardet.detect(itemRes.content)['encoding']
            itemHtml = str(itemRes.content, itemHtmlEncoding, errors='ignore')
            itemSoup = BeautifulSoup(itemHtml, 'html.parser')
            if itemSoup.title is not None:
                itemTitle = itemSoup.title.text.strip()
                print('着陆页Title：', itemTitle)
                allTitleStr += itemTitle

titleWords = [word for word in jieba.lcut(allTitleStr, cut_all=False) if len(word) > 1]
titleWordsDic = dict(Counter(titleWords))
titleWordsSortedList = sorted(titleWordsDic.items(), key=lambda x: x[1], reverse=True)
for item in titleWordsSortedList:
    print(item[0], ':', item[1])

8. 最终组成页面标题Title

将得到的高频词汇结合成一句话作为最终的页面Title。

import requests
import chardet
from bs4 import BeautifulSoup
import jieba
from collections import Counter

url = 'http://www.baidu.com/s?wd=月亮虾饼怎么做&rn=50'
response = requests.get(url)
htmlEncoded = response.content
detectResult = chardet.detect(htmlEncoded)
encoding = detectResult['encoding']
html = str(htmlEncoded, encoding)
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('h3 a')
allTitleStr = ''
for item in items:
    resultRedirectUrl = item.attrs['href']
    if 'http://' in resultRedirectUrl or 'https://' in resultRedirectUrl:
        itemHeadRes = requests.head(resultRedirectUrl, verify=False)
        itemUrl = itemHeadRes.headers['Location']
        itemRes = requests.get(itemUrl, verify=False)
        if itemRes.status_code == 200:
            itemHtmlEncoding = chardet.detect(itemRes.content)['encoding']
            itemHtml = str(itemRes.content, itemHtmlEncoding, errors='ignore')
            itemSoup = BeautifulSoup(itemHtml, 'html.parser')
            if itemSoup.title is not None:
                itemTitle = itemSoup.title.text.strip()
                print('着陆页Title：', itemTitle)
                allTitleStr += itemTitle

titleWords = [word for word in jieba.lcut(allTitleStr, cut_all=False) if len(word) > 1]
titleWordsDic = dict(Counter(titleWords))
titleWordsSortedList = sorted(titleWordsDic.items(), key=lambda x: x[1], reverse=True)
title = "".join([item[0] for item in titleWordsSortedList[:5]])
print(title)

本页网址：https://www.xinzhibang.net/article_detail-16642.html

寻求报道，请

关键词

分享至微信：

相关工具

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

HeyFriday

国内团队推出的智能AI写作工具

火龙果写作

AI驱动的文字生产力工具

奇妙文

出门问问推出的AI写作助理

NovelAI

AI小说故事创作工具

讯飞智检

讯飞推出的智能写作SaaS工具，支持智能写作后的校对与合规审核

百度快照工具及其他优秀SEO工具推荐

百度快照工具及其他优秀SEO工具推荐没有百度快照精准的数据，后面的优推广很容易出现方向偏离或走进死胡同，那么哪个工具可以获取专业的数据呢？下面我们一起来看看下面这些工具的优势：一、百度快照工具介绍及时间1、百度站长工具：百度站长平台推出的一款站长工具，明确列出了每天的收录量，及变化量。我们可以分析网

分类标签百度快照工具SEO工具百度站长工具站长工具爱站工具5118工具

04-18 16:42

SEO优化具体步骤

SEO优化具体步骤很多朋友学习了大量的网站SEO教程，却依旧不知道SEO具体怎么做，无从下手，这是普遍情况，且不是个例。网站SEO优化没有严格的固定的套路，但有大致的步骤，以我的经验总结具体步骤，还在学习SEO或者刚接触SEO的朋友，可以参考。另外，新网站与老网站的SEO优化点有所区别，本文以新上线

分类标签 SEO关键词代码优化外链建设数据化

04-03 15:00

美团买菜，不想困在“买菜”里

美团买菜，不想困在“买菜”里美团买菜是一家提供在线购物服务的平台，为用户提供方便快捷的购物体验。用户可以在平台上购买新鲜的生鲜食材，避免在传统的菜市场中挑选食材的繁琐过程。美团买菜的特点是“直采直送”，即从农户处直接采购食材，并直接送到用户手中。这不仅可以保证食材的新鲜度和质量，还可以减少中间环节的

分类标签美团买菜在线购物生鲜食材

12-11 08:01

图库网站SEO（搜索引擎优化）案例

图库网站SEO（搜索引擎优化）案例随着互联网的发展，图库网站越来越受到人们的关注，如何让自己的图库网站在众多竞争对手中脱颖而出呢？这就需要进行SEO（搜索引擎优化）。首先，我们需要了解搜索引擎的工作原理。搜索引擎会根据用户的搜索关键词，从海量网页中找到与之相关的页面，并根据相关度进行排序，最终呈现给

分类标签图库网站SEO搜索引擎优化

12-11 08:00

每日热词：抓住流量，创造价值

每日热词：抓住流量，创造价值通常，我们做SEO会着重于搜索主关键词、长尾词或相关词，并围绕它们做优化来提升排名，获取流量。但我们却忽略了“热词”。热词是指当前大家高度关注的问题和事物，迅速在网络上传播，反映了社会的热点和关注点。因此，简单来说，有热点就是有流量。抓住热点就等于抓住了流量。热词在SEO

分类标签 SEO热词流量

12-07 02:03

一个方法教会你挖掘用户痛点，卖爆产品

一个方法教会你挖掘用户痛点，卖爆产品市场竞争日益激烈，产品的销售越来越困难。为了能够卖爆产品，产品经理必须深入了解用户的需求，挖掘他们的痛点，并根据这些痛点来推销产品。下面介绍一个方法，可以帮助产品经理更好地挖掘用户的痛点。方法介绍1. 确定目标用户首先，产品经理需要明确产品的目标用户是谁。只有确定

分类标签用户痛点产品销售市场需求

12-03 08:01

龙芯中科发布最新3A8000芯片，性能超强，采用自主研发的LoongArch指令集

龙芯中科发布最新3A8000芯片龙芯中科正式官宣，他们的最新尖端3A8000芯片来了。这款芯片采用7纳米制程工艺，拥有四核八线程，最高加速频率能达到4.5GHz，和AMD和英特尔的主流桌面级芯片媲美。此次发布的3A8000芯片是龙芯系列历史上最强大的一款处理器。此外，3A8000芯片还采用了自主研发

分类标签龙芯中科3A8000芯片LoongArch指令集

12-02 02:08

科大讯飞1024开发者节开幕，科技展区包含七个主题展馆

科大讯飞1024开发者节开幕，科技展区包含七个主题展馆在以“解放生产力，释放想象力”为主题的第六届世界声博会暨2023科大讯飞全球1024开发者节开幕前夕，科博展举办媒体开放日，最新亮点提前放送。一场科技展会，一次科幻之旅。6700㎡的展区包含科技馆、工业馆、行业馆、教育馆、生活馆、生态馆及科学艺术

分类标签科大讯飞1024开发者节科技展会

12-01 16:09

京东首届AIGC创作大赛颁奖盛典举办

京东首届AIGC创作大赛颁奖盛典举办11月6日，京东首届AIGC创作大赛颁奖盛典在北京JDG英特尔电子竞技中心举办。颁奖现场，京东3C数码事业部负责人、京东平台运营与营销中心负责人、京东探索研究院负责人、微软、AMD品牌代表以及清华美院、中国传媒大学高校代表等专家人士出席了本次典礼，一同分享AIGC

分类标签京东AIGC创作大赛

12-01 16:08

科大讯飞发布“星火”认知大模型V3.0，国产大模型再升级

科大讯飞发布“星火”认知大模型V3.0，国产大模型再升级新一代信息化时代浪潮中，大模型正成为越来越重要的生产力。10月24日，在第六届世界声博会暨2023全球1024开发者节上，国内人工智能领域龙头企业科大讯飞发布了“星火”认知大模型V3.0，国产大模型再升级。科大讯飞董事长刘庆峰介绍，在今年亚运会

分类标签科大讯飞大模型人工智能

12-01 16:07

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway