成人性生交大片免费看视频r_亚洲综合极品香蕉久久网_在线视频免费观看一区_亚洲精品亚洲人成人网在线播放_国产精品毛片av_久久久久国产精品www_亚洲国产一区二区三区在线播_日韩一区二区三区四区区区_亚洲精品国产无套在线观_国产免费www

主頁 > 知識庫 > Python基于百度AI實現(xiàn)抓取表情包

Python基于百度AI實現(xiàn)抓取表情包

熱門標簽:企業(yè)彩鈴地圖標注 外賣地址有什么地圖標注 預覽式外呼系統(tǒng) 電銷機器人錄音要學習什么 上海正規(guī)的外呼系統(tǒng)最新報價 煙臺電話外呼營銷系統(tǒng) 銀川電話機器人電話 如何地圖標注公司 長春極信防封電銷卡批發(fā)

本文先抓取網(wǎng)絡(luò)上的表情圖像,然后利用百度 AI 識別表情包上的說明文字,并利用表情文字重命名文件,這樣當發(fā)表情包時,不需要逐個打開查找,直接根據(jù)文件名選擇表情并發(fā)送。

一、百度 AI 開放平臺的 Key 申請方法

本例使用了百度 AI 的 API 接口實現(xiàn)文字識別。因此需要先申請對應的 API 使用權(quán)限,具體步驟如下:

在網(wǎng)頁瀏覽器(比如 Chrome 或者火狐) 的地址欄中輸入 ai.baidu.com,進入到百度云 AI 的官網(wǎng),在該頁面中單擊右上角的 控制臺 按鈕。

進入到百度云 AI 官網(wǎng)的登錄頁面,輸入百度賬號和密碼,如果沒有,可以單擊 立即注冊 超鏈接進行注冊申請。

登錄成功后,進入到百度云 AI 官網(wǎng)的控制臺頁面,單擊左側(cè)導航的 產(chǎn)品服務(wù),展開列表,在列表的最右側(cè)下方看到有 人工智能 的分類,然后選擇 圖像識別,或者直接選擇 文字識別,如下圖所示。

進入圖像識別一概覽 頁面,要使用百度云 AI 的 API,首先需要申請權(quán)限,申請權(quán)限之前需要先創(chuàng)建自己的應用,因此單擊 創(chuàng)建應用按鈕,如下圖所示。

進入到 創(chuàng)建應用 頁面,該頁面中需要輸入應用的名稱,選擇應用類型,并選擇接口,注意:這里的接口可以多選擇一些,把后期可能用到的接口全部選擇上,這樣,在開發(fā)其他實例時,就可以直接使用了;選擇完接口后,選擇文字識別包名,這里選擇 不需要,輸入應用描述,單擊 立即創(chuàng)建 按鈕,如下圖所示。



創(chuàng)建完成后,單擊 返回應用列表 按鈕,頁面跳轉(zhuǎn)到應用列表頁面,在該頁面中即可查看創(chuàng)建的應用,以及百度云自動為您分配的 AppID,API Key,Secret Key,這些值根據(jù)應用的不同而不同,因此一定要保存好,以便開發(fā)時使用。

 

二、抓取貼吧表情包

本例在百度貼吧中找到了一些自制的表情包:https://tieba.baidu.com/p/5522091060
現(xiàn)在想把圖片都爬下來,具體操作步驟如下:

Network 抓包看下返回的數(shù)據(jù)是否和 Element 一致,即是否包含想要的數(shù)據(jù),而不是通過 JS 黑魔法進行加載的。復制下第一個圖的圖片鏈接,到 Network 選項卡里的 Response 里查找一下。

在 Network 抓包中沒有發(fā)現(xiàn) Ajax 動態(tài)加載數(shù)據(jù)的蹤跡。

點擊第二頁,抓包發(fā)現(xiàn)了 Ajax 加載的痕跡。


以第一個圖的 url 搜下,同樣可以找到。

三個參數(shù)猜測 pn 為 page_number,即頁數(shù),postman 或者自己寫代碼模擬請求,記得塞入 Host 和 X-Requested-With,驗證 pn=1 是否為第一頁數(shù)據(jù),驗證通過,即所有頁面數(shù)據(jù)都可以通過這個接口拿到。

先加載拿到末頁是第幾頁,然后走一波循環(huán)遍歷即可解析數(shù)據(jù)獲得圖片 url,寫入文件,使用多個線程進行下載,詳細代碼如下。

# 抓取百度貼吧某個帖子里的所有圖片
import requests
import time
import threading
import queue
from bs4 import BeautifulSoup
import chardet
import os

tiezi_url = "https://tieba.baidu.com/p/5522091060"
headers = {
    'Host': 'tieba.baidu.com',
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH'
                  'TML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
}
pic_save_dir = 'tiezi_pic/'
if not os.path.exists(pic_save_dir):  # 判斷文件夾是否存在,不存在就創(chuàng)建
    os.makedirs(pic_save_dir)

pic_urls_file = 'tiezi_pic_urls.txt'
download_q = queue.Queue()  # 下載隊列


# 獲得頁數(shù)
def get_page_count():
    try:
        resp = requests.get(tiezi_url, headers=headers, timeout=5)
        if resp is not None:
            resp.encoding = chardet.detect(resp.content)['encoding']
            html = resp.text
            soup = BeautifulSoup(html, 'lxml')
            a_s = soup.find("ul", attrs={'class': 'l_posts_num'}).findAll("a")
            for a in a_s:
                if a.get_text() == '尾頁':
                    return a['href'].split('=')[1]
    except Exception as e:
        print(str(e))


# 下載線程
class PicSpider(threading.Thread):
    def __init__(self, t_name, func):
        self.func = func
        threading.Thread.__init__(self, name=t_name)

    def run(self):
        self.func()


# 獲得每頁里的所有圖片URL
def get_pics(count):
    params = {
        'pn': count,
        'ajax': '1',
        't': int(time.time())
    }
    try:
        resp = requests.get(tiezi_url, headers=headers, timeout=5, params=params)
        if resp is not None:
            resp.encoding = chardet.detect(resp.content)['encoding']
            html = resp.text
            soup = BeautifulSoup(html, 'lxml')
            imgs = soup.findAll('img', attrs={'class': 'BDE_Image'})
            for img in imgs:
                print(img['src'])
                with open(pic_urls_file, 'a') as fout:
                    fout.write(img['src'])
                    fout.write('\n')
            return None
    except Exception:
        pass


# 下載線程調(diào)用的方法
def down_pics():
    global download_q
    while not download_q.empty():
        data = download_q.get()
        download_pic(data)
        download_q.task_done()


# 下載調(diào)用的方法
def download_pic(img_url):
    try:
        resp = requests.get(img_url, headers=headers, timeout=10)
        if resp.status_code == 200:
            print("下載圖片:" + img_url)
            pic_name = img_url.split("/")[-1][0:-1]
            with open(pic_save_dir + pic_name, "wb+") as f:
                f.write(resp.content)

    except Exception as e:
        print(e)


if __name__ == '__main__':
    print("檢索判斷鏈接文件是否存在:")
    if not os.path.exists(pic_urls_file):
        print("不存在,開始解析帖子...")
        page_count = get_page_count()
        if page_count is not None:
            headers['X-Requested-With'] = 'XMLHttpRequest'
            for page in range(1, int(page_count) + 1):
                get_pics(page)
        print("鏈接已解析完畢!")
        headers.pop('X-Requested-With')
    else:
        print("存在")
    print("開始下載圖片~~~~")
    headers['Host'] = 'imgsa.baidu.com'
    fo = open(pic_urls_file, "r")
    pic_list = fo.readlines()

    threads = []
    for pic in pic_list:
        download_q.put(pic)
    for i in range(0, len(pic_list)):
        t = PicSpider(t_name='線程' + str(i), func=down_pics)
        t.daemon = True
        t.start()
        threads.append(t)
    download_q.join()
    for t in threads:
        t.join()
    print("圖片下載完畢")

運行結(jié)果:


下面通過 OCR 文字識別技術(shù),直接把表情里的文字提出來,然后來命名圖片,這樣就可以直接文件搜索表情關(guān)鍵字,可以快速找到需要的表情圖片。使用谷歌的 OCR 文字識別引擎:Tesseract,對于此類大圖片小文字,不太適合,識別率太低,甚至無法識別,這時使用百度云 OCR 比較合適,它能夠自動定位到圖片中具體位置,并找出圖片中所有的文字。

三、使用 Baidu-aip

申請百度 AI 的應用 key 之后,就可以在本地系統(tǒng)中安裝 Baidu-aip,代碼如下:

pip install baidu-aip 

先識別一張圖片,看看效果如何:

from aip import AipOcr

# 新建一個AipOcr對象
config = {
    'appId': '填寫自己的appId',
    'apiKey': '填寫自己的apiKey',
    'secretKey': '填寫自己的secretKey'
}
client = AipOcr(**config)


# 識別圖片里的文字
def img_to_str(image_path):
    # 讀取圖片
    with open(image_path, 'rb') as fp:
        image = fp.read()

        # 調(diào)用通用文字識別, 圖片參數(shù)為本地圖片
    result = client.basicGeneral(image)
    # 返回拼接結(jié)果
    if 'words_result' in result:
        return '\n'.join([w['words'] for w in result['words_result']])


if __name__ == '__main__':
    print(img_to_str('tiezi_pic/5c0ddb1e4134970aebd593e29ecad1c8a5865dbd.jpg'))

運行程序,結(jié)果如下圖所示:


百度 AI 返回的是一個 JSON 格式數(shù)據(jù),如下所示。返回一個字典對象,包含 log_id、words_result_num、words_result 三個鍵,其中 words_result_num 表示識別的文本行數(shù),words_result 是一個列表,每個列表項目記錄一條識別的文本,每個項目返回一個字典對象,包含 words 鍵,words 表示識別的文本。

{'words_result': [{'words': 'o。o'}, {'words': '6226-16:59'}, {'words': '絕望jpg'}], 'log_id': 1393611954748129280, 'words_result_num': 3}
o。o
6226-16:59
絕望jpg

由于每個圖片中可能包含很多文字信息,如水印的日期文字,以及個別特殊的文字符號被誤解析,我們需要提出的是漢字或字母信息,同時可能會包含多條漢字信息,本例選擇漢字或字母最長的一條來命名文件。完整的示例代碼如下:

# 識別圖片文字,批量命名圖片文字

import os
from aip import AipOcr
import re
import datetime

# 新建一個AipOcr對象
config = {
    'appId': '填寫自己的appId',
    'apiKey': '填寫自己的apiKey',
    'secretKey': '填寫自己的secretKey'
}
client = AipOcr(**config)

pic_dir = r"tiezi_pic/"


# 讀取圖片
def get_file_content(file_path):
    with open(file_path, 'rb') as fp:
        return fp.read()


# 識別圖片里的文字
def img_to_str(image_path):
    image = get_file_content(image_path)
    # 調(diào)用通用文字識別, 圖片參數(shù)為本地圖片
    result = client.basicGeneral(image)
    # 結(jié)果拼接返回
    words_list = []
    if 'words_result' in result:
        if len(result['words_result']) > 0:
            for w in result['words_result']:
                words_list.append(w['words'])
            file_name = get_longest_str(words_list)
            print(file_name)
            file_dir_name = pic_dir + str(file_name).replace("/", "") + '.jpg'
            if os.path.exists(file_dir_name):  # 處理文件重名問題
                sec = datetime.datetime.now().microsecond  # 獲取當前毫秒時值
                file_dir_name = pic_dir + str(file_name).replace("/", "") + str(sec) + '.jpg'
            try:
                os.rename(image_path, file_dir_name)
            except Exception:
                print(" 重命名失?。?, image_path, " => ", file_name)


# 獲取字符串列表中最長的字符串
def get_longest_str(str_list):
    pat = re.compile(r'[\u4e00-\u9fa5A-Za-z]+')
    str = max(str_list, key=hanzi_len)
    result = pat.findall(str)
    return ''.join(result)


def hanzi_len(item):
    pat = re.compile(r'[\u4e00-\u9fa5]+')
    sum = 0
    for i in item:
        if pat.search(i):
            sum += 1
    return sum


# 遍歷某個文件夾下所有圖片
def query_picture(dir_path):
    pic_path_list = []
    for filename in os.listdir(dir_path):
        pic_path_list.append(dir_path + filename)
    return pic_path_list


if __name__ == '__main__':
    pic_list = query_picture(pic_dir)
    if len(pic_list) > 0:
        for i in pic_list:
            img_to_str(i)

運行程序,結(jié)果如下圖所示:

到此這篇關(guān)于Python基于百度AI實現(xiàn)抓取表情包的文章就介紹到這了,更多相關(guān)Python 抓取表情包內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python模擬登錄微博并爬取表情包
  • Python實現(xiàn)微信表情包炸群功能
  • Python基礎(chǔ)進階之海量表情包多線程爬蟲功能的實現(xiàn)
  • Python自動生產(chǎn)表情包
  • python實戰(zhàn)之制作表情包游戲

標簽:潮州 佳木斯 湖北 上饒 宜昌 西寧 珠海 盤錦

巨人網(wǎng)絡(luò)通訊聲明:本文標題《Python基于百度AI實現(xiàn)抓取表情包》,本文關(guān)鍵詞  Python,基于,百度,實現(xiàn),抓取,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python基于百度AI實現(xiàn)抓取表情包》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python基于百度AI實現(xiàn)抓取表情包的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    99自拍视频在线| 北条麻妃一区二区三区在线| 欧美日韩一区二区三区在线电影| 国产精品国产三级国产aⅴ| 在线观看欧美激情| 欧美成人a视频| 美洲天堂一区二卡三卡四卡视频| 国产高清一区二区| 5566先锋影音夜色资源站在线观看| 欧美三区在线视频| 精品中文字幕一区二区三区四区| 黄瓜视频成人app免费| 日韩av在线导航| 欧美伊久线香蕉线新在线| 国产尤物一区二区在线| 夜夜狂射影院| 日韩在线观看免| 亚洲国产精品人人做人人爽| 国产精品欧美极品| 91久久免费观看| www.亚洲欧美| 国产精品videossex撒尿| 艳色歌舞团一区二区三区| 亚洲图区一区| 国产精品女人毛片| 人妻 日韩精品 中文字幕| 97精品在线| 蜜桃视频成人在线观看| 日韩欧美另类在线| 91网页在线看| 大桥未久av一区二区三区中文| 亚洲区免费影片| 欧美大交乱xxxx| 久久视频在线观看中文字幕| 中文成人无字幕乱码精品区| 在线能看的av| 欧美日韩破处视频| 色婷婷av一区二区三区丝袜美腿| 免费不卡中文字幕视频| 天天操夜夜操天天射| 黄色亚洲在线| 欧美四级剧情无删版影片| 凹凸国产熟女精品视频| www.天天射| 91看片官网| 91偷拍一区二区三区精品| xxxx在线播放| 亚洲同志网站入口| 欧美性video| 久久久国产精品亚洲一区| 99国内精品久久| 亚洲欧美自偷自拍另类| 欧美在线观看一区二区三区| 国产一级免费视频| 中文在线a在线| 日韩精品一区二区三区中文不卡| 亚洲美女中文字幕| 亚洲小说春色综合另类电影| 成人黄色午夜影院| va天堂va亚洲va影视| 国产麻豆精品theporn| 亚洲**毛片| 亚洲精品乱码久久久久久日本蜜臀| 能直接看的av| 欧美hdxxx| 亚洲精品极品| 日本午夜在线视频| 麻豆传媒一区二区三区| 黄色综合网站| 国内a∨免费播放| 一级毛片视频在线| 中文字幕有码av| 欧美激情aⅴ一区二区三区| 精品99又大又爽又硬少妇毛片| 国产美女www爽爽爽| 黄色片网站免费| 北条麻妃在线一区二区免费播放| 理论片中文字幕| 欧美男男激情freegay| 午夜精品一区二区三区视频免费看| 日本三级韩国三级欧美三级| 欧美激情乱人伦| 日本xxxxxxxxx18| 777丰满影院| 999国产精品亚洲77777| 国产综合精品在线| av电影在线网站| 日韩伦理在线一区| 欧美视频官网| 男人天堂网在线视频| 激情美女网站| 狠狠鲁狠狠操| 国产色婷婷国产综合在线理论片a| 日韩精品一区二区三区中文| 性做久久久久久免费观看欧美| 国产精品午夜一区二区欲梦| 亚洲精品成人av久久| 国产精品人人爽人人做我的可爱| 在线观看国产一区二区| 精品视频在线视频| 精品一区亚洲| 国内国产区免费视频| 亚洲乱码免费伦视频| 999久久久久久| 精品网站aaa| 欧美极品在线播放| 久久精品99久久久久久久久| 亚洲国产婷婷综合在线精品| 久久香蕉视频网站| 国产在线拍偷自揄拍精品| 久久精品水蜜桃av综合天堂| 欧美乱妇高清无乱码免费| 欧洲vodafone精品| 日韩av在线播放网址| 亚洲性av网站| 无码中文字幕色专区| 免费黄色av网址| www.操操操.com| 西西人体44www大胆无码| 亚洲国产福利视频| asian性开放少妇pics| 精品少妇一二三区| 国产精品一区二区三区美女| 欧美日韩系列| 99re6这里只有精品| 成人拍拍拍在线观看| 亚洲精品自产拍| 国产超碰91| 中文 日韩 欧美| 国产孕妇孕交大片孕| 亚洲欧美天堂在线| 综合欧美一区二区三区| 粗大的内捧猛烈进出视频| 韩日欧美一区二区| 色呦呦一区二区| 2024最新电影在线免费观看| 亚洲成人久久电影| 国产亚洲精品成人a| 国产成人av福利| 国产精品黄色在线观看| 亚洲专区在线播放| 欧美三级在线播放| 日本高清免费在线视频| 影音先锋一区二区资源站| 久久的色偷偷| 国产在线视频欧美一区| 欧美色爱综合网| 九九九伊在人线综合| 国内久久久精品| 这里只有视频精品| 亚洲成人av中文| 欧美最猛黑人xxxx黑人猛交3p| 国产精品久久看| 九九热精品在线播放| 欧美精品在线观看91| 亚洲第一天堂久久| 日韩欧美亚洲国产精品字幕久久久| 欧美国产一区二区三区| 国产二级一片内射视频播放| 国产精品精品久久久| 先锋av资源色| 偷窥自拍亚洲色图| 国内精品久久99人妻无码| 欧美日本一道本| 亚洲444eee在线观看| 国产精品美女久久福利网站| 亚洲黄色a v| 国产女主播在线播放| 亚洲综合中文| 亚洲一级视频在线观看| 亚洲国产精品一区二区www| 国产二区视频在线观看| 又色又爽又黄无遮挡的免费视频| 99成人国产精品视频| 久久久久久国产精品免费播放| 久久久9999久久精品小说| 久久久www| 久久久久久久久综合影视网| 国产一级aa大片毛片| 青春娱乐分类视频精品2动漫| 日韩国产欧美在线播放| 一级片a一级片| а√天堂资源国产精品| 天堂√中文最新版在线| 国产原创欧美精品| 91看片免费版| 91在线视频免费播放| 性欧美videos精品| h片在线播放| 精精国产xxxx视频在线中文版| 狠狠色噜噜狠狠狠狠97| 99久久夜色精品国产亚洲96| 黄色av免费观看| 美女被男人操网站| www.成人黄色| 中文字幕在线观看免费| 天天综合天天综合色| 欧美成人精品一区二区男人看| 国产成人亚洲精品无码h在线| 在线观看三级视频| 最新中文字幕在线观看| 999在线观看免费大全电视剧| 翔田千里一区二在线观看| 大又大又粗又硬又爽少妇毛片| 国产免费一区二区三区在线观看| 99亚洲精品| 欧美精品在线网站| www久久久| 中文字幕亚洲一区在线观看| 成人av影视在线| 久色乳综合思思在线视频| 亚洲精品一级二级| 日本中文字幕高清视频| av一级二级| 成人免费电影网址| 国产一区二区三区四区三区四| 久草免费在线视频| 日韩av影视综合网| 国产精品熟妇一区二区三区四区| 狠狠激情五月综合婷婷俺| 免费一级在线观看播放网址| 9999国产精品| 136福利视频导航| 精品无人乱码一区二区三区| 好吊妞无缓冲视频观看| 国产欧美日韩激情| 亚洲精品国产一区二区在线| 天天操天天操天天操| 手机看片日韩av| 无码 制服 丝袜 国产 另类| 国产欧美日韩另类| 丰满少妇被猛烈进入高清播放| 动漫av在线免费观看| 国产日韩欧美中文字幕| 717成人午夜免费福利电影| 成人性视频免费网站| 美女一区二区三区| 欧美电影《睫毛膏》| 中文字幕 91| 这里只有精品999| 国产欧美日韩第一页| 亚洲精品视频在线观看免费视频| 影音先锋国产资源站| 男人午夜免费视频| 黄色一级视频片| 欧美在线视频导航| 亚洲综合在线一区| 亚洲r级在线观看| av一区二区三区黑人| 国产精品99久久久久久久| 电影亚洲精品噜噜在线观看| 亚洲小视频在线播放| 久久女同精品一区二区| 久久久99免费视频| 日本性爱视频在线观看| 香蕉视频在线免费| 美女脱光内衣内裤视频久久网站| 欧美在线观看你懂的| 99三级在线| 成人影院网站ww555久久精品| 国产卡一卡二卡三| 欧美尤物一区| av资源网在线观看| 成人免费观看网站| 日韩不卡一二三区| 男女污污视频在线观看| 伦理中文字幕亚洲| 中文字幕av一区二区三区人| 亚洲美女搞黄| 农村妇女精品一二区| 人妻妺妺窝人体色www聚色窝| 国产精品91一区二区三区| 亚洲国内精品在线| 国产精品成人观看视频免费| 91伦理视频在线观看| 久久精品国产亚洲av麻豆蜜芽| 国产精品中文字幕在线观看| 99综合电影在线视频| 男人久久精品| 亚欧洲精品视频在线观看| 欧美日韩国产免费| 天天综合网天天综合色| 国产精品国产一区二区| 91精品欧美福利在线观看| 日韩精品一区二区亚洲av| 女同久久另类99精品国产| 国产麻豆午夜三级精品| 午夜精品福利在线观看| 秘密影院久久综合亚洲综合| 天天射天天干天天| 国产福利91精品一区二区三区| 亚洲一区二区高清视频| 亚洲视频综合在线| 91福利社在线观看| 日本久久一区二区三区| 嘿嘿视频在线观看| 久久亚洲一区二区| 不卡视频一区二区| 国产视频精品一区二区三区| 九色蝌蚪自拍| 中文字幕av免费专区久久| 日本老妇乱子| 久久国产直播| 国产精品成人一区二区三区夜夜夜| 免费看一级黄色| 亚洲人成免费电影| 亚洲成年人电影在线观看| 激情五月色综合亚洲小说| 永久免费精品视频| 欧美成人69| 免费资源在线观看| 久久噜噜亚洲综合| 国产视频综合在线| 日本久久一二三四| 日本不卡1区2区3区| 91精品丝袜国产高跟在线| 国产ts一区二区| 精品国产31久久久久久| 天堂久久一区二区三区| 国产男男chinese网站| 蜜臀一区二区三区| 日韩电视剧免费观看网站| 精品中文视频在线| 欧美日精品一区视频| 欧美精品一区二区三区在线播放| 九九大香尹人视频免费| 欧美日韩尤物久久| 欧美日韩一区二区三区免费|