Вроде бы как работает. Должна брать последний id из монго, идти на сайт и парсиить мангу пока не наткнеться на этот id. потом собирать все в файл, а потом пушить в базу.
This commit is contained in:
15
Serch_H.py
15
Serch_H.py
@@ -2,12 +2,13 @@ from bs4 import BeautifulSoup as bs
|
||||
import requests
|
||||
import HBD
|
||||
|
||||
link = 'https://x3.h-chan.me/manga/newest?offset='
|
||||
link = 'https://x8.h-chan.me/manga/newest?offset=' #https://x8.h-chan.me/manga/
|
||||
result = HBD.find_doc_with_max_id(HBD.connect_to_mongo())
|
||||
|
||||
max_id = '51196'
|
||||
max_num = 29915
|
||||
|
||||
|
||||
def form_date(date_str):
|
||||
months = {
|
||||
"января": "01",
|
||||
@@ -47,7 +48,7 @@ def try_request(link, max_retries=50):
|
||||
except:
|
||||
retries += 1
|
||||
|
||||
def pars(link, flag):
|
||||
def pars(link, flag, count):
|
||||
data_hantai = {}
|
||||
|
||||
response = try_request(link)
|
||||
@@ -93,16 +94,22 @@ def pars(link, flag):
|
||||
'original_id' : ID,
|
||||
}
|
||||
|
||||
print(f'стр - {count}', data_hantai)
|
||||
|
||||
for i, j in data_hantai.items():
|
||||
print('-'*10, i, j['manga_link'])
|
||||
|
||||
print(data_hantai)
|
||||
return data_hantai, flag
|
||||
|
||||
def get_data():
|
||||
data = {}
|
||||
count = 1
|
||||
|
||||
for i in range(0, 5000, 20):
|
||||
|
||||
flag = False
|
||||
data_hantai, flag = pars(link + str(i), flag)
|
||||
data_hantai, flag = pars(link + str(i), flag, count)
|
||||
count +=1
|
||||
|
||||
data.update(data_hantai)
|
||||
|
||||
|
||||
Reference in New Issue
Block a user