Вроде бы как работает. Должна брать последний id из монго, идти на сайт и парсиить мангу пока не наткнеться на этот id. потом собирать все в файл, а потом пушить в базу.

2025-11-02 23:33:31 +03:00
commit 960db31f1f
5 changed files with 298 additions and 0 deletions
--- a/HBD.py
+++ b/HBD.py
@@ -0,0 +1,41 @@
+from pymongo import MongoClient
+
+
+def connect_to_mongo():
+    """Подключение к MongoDB"""
+    client = MongoClient("mongodb://localhost:27017/")
+    db = client["Manga"]
+    return db["Test"]
+
+
+def find_doc_with_max_id(collection):
+    """
+    Находит документ с максимальным значением в поле 'id'
+    и возвращает его 'id' и 'num'
+    """
+    # Сортируем по убыванию и берем первый документ
+    doc = collection.find_one(
+        {"num": {"$exists": True}},
+        sort=[("num", -1)],
+        projection={"id": 1, "num": 1, "_id": 0}
+    )
+
+    if not doc:
+        return None  # Если нет подходящих документов
+
+    return {
+        "id": doc["id"],
+        "num": doc.get("num")  # Используем get() на случай отсутствия поля
+    }
+
+
+if __name__ == "__main__":
+    collection = connect_to_mongo()
+    result = find_doc_with_max_id(collection)
+
+    if result:
+        print(f"Максимальный ID: {result['id']}")
+        print(f"Соответствующий num: {result['num']}")
+    else:
+        print("Документы не найдены или поле 'id' отсутствует")
+
--- a/Manga_import.py
+++ b/Manga_import.py
@@ -0,0 +1,53 @@
+from pymongo import MongoClient
+from pymongo.errors import DuplicateKeyError
+import full_img_manga as fim
+import Serch_H
+
+def import_from_json():
+
+    # Получаем данные
+    hentai_data = fim.process_hentai_data(hent_data=Serch_H.get_data()) # Это должен быть словарь {название: данные}
+    num = 29915 + len(hentai_data)
+
+
+    # Проверяем структуру данных
+    if not isinstance(hentai_data, dict):
+        print("Ошибка: Данные должны быть в формате словаря {название: данные}")
+        return
+
+    # Обрабатываем данные напрямую без process_hentai_data
+    for manga_title, manga_data in hentai_data.items():
+        try:
+            # Добавляем оригинальное название
+            manga_data["original_title"] = manga_title
+
+            # Проверяем наличие обязательных полей
+            if "id" not in manga_data:
+
+                manga_data["id"] = num
+                num -= 1
+
+            # Добавляем в базу
+            collection.insert_one(manga_data)
+            print(f"Успешно добавлено: {manga_title} (ID: {manga_data['id']})")
+
+        except DuplicateKeyError:
+            print(f"Дубликат, пропускаем: {manga_title}")
+        except Exception as e:
+            print(f"Ошибка с '{manga_title}': {str(e)}")
+
+
+if __name__ == "__main__":
+    # Подключение к MongoDB
+    client = MongoClient("mongodb://localhost:27017/")
+    db = client["Manga"]
+    collection = db["Hentai_Manga"]
+
+    # Создаем индексы
+    collection.create_index("id", unique=True)
+    collection.create_index("original_title")
+
+    # Запускаем импорт
+    print("Начало импорта...")
+    import_from_json()
+    print("Импорт завершен!")
--- a/Serch_H.py
+++ b/Serch_H.py
@@ -0,0 +1,112 @@
+from bs4 import BeautifulSoup as bs
+import requests
+import HBD
+
+link = 'https://x3.h-chan.me/manga/newest?offset='
+result = HBD.find_doc_with_max_id(HBD.connect_to_mongo())
+
+max_id = '51196'
+max_num = 29915
+
+def form_date(date_str):
+    months = {
+        "января": "01",
+        "февраля": "02",
+        "марта": "03",
+        "апреля": "04",
+        "мая": "05",
+        "июня": "06",
+        "июля": "07",
+        "августа": "08",
+        "сентября": "09",
+        "октября": "10",
+        "ноября": "11",
+        "декабря": "12",
+    }
+
+    day, month_str, year = date_str.split()
+
+    # Получаем числовое значение месяца
+    month = months[month_str]
+
+    # Формируем дату в нужном формате
+    formatted_date = f"{day}.{month}.{year}"
+
+    return formatted_date
+
+def try_request(link, max_retries=50):
+    retries = 0
+    while retries < max_retries:
+        try:
+            response = requests.get(link)
+
+            if response.status_code == 200:
+                return response
+            else:
+                retries += 1
+        except:
+            retries += 1
+
+def pars(link, flag):
+    data_hantai = {}
+
+    response = try_request(link)
+
+    soup = bs(response.text, 'html.parser')
+    main_container = soup.find_all(class_='content_row')
+
+    for item in main_container:
+        img = item.find(class_='manga_images')
+        img = img.find('img')
+        img = img['src'] if img else None
+
+        id = img.split('/')[-2][:10]
+
+        row_container = item.find(class_='title_link')
+        link_manga = 'https://hentaichan.live' + row_container.get('href')
+
+        title = row_container.text
+
+        tags = item.find(class_='genre')
+        tags = [tag.strip() for tag in tags.text.split(',')]
+
+
+
+        date = item.find(class_='row4_right').find('b').text
+        date = form_date(date)
+
+        manga_link = link_manga + '?cacheId=' + id
+        manga_link = manga_link.replace('/manga/', '/online/')
+
+        ID = link_manga.split('/')[-1].split('-')[0]
+
+        if int(ID) == int(max_id):
+            flag = True
+            return data_hantai, flag
+
+        data_hantai[title] = {
+            'img': img,
+            'link': link_manga,
+            'tags': tags,
+            'date': date,
+            'manga_link': manga_link,
+            'original_id' : ID,
+        }
+
+
+    print(data_hantai)
+    return data_hantai, flag
+
+def get_data():
+    data = {}
+
+    for i in range(0, 5000, 20):
+        flag = False
+        data_hantai, flag = pars(link + str(i), flag)
+
+        data.update(data_hantai)
+
+        if flag is True:
+            return data
+
+
--- a/full_img_manga.py
+++ b/full_img_manga.py
@@ -0,0 +1,48 @@
+from bs4 import BeautifulSoup as bs
+import requests
+import re
+
+#Поиск фулл страниц манги
+def process_hentai_data(hent_data, max_retries=50):
+
+    data_hantai = {}
+
+    for name, data in hent_data.items():
+        retries = 0
+        images = []
+
+        print(f"Обрабатываем: {name}")
+        print(f"URL: {data['manga_link']}")
+
+        # Запрос страницы с мангой
+        while retries < max_retries:
+            try:
+                response = requests.get(data['manga_link'])
+                if response.status_code == 200:
+                    break
+                retries += 1
+            except:
+                retries += 1
+
+        # Парсинг изображений
+        soup = bs(response.text, 'html.parser')
+        images = re.findall(r'https:\/\/\S+\/manganew\/\S+\.jpg', str(soup))
+
+        print(f"Найдено изображений: {len(images)}")
+        print(images)
+        print(data['original_id'])
+
+        # Формируем результат
+        data_hantai[name] = {
+            'img': data['img'],
+            'link': data['link'],
+            'tags': data['tags'],
+            'date': data['date'],
+            'manga_link': data['manga_link'],
+            'imgs_manga': images,
+            'len_manga': len(images),
+            'original_id': data['original_id']
+        }
+    return data_hantai
+
+
--- a/test.py
+++ b/test.py
@@ -0,0 +1,44 @@
+from pymongo import MongoClient
+from pymongo.errors import DuplicateKeyError
+import json
+
+
+def import_from_json(file_path: str):
+    # Подключение к MongoDB
+    client = MongoClient("mongodb://localhost:27017/")
+    db = client["Manga"]
+    collection = db["Hentai_Manga"]
+
+    # Создаем индекс для нового поля original_id
+    collection.create_index("original_id", unique=True)
+
+    with open(file_path, "r", encoding="utf-8") as file:
+        data = json.load(file)
+
+    for manga_title, manga_data in data.items():
+        try:
+            # 1. Заменяем ключи
+            manga_data["original_title"] = manga_title
+
+            # Правильный способ заменить ключи:
+            if 'id' in manga_data:
+                manga_data['original_id'] = manga_data.pop('id')  # Исправлено: pop() - это метод, а не индекс
+            if 'num' in manga_data:
+                manga_data['id'] = manga_data.pop('num')  # Меняем num на id
+
+            # 2. Вставка документа
+            collection.insert_one(manga_data)
+            print(f"Успешно добавлено: {manga_title} (ID: {manga_data.get('id')})")
+
+        except DuplicateKeyError:
+            print(f"Дубликат, пропускаем: {manga_title} (original_id: {manga_data.get('original_id')})")
+        except Exception as e:
+            print(f"Ошибка с '{manga_title}': {type(e).__name__} - {str(e)}")
+
+    client.close()
+
+
+if __name__ == "__main__":
+    print("=== Начало импорта ===")
+    import_from_json("BD_hentai_1.json")
+    print("=== Импорт завершен ===")