Verbesserte Text extrahierung
This commit is contained in:
parent
d46ac83ca9
commit
c1a52b32ad
|
@ -15,10 +15,12 @@ class ArticleRater:
|
|||
"base_url": self.client,
|
||||
"model": "mistral-nemo:12b-instruct-2407-q8_0",
|
||||
"headers": self.headers,
|
||||
"system": "ANTWORTE in der SPRACHE, die auch der ARTIKEL hat. Erkläre in 1-3 Sätzen, warum es sich um solch einen Artikel handeln könnte und woran man es erkennen kann. Beginne die NACHRICHT immer mit dem Resultat under Wahrscheinlichkeit"
|
||||
"system": """Ein Mashine Learning Model hat einen Text bewertet, ob es sich um FakeNews handelt oder um Reale News.
|
||||
Erkläre in 1-3 Sätzen warum dieses Modell zu dieser Entscheidung. Beginne die Antwort IMMER mit den Resultaten und Konfidenzen des Models.
|
||||
DU SOLLST KEINE ÜBERSCHRIFTEN oder ähnliches ERKLÄREN. Du erhählst einen TEXT und sollst erklären wie das RESULTAT zustande kam"""
|
||||
}
|
||||
|
||||
message = (f"A Machine Learning Model labeled an article the following, but RESPOND in the LANGUAGE FROM the ARTICLE: Result: {result} Confidence: {confidence}, The Article: {article}")
|
||||
message = (f"{article}, result: {result}, confidence {confidence}")
|
||||
|
||||
# Initialize the Ollama object with the prepared parameters
|
||||
llm = Ollama(**ollama_params)
|
||||
|
@ -30,21 +32,9 @@ class ArticleRater:
|
|||
if __name__ == "__main__":
|
||||
article_rater = ArticleRater()
|
||||
|
||||
article = """Butler (dpo) - Erneutes Totalversagen beim Secret Service: Ausgerechnet in Butler, dem Ort des vorigen Anschlags auf Donald Trump, ist es gestern zu einem schweren Cringe-Attentat auf den republikanischen Präsidentschaftskandidaten gekommen. Einem Schwerbeknackten gelang es, die Bühne zu stürmen und neben Trump mehrere Luftsprünge zu machen.
|
||||
|
||||
Es sind Szenen, die sich nur schwer ertragen lassen: Zweimal hüpfte der 53-jährige Elon R. Musk manisch-euphorisch neben Trump in die Luft und präsentierte den Zuschauern dabei seinen Bauch. Danach hielt er eine extrem peinliche Rede, in der er Trump in den höchsten Tönen lobte.
|
||||
|
||||
Nach den verstörenden Bildern steht nun erneut der Secret Service in der Kritik. Nach Einschätzung vieler Experten hätten die Agenten die zahlreichen Red Flags hinsichtlich der Cringe-Gefahr für Trump sofort erkennen und Elon Musk mit gezielten Schüssen niederstrecken müssen.
|
||||
|
||||
"Wenn das nicht gelungen wäre, hätten sie sich spätestens, als Musk zum Luftsprung ansetzte, schützend vor den Kandidaten werfen müssen, um peinliche Pressebilder zu vermeiden", erklärt Sicherheitsanalyst Marc Tiede. "Das Versagen wiegt umso schwerer, weil es offenbar einzelne Zuschauer gab, die noch verzweifelt versuchten, die Agenten rechtzeitig vor Musk zu warnen, bevor die fatalen Sprünge fielen – vergeblich."
|
||||
|
||||
Derzeit ist noch unklar, wie es nach dem schweren Cringe-Attentat um den Präsidentschaftskandidaten steht. Laut Medienberichten steht jedoch zu befürchten, dass sich Trumps Rizz bis zur Wahl nicht wieder von diesem Anschlag erholen wird.
|
||||
|
||||
Der Secret Service und das FBI wollen jetzt Untersuchungen einleiten, wie es zu dem für alle Beteiligten höchst unangenehmen Vorfall kommen konnte.
|
||||
|
||||
Bizarr: Elon Musk befindet sich trotz seiner Tat nach wie vor auf freiem Fuß und könnte jederzeit wieder auf republikanischen Wahlkampfveranstaltungen für peinliche Momente sorgen."""
|
||||
result = "FAKE"
|
||||
confidence = 0.9996
|
||||
article = """die wöchentliche Glosse von Stefan Kuzmany Thüringer Landtag: AfD will stören - sichert stattdessen Stabilität der Regierung Ramelow Suche starten Suche öffnen Zur Ausgabe Artikel 79 / 79 Eklat bei Landtagssitzung Thüringer Demokratwurst Eine Glosse von Stefan Kuzmany Ordnungsrufe! Mikros aus! Sitzung unterbrochen! Der Thüringer Alterspräsident Jürgen Treutler (AfD) sichert mit kreativer Sitzungsleitung die Stabilität der Regierung Ramelow. 27.09.2024, 13.00 Uhr • aus DER SPIEGEL 40/2024 Zur Merkliste hinzufügen Artikel anhören (2 Minuten) 2 Min X.com Facebook E-Mail Link kopieren Weitere Optionen zum Teilen X.com Facebook E-Mail Messenger WhatsApp Link kopieren Bild vergrößern Jürgen Treutler (AfD) Foto: Bodo Schackow / dpa Sämtliche Sorgen, die AfD könnte nach ihrem dortigen Wahlerfolg die Demokratie in dem osthessischen Bundeslandstrich Thüringen abschaffen, erweisen sich als unbegründet. Tatsächlich zeigte sich auf der konstituierenden Sitzung des Erfurter Landtags am Donnerstag eindrucksvoll die Stabilität des bewährten Systems. Zu verdanken ist diese beruhigende Entwicklung dem wackeren Alterspräsidenten Jürgen Treutler (73), der bei seinem furiosen Debüt als Landesparlamentarier alle Möglichkeiten ausschöpfte, die ihm in seiner Rolle als Sitzungsleiter zustanden – und sogar noch einige mehr. DER SPIEGEL 40/2024 Foto: Melina Mara / The Washington Post / Getty Images Was kommt, falls sie gewinnt?Als Präsidentin würde Kamala Harris in einer krisengeschüttelten Welt regieren. Öffentlich beteuert sie, in die Fußstapfen von Joe Biden zu trreten, aber in der Außenpolitik will Harris eigene Akzente setzen. Für Europa ist das nicht nur eine gute Nachricht – in Sachhen Protektionismus ist sie eine Schülerin Trumps.Lesen Sie unsere Titelgeschichte, weitere Hintergründe und Analysen im digiitalen SPIEGEL. """
|
||||
result = "REAL"
|
||||
confidence = 0.67
|
||||
|
||||
# Capture the stream response
|
||||
response_stream = article_rater.get_response(article, result, confidence=confidence)
|
||||
|
|
|
@ -4,8 +4,8 @@ from models.data import TextData
|
|||
from Ai.interence import VeraMindInference
|
||||
from Ai.llm import ArticleRater
|
||||
|
||||
BAD_WORDS = ["FAKE", "SATIRE"]
|
||||
GOOD_WORDS = ["REAL"]
|
||||
BAD_WORDS = ["FAKE", "SATIRE", "Fake", "fake"]
|
||||
GOOD_WORDS = ["REAL", "real", "Real"]
|
||||
BAD_COLOR = "#ff8080"
|
||||
GOOD_COLOR = "#80ff8f"
|
||||
WORDS = BAD_WORDS + GOOD_WORDS
|
||||
|
@ -28,11 +28,12 @@ class MainFrameController:
|
|||
|
||||
def press_check_button(self):
|
||||
text_data = self.get_textdata()
|
||||
print(text_data.text)
|
||||
self.prediction(text_data)
|
||||
self.frame.output_textbox.configure(state="normal")
|
||||
self.frame.output_textbox.delete("0.0", "end")
|
||||
|
||||
response_stream = self.rater.get_response(text_data.text, text_data.result, f"{text_data.confidence * 100:.2f}")
|
||||
response_stream = self.rater.get_response(text_data.text, text_data.result, float(f"{text_data.confidence * 100:.2f}"))
|
||||
|
||||
highlight_buffer = deque(maxlen=5)
|
||||
|
||||
|
@ -78,7 +79,7 @@ class MainFrameController:
|
|||
self.frame.output_textbox.tag_add(tag_name, word_start, word_end)
|
||||
if word in BAD_WORDS:
|
||||
self.frame.output_textbox.tag_config(tag_name, foreground=BAD_COLOR)
|
||||
elif word in GOOD_COLOR:
|
||||
elif word in GOOD_WORDS:
|
||||
self.frame.output_textbox.tag_config(tag_name, foreground=GOOD_COLOR)
|
||||
start = pos + len(word)
|
||||
|
||||
|
|
|
@ -34,20 +34,21 @@ class WebTextExtractor:
|
|||
raise Exception("Kein Text extrahiert. Bitte zuerst extract_text() aufrufen.")
|
||||
|
||||
def resize_article(self, article):
|
||||
"""Resizes the article by removing the first 30 words and the last 10%."""
|
||||
"""Resizes the article by removing the first 30 words and limiting the length to 512 words."""
|
||||
# Split the article into a list of words
|
||||
words = article.split()
|
||||
|
||||
# Remove the first 30 words
|
||||
words = words[30:]
|
||||
|
||||
# Calculate the number of words to remove from the end (10% of the total words)
|
||||
num_to_remove = int(len(words) * 0.1)
|
||||
# Calculate the number of words to keep (up to 512 words)
|
||||
num_to_keep = min(512, len(words))
|
||||
|
||||
# Remove the last 10% of words
|
||||
words = words[:-num_to_remove]
|
||||
# Slice the list of words to keep only the first num_to_keep words
|
||||
words = words[:num_to_keep]
|
||||
|
||||
# Join the remaining words back into a single string
|
||||
resized_article = ' '.join(words)
|
||||
|
||||
return resized_article
|
||||
|
||||
|
|
Loading…
Reference in New Issue