Redundante Inhalte mittels semantischer Suche entdecken

Seid ihr Betreiber einer Online Community, z.B. von einem großen Forum, so passiert es schnell das Fragen mehrfach gestellt werden. Oft werden sogar immer die gleichen Fragen immer wieder gestellt. Hier ist es hilfreich, diese Fragen zuerst zu identifizieren. Diese lassen sich dann z.B. auf einer FAQ-Seite zusammen fassen. Oder man blendet dem Benutzer ähnliche Fragen zu seinem Thema ein. In diesem Artikel zeige ich euch, wie ihr dieses mittels semantischer Suche bewerkstelligen könnt. Was ist semantisch Suche? Traditionell wird lexikalische Suche verwendet, dabei wird nach den passenden Keywords gesucht. Allerdings enthalte Dokumente die nicht unbedingt die exakt gleiche Schreibweise und werden damit nicht gefunden. Hat man eine Crypto-Webseite, wie z.B. https://bitcoineraapp.de/, möchte man vielleicht dass Dokumente die Bitcoin als Word enthalten, ebenfalls gefunden werden wenn man nach BTC sucht. Dieses Problem umgeht die semantisch Suche. Dabei werden Texte und Suchanfragen mittels Vektorraum abgebildet so dass ähnliche Wörter und Texte nah sind im Vektorraum. Auf die genaue Schreibweise kommt es dabei nicht mehr an, ebenfalls werden Synonyme und verwandte Begriffe dabei erkannt. Eine Suchanfrage wird dabei ebenfalls erst in so einen Vektor umgewandelt, bevor dann im Vektorraum nach passenden Dokumenten gesucht wird. Redundanten Inhalte finden Seid ihr der Betreiber einer großen User-Community, so werden sich die immer gleichen Fragen irgendwann häufen. Dort ist es dann nützlich, die häufigen Fragen zu identifizieren, ggf. daraus eine FAQ Seite zu erstellen oder man kann diese Themen zusammen führen. Um diese redundanten Inhalte zu finden lässt sich sentence-transformers nutzen. Zuerst installiert ihr das Paket:pip install sentence-transformersAnschließend definiert ihr eure Sätze und ruft die paraphrase mining Methode auf:from sentence_transformers import SentenceTransformer, util model = SentenceTransformer('all-MiniLM-L6-v2') # Single list of sentences - Possible tens of thousands of sentences sentences = ['The cat sits outside', 'A man is playing guitar', 'I love pasta', 'The new movie is awesome', 'The cat plays in the garden', 'A woman watches TV', 'The new movie is so great', 'Do you like pizza?'] paraphrases = util.paraphrase_mining(model, sentences) for paraphrase in paraphrases[0:10]: score, i, j = paraphrase print("{} \t\t {} \t\t Score: {:.4f}".format(sentences[i], sentences[j], score))Als Ergebnis bekommt ihr eine Liste mit Satzpaaren zurück, beginnend mit den Sätzen die die höchste Ähnlichkeit aufweisen. Nun müsst ihr nur noch diese Liste durchgehen und entscheiden welche der Themen in eure FAQ einfließen sollen.

zum Artikel gehen

Suche Datenblatt

Guten Abend in die Runde, ich bin auf der Suche nach einem Datenblatt für den Motor FSM 126 a1.076 E. Wir haben einen Kunden, der diesen Motor in seinen Fait 500 eingebaut hat und soll das ganze jetzt legal für den deutschen Straßenverkehr machen. Mittel

zum Artikel gehen

Berlin Sightseeing Tour Programm

Individuelle Berlin Stadtführungen Berliner Sightseeing zum Wunschtermin. Die Prachtstraßen und Plätze per Pedes auf einer Berlin Stadtführung zu Fuß entdecken. Unsere Berliner Stadtrundgänge sind ideal für kleine Gruppen von 5 bis ca. 25 Personen. ▷ Berl

zum Artikel gehen

Mary Is Coming (Remaster 2023) | Digitaler Release: 26.05.2023

Externer Inhalt www.instagram.com Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt. Alle externen Inhalte anzeigen Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden,

zum Artikel gehen

A-ha Coverversionen

Das ist mal 'ne interessante Version! Sehr gut und überzeugend gemacht! Externer Inhalt www.youtube.com Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt. Alle externen Inhalte anzeigen Durch

zum Artikel gehen