Zum Hauptinhalt springen

Vektorgenerierung

Die Vektorgenerierung muss in Verbindung mit einem Speicher verwendet werden, was bedeutet, dass Sie den Speicher verstehen müssen, bevor Sie Vektoren verstehen können.

Vektoren sind tatsächlich das Ergebnis von Embeddings, einem Prozess, der verschiedene Arten von Daten (wie Text und Bilder) in dichte Vektordarstellungen umwandelt. Dieser Schritt ist entscheidend für die effiziente Datenverarbeitung und -analyse in Casibase. Durch Embeddings werden sowohl die Fragen im Chat als auch die Wissensdateien im Speicher in Vektoren umgewandelt, die im nächsten Schritt für die Wissenssuche verwendet werden.

1. Automatic Embedding

Casibase automatically generates vectors when you upload files to a store. After configuring a store with storage, model, and embedding providers, simply upload your files through the file tree interface. The system immediately queues them for embedding and processes them in the background.

Each file progresses through states you can monitor in the Files page: Pending, Processing, Finished, or Error. The system calculates token counts during embedding and displays them alongside each file. If embedding fails for any file, the error details appear in the file list so you can quickly identify and fix issues like missing provider configurations or unsupported file formats.

When you delete files from storage, their vectors are automatically removed from the database. This keeps your knowledge base synchronized - you won't get outdated responses from files that no longer exist.

2. Vektoren aktualisieren

Die Vektoraktualisierung ist als Schaltfläche unter dem Speichermenü für jeden Speicherdatensatz eingerichtet. After configuring stores with storage providers, navigate to the Stores page to view the file tree for the storage providers.

By clicking on the Refresh Vectors button for a particular store, it will generate the corresponding vectors for all the files in the file tree for that store by embedding them. Die folgende Abbildung zeigt die Seite und den Vorgang.

refreshVectors.png

When you refresh vectors, the system automatically removes all existing vectors for that store before generating new ones. This ensures your vector database stays synchronized with your current files - if you've deleted files from storage, their vectors will be removed as well. The refresh always creates a clean, up-to-date vector set based on your current file tree.

Re-embedding Individual Files

For targeted updates, use the "Refresh Vectors" button in the Files page next to any specific file. This regenerates vectors for just that file while leaving others untouched - useful when you've changed embedding settings or need to fix errors on specific documents without reprocessing your entire knowledge base.

3. Vektoren anzeigen

After that, we can view the specific vectors generated by that store in the vector menu.

vectors.png

Wie wir sehen können, wurden die Speicherdateien aus dem vorherigen Schritt der Vektoraktualisierung in Vektoren umgewandelt und werden hier angezeigt.

img.png

Meine Vektorbearbeitungsseite zeigt spezifische Informationen wie den Speichernamen, den Namen des Embedding-Modells, den Namen der eingebetteten Datei, die Dateigröße, die Dimensionen, die Vektordaten usw.