LlamaIndex - الباب 2 (QA والتقييم)
مثال على مستوى الإنتاج
قطاع الجودة
حالة المستخدم:
** ماذا **
- البحث الدلالي ** Semantic search ** Top K
- المرفق الأول
** أين **
- Over documents
- Building a multi-document agent over the LlamaIndex docs
- البيانات المنظمة (على سبيل المثال JSON)
- البحث في جداول الباندا
- نص إلى SQL
** كيف**
كل الروابط أعلاه تشير إلى: أنماط Q&A أدناه
أسهل Q & A
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
print(response)
تحديد مصدر البيانات المختلف (Route Datasource)
مقارنة/مقارنة استعلامات
لا أفهم هذا
إلى جانب تدفقات التوليف / التوجيه الصريحة الموضحة أعلاه ، يمكن للاما إنديكس دعم استعلامات متعددة الوثائق أكثر عمومية أيضًا.يمكن القيام بذلك من خلال فئة SubQuestionQueryEngine
لدينا.بالنظر إلى الاستعلام ، سيقوم محرك الاستعلام هذا بإنشاء "خطة الاستعلام" التي تحتوي على استعلامات فرعية ضد المستندات الفرعية قبل توليف الإجابة النهائية.
يمكن لمحرك الاستعلام هذا تنفيذ أي عدد من الاستعلامات الفرعية ضد أي مجموعة فرعية من أدوات محرك الاستعلام قبل توليف الإجابة النهائية.وهذا يجعله مناسبًا بشكل خاص لاستعلامات المقارنة / التناقض عبر المستندات وكذلك الاستعلامات المتعلقة بمستند معين.
يمكن أن يدعم LlamaIndex أيضًا الاستعلامات المتكررة متعددة الخطوات.بالنظر إلى استعلام معقد ، قم بتقسيمه إلى أسئلة فرعية أولية ، وقم بتوليد أسئلة فرعية بالتسلسل بناءً على الإجابات المرجعة حتى يتم إرجاع الإجابة النهائية.
على سبيل المثال ، نظرًا لسؤال "من كان في الدفعة الأولى من برنامج المسرع الذي بدأه المؤلف؟ستقوم الوحدة أولاً بتحلل الاستعلام إلى سؤال أولي أبسط "ما هو برنامج المسرع الذي بدأه المؤلف؟"استفسار عن الفهرس، ثم طرح أسئلة المتابعة.
إيفال
- تقييم الاستجابة
- تقييم البحث
- تقييم الاستجابة
- استخدام GPT-4 للتقييم
- أبعاد التقييم
- الإجابات المنتجة والإجابات المرجعية: الصحة والتشابه الدلالي
- الإجابات الناتجة مع السياقات retrieved: Faithfulness
- الإجابات الناتجة عن Query: Answer Relevance
- استرجاع السياقات والعلام:Context Relevance
- إنشاء إجابات مرجعية
- الاسترجاع (retrieval)
- كيفية التقييم: مقاييس الترتيب مثل متوسط الترتيب المتبادل (MRR) ، معدل الضربة ، الدقة ، وأكثر من ذلك.
أمثلة على الاستخدام
التكامل مع الأدوات الأخرى
- UpTrain: 1.9K:可试用,但是需要book demo,目测不便宜
- Tonic Validate(Includes Web UI for visualizing results):有商业版本,可试用,之后200美元/月
- DeepEval: 1.6K
- Ragas: 4.4K
- أشعر بشعور جيد
- Llamaindex-->Ragas-->LangSmith وأدوات أخرى
ModuleNotFoundError: No module named 'ragas.metrics'; 'ragas' is not a package