Handle flow dictionary direct output in evaluators #45163

m7md7sien · 2026-02-12T16:14:42Z

Description

Handle flow dictionary direct output in evaluators: The case where flow returns <actual_output> directly instead of {"llm_output": <actual_output>}

All SDK Contribution checklist:

The pull request does not introduce [breaking changes]
CHANGELOG is updated for new features, bug fixes or other significant changes.
I have read the contribution guidelines.

General Guidelines and Best Practices

Title of the pull request is clear and informative.
There are a small number of commits, each of which have an informative message. This means that previously merged commits do not appear in the history of the PR. For more information on cleaning up the commits in your PR, see this page.

Testing Guidelines

Pull request includes test coverage for the included changes.

Copilot

Pull request overview

This PR updates multiple prompt-based evaluators to handle the case where a prompty flow returns the evaluation payload dict directly (instead of wrapping it under {"llm_output": ...}), improving evaluator robustness across different flow output shapes.

Changes:

Update evaluators to fall back to treating the full flow result as llm_output when the llm_output key is missing.
Fix _ToolSelectionEvaluator to respect the threshold passed into __init__ (instead of hardcoding 1).
Improve a few evaluator-specific behaviors/documentation (e.g., token-metadata handling in response completeness, input validation in similarity, and a docstring example fix).

Reviewed changes

Copilot reviewed 13 out of 13 changed files in this pull request and generated 2 comments.

Show a summary per file

File	Description
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_selection/_tool_selection.py	Use provided `threshold` and support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_output_utilization/_tool_output_utilization.py	Support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_input_accuracy/_tool_input_accuracy.py	Support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_call_success/_tool_call_success.py	Support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_call_accuracy/_tool_call_accuracy.py	Support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_navigation_efficiency/_task_navigation_efficiency.py	Fix a docstring example list quoting issue.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_completion/_task_completion.py	Support direct-dict flow outputs; adjust tool_definitions formatting condition.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_adherence/_task_adherence.py	Support direct-dict flow outputs; include threshold in returned properties.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_similarity/_similarity.py	Add explicit required-input validation via `EvaluationException`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_response_completeness/_response_completeness.py	Support direct-dict flow outputs; make token-metadata extraction safe when result isn’t a dict.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_relevance/_relevance.py	Support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_intent_resolution/_intent_resolution.py	Support direct-dict flow outputs for `llm_output`.
sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_groundedness/_groundedness.py	Align AsyncPrompty import with env-var switch used elsewhere (promptflow vs legacy).

...ion/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_completion/_task_completion.py

...ation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_selection/_tool_selection.py

Handle flow dictionary direct output in evaluators

59e7cf2

m7md7sien requested a review from a team as a code owner February 12, 2026 16:14

Copilot AI review requested due to automatic review settings February 12, 2026 16:14

github-actions bot added the Evaluation Issues related to the client library for Azure AI Evaluation label Feb 12, 2026

Copilot started reviewing on behalf of m7md7sien February 12, 2026 16:15 View session

Copilot AI reviewed Feb 12, 2026

View reviewed changes

...ion/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_task_completion/_task_completion.py Show resolved Hide resolved

...ation/azure-ai-evaluation/azure/ai/evaluation/_evaluators/_tool_selection/_tool_selection.py Show resolved Hide resolved

Merge branch 'main' into mohessie/agentic-evaluators-flow-fixes

286a946

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Handle flow dictionary direct output in evaluators #45163

Handle flow dictionary direct output in evaluators #45163

Uh oh!

m7md7sien commented Feb 12, 2026

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Handle flow dictionary direct output in evaluators #45163

Are you sure you want to change the base?

Handle flow dictionary direct output in evaluators #45163

Uh oh!

Conversation

m7md7sien commented Feb 12, 2026

Description

All SDK Contribution checklist:

General Guidelines and Best Practices

Testing Guidelines

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant