HiThink Research

All

10 repositories

GAGE
Public
General AI evaluation and Gauge Engine. A unified evaluation engine for LLMs, MLLMs, audio, and diffusion models.
agent game-arena sandbox-environment llm llm-evaluation mllm-evaluation
Python
•5•40•5•1•Updated Jan 29, 2026Jan 29, 2026
BizFinBench.v2
Public
BizFinBench.v2: A Unified Offline–Online Bilingual Benchmark for Expert-Level Financial Capability Evaluation of LLMs
benchmark llm-evaluation llm-benchmarking financial-llm
Python
•2•34•0•0•Updated Jan 29, 2026Jan 29, 2026
CCPO
Public
Compress2Focus: Efficient Coordinate Compression for Policy Optimization in Multi-Turn GUI Agents
llm vision-language-model gui-agent computer-use-agent
Python
•0•6•0•0•Updated Jan 21, 2026Jan 21, 2026
FinMTM
Public
FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation
finance benchmark financial-analysis ai-evaluation ai-benchmarking financial-llm
Python
•0•17•0•0•Updated Jan 19, 2026Jan 19, 2026
BizFinBench
Public
A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
finance benchmark llm llm-evaluation llm-benchmarking
Python
•9•222•0•0•Updated Jan 9, 2026Jan 9, 2026
PuzzleClone
Public
PuzzleClone: An SMT-Powered Framework for Synthesizing Verified Mathematical Reasoning Data
data-science llm llm-training
Python
•
Apache License 2.0
•0•5•1•0•Updated Jan 9, 2026Jan 9, 2026
MME-Finance
Public
[MM 2025] A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
finance multimodal llm llm-evaluation llm-benchmarking mmllm
Python
•
Apache License 2.0
•4•44•0•1•Updated Jan 8, 2026Jan 8, 2026
NEXUS-O
Public
[MM 2025] NEXUS-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision
omni audio-decoder llm llm-training
0•4•0•0•Updated Oct 20, 2025Oct 20, 2025
PolyhedronEvaluator
Public
PolyhedronEvaluator
Python
•0•2•0•0•Updated Sep 19, 2025Sep 19, 2025
Published_Papers
Public
0•0•0•0•Updated Feb 17, 2025Feb 17, 2025