Fix Python parsing issue

shubhamugare · shubhamugare · commit db2c121b41c0 · 2024-12-26T15:11:49.000-06:00
diff --git a/notebooks/tests/python.ipynb b/notebooks/tests/python.ipynb
@@ -0,0 +1,112 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/shubham/anaconda3/envs/codex/lib/python3.11/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  3.26it/s]\n"
+     ]
+    }
+   ],
+   "source": [
+    "from syncode.grammar_decoder import SyncodeLogitsProcessor\n",
+    "from syncode.parsers.grammars import Grammar\n",
+    "import torch\n",
+    "from transformers import AutoModelForCausalLM\n",
+    "from transformers import AutoTokenizer\n",
+    "\n",
+    "# Step 1. Load model and tokenizer\n",
+    "model_name = \"microsoft/phi-2\"\n",
+    "model = AutoModelForCausalLM.from_pretrained(model_name)\n",
+    "tokenizer = AutoTokenizer.from_pretrained(model_name)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Generated token id: 25 (:)\n",
+      "Score of this token: 28.345928192138672\n",
+      "Colon token id: 25 (:)\n",
+      "Score of colon token: 28.345928192138672\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Step 2. Set prompt\n",
+    "prompt = \"\"\"def is_palindrome(n):\n",
+    "  if str(n) == str(n)[::-1]:\n",
+    "    return True\n",
+    "  else\"\"\"\n",
+    "\n",
+    "# Step 3. Initialize SyncodeLogitsProcessor\n",
+    "syncode_processor = SyncodeLogitsProcessor(grammar=Grammar(\"python\"),\n",
+    "                                           tokenizer=tokenizer,\n",
+    "                                           parse_output_only=False)\n",
+    "syncode_processor.reset(prompt)\n",
+    "\n",
+    "# Step 4. Generate scores with SyncodeLogitsProcessor\n",
+    "inputs = tokenizer(prompt, return_tensors=\"pt\").input_ids\n",
+    "outputs = model.generate(inputs,\n",
+    "                         attention_mask=torch.ones_like(inputs),\n",
+    "                         do_sample=True,\n",
+    "                         logits_processor=[syncode_processor],\n",
+    "                         return_dict_in_generate=True,\n",
+    "                         output_scores=True,\n",
+    "                         max_new_tokens=1)\n",
+    "\n",
+    "# Step 5. Print scores\n",
+    "scores = outputs.scores\n",
+    "generated_id = outputs.sequences[0, -1]\n",
+    "generated_str = tokenizer.decode(generated_id, skip_special_tokens=True)\n",
+    "print(f\"Generated token id: {generated_id} ({generated_str})\")\n",
+    "print(f\"Score of this token: {scores[0][-1][generated_id]}\")\n",
+    "\n",
+    "colon_id = tokenizer.encode(':')[0]\n",
+    "colon_str = tokenizer.decode(colon_id)\n",
+    "print(f\"Colon token id: {colon_id} ({colon_str})\")\n",
+    "print(f\"Score of colon token: {scores[0][-1][colon_id]}\")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "codex",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.4"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/syncode/evaluation/sql_eval.py b/syncode/evaluation/sql_eval.py
@@ -3,7 +3,7 @@
 from typing import Optional
 from tqdm import tqdm
 from mxeval.data import write_jsonl
-
+from datasets import load_dataset
 
 class SQLEval:
     """
@@ -36,8 +36,9 @@ def run_eval(syncode, out_path: Optional[str], num_tasks: Optional[int]=None, de
             for task_id, problem in enumerate(problems):
                 results[task_id] = []
                 start_time = time.time()
-                batch_completions = syncode.model.generate_batch_completion_grammar(
-                    problem['prompt'],
+                prompt = problem['prompt']
+                batch_completions = syncode.model.generate_grammar_constrained_completion(
+                    prompt,
                     syncode.num_samples
                     )
                 end_time = time.time()
diff --git a/syncode/parsers/python_parser.py b/syncode/parsers/python_parser.py
@@ -58,12 +58,13 @@ def get_acceptable_next_terminals(self, partial_code) -> ParseResult:
                     self.dedent_queue.append(token)
                     continue
                 else:
-                    self.parsed_lexer_tokens.append(token) # parser_token_seq holds all tokens except _INDENT and _DEDENT
+                    self.parsed_lexer_tokens.append(token) # parsed_token_seq holds all tokens except _INDENT and _DEDENT
 
                     while not len(self.dedent_queue)==0: # Shoot all the dedent tokens that are in the queue
                         self.indent_level.pop()
                         dedent_token = self.dedent_queue.pop()
                         interactive.feed_token(dedent_token)
+                        self.cur_ac_terminals, self.next_ac_terminals = self.next_ac_terminals, self._accepts(interactive)
                 
                 interactive.feed_token(token)
 
@@ -83,8 +84,11 @@ def get_acceptable_next_terminals(self, partial_code) -> ParseResult:
         
         # Compute current terminal string
         remainder_state, current_term_str, final_terminal = self._get_remainder(partial_code, lexing_incomplete=lexing_incomplete, parse_incomplete=parse_incomplete)  
-
+        
+        cur_ac_terminals = self.cur_ac_terminals
+        next_ac_terminals = self.next_ac_terminals
         next_ac_indents = None
+
         if remainder_state == RemainderState.MAYBE_COMPLETE or remainder_state == RemainderState.COMPLETE:
             if len(self.parsed_lexer_tokens) > 0 and self.parsed_lexer_tokens[-1].type == '_NL':
                 last_indent_str = self.parsed_lexer_tokens[-1].value.split('\n')[-1]
@@ -99,10 +103,19 @@ def get_acceptable_next_terminals(self, partial_code) -> ParseResult:
                     next_ac_indents = IndentationConstraint(accept_indents=next_ac_indents)  
 
                 # '_NL' is always accepted in this case
-                self.cur_ac_terminals.add('_NL')
-                self.next_ac_terminals.add('_NL') 
-
-        return ParseResult.from_accept_terminals(self.cur_ac_terminals, self.next_ac_terminals, current_term_str, remainder_state, next_ac_indents=next_ac_indents, final_terminal=final_terminal, ignore_terminals=self.base_parser.lexer_conf.ignore)
+                cur_ac_terminals.add('_NL')
+                next_ac_terminals.add('_NL') 
+
+                # feed _DEDENT tokens in the interactive parser
+                # See test_grammar_python.test_parser25
+                while not len(self.dedent_queue)==0 and '_DEDENT' in self.next_ac_terminals:
+                    dedent_token = self.dedent_queue.pop()
+                    interactive.feed_token(dedent_token)
+                    self.cur_ac_terminals = self.next_ac_terminals
+                    self.next_ac_terminals = self._accepts(interactive)
+                    next_ac_terminals |= self.next_ac_terminals
+
+        return ParseResult.from_accept_terminals(cur_ac_terminals, next_ac_terminals, current_term_str, remainder_state, next_ac_indents=next_ac_indents, final_terminal=final_terminal, ignore_terminals=self.base_parser.lexer_conf.ignore)
 
     def _update_indent_levels(self, indent_level, indent):
         # if self.cur_pos != len(lexer_tokens): # Store previous indentation levels except the last one
diff --git a/tests/test_grammar_python.py b/tests/test_grammar_python.py
@@ -1,9 +1,7 @@
 import unittest
 import sys, os
 sys.path.append(os.path.dirname(os.path.realpath(__file__)) + '/../')
-from syncode.parsers.python_parser import PythonIncrementalParser
 from syncode.parsers import create_parser
-import syncode.common
 from transformers import (
     LlamaTokenizer,
 )
@@ -317,8 +315,31 @@ def test_parser24(self):
         print(r)
         assert r.remainder == 'i'
         assert AcceptSequence(['IN']) in r.accept_sequences
-        # TODO: FIX THIS TEST. 
-        # assert r.remainder_state == RemainderState.INCOMPLETE
+    
+    def test_parser25(self):
+        inc_parser.reset()
+        partial_code = "def foo(string: str):\n\tif string == 'hello':\n\t\treturn 'world'\n\t"
+        r = inc_parser.get_acceptable_next_terminals(partial_code)
+        assert AcceptSequence(['_NL', 'ELSE']) in r.accept_sequences
+        assert AcceptSequence(['_NL', 'ELIF']) in r.accept_sequences
+        
+        inc_parser.reset()
+        partial_code = "def foo(string1: str, string2: str):\n\tif string1 == 'hello':\n\t\tif string2 == 'world':\n\t\t\treturn 'world'\n\t\t"
+        r = inc_parser.get_acceptable_next_terminals(partial_code)
+        assert AcceptSequence(['_NL', 'ELSE']) in r.accept_sequences
+        assert AcceptSequence(['_NL', 'ELIF']) in r.accept_sequences
+
+        inc_parser.reset()
+        partial_code = "def foo(string1: str, string2: str):\n\tif string1 == 'hello':\n\t\tif string2 == 'world':\n\t\t\treturn 'world'\n\t\t\t"
+        r = inc_parser.get_acceptable_next_terminals(partial_code)
+        assert not AcceptSequence(['_NL', 'ELSE']) in r.accept_sequences
+        assert not AcceptSequence(['_NL', 'ELIF']) in r.accept_sequences
+
+        inc_parser.reset()
+        partial_code = "def foo(string1: str, string2: str):\n\tif string1 == 'hello':\n\t\tif string2 == 'world':\n\t\t\treturn 'world'\n\t\telse"
+        r = inc_parser.get_acceptable_next_terminals(partial_code)
+        assert AcceptSequence(['ELSE', 'COLON']) in r.accept_sequences
+
 
 if __name__ == "__main__":
     unittest.main()