言語処理学会予稿集から各論文の概要を抽出するプログラム
git clone https://github.com/fmalina/PDFtranscript
pip install -r ./PDFtranscript/requirements.txt
# 予稿集アーカイブより NLP-2025.zip をダウンロードして展開
# https://www.anlp.jp/resource/annual_meeting.html
# NLP-2025 への path を環境変数 DATA_DIR に指定
rm -rf NLP-2025/html
mkdir NLP-2025/HTML
mv NLP-2025/pdf_dir NLP-2025/PDF
PDFtranscript を用いて pdf を html に変換する
echo $DATA_DIR
python PDFtranscript/pdf2html.py
# 1論文あたり7秒程度
python PDFtranscript/transcript.py
タグを元にアブストに該当する文字列を抽出する
python src/extract_abstract.py
その他論文情報はダウンロードしたプログラムページをスクレイピングして取得する
python src/extract_paper_info.py
python merge_csv.py