Skip to content

言語処理学会予稿集から各論文の概要を抽出するプログラム

Notifications You must be signed in to change notification settings

yuji96/parse-abstract-ANLP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

言語処理学会予稿集から各論文の概要を抽出するプログラム

準備

git clone https://github.com/fmalina/PDFtranscript
pip install -r ./PDFtranscript/requirements.txt
# 予稿集アーカイブより NLP-2025.zip をダウンロードして展開
# https://www.anlp.jp/resource/annual_meeting.html
# NLP-2025 への path を環境変数 DATA_DIR に指定

rm -rf NLP-2025/html
mkdir NLP-2025/HTML
mv NLP-2025/pdf_dir NLP-2025/PDF

概要取得

PDFtranscript を用いて pdf を html に変換する

echo $DATA_DIR
python PDFtranscript/pdf2html.py
# 1論文あたり7秒程度

python PDFtranscript/transcript.py

タグを元にアブストに該当する文字列を抽出する

python src/extract_abstract.py

その他論文情報はダウンロードしたプログラムページをスクレイピングして取得する

python src/extract_paper_info.py
python merge_csv.py

About

言語処理学会予稿集から各論文の概要を抽出するプログラム

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published