Skip to content

上市企业年报文本计算套件(FinRepProcessor),包括:定制化文本分词批处理工具,计算词频和TF-IDF值

Notifications You must be signed in to change notification settings

franksun319/FinRepProcessor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 

Repository files navigation

FinRepProcessor

上市企业年报文本计算套件(FinRepProcessor):

1. CustSplitTxts.exe

即定制化文本分词批处理工具。通过自定义主题词典,对数以千计的文本文件(UTF-8-BOM编码)实施过滤分词,导出结果。

在Windows命令行下使用:CustSplitTxt.exe -d [你的定制词典] [待处理文本文件目录]

输出各个待处理的文本文件的分词结果,并保存为文本文件。

2. CalcTxts.exe

计算CustSplitTxts导出的分词结果,输出各企业年报的词频和TF-IDF值、汇总词频及TF-IDF值。

在Windows命令行下使用:CalcTxts.exe [待处理分词文件所在目录]

输入由CustSplitTxts产生的分词文本所在目录。输出对所有分词文件的文本计算结果,包括对应于各分词文件的词频和TF-IDF计算结果,以及汇总的词频和TF-IDF值。

3. SplitTxts.exe

功能与CustSplitTxts相同,但输入的是文件列表,而不是目录路径。

在Windows命令行下使用:SplitTxts.exe [待分词文本文件列表]

4. CountWords.exe

简单计算文本文件的字数(中文:按字计算;英文:按字母计算,不计入空格)。

在Windows命令行下使用:CountWords.exe [待计算文本文件目录]

About

上市企业年报文本计算套件(FinRepProcessor),包括:定制化文本分词批处理工具,计算词频和TF-IDF值

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published