Hackpads are smart collaborative documents. .

shukai

1139 days ago
Unfiled. Edited by shukai 1139 days ago
shukai LOPEline: A Linguistic Open pipeline for Chinese NLP and eHumanities
 
 
  • [ Preprocessing ] 
 
Language model
 
Syllable identifier 
shukai
  • ask Peter to join
 
Word segmentator
  • unsupervised (Pierre. Kodex)
  • supervised (with dynamic BIGLEX)
 
Non-linguistic units (Emoticon) detector
 
 
POS tagger
  • CKIP tagset-based
 
Sense tagger 
  • CWN-backboned
  • fine-grained word sense tagger (based on CWN1)
  • coarse-grained SuperSense (OntoClass) tagger (based on CWN2) 
 
NER 
  • use open government data
 
 
 
  • [ Sentiment and Opinion ] 
  • Sentiment detector
  • Emotion classifier and Event analyzer
  • Stance/position miner (for controversial text mining )
 
 
  • [ e-Humanities ] 
 
Chinese Text/Lyrics Generator
  • ask Mark for joining in
 
LRs construction for less-resource languages
 
 
 
  • [Ref]
Stanford Chinese NLP
Spell Checking for Chinese 2012 LREC
 
Using LRs in Humanities research 2012 LREC Marta Villegas, Nuria Bel, Carlos Gonzalo, Amparo Moreno and Nuria Simelio 
 
 
 
999 days ago
Unfiled. Edited by 心默 謝 , shukai 999 days ago
 
 
from __future__ import print_function
# import sys
# sys.path.append("Library/Python/2.7/site-packages/jieba/")
import jieba
jieba.load_userdict("/Library/Python/2.7/site-packages/jieba/userdict.txt")
import jieba.posseg as pseg
 
test_sent = "如 人人 像 冷冰 谁 人 没法 醒 暗中 发出 恐怖 禁令 来 让 我 似火 能和量 有 很多 灵魂 着 了 魔 眼晴 也 开始 发光 来 吧 企吧 来 吧 嗌 吧 来 吧 爱 我 吧 唇 在 发亮 狂热 吻 吧 沿着 你 下巴 将 所有 光辉 欢呼 通通 抑压 甚么 哀伤 如若 你们 在座 别 静坐 齐齐 附和 用 尽力 地 唱歌 将 一切 都 炸开 将 破军 都 破开 了 将 不可 抵挡 今晚 黑 将 亚当 的 赤 祼 化做 火 随着 我 指挥 全人类 热 到底 沿着 我 指尖 坦克车 不可 脱轨 来 吧 企吧 来 吧 嗌 吧 来 吧 爱 我 吧 唇 在 发亮 狂热 吻 吧 沿着 你 下巴 将 所有 光辉 欢呼 通通 抑压 甚么 哀伤 如若 你们 在座 别 静坐 齐齐 附和 用 尽力 地 唱歌 将 一切 都 炸开 将 破军 都 破开 了 将 不可 抵挡 今晚 黑 将 夏娃 的 禁果 化做 烈火 张开 心扉 张开嘴巴 张开 双腿 张开 眼晴 张开 耳朵 将军抽 将 苦恼 都 踢开 将 破军 都 破开 了 将 不可 抵挡 今晚 黑 将 夏娃 的 禁果 化做 烈火 "
words = jieba.cut(test_sent)
for w in words:
    print(w)
 
 
 
 
 
1043 days ago
Unfiled. Edited by shukai 1043 days ago
shukai
  • 投稿 corpora
  • 擅用 ptt 特性:語言變異 / 社會網路 / 時空性別後設訊息
  • 各版主題的討論熱度與消長,流竄
  • 利用 id 建立 icorpus,可以得知個人習語 idiolect 和意識形態偏好 
 
》挑戰語料庫設計
》後設資料(時空性別地理)行為資料與表達語料結合,以 network 的形式表達。
》可以網路方式 query and display。
》可以 zoom in 看 micro-level (自動建立 icorpus), zoom out 看 macro-level (trend, tracking, global distribution etc),以及平常的 meso-level (扁平化的utterance 語料)
》ptt-social corpus- based 應用例子(之前corpus system 做不到的)
     》》micro-level: i-corpus with stylometric measures
     》》macro-level: sna and lexical aging / trends
 
1073 days ago
Unfiled. Edited by shukai 1073 days ago
shukai 願景 : part of Linguistic Linked Open Data Cloud             
At the moment, the LOD cloud covers a number of lexico-semantic resources, including the Open Data Thesaurus, WordNet, Cornetto (Dutch WordNet), DBpedia (machine-readable version of the Wikipedia), Freebase (an entity database), OpenCyc (database of real-world concepts), and YAGO (a semantic knowledge base).
 
lemon models: an RDF model that allows to specify lexica for ontologies and allows to publish these lexica on the Web.
                                                   
shukai
  • 有否可能利用 Levenstein distance 計算釋義,[並參照 萌典] 來取得較粗的詞義? 利用跨語言 alignment 時的做法與經驗?lemon: merging duplicate senses within wiktionary?
  • target : ACL 2015 (simon/taco/audrey?)
  •   
  •   
  •   
********************************
 
 
 
 
Visualization
 
 
 
1073 days ago
Unfiled. Edited by shukai 1073 days ago
     
 
 
 
 
shukai 2 月之前接近參考指標:
The English WordNet contains 117,000 synsets. It is freely available also in RDF form.
Propbank: 6000 verbs
 
 
 
 
 
 
 
 
 
 
 
1079 days ago
Unfiled. Edited by shukai 1079 days ago
shukai Chinese Word Map
 
CWM : 利用混搭與NLP技術協作的華語教學資源
 
shukai
特色:sketch grammar + dependency grammar + "customized grammar"
輔以詞彙與結構分佈統計。
  • simon 你之前實作的雛形系統放哪?
 

Contact Support



Please check out our How-to Guide and FAQ first to see if your question is already answered! :)

If you have a feature request, please add it to this pad. Thanks!


Log in