Hackpads are smart collaborative documents. .

541 days ago
0 / 6
Unfiled. Edited by Yu-Yun Chang 541 days ago
  1. 目前進度: 
 
  • 文章內如出現連結則刪除
  • PTT 語料庫如何用 CWB 建立 index
  • $/usr/local/bin/cwb-encode -d  /var/local/LOPEN/corpus/CWB/data/pttnews -f /home/owen/pttnews.vrt -R  /usr/local/share/cwb/registry/pttnews -c utf8 -P pos -S  text:0+ptt_title+ptt_url+article_type+news_content+date+id+news_title+author+media+age+note+source+board+gender+news_url  -S s 
  • $/usr/local/bin/cwb-makeall -V pttnews
  • 如何在 CWN 內使用 PTT
  • $ cqp -e
  • > PTTNEWS
  • > info PTTNEWS; (查看 pttnews 的相關訊息)
  • > "豬哥亮"; (查詢"豬哥亮" concordance)
  •  
  • $ cwb-lexdecode -f -s -P lemma PTTNEWS | tail -20      (列出 frequency)
  • $ cwb-lexdecode -f -P lemma -p 'regular_expression' -c PTTNEWS  (用 regular expression 去做搜尋)
  • $ cwb-scan-corpus -C PTTNEWS lemma pos | sort -nr -k 1 | head -20  (列出前 20 名 (lemma, freq) 的 tuples)
 
 
573 days ago
1 / 10
Unfiled. Edited by Shu-Kai Hsieh 573 days ago
Shu-Kai H 漢字資訊與知識本體 ontology
 
shukai 漢字資料模組
  • github
 
Shu-Kai H
  1. 漢字的詞彙計量學
  1. 漢字的系統學
  1. 漢字的生物資訊學
shukai ***********************
 
Shu-Kai H 參考資源
 
shukai
  • 中日韓共同常用八百漢字
shukai
  • 該表根據中國《現代漢語常用字表》、日本《常用漢字表》、韓國《教育用基礎漢字表》三種資料編制,選定的808字中,屬於中國《現代漢語常用字表》中常用字的有801字,屬於次常用字的7字;屬於日本「教育漢字」的710字,其餘98字均見於日本《常用漢字表》;屬於韓國初中漢字的801字,屬於高中漢字的7字,符合「共同常用」的標準。
  • 字表包括總表和對照表:總表列808字的繁體漢字,按繁體漢字unicode編碼排序;對照表將中日韓三國各自通行字形進行分類對比。對照表中,包括無繁簡之分的漢字,大約有550多個,其中三國寫法相同的漢字佔大多數,有540個字左右;還包括有繁簡差異的文字,達200多個漢字。
 
todo:
 
Shu-Kai H
  • 亢世勇「漢字義類信息庫」與「雙音合成詞義構詞規則庫」
 
雙音節詞 Morpho-semantics
 
義素. 1   [pos]
義素. 2  [pos]
詞類
詞類組合方式:(NN、VN、AN、NgNg、AgN、AgNg、...)
四項規則:前向、後向、同類、無向
  •  
  • 同类规则是指构成双音合成词的两个字位属于同一个语义类,所构成的词的语义类与其基本相同,后向型规则是指构成双音合成词的两个字位属于不同的语义类,所构成的词的语义类与后一个字位的语义类相同。前向型规则是指构成双音合成词的两个字位属于不同的语义类,所构成的词语义类与前一个字位的语义类相同。最后无向型规则是指构成双音合成词的两个字位的语义类不同,所构成的词的语义类与前后两个字位的语义类都不相同(亢世勇,2004)。《双音合成词语义构词规则数据库》示例如下:
  •  
  •  
 
 
 
複合詞結構類型:聯合、偏正、動賓、主謂
轉義類型:隱喻、轉喻、隱轉喻
轉義作用對象 :前字、後字、整體、前字+整體、後字+整體等
轉義涉及的物性角色 :構成角色、功用角色、施成角色、形式角色、規約化屬性
轉義涉及的具體要素 :部分與整體、顏色、形狀、典型成員與整體範疇等
釋義 :以《現代漢語》(第六版)為參考,將複合詞釋義錄入語料庫之中。
備註 :方言字詞填「方」,書面語字詞填「書」,口語字詞填「口」,文言保留的字詞填「文」,兼類的字詞填兼類的標記。
 
  • 未發生轉義的
采取同样的思路进行构建语料库,但属性信息有所改变,具体如下:
 
[义素1词性] <文本> (2) 填写我们确立的相应的词性。填该字位的词性代码。比如:“语气词”的“的”填“Y”,“助词”的“的”填“U”,“相加、相乘”的“的”填“V”,“的确”的“的”填“Dg”,“目的”的“的”填“Ng”。
[义素2词性] <文本> (2)填写我们确立的相应的词性,同上
[词性] <文本> (2)填写我们确立的相应的词性,同上
[词类组合方式] <文本> (2)NN、VN、AN、NgNg、AgN、AgNg等
[四项规则]<文本>(4)前向、后向、同类、无向
[复合词结构类型] <文本>(4)联合、偏正、动宾、主谓
[前后字义与词义间的物性角色关系]   <文本>  (20)
[谓词隐含]<文本>  (255)
[文化因素]<文本>  (255)历史典故等
[缩略词]<文本>  (2) Y/N
[释义] <文本> (255) 以《现代汉语》(第六版)为参考,将复合词释义录入语料库之中。 
[备注] <文本> (2) 方言字词填“方”,书面语字词填“书”,口语字词填“口”,文言保留的字词填“文”,兼类的字词填兼类的标记。
 
 
[1]符淮青.词义和构成词的语素义的关系[J].辞书研究 
[2]杨振兰.论词义语素义[J].汉语学习 
[3]亢世勇、孙茂松. 基于数据库的汉语语义构词法初探[C].第三届
 中文词汇语义学学术会议论文集.2004
[4]亢世勇.面向信息处理的现代汉语语法研究[M].上海:上海辞书出
 版社,2004.
[4]符淮青.现代汉语词汇[M].北京:北京大学出版社,2004.
[5]张秀松、张爱玲.生成词库论简介[J].当代语言学.2009(3)
[6]袁毓林.基于生成词库论和论元结构理论的语义知识体系研究  
 [J].中文信息学报.2013(6)
[7]宋作艳.生成词库理论与汉语时间强迫现象研究[M].北京:北京大 
 学出版社,2015.
 [10]朱彦.复合词语义构词法研究[M].北京:北京大学出版社,2005.
[11]朱景松.现代汉语中义项平行的多义复合词[J].语文建设.1992(1)
 
shukai -------------------------------
 
  • 字頻 character frequency
  • 筆畫數 stroke number
 
 
 
 
 
 
 
 
 
***********************
Shu-Kai H 漢字的詞彙計量學
 
  •  Entropy, productivity, ontological depth,learnability,
  • Quantitative Theory of Writing System (Koehler)
 
  • Inventory size
  • Complexity
  • Frequency
  • Ornamentality
...
575 days ago
0 / 12
Unfiled. Edited by Shu-Kai Hsieh 575 days ago
Shu-Kai H
  • word embeddings
  • character embeddings
  •  
shukai Syllable identifier
 
 
  • CKIP (revised)tagset-based
 
 
 
[DeepLEX API]
 
 
 
 
LRs construction for less-resource languages
 
  • Knowledge-Powered Deep Learning for Word Embedding
 
python中文NLP工具集 https://github.com/masr/pynlpini
功能介绍 
  • 中文分词
  • 中文词性标注
  • 地名,人名和组织名的提取
  • 印象提取
  • 中文词语和短语的相关性
  • 关键词的提取
  • 网页版的NLP接口
 
 
 
汉语言处理包 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换 
 
介面服務  text analytics and digital forensics  
 
哈工大語言雲
復旦大學 FudanNLP
 
 
Stanford Chinese NLP
Spacy.io
 
Concrete Chinese NLP pipeline
Concrete is an attempt to map out various NLP data types in a Thrift schema for use in projects across Johns Hopkins University. This standardized schema allows researchers to use a common, underlying data model for all NLP tasks, and thus, facilitating integration between projects. in Chinese/PYTHON!
 
 
653 days ago
Unfiled. Edited by Weihang , Hsu Heng-Yu 653 days ago
  • posts <- searchFacebook(string = "upworthy", token, n = 500)
Hsu H
  • 好像看到這功能在 v2.0 之後被拿掉,大家小心
 
 
Rfacebook
  • library(Rfacebook)
  • NOtoken <- "wheeeeeeee"
  • NOID <- "163253543730991"  # UDN,慎用!
  •  
  • page.all <- getPage(NOID, NOtoken, n = 10000, since = "2015/10/01", until = "2015/11/30", feed = FALSE)
  • page.all[grepl("健保", page.all$message), 3]
  • # 收工
 
python FBscraper
 
Weihang
  • 詳見github
  • FBscraper.py 用requests爬,速度快
  • fb_comments_scraper.py 用selenium模擬chrome,較慢
  • 可以當作command line tool
 
  • def fb_comments(href):
  •    truncated....
 
 
665 days ago
Unfiled. Edited by Shu-Kai Hsieh 665 days ago
Shu-Kai H Artificial Wisdom
as the deepest level of LOPEN project 
 
 Goal
  • (for linguistics) 建立「智慧的語言資源」 (incl. corpus, lexicon and ontologies)。
  • 可以幫助古典語言(漢梵藏巴希)學習。
  • 可以對於語言接觸與漢語演化史研究有幫助。
  • 宗教經典中的知識整理與標記 (annotation),可以做成搜尋介面,回答類似:聖經中對於同性戀的態度;古蘭經的聖戰概念;佛典對於墮胎的看法,更進一步,佛典對於量子物理發現的對應建立。 
  • (for AI) Deep learning / Learning Deep :深度學習演算法達到高潮的同時,同時讓機器學習的「知識運算透明度」降低。新一代的機器需要有一群是在智慧資源下訓練出來的,學的是 Artificial wisdom 不只是 artificial intelligence。
 
第一步:先從佛經做起
 
現況:主要是從數位人文角度出發,探究漢語史的問題。近幾年加入了自然語言處理。
 
  • (數位人文)/法鼓學院  杜正民                     佛教數位工具平台
  • (自然語言處理)/香港城市大學 John Lee   Treebank for the Chinese Buddhist Canon
 
CBETA 是相當好的資源
 
欠缺:
  • 較好的平行語料庫 (parallel corpora) 介面與查詢。
  • alignment with 梵 | 藏 | 巴 | (多種)漢譯
  • 結合雙語(佛學)辭典,搜尋時自動標記出相應語詞
  • 僧侶法師詮解的知識整理與人工標記 (annotation)
  • 與現代科技發展進度的對應關係與標記
  • 現代人關於存在、心靈層面的討論與對於宗教經典的詮解。
 
 
 
需要的投入
  • 爬蟲與語言資源組 
  • 知識工程組 (知識整理與標記)
  • 機器學習組
 
 
 
 
Practice 2015.11.28
《維摩詰經》對勘材料 
crawling, cleaning, index (vertical format), create parallel corpus in COPENS
漢譯佛經梵漢對比分析語料庫
 
漢語佛經斷詞 
140.112.26.229/cbetalexicon/wordseg.py
 
 
Research
 
 
 
 
923 days ago
20 / 30
Unfiled. Edited by 心默 謝 923 days ago
心默 謝 # -*- coding:UTF-8 -*- 
from random import choice
import sys
 
def generateModel(text):
    model = {}
    for i in range(1, len(text)+1):
        if text[i] == " ": # "詞"的結尾
            for j in range(i-1,-1,-1):
                if text[j] == " ": # "詞"的開頭
                    fragment = text[j+1:i-1]
                    for k in range(i+1,):
                        if text[k] == " ":
                            next_word = text[i+1:k-1]
                        if fragment not in model:
                            model[fragment] = {}
                        if next_word not in model[fragment]:
                            model[fragment][next_word] = 1
                        else:
                            model[fragment][next_word] += 1
    return model
 
def getNextCharacter(model, fragment):
    words = []
    for word in model[fragment].keys():
        for times in range(0, model[fragment][word]):
            words.append(word)
    return choice(words)
 
def generateText(text, output_length):
    model = generateModel(text)
    end = 0
    for i in range(1,):
        if text == " ":
            end = i
            break
    currentFragment = text[0:end]
    output = ""
    for i in range(0,output_length+1):
        newCharacter = getNextCharacter(model, currentFragment)
        output += newCharacter
        start = 0
        for y in range(0,):
            if text == " ":
                start = y
                break
        currentFragment = currentFragment[start:] + newCharacter 
    print output.encode("UTF-8")
 
text = u" 这 世界 很 复杂 混淆 我 想 说 的话 我 不 懂 太 复杂 的 玩法 什么样 的 礼物 能够 永远 记得住 让 幸福 别 走 的 太仓促 云和天 蝶 和 花 从来不 需要 说话 断 不了 依然 日夜 牵挂 唱 情歌 说 情话 只想 让 你 听 清楚 我爱你 是 唯一 的 倾诉 写 一首 简单 的 歌 让 你 的 心情 快乐 爱情 就 像 一条 河 难免会 碰到 波折 这 一首 简单 的 歌 并 没有 什么 独特 好像 我 那么 的 平凡 却 又 深刻 我 一直 在 思考 让 你 了解 我 的 好 却 忘 了 常常 对 你 微笑 失去 的 忘记 的 我会 尽力 去 弥补 你 是 我 最 珍贵 的 财富 简单 的 歌 好像 我 那么 的 平凡 却 又 深刻 "
if __name__ == "__main__":
    generateText(text, int(sys.argv[1]))
 
 
 
Members (40)
Eric Chang Hsu Heng-Yu Yu-Yun Chang Weihang Hsin-pei Lin Hsiao Han Wu Meng-Ying Tsai Vivienne Chang 鍾豪 Crystal Su c3h3.tw@gmail.com Forsure Willy Mipanox Chou Summit Suen Peter wolf trueming@gmail.com kmarkoh@gmail.com meifish.kat@gmail.com peter.w@droidtown.co chihyuchen28@gmail.com

Create a New Collection

Cancel

Move XXX to XXX


XXX will be invited to the XXX on XXX.

Cancel

Contact Support



Please check out our How-to Guide and FAQ first to see if your question is already answered! :)

If you have a feature request, please add it to this pad. Thanks!


Log in