posts - 30, comments - 548, trackbacks - 8, articles - 0
  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理

2008年9月5日

     摘要: .net 框架号称永远不会发生内存泄漏,原因是其引入了内存回收的机制。但实际应用中,往往我们分配了对象但没有释放指向该对象的引用,导致对象永远无法释放。最常见的情况就是给对象添加了事件处理函数,但当不再使用该对象时却没有将该函数从对象的事件handler中减掉。另外如果分配了非托管内存,而没有手工释放,GC同样无能为力。所以当.net应用发生内存泄漏后如何跟踪应用的内存使用情况,定位到程序设计中的缺陷显得非常重要。本文将介绍通过.NET Memory Profiler来跟踪.net应用的内存泄漏,为定位.net应用内存问题提供一个解决途径。  阅读全文

posted @ 2008-09-05 15:15 eaglet 阅读(1482) | 评论 (10)编辑

2008年8月15日

     摘要: 今天在博问中看到一个动物叫三声的设计模式讨论,觉得很有意思,抽空实现了一下,觉得有必要写下来,和大家一起探讨探讨。  阅读全文

posted @ 2008-08-15 09:41 eaglet 阅读(2034) | 评论 (14)编辑

2008年7月9日

     摘要: 最近我的博客中有两位网友在使用 KTDictSeg 1.3 + lucene.net 2.0 + HighLight.net 2.0 是出现问题,高度怀疑是HighLight.net 2.0 版本的Bug,
今天腾出时间把几个组件的源码全部下下来,调试了一把,终于找到了这个Bug,下面把Bug的具体原因和修改后的源码发上来,供大家参考。另外哪位网友
知道如何向 lucene apache 组织 申报Bug,麻烦告知一声,以便我将这个Bug提交给该组织,让它的后续版本可以改进这个错误。  阅读全文

posted @ 2008-07-09 09:22 eaglet 阅读(1379) | 评论 (9)编辑

2008年7月7日

     摘要: HighLight.net 是Lucene.net 带的一个开源高亮显示的组件,这个组件 2.0 版本以上的源码在网上很难找到,而这个组件
感觉又存在一些bug,遇到问题想调试一下,又没有源码,实在让人抓狂。
今天用最土的方法,一个一个文件下载,总是把这个版本的源码给凑齐了,编译了一下,没有问题,发上来,方便大家调试,
大家如果发现这里面有什么bug,还望多多分享。  阅读全文

posted @ 2008-07-07 11:10 eaglet 阅读(1577) | 评论 (17)编辑

2008年7月3日

     摘要: 目前互联网上关于Lucene 及 Lucene.net 的文章很多,看了一些,感觉绝大部分还是偏向于应用,真正深入探讨其核心算法的文章不是太多,最近打算深入研究一下Lucene.net,把一些关键技术点的核心算法搞清楚。在开始做这个工作之前,先对目前互联网上可以利用的资源做个汇总,算是抛砖引玉吧,还望网友们多来补充,大家共同学习!
  阅读全文

posted @ 2008-07-03 21:29 eaglet 阅读(1878) | 评论 (12)编辑

2008年6月13日

     摘要: 今天对 .net 2.0 的 System.Runtime.Remoting.Channels.Ipc 做了一个相同的测试,测试结果是每秒传输速度为 33MB。 由于底层技术都是一样的,我估计其比我这个例子(180MB每秒)慢的主要原因应该是在序列化上。另外今天对我这个例子进行了一些补充,增加了对流方式的支持,并做了一个通过流方式传输文件的例子。


  阅读全文

posted @ 2008-06-13 13:43 eaglet 阅读(1726) | 评论 (9)编辑

2008年6月12日

     摘要: 用Remoting做进程间通讯,效率较低,于是做了一个采用管道技术进行进程间通讯的例子,在1.8G 双核计算机上每秒钟可以发送180M数据。  阅读全文

posted @ 2008-06-12 15:40 eaglet 阅读(1974) | 评论 (21)编辑

2008年5月29日

     摘要: 公布1.3版本的所有改动和下载位置
  阅读全文

posted @ 2008-05-29 08:27 eaglet 阅读(2889) | 评论 (89)编辑

2008年5月28日

     摘要: 中文姓名识别和未登录词识别是中文分词中的难点,具体为什么是难点,很多文章都有叙述,这里不再多讲。主要介绍一下
1.3版本是如何对中文姓名和未登录词进行识别的。  阅读全文

posted @ 2008-05-28 15:18 eaglet 阅读(1701) | 评论 (11)编辑

2008年5月27日

     摘要: KTDictSeg 分词组件1.3版本已经接近完成,只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出了很多很好的意见,也对我的分词算法给出了很多中肯的建议,在此向他们表示由衷的感谢。1.3版本的预分词算法还是沿用了之前版本的变相的最大匹配算法,这个算法有着本质的缺陷,未来的2.0版本可能会使用目前比较先进的算法替代这个过时的算法。 1.3版本在预分词中增加了对英文专业词汇的支持,比如C++,C#原来无法被分出来,现在只要在词库中有就可以分出来。在预分词中1.3版本还增加了对词频的判断。在预分词后,1.3版本对中文姓名匹配,未登录词识别等进行了一些改进。另外1.3版本还增加了对lucene.net的支持以及字典管理功能。之前很多朋友建议将ArrayList全部改成了List<>,非常好的建议,1.3版本将原来代码中所有的ArrayList全部改成了List<>.
从今天开始,我打算逐步公布新版本中的一些主要算法,供朋友们参考,由于我水平有限,很多算法难尽如人意,有不对的地方还望指正。 阅读全文

posted @ 2008-05-27 15:07 eaglet 阅读(1802) | 评论 (32)编辑